본문 바로가기

분류 전체보기

(135)
[Spark] 기본 연산 - 2 filepath = 'bydata/by-day/2010-12-01.csv' df = spark.read.format("csv").option("header","true").option("inferSchema","true").load(filepath) df.createOrReplaceTempView("dfTable") from pyspark.sql.functions import lit df.select(lit(5), lit('five'), lit(2.0)).show(2) 예제1 InvoiceNo != 536365 인 컬럼 InvoiceNo, Description 5개만 출력하기 from pyspark.sql.functions import col df.where(col("InvoiceNo") != 53636..
[Spark] 기본 연산 df = spark.read.format("json").load("2015-summary.json") from pyspark.sql.functions import lit, expr df.select(expr("*"),lit(1).alias("One")).show(2) df.withColumn("numberOne", lit(1)).show(2) df.withColumn("withinCountry", expr("DEST_COUNTRY_NAME == ORIGIN_COUNTRY_NAME")).show(2) 컬럼명 변경 # 컬럼명 변경 df.withColumnRenamed("DEST_COUNTRY_NAME","dest").show(2) # 컬럼명 변경 후 컬럼들 보여주기 df.withColumnRenamed("D..
[Spring MVC] HTTP 요청 데이터 HTTP 요청 데이터 주로 3가지 방식 사용 GET - 쿼리 파라미터 /url**?username=hello&age=20** 메시지 바디 없이, URL의 쿼리 파라미터에 데이터를 포함해서 전달 예) 검색, 필터, 페이징등에서 많이 사용하는 방식 POST - HTML Form content-type: application/x-www-form-urlencoded 메시지 바디에 쿼리 파리미터 형식으로 전달 username=hello&age=20 예) 회원 가입, 상품 주문, HTML Form 사용 HTTP message body에 데이터를 직접 담아서 요청 HTTP API에서 주로 사용, JSON, XML, TEXT 데이터 형식은 주로 JSON 사용 POST, PUT, PATCH GET 쿼리 파라미터 전달 데..
[Spring MVC] HelloServlet, HttpServletRequest @ServletComponentScan // 서블릿 자동 등록 @SpringBootApplication public class ServletApplication { public static void main(String[] args) { SpringApplication.run(ServletApplication.class, args); } } HelloServlet.java package hello.servlet.basic; import jakarta.servlet.ServletException; import jakarta.servlet.ServletRequest; import jakarta.servlet.ServletResponse; import jakarta.servlet.annotation.WebSe..
[Spark] Jupyterlab, Spark를 이용한 데이터 전처리 ~/.bashrc export PYSPARK_PYTHON=python3 export PYSPARK_DRIVER_PYTHON=jupyter export PYSPARK_DRIVER_PYTHON_OPTS='lab --allow-root' pip3 install jupyterlab 설치 후 pyspark 실행하면 jupyterlab 열림 spark 실행해보기 Spark001.ipynb staticDataFrame = spark.read.format("csv")\ .option("header", "true")\ .option("inferSchema", "true")\ .load("./bydata/by-day/*.csv") # 임시테이블 생성 staticDataFrame.createOrReplaceTempView(..
[Spark] Zeppelin 설치하기 [root@localhost ~]# wget https://dlcdn.apache.org/zeppelin/zeppelin-0.11.0/zeppelin-0.11.0-bin-all.tgz [root@localhost ~]# tar zxvf zeppelin-0.11.0-bin-all.tgz [root@localhost ~]# mv zeppelin-0.11.0-bin-all/ apache-zeppelin [root@localhost ~]# cd apache-zeppelin/conf [root@localhost conf]# cp zeppelin-env.sh.template zeppelin-env.sh [root@localhost conf]# cp zeppelin-site.xml.template zeppelin-s..
[Spark] PySpark scala> var sql_flight2015 = spark.sql(""" | select ORIGIN_COUNTRY_NAME, sum(count) from flight2015 group by ORIGIN_COUNTRY_NAME | order by sum(count) desc""") scala> flight2015.groupBy("ORIGIN_COUNTRY_NAME").sum("count") .withColumnRenamed("sum(count)","origin_total").sort(desc("origin_total")).show() Parquet 파일 읽기 C:\Users\Playdata>scp [파일이름].gz.parquet root@[linux ip주소]:/root/spark Case Class ..
[플레이데이터 데이터 엔지니어링 30기] 3월 3주차 회고 1. 전반적인 느낌 이번주차에는 sqoop으로 hdfs와 hive, mysql 사이에서 데이터를 import하고 export하는 것을 배웠다. hdfs와 DB 환경뿐만아니라 리눅스에서 로컬로도 계속 왔다갔다하는 것에 익숙해진 것 같다. 많이 쓰는 명령어들을 자연스럽게 외우게 되었다. 첫번째 단위프로젝트를 시작했다. 우리는 4명이서 팀을 이뤄서 를 주제로 하였다. python, mysql, hadoop, hive, sqoop 까지 이제까지 배웠던 모든 기술을 활용하려고 노력했고, 최대한 결과를 내보려고 노력했던 것 같다. https://github.com/pladata-encore/DE30-4-coffeePrice GitHub - pladata-encore/DE30-4-coffeePrice Contribu..