[Spark] csv 파일 로드, 전처리, parquet 저장

csv 파일 읽기

from pyspark.sql import SQLContext
from pyspark.sql.functions import *

# read csv file
spark_df = spark.read.format('csv').option('header','true').option('inferSchema','true').load('doc_log.csv')
spark_df.show()

임시테이블로 등록

spark_df.createOrReplaceTempView("spark_df")

검색

ismydoc == true

from pyspark.sql.functions import col
spark_df.where(col('ismydoc') == 'true').show()

df1 = spark.sql("select * from spark_df where ismydoc = true")
df1.show(5, False)

sessionid, ext 컬럼 중에 ext = PDF 또는 ext = DOC인 데이터들 중에서 중복을 제거하고 캐쉬

# 내 풀이
df2 = spark.sql("select distinct * from spark_df where ext in ('PDF','DOC')")
df2.show(5, False)

# 풀이
df2 = spark.sql("select * from spark_df")
df2.select('sessionid','ext').filter("ext=='PDF' or ext == 'DOC'").dropDuplicates().cache()
df2.count()

sessionid 별로 datetime의 최솟값 구하기

df2_min_date = df2.groupBy(['sessionid']).agg(min('datetime').alias('min_date'))
df2_min_date.show()

# df2_pdf 를 마스터로 해 df2_min_date 병합
# df2_pdf 목록은 전부 나오게 하고 매칭 안되는 데이터는 na
df2_join = df2_pdf.join(df2_min_date, 'sessionid','left')
df2_join.show()

결측치 조사

df2_join.select(sum(col('sessionid').isNull().cast('int'))).show()

sessionid가 null인지 여부를 검사 -> true/false -> int로 변환 -> sum -> 결측치 개수 확인

모든 열에 대해서 결측치 여부 조사

for c in df2_join.columns:
    df2_join.select(sum(col(c).isNull().cast('int')).alias(c)).show()

이렇게 돌아가면서 출력되는 것을 확인할 수 있음

저작자표시 비영리 변경금지 (새창열림)

'Data Engineering > Spark' 카테고리의 다른 글

[Spark] 타이타닉 데이터로 생존 예측하기 - Pipeline, LR (0)	2024.03.26
[Spark] Pipeline, Logistic Regression (0)	2024.03.26
[Spark] map, reduce 활용 (0)	2024.03.25
[Spark] csv 파일 로드하고 RDD로 처리하기 (0)	2024.03.25
[Spark] Spark RDD - parallelize, collect, map, flatMap, filter, sortBy, mapPartitions, glom (0)	2024.03.25

nymagicshop

[Spark] csv 파일 로드, 전처리, parquet 저장

csv 파일 읽기

임시테이블로 등록

검색

ismydoc == true

sessionid, ext 컬럼 중에 ext = PDF 또는 ext = DOC인 데이터들 중에서 중복을 제거하고 캐쉬

sessionid 별로 datetime의 최솟값 구하기

결측치 조사

모든 열에 대해서 결측치 여부 조사

'Data Engineering > Spark' 카테고리의 다른 글

티스토리툴바

[Spark] csv 파일 로드, 전처리, parquet 저장

csv 파일 읽기

임시테이블로 등록

검색

ismydoc == true

sessionid, ext 컬럼 중에 ext = PDF 또는 ext = DOC인 데이터들 중에서 중복을 제거하고 캐쉬

sessionid 별로 datetime의 최솟값 구하기

결측치 조사

모든 열에 대해서 결측치 여부 조사

'Data Engineering > Spark' 카테고리의 다른 글

'Data Engineering/Spark' Related Articles

티스토리툴바