본문 바로가기

Data Engineering/Hive

(4)
[Hive] 공공데이터 활용하기 https://www.data.go.kr/data/15061057/fileData.do 주택도시보증공사_전국 신규 민간아파트 분양가격 동향_20230630 주택분양보증을 받아 분양한 전체 민간 신규아파트 분양가격 동향으로 지역별, 면적별 분양가격 등의 자료를 제공합니다. 해당 데이터는 주택도시보증공사 홈페이지 및 통계청 KOSIS에서도 www.data.go.kr 한글 깨짐 인코딩 [root@localhost ~]# iconv -c -f euc-kr -t utf-8 주택도시보증공사.csv > sales.csv 첫 줄 없애기 pandas에서 전처리하는 방법 df.to_csv('sales.csv',encoding='utf-8',index='False',header='False') csv 파일 hadoop에 저..
[Hive] Hive 서비스 하이브(Hive) 서비스 CLI ( Command Line Interface) : 하이브 셸에 대한 명령행 인터페이스 Hiveserver : Thrift, JDBC, ODBC 연결자를 사용하는 응용 프로그램은 하이브와 통신하기 위하여 하이브 서버를 필요 Metastore : 하이브 실행 시 메타 데이터가 저장되는 장소 (MySQL 등) HWI : 하이브 웹 인터페이스 Hive 서비스 아키텍처 하이브(Hive) 메타스토어 설정 하이브 vs 데이터베이스 테이블 스키마 검증 시점 전통적인 데이터베이스 데이터를 적재하는 시점에 검증 만일 insert 중인 데이터가 스키마에 부합되지 않으면 데이터 거부 컬럼 단위로 색인이 가능하기 때문에 빠른 쿼리 성능을 제공 하이브 쿼리 실행 시 데이터 검증 데이터의 매우 빠른..
[Hive] Hive 실습 https://github.com/RobinDong/hive-examples/blob/master/employee/employees.csv.gz https://github.com/RobinDong/hive-examples/blob/master/employee/salaries.csv.gz 사이트에서 employees, salaries 내려받아 압축 풀기 employees.csv, salaries.csv 에서 따옴표 공백으로 대체하기 vi 에디터에서 :%s/'//g HDFS에 데이터 저장 1. 데이터를 저장한 디렉토리 생성 [root@localhost ~]# hadoop fs -mkdir -p /user/root/hadoop_edu/employees [root@localhost ~]# hadoop fs -m..
[Hive] Hive 설치하기 Hadoop 단점 극복을 위한 제안 MapReduce 는 프로그래밍 레벨(Java, Python, C++ 등)의 개발이 필요함 더 쉬운 분석 지원을 위해 SQL을 지원하는 쿼리 엔진 필요함 -> Hive, Spark Hive 하둡에 저장된 데이터를 쉽게 처리할 수 있는 데이터웨어하우스 패키지 Facebook에서 매일 같이 생산되는 대량의 데이터를 관리하고 학습하기 위해 개발 SQL과 유사한 Query Language 를 지원 SQL레벨의 ETL처리도구로 활용 가능 작성된 쿼리를 내부적으로 MapReduce 형태로 변환 가장 역사가 오래된 SQL on Hadoop 엔진 Hive 설치 apache hive 사이트 들어가서 url 복사 후 다운로드 tar xvfz 명령어로 압축파일 풀기 wget https:/..