본문 바로가기

전체 글

(113)
[Python] 공원 산책 https://school.programmers.co.kr/learn/courses/30/lessons/172928 프로그래머스 코드 중심의 개발자 채용. 스택 기반의 포지션 매칭. 프로그래머스의 개발자 맞춤형 프로필을 등록하고, 나와 기술 궁합이 잘 맞는 기업들을 매칭 받으세요. programmers.co.kr def solution(park, routes): answer = [] # 시작 좌표를 담기 위한 변수들 init answer_i = 0 answer_j = 0 for i in range(len(park)): for j in range(len(park[i])): # 시작 좌표 얻기 if park[i][j] == 'S': answer_i = i answer_j = j # 각 route에 대해서 f..
[Sqoop] Sqoop 다운로드 및 실행 sqoop wget으로 다운로드 후 압축 풀기 이름 바꾸기 [root@localhost ~]# mv sqoop-1.4.7.bin__hadoop-2.6.0/ sqoop 환경변수 설정 ~/.bashrc 수정 # sqoop path export SQOOP_HOME=/root/sqoop export SQOOP_CONF_DIR=/root/sqoop/conf export PATH=$SQOOP_HOME/bin:$PATH sqoop-env.sh 파일 생성 [root@localhost ~]# cd sqoop/conf [root@localhost conf]# cp sqoop-env-template.sh sqoop-env.sh sqoop-env.sh #Set path to where bin/hadoop is availabl..
[Hive] 공공데이터 활용하기 https://www.data.go.kr/data/15061057/fileData.do 주택도시보증공사_전국 신규 민간아파트 분양가격 동향_20230630 주택분양보증을 받아 분양한 전체 민간 신규아파트 분양가격 동향으로 지역별, 면적별 분양가격 등의 자료를 제공합니다. 해당 데이터는 주택도시보증공사 홈페이지 및 통계청 KOSIS에서도 www.data.go.kr 한글 깨짐 인코딩 [root@localhost ~]# iconv -c -f euc-kr -t utf-8 주택도시보증공사.csv > sales.csv 첫 줄 없애기 pandas에서 전처리하는 방법 df.to_csv('sales.csv',encoding='utf-8',index='False',header='False') csv 파일 hadoop에 저..
[Hive] Hive 서비스 하이브(Hive) 서비스 CLI ( Command Line Interface) : 하이브 셸에 대한 명령행 인터페이스 Hiveserver : Thrift, JDBC, ODBC 연결자를 사용하는 응용 프로그램은 하이브와 통신하기 위하여 하이브 서버를 필요 Metastore : 하이브 실행 시 메타 데이터가 저장되는 장소 (MySQL 등) HWI : 하이브 웹 인터페이스 Hive 서비스 아키텍처 하이브(Hive) 메타스토어 설정 하이브 vs 데이터베이스 테이블 스키마 검증 시점 전통적인 데이터베이스 데이터를 적재하는 시점에 검증 만일 insert 중인 데이터가 스키마에 부합되지 않으면 데이터 거부 컬럼 단위로 색인이 가능하기 때문에 빠른 쿼리 성능을 제공 하이브 쿼리 실행 시 데이터 검증 데이터의 매우 빠른..
[Hive] Hive 실습 https://github.com/RobinDong/hive-examples/blob/master/employee/employees.csv.gz https://github.com/RobinDong/hive-examples/blob/master/employee/salaries.csv.gz 사이트에서 employees, salaries 내려받아 압축 풀기 employees.csv, salaries.csv 에서 따옴표 공백으로 대체하기 vi 에디터에서 :%s/'//g HDFS에 데이터 저장 1. 데이터를 저장한 디렉토리 생성 [root@localhost ~]# hadoop fs -mkdir -p /user/root/hadoop_edu/employees [root@localhost ~]# hadoop fs -m..
[Hive] Hive 설치하기 Hadoop 단점 극복을 위한 제안 MapReduce 는 프로그래밍 레벨(Java, Python, C++ 등)의 개발이 필요함 더 쉬운 분석 지원을 위해 SQL을 지원하는 쿼리 엔진 필요함 -> Hive, Spark Hive 하둡에 저장된 데이터를 쉽게 처리할 수 있는 데이터웨어하우스 패키지 Facebook에서 매일 같이 생산되는 대량의 데이터를 관리하고 학습하기 위해 개발 SQL과 유사한 Query Language 를 지원 SQL레벨의 ETL처리도구로 활용 가능 작성된 쿼리를 내부적으로 MapReduce 형태로 변환 가장 역사가 오래된 SQL on Hadoop 엔진 Hive 설치 apache hive 사이트 들어가서 url 복사 후 다운로드 tar xvfz 명령어로 압축파일 풀기 wget https:/..
[Hadoop] Hadoop Streaming 책 내용 파일로 받아오기 [root@localhost hadoop-3.3.6]# wget https://www.gutenberg.org/cache/epub/73116/pg73116.txt [root@localhost hadoop-3.3.6]# hadoop fs -mkdir -p /user/mapreduce [root@localhost hadoop-3.3.6]# hadoop fs -ls /user Found 5 items drwxr-xr-x - root supergroup 0 2024-03-05 16:37 /user/hadooptest drwxr-xr-x - root supergroup 0 2024-03-06 14:19 /user/hive drwxr-xr-x - root supergroup 0 2024-0..
[Python] 가장 가까운 같은 글자 풀이 방법 처음 나온 문자들과 인덱스값을 저장해놓고, 처음 나온 문자가 아닐때 가장 가까운 인덱스를 찾아야 겠다고 생각했다. s의 길이만큼 i를 증가시켜가며 word = s[i] 일 때, 1. word가 word_dic에 없을 때 - 처음 나온 문자일 때 word_dic에 {word, word의 인덱스}를 저장하고, answer에 -1을 저장한다. 2. word가 word_dic에 있을 때 word_dic에서 이미 앞에 나온 문자의 index를 가져온다 -> p_index 현재 word의 index를 가져와 word_dic에 해당 word의 index 값을 갱신하고, answer에 현재 인덱스 - 전에 나왔던 같은 글자의 인덱스 를 저장한다. 풀이 결과 def solution(s): answer = []..