본문 바로가기

분류 전체보기

(132)
[Hive] Hive 설치하기 Hadoop 단점 극복을 위한 제안 MapReduce 는 프로그래밍 레벨(Java, Python, C++ 등)의 개발이 필요함 더 쉬운 분석 지원을 위해 SQL을 지원하는 쿼리 엔진 필요함 -> Hive, Spark Hive 하둡에 저장된 데이터를 쉽게 처리할 수 있는 데이터웨어하우스 패키지 Facebook에서 매일 같이 생산되는 대량의 데이터를 관리하고 학습하기 위해 개발 SQL과 유사한 Query Language 를 지원 SQL레벨의 ETL처리도구로 활용 가능 작성된 쿼리를 내부적으로 MapReduce 형태로 변환 가장 역사가 오래된 SQL on Hadoop 엔진 Hive 설치 apache hive 사이트 들어가서 url 복사 후 다운로드 tar xvfz 명령어로 압축파일 풀기 wget https:/..
[Hadoop] Hadoop Streaming 책 내용 파일로 받아오기 [root@localhost hadoop-3.3.6]# wget https://www.gutenberg.org/cache/epub/73116/pg73116.txt [root@localhost hadoop-3.3.6]# hadoop fs -mkdir -p /user/mapreduce [root@localhost hadoop-3.3.6]# hadoop fs -ls /user Found 5 items drwxr-xr-x - root supergroup 0 2024-03-05 16:37 /user/hadooptest drwxr-xr-x - root supergroup 0 2024-03-06 14:19 /user/hive drwxr-xr-x - root supergroup 0 2024-0..
[Python] 가장 가까운 같은 글자 풀이 방법 처음 나온 문자들과 인덱스값을 저장해놓고, 처음 나온 문자가 아닐때 가장 가까운 인덱스를 찾아야 겠다고 생각했다. s의 길이만큼 i를 증가시켜가며 word = s[i] 일 때, 1. word가 word_dic에 없을 때 - 처음 나온 문자일 때 word_dic에 {word, word의 인덱스}를 저장하고, answer에 -1을 저장한다. 2. word가 word_dic에 있을 때 word_dic에서 이미 앞에 나온 문자의 index를 가져온다 -> p_index 현재 word의 index를 가져와 word_dic에 해당 word의 index 값을 갱신하고, answer에 현재 인덱스 - 전에 나왔던 같은 글자의 인덱스 를 저장한다. 풀이 결과 def solution(s): answer = []..
[Hadoop] Python으로 MapReduce 구현하기 mapper.py import sys for line in sys.stdin: words = line.strip().split() for word in words: print(f"{word}\t{1}") mapper.py 리눅스 서버로 옮기기 [root@localhost hadoop-3.3.6]# chmod +x mapper.py [root@localhost hadoop-3.3.6]# echo "hello world python and hadoop"| ~/hadoop-3.3.6/mapper.py mapreduce.py #!/usr/bin/env python from operator import itemgetter # 다양한 방법으로 딕셔너리를 정렬 import sys # 필요한 변수 초기화 result ..
[Git] 추가한 git repository 삭제하기 내 프로젝트를 github에 올릴 목적으로 git repository를 추가했는데 안올리고 싶어져서 .. 알아본 저장소 삭제하는 방법 git bash에 들어가서 연결한 프로젝트 경로로 이동하고 rm -rf .git 이렇게 하면 저장소가 삭제된다 ~~ 참고로 나는 아무 커밋도 하지 않고 올리지 않은 상태에서 저렇게 삭제했다.
[Hadoop] Java로 MapReduce 구현하기 rocky linux 환경에 intellij 다운받고 실행 다운받은 intellij 파일 root로 옮기고 압축 푼 후 [root@localhost ~]# cd idea-IC-233.14475.28/bin [root@localhost bin]# ./idea.sh 실행 MapReduce를 위한 Java Project 설정 pom.xml에 dependencies 추가 - mvn repository에서 검색 org.apache.hadoop hadoop-mapreduce-client-core 3.3.6 org.apache.hadoop hadoop-common 3.3.6 org.apache.hadoop hadoop-hdfs 3.3.6 org.apache.hadoop hadoop-client 3.3.6 scp [j..
[Hadoop] hdfs 명령어 정리 및 실행 Hadoop 환경변수 설정 ~/.bashrc 수정 [root@localhost ~]# hadoop fs -mkdir /tmp mkdir: `/tmp': File exists 앞으로 이렇게 'hadoop'으로 접근 가능 기본적인 HDFS의 파일을 조작하기 위해서 hadoop fs 또는 hdfs dfs 커맨드를 사용한다. 우리는 hadoop 경로 설정해 주었으니 hadoop fs 로 사용 가능 -mkdir [root@localhost ~]# hadoop fs -mkdir -p /user/kimnayoung/hadoop_edu/test -p : 존재하지 않는 중간의 디렉토리를 자동으로 생성 -ls [root@localhost ~]# hadoop fs -ls -R /user -R : /user 하위의 모든 폴더..
[Python] 문자열 겹쳐쓰기 def solution(my_string, overwrite_string, s): over_len = len(overwrite_string) answer = my_string[:s] + overwrite_string + my_string[s+over_len:] return answer