본문 바로가기

Data Engineering/Hadoop

(7)
[Hadoop] cctv 공공데이터 MapReduce로 분석하기 https://www.data.go.kr/data/15013094/standard.do 전국CCTV표준데이터 국가에서 보유하고 있는 다양한 데이터를『공공데이터의 제공 및 이용 활성화에 관한 법률(제11956호)』에 따라 개방하여 국민들이 보다 쉽고 용이하게 공유•활용할 수 있도록 공공데이터(Datase www.data.go.kr 1. Java로 MapReduce 프로그램 작성 CctvMapper.java package com.bigdata.cctv; import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduce.Mapper; import java.io.IOException..
[Hadoop] MapReduce 실행 중 Error: org.apache.hadoop.hdfs.BlockMissingException MapReduce을 실행하려고 했으나 BlockMissingException.. 노드들이 죽었다 ㅜㅜ 해결 방법 : namenode format 밑의 명령어들을 차례로 실행해보자 sbin/stop-all.sh rm -rf /tmp/hadoop-* $HADOOP_HOME/bin/hadoop namenode -format sbin/start-all.sh jps를 실행해보고 datanode까지 올라왔는지 확인해보기! 포맷이 잘 안되서 VMware를 껐다 키니까 다시 정상작동 하였다. 안되면 껐다가 켜보는 것도 방법.. namenode를 포맷했으니 hadoop fs -ls로 확인해보면 모두 삭제되어있다. hadoop fs -mkdir -p /user/root/input hadoop fs -put LICENSE...
[Hadoop] Hadoop Streaming 책 내용 파일로 받아오기 [root@localhost hadoop-3.3.6]# wget https://www.gutenberg.org/cache/epub/73116/pg73116.txt [root@localhost hadoop-3.3.6]# hadoop fs -mkdir -p /user/mapreduce [root@localhost hadoop-3.3.6]# hadoop fs -ls /user Found 5 items drwxr-xr-x - root supergroup 0 2024-03-05 16:37 /user/hadooptest drwxr-xr-x - root supergroup 0 2024-03-06 14:19 /user/hive drwxr-xr-x - root supergroup 0 2024-0..
[Hadoop] Python으로 MapReduce 구현하기 mapper.py import sys for line in sys.stdin: words = line.strip().split() for word in words: print(f"{word}\t{1}") mapper.py 리눅스 서버로 옮기기 [root@localhost hadoop-3.3.6]# chmod +x mapper.py [root@localhost hadoop-3.3.6]# echo "hello world python and hadoop"| ~/hadoop-3.3.6/mapper.py mapreduce.py #!/usr/bin/env python from operator import itemgetter # 다양한 방법으로 딕셔너리를 정렬 import sys # 필요한 변수 초기화 result ..
[Hadoop] Java로 MapReduce 구현하기 rocky linux 환경에 intellij 다운받고 실행 다운받은 intellij 파일 root로 옮기고 압축 푼 후 [root@localhost ~]# cd idea-IC-233.14475.28/bin [root@localhost bin]# ./idea.sh 실행 MapReduce를 위한 Java Project 설정 pom.xml에 dependencies 추가 - mvn repository에서 검색 org.apache.hadoop hadoop-mapreduce-client-core 3.3.6 org.apache.hadoop hadoop-common 3.3.6 org.apache.hadoop hadoop-hdfs 3.3.6 org.apache.hadoop hadoop-client 3.3.6 scp [j..
[Hadoop] hdfs 명령어 정리 및 실행 Hadoop 환경변수 설정 ~/.bashrc 수정 [root@localhost ~]# hadoop fs -mkdir /tmp mkdir: `/tmp': File exists 앞으로 이렇게 'hadoop'으로 접근 가능 기본적인 HDFS의 파일을 조작하기 위해서 hadoop fs 또는 hdfs dfs 커맨드를 사용한다. 우리는 hadoop 경로 설정해 주었으니 hadoop fs 로 사용 가능 -mkdir [root@localhost ~]# hadoop fs -mkdir -p /user/kimnayoung/hadoop_edu/test -p : 존재하지 않는 중간의 디렉토리를 자동으로 생성 -ls [root@localhost ~]# hadoop fs -ls -R /user -R : /user 하위의 모든 폴더..
[Hadoop] Hadoop 다운로드 및 환경설정 Hadoop 다운로드 Apache Hadoop에 들어가서 binary로 들어간다 http의 링크 복사하고 리눅스에서 wget 명령어로 hadoop을 다운로드 받는다 tar.gz 를 압축 해제하는 명령어 tar -zxvf [압축 파일명] java 다운로드 hadoop 3.3.x 버전은 java 8이랑 11 버전만 가능! java 11 버전을 다운로드 받는다. jdk-11.0.21이 root에 오게 파일 위치 변경해야함 JAVA 환경변수 설정 /root/.bashrc 파일 수정 export JAVA_HOME=/root/jdk-11.0.21 export PATH=$JAVA_HOME/bin:$PATH 수정된 파일 적용하려면 source /root/.bashrc 수정 완료! Hadoop 환경변수 설정 [root@..