PLAYDATA

[PLAYDATA 데이터 엔지니어링] 3월 1주차 회고

snoony 2024. 3. 5. 11:34

1. 전반적인 느낌(일주일 동안 한 일)

저번주 월~목을 휴가로 빠졌었다. 오래전부터 계획되어 있었기도 하고, 이번 방학을 이 여행만 보고 살았기 때문에 ,,,, 가서 열심히 놀고 flex하고 왔다 😎

이번주에는 플레이데이터에서 크롤링, numpy, pandas, hadoop을 공부했다.

크롤링

정적, 동적 사이트 크롤링과 api을 연동하여 크롤링을 진행한 부분을 복습했다. python에서 DB 연결하는 부분까지 진행하였다. 이전에 진행했던 프로젝트들에서 크롤링은 내파트가 아니어서 제대로 해본적은 없었는데, 이번기회에 크롤링 코드들을 자세히 보고 익힐 수 있었다.

Numpy, Pandas

numpy와 pandas 부분을 공부했다. 데이터분석하면서 numpy는 많이 사용하지 않았어서 numpy에서 배열을 쉽게 만들고 인덱스를 사용하여 슬라이싱 하는 부분이 인상깊었다. 파이썬 코테에서도 유용하게 써먹을 수 있을 것 같다.

pandas에서 groupby sum 을 만나니 너무 반가웠다 ㅋㅋㅋㅋ 진짜 데이터 전처리할때 주구장창 저것만 했던 생각이 난다..

가장 좋았던 점을 결측치 처리를 쉽게 할 수 있는 transform 함수를 배운 것이었다. 결측치 처리하는 방법을 제대로 배운적이 없어서 그동안 제대로 하는게 맞는건지~ 하면서 fillna를 이용했었다. 

Hadoop

드디어 하둡을 설치해보았다. 확실히 리눅스 기반에 설치하니까 환경설정 과정이 험난하다.

https://nymagicshop16.tistory.com/23

 

[Hadoop] Hadoop 다운로드 및 환경설정

Hadoop 다운로드 Apache Hadoop에 들어가서 binary로 들어간다 http의 링크 복사하고 리눅스에서 wget 명령어로 hadoop을 다운로드 받는다 tar.gz 를 압축 해제하는 명령어 tar -zxvf [압축 파일명] java 다운로드

nymagicshop16.tistory.com

수업 들으면서 다 정리해놓은 거니까 참고하세요!

하둡을 이용해 어떻게 대용량의 데이터를 적재하고 처리하는지 궁금하다 !

2. 좋았던 점(좋았거나 내가 잘했던 점)

한가지 자랑할 점은 이번주에 정보처리기사 필기를 합격했다 !! 가채점 상으로 합격했고 아직 발표는 안났다 ㅎㅎ 생각보다 되게 어려웠는데 열심히 잘 찍은 듯 (?) 하다

실기도 두달 남았으니 열심히 해서 한번에 합격해 보겠당

3. 아쉬웠던 점, 개선할 점

아직은 딱히 없다!


4. 다음주 계획

이제 6개월동안 공부 계획을 잡고 6개월 플랜을 세워 볼 예정이다 !

욕심부려서 하려고 계획한게 너무 많긴 하지만 ㅋㅋㅋㅋㅋ 최대한 할 수 있는 계획을 세워서 매일매일 지켜보고 나의 공부 일지를 기록해 나가겠다~!