PLAYDATA

[플레이데이터 데이터 엔지니어링 30기] 3월 3주차 회고

snoony 2024. 3. 19. 19:41

1. 전반적인 느낌

이번주차에는 sqoop으로 hdfs와 hive, mysql 사이에서 데이터를 import하고 export하는 것을 배웠다. hdfs와 DB 환경뿐만아니라 리눅스에서 로컬로도 계속 왔다갔다하는 것에 익숙해진 것 같다. 많이 쓰는 명령어들을 자연스럽게 외우게 되었다.

첫번째 단위프로젝트를 시작했다. 우리는 4명이서 팀을 이뤄서 <2022년 커피 물가 상승 요인 및 커피 소비 분석 프로젝트> 를 주제로 하였다. python, mysql, hadoop, hive, sqoop 까지 이제까지 배웠던 모든 기술을 활용하려고 노력했고, 최대한 결과를 내보려고 노력했던 것 같다.

https://github.com/pladata-encore/DE30-4-coffeePrice

 

GitHub - pladata-encore/DE30-4-coffeePrice

Contribute to pladata-encore/DE30-4-coffeePrice development by creating an account on GitHub.

github.com

2. 좋았던 점

나는 데이터 분석 프로젝트는 많이 진행해 보았었고, 데이터 엔지니어링 부분을 프로젝트에 활용해보고 싶었다. 이번 우리의 프로젝트는 간단한 데이터 분석이었지만, 그 과정을 리눅스 환경에서 Hadoop에 데이터를 적재하고, Hive에서 sql을 이용해 분석해보고 활용하는 과정이 의미가 있었다. 

팀원들과 주제에 대해서 많이 얘기해보고 회의하는 과정이 재미있었고, 다들 아이디어를 많이 내주셨다. 

3. 아쉬웠던 점

우리는 소비 분석을 진행하려고 했는데, 소비 관련 데이터를 충분히 찾지 못해서 원하는 결과를 도출하기 어려웠던 것 같다. 프로젝트 기간이 3일이었기도 하고, 충분한 데이터 탐색을 하지 못하고 진행하게 되어 좀 아쉬웠던 것 같다. 모든 우리 팀원들이 원하는 데이터를 찾지 못해 아쉬웠다고 했다 ..

4. 개선할 점

프로젝트가 진행되기 전에 미리미리 데이터 탐색과 주제 탐색을 진행하고 있으면 좋을 것 같다. 플레이데이터에서 하는 프로젝트가 아니더라도 개인적으로 인사이트를 얻고, 내가 어떤 프로젝트를 하고 싶은지 생각해볼 수 있는 시간이 될 것 같다.

5. 다음주 계획

이제 정보처리기사 실기 공부를 슬슬 시작해야겠다. 스프링부트 공부도 열심히 해서 사이드프로젝트를 하려고 한다!