1. 전반적인 느낌
이번주차에는 sqoop으로 hdfs와 hive, mysql 사이에서 데이터를 import하고 export하는 것을 배웠다. hdfs와 DB 환경뿐만아니라 리눅스에서 로컬로도 계속 왔다갔다하는 것에 익숙해진 것 같다. 많이 쓰는 명령어들을 자연스럽게 외우게 되었다.
첫번째 단위프로젝트를 시작했다. 우리는 4명이서 팀을 이뤄서 <2022년 커피 물가 상승 요인 및 커피 소비 분석 프로젝트> 를 주제로 하였다. python, mysql, hadoop, hive, sqoop 까지 이제까지 배웠던 모든 기술을 활용하려고 노력했고, 최대한 결과를 내보려고 노력했던 것 같다.
https://github.com/pladata-encore/DE30-4-coffeePrice
GitHub - pladata-encore/DE30-4-coffeePrice
Contribute to pladata-encore/DE30-4-coffeePrice development by creating an account on GitHub.
github.com
2. 좋았던 점
나는 데이터 분석 프로젝트는 많이 진행해 보았었고, 데이터 엔지니어링 부분을 프로젝트에 활용해보고 싶었다. 이번 우리의 프로젝트는 간단한 데이터 분석이었지만, 그 과정을 리눅스 환경에서 Hadoop에 데이터를 적재하고, Hive에서 sql을 이용해 분석해보고 활용하는 과정이 의미가 있었다.
팀원들과 주제에 대해서 많이 얘기해보고 회의하는 과정이 재미있었고, 다들 아이디어를 많이 내주셨다.
3. 아쉬웠던 점
우리는 소비 분석을 진행하려고 했는데, 소비 관련 데이터를 충분히 찾지 못해서 원하는 결과를 도출하기 어려웠던 것 같다. 프로젝트 기간이 3일이었기도 하고, 충분한 데이터 탐색을 하지 못하고 진행하게 되어 좀 아쉬웠던 것 같다. 모든 우리 팀원들이 원하는 데이터를 찾지 못해 아쉬웠다고 했다 ..
4. 개선할 점
프로젝트가 진행되기 전에 미리미리 데이터 탐색과 주제 탐색을 진행하고 있으면 좋을 것 같다. 플레이데이터에서 하는 프로젝트가 아니더라도 개인적으로 인사이트를 얻고, 내가 어떤 프로젝트를 하고 싶은지 생각해볼 수 있는 시간이 될 것 같다.
5. 다음주 계획
이제 정보처리기사 실기 공부를 슬슬 시작해야겠다. 스프링부트 공부도 열심히 해서 사이드프로젝트를 하려고 한다!
'PLAYDATA' 카테고리의 다른 글
5월 playdata x groom 코딩테스트 문제풀이 (0) | 2024.05.25 |
---|---|
flask 서버 구조 (0) | 2024.05.19 |
[단위프로젝트 #1] 커피 소비 분석 - 일반음식점 데이터 분석 with Hadoop, Hive, Sqoop, MySQL (0) | 2024.03.15 |
[플레이데이터 데이터 엔지니어링 30기] 3월 2주차 회고 (0) | 2024.03.12 |
[PLAYDATA 데이터 엔지니어링] 3월 1주차 회고 (0) | 2024.03.05 |