본문 바로가기

전체 글

(113)
[Spark] PySpark scala> var sql_flight2015 = spark.sql(""" | select ORIGIN_COUNTRY_NAME, sum(count) from flight2015 group by ORIGIN_COUNTRY_NAME | order by sum(count) desc""") scala> flight2015.groupBy("ORIGIN_COUNTRY_NAME").sum("count") .withColumnRenamed("sum(count)","origin_total").sort(desc("origin_total")).show() Parquet 파일 읽기 C:\Users\Playdata>scp [파일이름].gz.parquet root@[linux ip주소]:/root/spark Case Class ..
[플레이데이터 데이터 엔지니어링 30기] 3월 3주차 회고 1. 전반적인 느낌 이번주차에는 sqoop으로 hdfs와 hive, mysql 사이에서 데이터를 import하고 export하는 것을 배웠다. hdfs와 DB 환경뿐만아니라 리눅스에서 로컬로도 계속 왔다갔다하는 것에 익숙해진 것 같다. 많이 쓰는 명령어들을 자연스럽게 외우게 되었다. 첫번째 단위프로젝트를 시작했다. 우리는 4명이서 팀을 이뤄서 를 주제로 하였다. python, mysql, hadoop, hive, sqoop 까지 이제까지 배웠던 모든 기술을 활용하려고 노력했고, 최대한 결과를 내보려고 노력했던 것 같다. https://github.com/pladata-encore/DE30-4-coffeePrice GitHub - pladata-encore/DE30-4-coffeePrice Contribu..
[Spark] Spark 다운로드 및 실습 https://www.apache.org/dyn/closer.lua/spark/spark-3.5.1/spark-3.5.1-bin-hadoop3.tgz
[Spring MVC] 자바 백엔드 웹 기술 역사 과거 기술 서블릿 - 1997 : HTML 생성이 어려움 JSP - 1999 : HTML 생성은 편리하지만, 비즈니스 로직까지 너무 많은 역할 담당 서블릿, JSP 조합 MVC 패턴 사용 : 모델, 뷰 컨트롤러로 역할을 나누어 개발 MVC 프레임워크 춘추 전국 시대 - 2000년 초 ~ 2010년 초 MVC 패턴 자동화, 복잡한 웹 기술을 편리하게 사용할 수 있는 다양한 기능 지원 스트럿츠, 웹워크, 스프링 MVC(과거 버전) 현재 사용 기술 애노테이션 기반의 스프링 MVC 등장 : @Controller 스프링 부트의 등장 스프링 부트는 서버를 내장 과거에는 서버에 WAS를 직접 설치하고, 소스는 War 파일을 만들어서 설치한 WAS에 배포 스프링 부트는 빌드 결과에 WAS 서버 포함 -> 빌드 배포 단..
[Spring MVC] HTML, HTTP API, CSR, SSR 정적 리소스 고정된 HTML 파일, CSS, JS, 이미지, 영상 등을 제공 HTML 페이지 동적으로 필요한 html 파일 생성해서 전달, 웹 브라우저는 html 해석 HTTP API html이 아니라 데이터를 전달, 주로 JSON 형식 사용 UI 클라이언트 접점 : 앱 클라이언트, 웹 브라우저/클라이언트 서버 to 서버 SSR - 서버 사이드 렌더링 서버에서 최종 HTML을 생성해서 클라이언트에 전달 주로 정적인 화면에 사용 JSP, 타임리프 CSR - 클라이언트 사이드 렌더링 HTML 결과를 자바스크립트를 사용해 웹 브라우저에서 동적으로 생성해서 적용 주로 동적인 화면에 사용, 웹 환경을 마치 앱 처럼 필요한 부분부분 변경할 수 있음 React, Vue.js CSR + SSR 동시에 지원하는 웹 프레..
[Spring MVC] WAS, 서블릿, 쓰레드 📌 웹 서버, 웹 애플리케이션 서버 모든 것이 HTTP : HTTP 메시지에 모든 것을 전송 웹 서버(Web Server) HTTP 기반으로 동작 정적 리소스 제공, 기타 부가기능 정적(파일) HTML, CSS, JS, 이미지, 영상 웹 애플리케이션 서버(WAS) HTTP 기반으로 동작 웹 서버 기능 포함 + 정적 리소스 제공 기능 프로그램 코드를 실행해서 애플리케이션 로직 수행 웹 서버, WAS 차이 웹 서버는 정적 리소스, WAS는 애플리케이션 로직 사실은 둘의 용어도 경계도 모호함 자바는 서블릿 컨테이너 기능을 제공하면 WAS WAS는 애플리케이션 코드를 실행하는데 더 특화 웹 시스템 구성 - WAS, DB WAS가 너무 많은 역할을 담당, 서버 과부하 우려 가장 비싼 애플리케이션 로직이 정적 리소..
[단위프로젝트 #1] 커피 소비 분석 - 일반음식점 데이터 분석 with Hadoop, Hive, Sqoop, MySQL local의 csv 파일 linux 환경에 옮기기 scp C:\Users\Playdata\Downloads\휴게음식점_인허가정보.csv root@192.168.111.100:/root/hadoop-3.3.6 colab에서 전처리 후 일반음식점_인허가정보, 휴게음식점_인허가정보 옮김 Hadoop에 csv 파일 저장 [root@localhost ~]# hadoop fs -mkdir -p /user/root/coffee/normal [root@localhost ~]# hadoop fs -mkdir -p /user/root/coffee/cafe [root@localhost ~]# hadoop fs -put 일반음식점_인허가정보.csv /user/root/coffee/normal [root@localhost ~]..
[플레이데이터 데이터 엔지니어링 30기] 3월 2주차 회고 1. 전반적인 느낌 이번주에는 Hadoop, Hive, Sqoop을 배웠다. 이제 진짜 데이터 엔지니어링이 이런 것이구나를 느낄 수 있는 기술들을 배우고 있는 것 같다. Linux 환경에서 대부분 이루어진다는 것이 신기했고, 리눅스 명령어를 잘 알아야 하고 이 환경에서 오류가 나도 두려워하지 말아야 겠다고 생각했다 !! 아직 이 기술들이 어떤 작업들에 쓰이는지 확 와닿진 않아서 빨리 프로젝트를 해보고 싶다. 2. 좋았던 점 Hadoop 설치부터 sqoop 활용까지 모든 내용을 블로그에 기록해놓았다. 다음에 리눅스를 초기화 시키고 내 블로그를 따라 해도 오류없이 잘 세팅할 수 있을 것 같다 ㅎㅎ 에러가 나타났을 때도 트러블슈팅을 열심히 기록해놓았다. 무엇보다 다같이 오류를 해결하려고 노력하고, 슬랙에 많은..