목록Data Engineering/Airflow (6)
rose_brown

프로그래머스 - "실리콘밸리에서 날라온 데이터 엔지니어링 스타터 키트 with Python"을 듣고 작성한 내용입니다. 1. 4주차 숙제 1. 세계 나라 정보 API 사용 DAG 작성 1. 메모 airflow는 dags 폴더를 주기적으로 스캔함 dag_dir_list_interval = 300 → 300초마다 새 파일을 검색 이때 DAG 모듈이 들어있는 모든 파일들의 메인 함수가 실행이 됨 본의 아니게 개발 중인 테스트 코드도 실행될 수 있음 → .airflowignore 파일을 dags 폴더에 두기 2. Airflow와 TimeZone 1. airflow.cfg에는 두 종류의 타임존 관련 키가 존재 default_timezone default_ui_timezone 2. start_date, end_da..

프로그래머스 - "실리콘밸리에서 날라온 데이터 엔지니어링 스타터 키트 with Python"을 듣고 작성한 내용입니다. 1. 트랜잭션(Transaction) 1. 트랜잭션이란? Atomic하게 실행되어야 하는 SQL들을 묶어서 하나의 작업처럼 처리하는 방법 BEGIN과 END 혹은 BEGIN과 COMMIT 사이에 해당 SQL들을 사용 ROLLBACK 2. 트랜잭션 구현방법 autocommit : 레코드 변경을 바로 반영하는지 autocommit=True 기본적으로 모든 SQL statement가 바로 커밋(COMMIT)됨 이를 바꾸고 싶다면 BEGIN;END; 혹은 BEGIN;COMMIT을 사용 (혹은 ROLLBACK) autocommit=False 기본적으로 모든 SQL statement가 커밋(COM..

프로그래머스 - "실리콘밸리에서 날라온 데이터 엔지니어링 스타터 키트 with Python"을 듣고 작성한 내용입니다. 1. Docker Desktop설치 Download Docker Desktop | Docker 2. Docker Desktop 설정 Resources → WSL integration 에서 ubuntu를 적용 ubuntu를 이미 다운로드한 상황이라서 docker에 적용만함 3. Airflow 설치 1. git clone git clone 강사님이 작성한 코드를 주로 사용하기 때문에 git clone사용하여 파일 다운로드 2. docker 2.5.1 이미지 관련 yaml 설치 cd data-engineering-batch13 curl -LfO '' docker desktop에 들어가보면 d..

프로그래머스 - "실리콘밸리에서 날라온 데이터 엔지니어링 스타터 키트 with Python"을 듣고 작성한 내용입니다. 1. 2주차 숙제 1. 사용자별로 처음/마지막 채널 알아내기(1) - ROW_NUMBER()사용 1. 메모 WITH 이름 AS WITH [ 별명1 ] [ (컬럼명1 [,컬럼명2]) ] AS ( SUB QUERY )[, 별명2 AS ... ] MAIN QUERY ****WITH Subquery를 빌딩블록으로 사용하여 SELF JOIN을 하고 있음 Query의 전체적인 가독성을 높이고, 재사용할 수 있음 모든 DML에서 사용 가능 문제는 사용자별 → 즉, uerid별로 해야하는 데 문제를 잘못 읽어서 userid = 251 만 추출함 2. 사용자별로 처음/마지막 채널 알아내기(2) - FI..

프로그래머스 - "실리콘밸리에서 날라온 데이터 엔지니어링 스타터 키트 with Python"을 듣고 작성한 내용입니다. 1. 1주차 과제 - SQL로 Monthly Active User 세보기 1. 메모 1. TO_CHAR() TO_CHAR (A.ts, ‘YYYY-MM’) LEFT(A.ts, 7) DATE_TRUNC(‘month’, A.ts) SUBSTRING(A.ts, 1, 7) 2. DISTINCT Unique한 사용자 수를 Count 해야함 DISTINCT 사용 X → 월별 모든 사용자 COUNT ex) 2019-11에 user_id 1,1,2,3,3이 있을 경우 COUNT 값이 5 DISTINCT 사용o → 월별 사용자 COUNT ex) 2019-11에 user_id 1,1,2,3,3이 있을 경우..

프로그래머스 - "실리콘밸리에서 날라온 데이터 엔지니어링 스타터 키트 with Python"을 듣고 작성한 내용입니다. 1. Data Flow 서비스로부터 생성된 내부 및 외부 데이터를 Production DB에 저장 Production DB에 있는 데이터를 ETL을 통해 Data Warehouse에 적재 Data Warehouse에 적재된 데이터에서 지표를 설정하고 대시보드 형태로 시각화 Data Warehouse에 적재된 데이터를 통해 서비스에 필요한 모델을 생성 2. 데이터 조직 1. Data Engineer Data Warehouse(VS Data Lake) 관리 Data Pipelines(ETL) 작업 및 관리 A/B Test 수행 및 관련 Piepline 구현 다양한 Data Tools 관리 ..