데이터 분석에 관심은 많지만 어떤 것부터 해야 할지 모르는 분들에게 데이터테크랩의 스터디 케이스를 소개합니다.
목차
1. 데이터 과학자(Data Scientist)?
2. 데이터 플랫폼 @ 데이터테크랩
3. 플랫폼 데모
대상
데이터 분석 및 분석 환경 구축에 관심 있는 분
5. 5 / 26
귀한 Data Scientist
https://hbr.org/2012/10/data-scientist-the-sexiest-job-of-the-21st-century
요즘 핫한 “AI, ML, BigData”를 하려면
“Data Scientist”가 필요하다고 합니다.
그래서인지 전 세계적으로 부족한 직군이라고 합니다.
https://me.me/i/i-know-machine-learning-aaf5f65faefe4227a59067a577d40d43
6. 6 / 26
왜 귀할까?
수학/통계에 능숙하고 개발을 완전 잘하면서 비즈니스를 잘 이해하고 있는 사람
https://blog.udacity.com/2014/11/data-science-job-skills.html
7. 7 / 26
Data Scientist의 업무
수집 검수/전처리/분배
품질을 검사하고
필요한 부분만을 필터링하고
쓸 수 있게 다듬어(파싱) 놓고
- ETL
메타 정보 생성
각종 명세서(스키마)를 작성하고
재료의 특징을 파악하여
- EDA
Insight 도출
필요할 때 약속된 조리법에 따라
혹은 새로운 조리법을 찾아
- 모델링
Assets 완성/제공
이해하기 편하게
약속된 방식으로 제공
파악/연동
다양한 데이터와의
인터페이스를 만들고
- Intake
안전하게 저장 가능한
대용량 저장소를 구축하고
- Data Lake
#ETL: Extract, Transform, Load #EDA: Exploratory Data Analysis
기술 분야와 연구 분야가 중첩
다양한 데이터에 대한 이해 필요
8. 8 / 26
Data Scientist 업무의 분화
데이터테크랩 : DATA분석 | BACKEND | FRONTEND | 서비스 DevOps
AirBnB : AI | DATA | BACKEND | INFRA | WEB | OPEN SOURCE
Full Stacker = Data Scientist
~ETL = Data Engineer ~EDA = Data Scientist
System Engineer Data Engineer AI/ML Engineer Data Analyst
9. 9 / 26
Data Scientist가 부족한 원인?
의사는 다양한 의학 전공 분야의 담당자를 대표하는 말인 것처럼
Data Scientist 또한 Data 업무를 수행하는 사람들의 통칭이 되어가고 있습니다.
여러 전공을 겸임할 의사를 찾을 수 없듯이
Data 분야의 만물박사인 Data Scientist는 이제 구할 수 없을지도 모르겠습니다.
10. 10 / 26
Data Scientist의 Skill Set
Data Analyst
서비스에 대한 이해를 바탕으로 한 현상 해석 능력 + Data를 Pivot/Blending할 수 있는 스킬 [SQL]
System/Data Engineer
수집/저장/분석 환경 구성 능력 [Linux, Java] + ETL, EDA 스킬 [SQL, pig/mr -> 최근엔 pyspark]
Service Developer
서비스 도메인 및 기획 능력 + Data를 이용한 개발/운영 스킬 [SQL, D3.js …]
AI/ML Engineer
각종 알고리즘 이해 및 모델링 능력 + 각종 관련 패키지 활용을 위한 프로그래밍 스킬 [SQL, python]
11. 11 / 26
Data Scientist의 잇템 = Open Source
Data Intake:
Data Lake:
ETL:
One-shot:
EDA:
…
…
…
…
AI/ML: …
12. 12 / 26
BigData & AI 관련 Landscape
http://mattturck.com/matt-turck-firstmark-big-data-landscape-2018/
14. 14 / 26
우리는 뭐하고 있나?
[1] https://www.nytimes.com/2014/08/18/technology/for-big-data-scientists-hurdle-to-insights-is-janitor-work.html?_r=0
어떤 것을 써야 하나 고민할 필요 없이 Data 업무에 집중할 수 있는
통합 솔루션을 만들고 있습니다(가칭 DPP).
특히 데이터 유통 과정 중 가장 많은 비용을 소모[1]하는
Preprocessing, ETL 등을 쉽게 처리하는 것에 중점을 두고 있습니다.
15. 15 / 26
Data Processing Platform Overview
다양한 내외부 DataSource 연동
이벤트 기반 워크플로 엔진
제공 데이터에 최적화된 Mart(Data Connector)
작업 컨트롤, 데이터 전달을 위한 API GW 및 ADMIN
16. 16 / 26
서로 연관된 작업이지만 분리되어 작동
이벤트(데이터, 시간, 수동 실행)의 구독 신청으로 작업 실행
Feature 1: Event-Driven Workflow
17. 17 / 26
Feature 2: Seamless Workflow
여러 서비스 or 클러스터 간 스케줄링
- 서비스마다 스케줄러 구성 불필요
- 기능별 매니저의 분리
- 단순한 설치로 여러 서비스 운용 가능
18. 18 / 26
Feature 3: Detect Data Modification
hdfs:///foo/bar/ 변경
file:///ftp_get/parse_me.tsv 외부 유입
jdbc:mysql://pull_me:3306 추적 관찰
DataDog의 변경 감지
변경/생성 Data Event 발행
구독 작업의 실행
19. 19 / 26
Feature 4: JobSubmit-Less
전통적인 WorkFlow Engine은?
작성한 작업과는 별도로 DAG 기반 명세서를 추가로 작성하고 제출해야 함
20. 20 / 26
Feature 4: JobSubmit-Less (계속)
자신만의 작업 일정을 GUI, CLI 등을 통해 설정 후 바로 적용
21. 21 / 26
Feature 5: Data Processing Template
빈번하게 작성되는 작업의 Template 제공
- 파싱, 외부 데이터 적재, DB 덤프 등
22. 22 / 26
Feature 6: WorkFlow = Data Lineage
작업/Data의 이력 관리
- 발행/구독 관계가 곧 족보
- 작업, 데이터의 영향도 파악 가능
- 자동 복구