[2018] 효율적인 데이터 관리를 위한 플랫폼 개발기

© 2018 NHN FORWARD. All rights reserved.
효율적인 데이터 관리를 위한 플랫폼 개발기
임지홍
데이터비즈랩

2 / 26
시작하기 앞서
여러 곳의 다양한 데이터를 기반으로
새로운 인사이트와 비즈니스를 발굴하는 조직입니다.
업무 중 겪었던 다양한 고민을 해결하기 위해 만들고 있는
플랫폼을 설명드리면서 데이터 관련 업무에 관심이 많은 분들에게
도움을 드렸으면 합니다.

CONTENTS
1. Data Scientist?
2. Data Platform @ 데이터테크랩
3. Platform Demo
4. Q&A

Data Scientist?

5 / 26
귀한 Data Scientist
https://hbr.org/2012/10/data-scientist-the-sexiest-job-of-the-21st-century
요즘 핫한 “AI, ML, BigData”를 하려면
“Data Scientist”가 필요하다고 합니다.
그래서인지 전 세계적으로 부족한 직군이라고 합니다.
https://me.me/i/i-know-machine-learning-aaf5f65faefe4227a59067a577d40d43

6 / 26
왜 귀할까?
수학/통계에 능숙하고 개발을 완전 잘하면서 비즈니스를 잘 이해하고 있는 사람
https://blog.udacity.com/2014/11/data-science-job-skills.html

7 / 26
Data Scientist의 업무
수집 검수/전처리/분배
품질을 검사하고
필요한 부분만을 필터링하고
쓸 수 있게 다듬어(파싱) 놓고
- ETL
메타 정보 생성
각종 명세서(스키마)를 작성하고
재료의 특징을 파악하여
- EDA
Insight 도출
필요할 때 약속된 조리법에 따라
혹은 새로운 조리법을 찾아
- 모델링
Assets 완성/제공
이해하기 편하게
약속된 방식으로 제공
파악/연동
다양한 데이터와의
인터페이스를 만들고
- Intake
안전하게 저장 가능한
대용량 저장소를 구축하고
- Data Lake
#ETL: Extract, Transform, Load #EDA: Exploratory Data Analysis
기술 분야와 연구 분야가 중첩
다양한 데이터에 대한 이해 필요

9 / 26
Data Scientist가 부족한 원인?
의사는 다양한 의학 전공 분야의 담당자를 대표하는 말인 것처럼
Data Scientist 또한 Data 업무를 수행하는 사람들의 통칭이 되어가고 있습니다.
여러 전공을 겸임할 의사를 찾을 수 없듯이
Data 분야의 만물박사인 Data Scientist는 이제 구할 수 없을지도 모르겠습니다.

10 / 26
Data Scientist의 Skill Set
Data Analyst
서비스에 대한 이해를 바탕으로 한 현상 해석 능력 + Data를 Pivot/Blending할 수 있는 스킬 [SQL]
System/Data Engineer
수집/저장/분석 환경 구성 능력 [Linux, Java] + ETL, EDA 스킬 [SQL, pig/mr -> 최근엔 pyspark]
Service Developer
서비스 도메인 및 기획 능력 + Data를 이용한 개발/운영 스킬 [SQL, D3.js …]
AI/ML Engineer
각종 알고리즘 이해 및 모델링 능력 + 각종 관련 패키지 활용을 위한 프로그래밍 스킬 [SQL, python]

11 / 26
Data Scientist의 잇템 = Open Source
Data Intake:
Data Lake:
ETL:
One-shot:
EDA:
…
…
…
…
AI/ML: …

12 / 26
BigData & AI 관련 Landscape
http://mattturck.com/matt-turck-firstmark-big-data-landscape-2018/

Data Platform @ 데이터테크랩

14 / 26
우리는 뭐하고 있나?
[1] https://www.nytimes.com/2014/08/18/technology/for-big-data-scientists-hurdle-to-insights-is-janitor-work.html?_r=0
어떤 것을 써야 하나 고민할 필요 없이 Data 업무에 집중할 수 있는
통합 솔루션을 만들고 있습니다(가칭 DPP).
특히 데이터 유통 과정 중 가장 많은 비용을 소모[1]하는
Preprocessing, ETL 등을 쉽게 처리하는 것에 중점을 두고 있습니다.

15 / 26
Data Processing Platform Overview
다양한 내외부 DataSource 연동
이벤트 기반 워크플로 엔진
제공 데이터에 최적화된 Mart(Data Connector)
작업 컨트롤, 데이터 전달을 위한 API GW 및 ADMIN

16 / 26
서로 연관된 작업이지만 분리되어 작동
이벤트(데이터, 시간, 수동 실행)의 구독 신청으로 작업 실행
Feature 1: Event-Driven Workflow

17 / 26
Feature 2: Seamless Workflow
여러 서비스 or 클러스터 간 스케줄링
- 서비스마다 스케줄러 구성 불필요
- 기능별 매니저의 분리
- 단순한 설치로 여러 서비스 운용 가능

18 / 26
Feature 3: Detect Data Modification
hdfs:///foo/bar/ 변경
file:///ftp_get/parse_me.tsv 외부 유입
jdbc:mysql://pull_me:3306 추적 관찰
DataDog의 변경 감지
변경/생성 Data Event 발행
구독 작업의 실행

19 / 26
Feature 4: JobSubmit-Less
전통적인 WorkFlow Engine은?
작성한 작업과는 별도로 DAG 기반 명세서를 추가로 작성하고 제출해야 함

20 / 26
Feature 4: JobSubmit-Less (계속)
자신만의 작업 일정을 GUI, CLI 등을 통해 설정 후 바로 적용

21 / 26
Feature 5: Data Processing Template
빈번하게 작성되는 작업의 Template 제공
- 파싱, 외부 데이터 적재, DB 덤프 등

22 / 26
Feature 6: WorkFlow = Data Lineage
작업/Data의 이력 관리
- 발행/구독 관계가 곧 족보
- 작업, 데이터의 영향도 파악 가능
- 자동 복구

DEMO : hello-dpp
외부 데이터
유입 감지
유입 데이터
파싱/테이블 생성
테이블 변경 시
쿼리 결과 메일 전송

THANK YOU

[2018] 효율적인 데이터 관리를 위한 플랫폼 개발기

Recomendados

Recomendados

Mais conteúdo relacionado

Mais procurados

Mais procurados (6)

Semelhante a [2018] 효율적인 데이터 관리를 위한 플랫폼 개발기

Semelhante a [2018] 효율적인 데이터 관리를 위한 플랫폼 개발기 (20)

Mais de NHN FORWARD

Mais de NHN FORWARD (20)

Último

Último (6)

[2018] 효율적인 데이터 관리를 위한 플랫폼 개발기