SlideShare uma empresa Scribd logo
1 de 26
Baixar para ler offline
© 2018 NHN FORWARD. All rights reserved.
효율적인 데이터 관리를 위한 플랫폼 개발기
임지홍
데이터비즈랩
2 / 26
시작하기 앞서
여러 곳의 다양한 데이터를 기반으로
새로운 인사이트와 비즈니스를 발굴하는 조직입니다.
업무 중 겪었던 다양한 고민을 해결하기 위해 만들고 있는
플랫폼을 설명드리면서 데이터 관련 업무에 관심이 많은 분들에게
도움을 드렸으면 합니다.
CONTENTS
1. Data Scientist?
2. Data Platform @ 데이터테크랩
3. Platform Demo
4. Q&A
© 2018 NHN FORWARD. All rights reserved.
Data Scientist?
5 / 26
귀한 Data Scientist
https://hbr.org/2012/10/data-scientist-the-sexiest-job-of-the-21st-century
요즘 핫한 “AI, ML, BigData”를 하려면
“Data Scientist”가 필요하다고 합니다.
그래서인지 전 세계적으로 부족한 직군이라고 합니다.
https://me.me/i/i-know-machine-learning-aaf5f65faefe4227a59067a577d40d43
6 / 26
왜 귀할까?
수학/통계에 능숙하고 개발을 완전 잘하면서 비즈니스를 잘 이해하고 있는 사람
https://blog.udacity.com/2014/11/data-science-job-skills.html
7 / 26
Data Scientist의 업무
수집 검수/전처리/분배
품질을 검사하고
필요한 부분만을 필터링하고
쓸 수 있게 다듬어(파싱) 놓고
- ETL
메타 정보 생성
각종 명세서(스키마)를 작성하고
재료의 특징을 파악하여
- EDA
Insight 도출
필요할 때 약속된 조리법에 따라
혹은 새로운 조리법을 찾아
- 모델링
Assets 완성/제공
이해하기 편하게
약속된 방식으로 제공
파악/연동
다양한 데이터와의
인터페이스를 만들고
- Intake
안전하게 저장 가능한
대용량 저장소를 구축하고
- Data Lake
#ETL: Extract, Transform, Load #EDA: Exploratory Data Analysis
기술 분야와 연구 분야가 중첩
다양한 데이터에 대한 이해 필요
8 / 26
Data Scientist 업무의 분화
데이터테크랩 : DATA분석 | BACKEND | FRONTEND | 서비스 DevOps
AirBnB : AI | DATA | BACKEND | INFRA | WEB | OPEN SOURCE
Full Stacker = Data Scientist
~ETL = Data Engineer ~EDA = Data Scientist
System Engineer Data Engineer AI/ML Engineer Data Analyst
9 / 26
Data Scientist가 부족한 원인?
의사는 다양한 의학 전공 분야의 담당자를 대표하는 말인 것처럼
Data Scientist 또한 Data 업무를 수행하는 사람들의 통칭이 되어가고 있습니다.
여러 전공을 겸임할 의사를 찾을 수 없듯이
Data 분야의 만물박사인 Data Scientist는 이제 구할 수 없을지도 모르겠습니다.
10 / 26
Data Scientist의 Skill Set
Data Analyst
서비스에 대한 이해를 바탕으로 한 현상 해석 능력 + Data를 Pivot/Blending할 수 있는 스킬 [SQL]
System/Data Engineer
수집/저장/분석 환경 구성 능력 [Linux, Java] + ETL, EDA 스킬 [SQL, pig/mr -> 최근엔 pyspark]
Service Developer
서비스 도메인 및 기획 능력 + Data를 이용한 개발/운영 스킬 [SQL, D3.js …]
AI/ML Engineer
각종 알고리즘 이해 및 모델링 능력 + 각종 관련 패키지 활용을 위한 프로그래밍 스킬 [SQL, python]
11 / 26
Data Scientist의 잇템 = Open Source
Data Intake:
Data Lake:
ETL:
One-shot:
EDA:
…
…
…
…
AI/ML: …
12 / 26
BigData & AI 관련 Landscape
http://mattturck.com/matt-turck-firstmark-big-data-landscape-2018/
© 2018 NHN FORWARD. All rights reserved.
Data Platform @ 데이터테크랩
14 / 26
우리는 뭐하고 있나?
[1] https://www.nytimes.com/2014/08/18/technology/for-big-data-scientists-hurdle-to-insights-is-janitor-work.html?_r=0
어떤 것을 써야 하나 고민할 필요 없이 Data 업무에 집중할 수 있는
통합 솔루션을 만들고 있습니다(가칭 DPP).
특히 데이터 유통 과정 중 가장 많은 비용을 소모[1]하는
Preprocessing, ETL 등을 쉽게 처리하는 것에 중점을 두고 있습니다.
15 / 26
Data Processing Platform Overview
다양한 내외부 DataSource 연동
이벤트 기반 워크플로 엔진
제공 데이터에 최적화된 Mart(Data Connector)
작업 컨트롤, 데이터 전달을 위한 API GW 및 ADMIN
16 / 26
서로 연관된 작업이지만 분리되어 작동
이벤트(데이터, 시간, 수동 실행)의 구독 신청으로 작업 실행
Feature 1: Event-Driven Workflow
17 / 26
Feature 2: Seamless Workflow
여러 서비스 or 클러스터 간 스케줄링
- 서비스마다 스케줄러 구성 불필요
- 기능별 매니저의 분리
- 단순한 설치로 여러 서비스 운용 가능
18 / 26
Feature 3: Detect Data Modification
hdfs:///foo/bar/ 변경
file:///ftp_get/parse_me.tsv 외부 유입
jdbc:mysql://pull_me:3306 추적 관찰
DataDog의 변경 감지
변경/생성 Data Event 발행
구독 작업의 실행
19 / 26
Feature 4: JobSubmit-Less
전통적인 WorkFlow Engine은?
작성한 작업과는 별도로 DAG 기반 명세서를 추가로 작성하고 제출해야 함
20 / 26
Feature 4: JobSubmit-Less (계속)
자신만의 작업 일정을 GUI, CLI 등을 통해 설정 후 바로 적용
21 / 26
Feature 5: Data Processing Template
빈번하게 작성되는 작업의 Template 제공
- 파싱, 외부 데이터 적재, DB 덤프 등
22 / 26
Feature 6: WorkFlow = Data Lineage
작업/Data의 이력 관리
- 발행/구독 관계가 곧 족보
- 작업, 데이터의 영향도 파악 가능
- 자동 복구
DEMO : hello-dpp
외부 데이터
유입 감지
유입 데이터
파싱/테이블 생성
테이블 변경 시
쿼리 결과 메일 전송
Q&A
© 2018 NHN FORWARD. All rights reserved.
THANK YOU

Mais conteúdo relacionado

Mais procurados

빅데이터 플랫폼 새로운 미래
빅데이터 플랫폼 새로운 미래빅데이터 플랫폼 새로운 미래
빅데이터 플랫폼 새로운 미래
Wooseung Kim
 
클라우드컴퓨팅
클라우드컴퓨팅클라우드컴퓨팅
클라우드컴퓨팅
승완 김
 

Mais procurados (6)

[2016 데이터 그랜드 컨퍼런스] 2 2(빅데이터). skt beyond big data
[2016 데이터 그랜드 컨퍼런스] 2 2(빅데이터). skt beyond big data[2016 데이터 그랜드 컨퍼런스] 2 2(빅데이터). skt beyond big data
[2016 데이터 그랜드 컨퍼런스] 2 2(빅데이터). skt beyond big data
 
vertica_tmp_4.5
vertica_tmp_4.5vertica_tmp_4.5
vertica_tmp_4.5
 
빅데이터 플랫폼 새로운 미래
빅데이터 플랫폼 새로운 미래빅데이터 플랫폼 새로운 미래
빅데이터 플랫폼 새로운 미래
 
공간정보가 가는 길 (What's Next for GIS)
공간정보가 가는 길 (What's Next for GIS)공간정보가 가는 길 (What's Next for GIS)
공간정보가 가는 길 (What's Next for GIS)
 
Hadoop 기반 빅데이터 이해
Hadoop 기반 빅데이터 이해Hadoop 기반 빅데이터 이해
Hadoop 기반 빅데이터 이해
 
클라우드컴퓨팅
클라우드컴퓨팅클라우드컴퓨팅
클라우드컴퓨팅
 

Semelhante a [2018] 효율적인 데이터 관리를 위한 플랫폼 개발기

MSA(Service Mesh), MDA(Data Mesh), MIA(Inference Mesh) 기술동향 소개-박문기@메ᄀ...
MSA(Service Mesh), MDA(Data Mesh), MIA(Inference Mesh) 기술동향 소개-박문기@메ᄀ...MSA(Service Mesh), MDA(Data Mesh), MIA(Inference Mesh) 기술동향 소개-박문기@메ᄀ...
MSA(Service Mesh), MDA(Data Mesh), MIA(Inference Mesh) 기술동향 소개-박문기@메ᄀ...
문기 박
 
AWS Partner Techshift - (SaaS) 사업을 위한 데이터 기반 세일즈/마케팅 전략과 노하우 (트레져데이터 고영혁 수석)
AWS Partner Techshift - (SaaS) 사업을 위한 데이터 기반 세일즈/마케팅 전략과 노하우 (트레져데이터 고영혁 수석)AWS Partner Techshift - (SaaS) 사업을 위한 데이터 기반 세일즈/마케팅 전략과 노하우 (트레져데이터 고영혁 수석)
AWS Partner Techshift - (SaaS) 사업을 위한 데이터 기반 세일즈/마케팅 전략과 노하우 (트레져데이터 고영혁 수석)
Amazon Web Services Korea
 
1. 개방형 데이터 허브 핵심 기술 V2.pdf
1. 개방형 데이터 허브 핵심 기술 V2.pdf1. 개방형 데이터 허브 핵심 기술 V2.pdf
1. 개방형 데이터 허브 핵심 기술 V2.pdf
ssuserde0b2d
 

Semelhante a [2018] 효율적인 데이터 관리를 위한 플랫폼 개발기 (20)

[DDC 2018] Metatron 오픈소스화 및 생태계 구축 (SKT 이정룡, 김지호)
[DDC 2018] Metatron 오픈소스화 및 생태계 구축 (SKT 이정룡, 김지호)[DDC 2018] Metatron 오픈소스화 및 생태계 구축 (SKT 이정룡, 김지호)
[DDC 2018] Metatron 오픈소스화 및 생태계 구축 (SKT 이정룡, 김지호)
 
DB관점에서 본 빅데이터 (2019년 8월)
DB관점에서 본 빅데이터 (2019년 8월)DB관점에서 본 빅데이터 (2019년 8월)
DB관점에서 본 빅데이터 (2019년 8월)
 
Datawarehouse를 이용한 데이터 블렌딩
Datawarehouse를 이용한 데이터 블렌딩Datawarehouse를 이용한 데이터 블렌딩
Datawarehouse를 이용한 데이터 블렌딩
 
MSA(Service Mesh), MDA(Data Mesh), MIA(Inference Mesh) 기술동향 소개-박문기@메ᄀ...
MSA(Service Mesh), MDA(Data Mesh), MIA(Inference Mesh) 기술동향 소개-박문기@메ᄀ...MSA(Service Mesh), MDA(Data Mesh), MIA(Inference Mesh) 기술동향 소개-박문기@메ᄀ...
MSA(Service Mesh), MDA(Data Mesh), MIA(Inference Mesh) 기술동향 소개-박문기@메ᄀ...
 
[한국IBM] Data&AI 통합 플랫폼, Cloud Pak for Data
[한국IBM] Data&AI 통합 플랫폼, Cloud Pak for Data[한국IBM] Data&AI 통합 플랫폼, Cloud Pak for Data
[한국IBM] Data&AI 통합 플랫폼, Cloud Pak for Data
 
빅데이터 인공지능 전략 및 로드맵
빅데이터 인공지능 전략 및 로드맵빅데이터 인공지능 전략 및 로드맵
빅데이터 인공지능 전략 및 로드맵
 
AWS Partner Techshift - (SaaS) 사업을 위한 데이터 기반 세일즈/마케팅 전략과 노하우 (트레져데이터 고영혁 수석)
AWS Partner Techshift - (SaaS) 사업을 위한 데이터 기반 세일즈/마케팅 전략과 노하우 (트레져데이터 고영혁 수석)AWS Partner Techshift - (SaaS) 사업을 위한 데이터 기반 세일즈/마케팅 전략과 노하우 (트레져데이터 고영혁 수석)
AWS Partner Techshift - (SaaS) 사업을 위한 데이터 기반 세일즈/마케팅 전략과 노하우 (트레져데이터 고영혁 수석)
 
Big data application architecture 요약2
Big data application architecture 요약2Big data application architecture 요약2
Big data application architecture 요약2
 
실리콘 밸리 데이터 사이언티스트의 하루
실리콘 밸리 데이터 사이언티스트의 하루실리콘 밸리 데이터 사이언티스트의 하루
실리콘 밸리 데이터 사이언티스트의 하루
 
데이터드리븐 DX 추진방안_202306.pdf
데이터드리븐 DX 추진방안_202306.pdf데이터드리븐 DX 추진방안_202306.pdf
데이터드리븐 DX 추진방안_202306.pdf
 
201210 그루터 빅데이터_플랫폼_아키텍쳐_및_솔루션_소개
201210 그루터 빅데이터_플랫폼_아키텍쳐_및_솔루션_소개201210 그루터 빅데이터_플랫폼_아키텍쳐_및_솔루션_소개
201210 그루터 빅데이터_플랫폼_아키텍쳐_및_솔루션_소개
 
1. 개방형 데이터 허브 핵심 기술 V2.pdf
1. 개방형 데이터 허브 핵심 기술 V2.pdf1. 개방형 데이터 허브 핵심 기술 V2.pdf
1. 개방형 데이터 허브 핵심 기술 V2.pdf
 
빅데이터 기술전문가
빅데이터 기술전문가 빅데이터 기술전문가
빅데이터 기술전문가
 
데이터 레이크 알아보기(Learn about Data Lake)
데이터 레이크 알아보기(Learn about Data Lake)데이터 레이크 알아보기(Learn about Data Lake)
데이터 레이크 알아보기(Learn about Data Lake)
 
태블로 소프트웨어(Tableau Software) 소개
태블로 소프트웨어(Tableau Software) 소개태블로 소프트웨어(Tableau Software) 소개
태블로 소프트웨어(Tableau Software) 소개
 
A Modern Data Integration Approach to Transform and Amplify Your Business (데이...
A Modern Data Integration Approach to Transform and Amplify Your Business (데이...A Modern Data Integration Approach to Transform and Amplify Your Business (데이...
A Modern Data Integration Approach to Transform and Amplify Your Business (데이...
 
Jco 소셜 빅데이터_20120218
Jco 소셜 빅데이터_20120218Jco 소셜 빅데이터_20120218
Jco 소셜 빅데이터_20120218
 
MS 빅데이터 서비스 및 게임사 PoC 사례 소개
MS 빅데이터 서비스 및 게임사 PoC 사례 소개MS 빅데이터 서비스 및 게임사 PoC 사례 소개
MS 빅데이터 서비스 및 게임사 PoC 사례 소개
 
엔터프라이즈 환경의 데이터모델 관리 방안 By 엠바카데로 데브기어 2015.12.03
엔터프라이즈 환경의 데이터모델 관리 방안 By 엠바카데로 데브기어  2015.12.03엔터프라이즈 환경의 데이터모델 관리 방안 By 엠바카데로 데브기어  2015.12.03
엔터프라이즈 환경의 데이터모델 관리 방안 By 엠바카데로 데브기어 2015.12.03
 
INFRASTRUCTURE
INFRASTRUCTUREINFRASTRUCTURE
INFRASTRUCTURE
 

Mais de NHN FORWARD

Mais de NHN FORWARD (20)

[2019] 패션 시소러스 기반 상품 특징 분석 시스템
[2019] 패션 시소러스 기반 상품 특징 분석 시스템[2019] 패션 시소러스 기반 상품 특징 분석 시스템
[2019] 패션 시소러스 기반 상품 특징 분석 시스템
 
[2019] 스몰 스텝: Android 렛츠기릿!
[2019] 스몰 스텝: Android 렛츠기릿![2019] 스몰 스텝: Android 렛츠기릿!
[2019] 스몰 스텝: Android 렛츠기릿!
 
딥러닝, 야 너도 할 수 있어(feat. PyTorch)
딥러닝, 야 너도 할 수 있어(feat. PyTorch)딥러닝, 야 너도 할 수 있어(feat. PyTorch)
딥러닝, 야 너도 할 수 있어(feat. PyTorch)
 
NHN 베이스캠프: 신입사원들은 무엇을 배우나요?
NHN 베이스캠프: 신입사원들은 무엇을 배우나요?NHN 베이스캠프: 신입사원들은 무엇을 배우나요?
NHN 베이스캠프: 신입사원들은 무엇을 배우나요?
 
[2019] GIF 스티커 만들기: 스파인 2D를 이용한 움직이는 스티커 만들기
[2019] GIF 스티커 만들기: 스파인 2D를 이용한 움직이는 스티커 만들기[2019] GIF 스티커 만들기: 스파인 2D를 이용한 움직이는 스티커 만들기
[2019] GIF 스티커 만들기: 스파인 2D를 이용한 움직이는 스티커 만들기
 
[2019] 전기 먹는 하마의 다이어트 성공기 클라우드 데이터 센터의 에너지 절감 노력과 사례
[2019] 전기 먹는 하마의 다이어트 성공기   클라우드 데이터 센터의 에너지 절감 노력과 사례[2019] 전기 먹는 하마의 다이어트 성공기   클라우드 데이터 센터의 에너지 절감 노력과 사례
[2019] 전기 먹는 하마의 다이어트 성공기 클라우드 데이터 센터의 에너지 절감 노력과 사례
 
[2019] 스몰 스텝: Dooray!를 이용한 업무 효율화/자동화(고객문의 시스템 구축)
[2019] 스몰 스텝: Dooray!를 이용한 업무 효율화/자동화(고객문의 시스템 구축)[2019] 스몰 스텝: Dooray!를 이용한 업무 효율화/자동화(고객문의 시스템 구축)
[2019] 스몰 스텝: Dooray!를 이용한 업무 효율화/자동화(고객문의 시스템 구축)
 
[2019] 아직도 돈 주고 DB 쓰나요? for Developer
[2019] 아직도 돈 주고 DB 쓰나요? for Developer[2019] 아직도 돈 주고 DB 쓰나요? for Developer
[2019] 아직도 돈 주고 DB 쓰나요? for Developer
 
[2019] 아직도 돈 주고 DB 쓰나요 for DBA
[2019] 아직도 돈 주고 DB 쓰나요 for DBA[2019] 아직도 돈 주고 DB 쓰나요 for DBA
[2019] 아직도 돈 주고 DB 쓰나요 for DBA
 
[2019] 비주얼 브랜딩: Basic system
[2019] 비주얼 브랜딩: Basic system[2019] 비주얼 브랜딩: Basic system
[2019] 비주얼 브랜딩: Basic system
 
[2019] PAYCO 매거진 서버 Kotlin 적용기
[2019] PAYCO 매거진 서버 Kotlin 적용기[2019] PAYCO 매거진 서버 Kotlin 적용기
[2019] PAYCO 매거진 서버 Kotlin 적용기
 
[2019] 벅스 5.0 (feat. Kotlin, Jetpack)
[2019] 벅스 5.0 (feat. Kotlin, Jetpack)[2019] 벅스 5.0 (feat. Kotlin, Jetpack)
[2019] 벅스 5.0 (feat. Kotlin, Jetpack)
 
[2019] Java에서 Fiber를 이용하여 동시성concurrency 프로그래밍 쉽게 하기
[2019] Java에서 Fiber를 이용하여 동시성concurrency 프로그래밍 쉽게 하기[2019] Java에서 Fiber를 이용하여 동시성concurrency 프로그래밍 쉽게 하기
[2019] Java에서 Fiber를 이용하여 동시성concurrency 프로그래밍 쉽게 하기
 
[2019] PAYCO 쇼핑 마이크로서비스 아키텍처(MSA) 전환기
[2019] PAYCO 쇼핑 마이크로서비스 아키텍처(MSA) 전환기[2019] PAYCO 쇼핑 마이크로서비스 아키텍처(MSA) 전환기
[2019] PAYCO 쇼핑 마이크로서비스 아키텍처(MSA) 전환기
 
[2019] 비식별 데이터로부터의 가치 창출과 수익화 사례
[2019] 비식별 데이터로부터의 가치 창출과 수익화 사례[2019] 비식별 데이터로부터의 가치 창출과 수익화 사례
[2019] 비식별 데이터로부터의 가치 창출과 수익화 사례
 
[2019] 게임 서버 대규모 부하 테스트와 모니터링 이렇게 해보자
[2019] 게임 서버 대규모 부하 테스트와 모니터링 이렇게 해보자[2019] 게임 서버 대규모 부하 테스트와 모니터링 이렇게 해보자
[2019] 게임 서버 대규모 부하 테스트와 모니터링 이렇게 해보자
 
[2019] 200만 동접 게임을 위한 MySQL 샤딩
[2019] 200만 동접 게임을 위한 MySQL 샤딩[2019] 200만 동접 게임을 위한 MySQL 샤딩
[2019] 200만 동접 게임을 위한 MySQL 샤딩
 
[2019] 언리얼 엔진을 통해 살펴보는 리플렉션과 가비지 컬렉션
[2019] 언리얼 엔진을 통해 살펴보는 리플렉션과 가비지 컬렉션[2019] 언리얼 엔진을 통해 살펴보는 리플렉션과 가비지 컬렉션
[2019] 언리얼 엔진을 통해 살펴보는 리플렉션과 가비지 컬렉션
 
[2019] 글로벌 게임 서비스 노하우
[2019] 글로벌 게임 서비스 노하우[2019] 글로벌 게임 서비스 노하우
[2019] 글로벌 게임 서비스 노하우
 
[2019] 배틀로얄 전장(map) 제작으로 알아보는 슈팅 게임 레벨 디자인
[2019] 배틀로얄 전장(map) 제작으로 알아보는 슈팅 게임 레벨 디자인[2019] 배틀로얄 전장(map) 제작으로 알아보는 슈팅 게임 레벨 디자인
[2019] 배틀로얄 전장(map) 제작으로 알아보는 슈팅 게임 레벨 디자인
 

Último

Console API (Kitworks Team Study 백혜인 발표자료)
Console API (Kitworks Team Study 백혜인 발표자료)Console API (Kitworks Team Study 백혜인 발표자료)
Console API (Kitworks Team Study 백혜인 발표자료)
Wonjun Hwang
 
Merge (Kitworks Team Study 이성수 발표자료 240426)
Merge (Kitworks Team Study 이성수 발표자료 240426)Merge (Kitworks Team Study 이성수 발표자료 240426)
Merge (Kitworks Team Study 이성수 발표자료 240426)
Wonjun Hwang
 

Último (6)

MOODv2 : Masked Image Modeling for Out-of-Distribution Detection
MOODv2 : Masked Image Modeling for Out-of-Distribution DetectionMOODv2 : Masked Image Modeling for Out-of-Distribution Detection
MOODv2 : Masked Image Modeling for Out-of-Distribution Detection
 
캐드앤그래픽스 2024년 5월호 목차
캐드앤그래픽스 2024년 5월호 목차캐드앤그래픽스 2024년 5월호 목차
캐드앤그래픽스 2024년 5월호 목차
 
A future that integrates LLMs and LAMs (Symposium)
A future that integrates LLMs and LAMs (Symposium)A future that integrates LLMs and LAMs (Symposium)
A future that integrates LLMs and LAMs (Symposium)
 
Console API (Kitworks Team Study 백혜인 발표자료)
Console API (Kitworks Team Study 백혜인 발표자료)Console API (Kitworks Team Study 백혜인 발표자료)
Console API (Kitworks Team Study 백혜인 발표자료)
 
Merge (Kitworks Team Study 이성수 발표자료 240426)
Merge (Kitworks Team Study 이성수 발표자료 240426)Merge (Kitworks Team Study 이성수 발표자료 240426)
Merge (Kitworks Team Study 이성수 발표자료 240426)
 
Continual Active Learning for Efficient Adaptation of Machine LearningModels ...
Continual Active Learning for Efficient Adaptation of Machine LearningModels ...Continual Active Learning for Efficient Adaptation of Machine LearningModels ...
Continual Active Learning for Efficient Adaptation of Machine LearningModels ...
 

[2018] 효율적인 데이터 관리를 위한 플랫폼 개발기

  • 1. © 2018 NHN FORWARD. All rights reserved. 효율적인 데이터 관리를 위한 플랫폼 개발기 임지홍 데이터비즈랩
  • 2. 2 / 26 시작하기 앞서 여러 곳의 다양한 데이터를 기반으로 새로운 인사이트와 비즈니스를 발굴하는 조직입니다. 업무 중 겪었던 다양한 고민을 해결하기 위해 만들고 있는 플랫폼을 설명드리면서 데이터 관련 업무에 관심이 많은 분들에게 도움을 드렸으면 합니다.
  • 3. CONTENTS 1. Data Scientist? 2. Data Platform @ 데이터테크랩 3. Platform Demo 4. Q&A
  • 4. © 2018 NHN FORWARD. All rights reserved. Data Scientist?
  • 5. 5 / 26 귀한 Data Scientist https://hbr.org/2012/10/data-scientist-the-sexiest-job-of-the-21st-century 요즘 핫한 “AI, ML, BigData”를 하려면 “Data Scientist”가 필요하다고 합니다. 그래서인지 전 세계적으로 부족한 직군이라고 합니다. https://me.me/i/i-know-machine-learning-aaf5f65faefe4227a59067a577d40d43
  • 6. 6 / 26 왜 귀할까? 수학/통계에 능숙하고 개발을 완전 잘하면서 비즈니스를 잘 이해하고 있는 사람 https://blog.udacity.com/2014/11/data-science-job-skills.html
  • 7. 7 / 26 Data Scientist의 업무 수집 검수/전처리/분배 품질을 검사하고 필요한 부분만을 필터링하고 쓸 수 있게 다듬어(파싱) 놓고 - ETL 메타 정보 생성 각종 명세서(스키마)를 작성하고 재료의 특징을 파악하여 - EDA Insight 도출 필요할 때 약속된 조리법에 따라 혹은 새로운 조리법을 찾아 - 모델링 Assets 완성/제공 이해하기 편하게 약속된 방식으로 제공 파악/연동 다양한 데이터와의 인터페이스를 만들고 - Intake 안전하게 저장 가능한 대용량 저장소를 구축하고 - Data Lake #ETL: Extract, Transform, Load #EDA: Exploratory Data Analysis 기술 분야와 연구 분야가 중첩 다양한 데이터에 대한 이해 필요
  • 8. 8 / 26 Data Scientist 업무의 분화 데이터테크랩 : DATA분석 | BACKEND | FRONTEND | 서비스 DevOps AirBnB : AI | DATA | BACKEND | INFRA | WEB | OPEN SOURCE Full Stacker = Data Scientist ~ETL = Data Engineer ~EDA = Data Scientist System Engineer Data Engineer AI/ML Engineer Data Analyst
  • 9. 9 / 26 Data Scientist가 부족한 원인? 의사는 다양한 의학 전공 분야의 담당자를 대표하는 말인 것처럼 Data Scientist 또한 Data 업무를 수행하는 사람들의 통칭이 되어가고 있습니다. 여러 전공을 겸임할 의사를 찾을 수 없듯이 Data 분야의 만물박사인 Data Scientist는 이제 구할 수 없을지도 모르겠습니다.
  • 10. 10 / 26 Data Scientist의 Skill Set Data Analyst 서비스에 대한 이해를 바탕으로 한 현상 해석 능력 + Data를 Pivot/Blending할 수 있는 스킬 [SQL] System/Data Engineer 수집/저장/분석 환경 구성 능력 [Linux, Java] + ETL, EDA 스킬 [SQL, pig/mr -> 최근엔 pyspark] Service Developer 서비스 도메인 및 기획 능력 + Data를 이용한 개발/운영 스킬 [SQL, D3.js …] AI/ML Engineer 각종 알고리즘 이해 및 모델링 능력 + 각종 관련 패키지 활용을 위한 프로그래밍 스킬 [SQL, python]
  • 11. 11 / 26 Data Scientist의 잇템 = Open Source Data Intake: Data Lake: ETL: One-shot: EDA: … … … … AI/ML: …
  • 12. 12 / 26 BigData & AI 관련 Landscape http://mattturck.com/matt-turck-firstmark-big-data-landscape-2018/
  • 13. © 2018 NHN FORWARD. All rights reserved. Data Platform @ 데이터테크랩
  • 14. 14 / 26 우리는 뭐하고 있나? [1] https://www.nytimes.com/2014/08/18/technology/for-big-data-scientists-hurdle-to-insights-is-janitor-work.html?_r=0 어떤 것을 써야 하나 고민할 필요 없이 Data 업무에 집중할 수 있는 통합 솔루션을 만들고 있습니다(가칭 DPP). 특히 데이터 유통 과정 중 가장 많은 비용을 소모[1]하는 Preprocessing, ETL 등을 쉽게 처리하는 것에 중점을 두고 있습니다.
  • 15. 15 / 26 Data Processing Platform Overview 다양한 내외부 DataSource 연동 이벤트 기반 워크플로 엔진 제공 데이터에 최적화된 Mart(Data Connector) 작업 컨트롤, 데이터 전달을 위한 API GW 및 ADMIN
  • 16. 16 / 26 서로 연관된 작업이지만 분리되어 작동 이벤트(데이터, 시간, 수동 실행)의 구독 신청으로 작업 실행 Feature 1: Event-Driven Workflow
  • 17. 17 / 26 Feature 2: Seamless Workflow 여러 서비스 or 클러스터 간 스케줄링 - 서비스마다 스케줄러 구성 불필요 - 기능별 매니저의 분리 - 단순한 설치로 여러 서비스 운용 가능
  • 18. 18 / 26 Feature 3: Detect Data Modification hdfs:///foo/bar/ 변경 file:///ftp_get/parse_me.tsv 외부 유입 jdbc:mysql://pull_me:3306 추적 관찰 DataDog의 변경 감지 변경/생성 Data Event 발행 구독 작업의 실행
  • 19. 19 / 26 Feature 4: JobSubmit-Less 전통적인 WorkFlow Engine은? 작성한 작업과는 별도로 DAG 기반 명세서를 추가로 작성하고 제출해야 함
  • 20. 20 / 26 Feature 4: JobSubmit-Less (계속) 자신만의 작업 일정을 GUI, CLI 등을 통해 설정 후 바로 적용
  • 21. 21 / 26 Feature 5: Data Processing Template 빈번하게 작성되는 작업의 Template 제공 - 파싱, 외부 데이터 적재, DB 덤프 등
  • 22. 22 / 26 Feature 6: WorkFlow = Data Lineage 작업/Data의 이력 관리 - 발행/구독 관계가 곧 족보 - 작업, 데이터의 영향도 파악 가능 - 자동 복구
  • 23. DEMO : hello-dpp 외부 데이터 유입 감지 유입 데이터 파싱/테이블 생성 테이블 변경 시 쿼리 결과 메일 전송
  • 24.
  • 25. Q&A
  • 26. © 2018 NHN FORWARD. All rights reserved. THANK YOU