SlideShare uma empresa Scribd logo
1 de 40
Baixar para ler offline
장바구니를 든 데이터 사이언티스트
이커머스 회사에서 그들은 무엇을 할까?
이진형(samjin0@gmail.com)
데이터 사이언티스트는?
● 수학 & 통계
○ 머신러닝
○ 통계
○ 최적화
● 프로그래밍 & 데이터베이스
○ Python or R
○ SQL
○ Hadoop
● 도메인 지식 & 소프트 스킬
○ 비즈니스에 대한 열정
○ 데이터에 대한 호기심
○ 문제 해결 능력
● 커뮤니케이션 & 시각화
○ 임원 대상 보고 스킬
○ 데이터 기반 의사결정
○ 시각화 툴 이용(MSTR, Tableau 등)
이런 것들을 다 할 줄 알아야 한데요….
정말 이런 능력들이 일하는데 모두다 필요할까요?
이커머스 회사에 근무하는 한 데이터 사이언티스트의
생활을 살펴 보시죠.
문제 인식
먼저 회사에서 일어나는 여러가지 상황들에 대해서 생각을 합니다.
고객들이 장바구니에 물건을 담은 뒤
안사는 이유는 무엇일까?
우리가 추천하는 상품들을 고객들이 잘
구매하고 있을까?
우리가 광고를 효과적으로 하고 있을까?
회의
인식한 상황에 대해서 함께 이야기 해봅니다.
문제 정의
여러 문제 중 우선순위를 판단하여 한 가지 과제를 선정합니다.
장바구니에 담긴 상품을 미구매 하는 원인을 파악하고, 구매하도록 해보자!
출처 : http://www.nbnnews.co.kr/news/articleView.html?idxno=94316
선행연구 조사
출처 :
https://news.sap.com/korea/2018/08/sap-2018-sap-%EC%86%8C%EB%B9%84%EC%9E%90-%EC%84%B1%ED%9
6%A5-%EB%B3%B4%EA%B3%A0%EC%84%9C-%EB%B0%9C%ED%91%9C/
기존에 비슷한 문제를 연구한 사례가 있는지 조사!
선행연구 조사
선행연구 조사
한국인이
선행연구 조사
설문 조사
필요한 정보를 얻기 위해서 설문조사도 해보고...
우리가 가지고 있는 데이터에서 답을 찾아보자.
탐색적분석 Exploratory Data Analysis (EDA)
● 고객은 장바구니에 상품은 평균 몇 개를 담는가
● 장바구니에 물건을 담고 얼마만에 사는가?
● 그 외에 원인을 찾기 위한 다양한 분석을…..
선행연구 조사 및 데이터 분석의 결론
상품 비교
찜하기
구매
가격 부담
재고 없음
깜빡함
유사 상품
구매
구매 의사 포기 원인
장바구니를 이용하는 목적과 구매 포기하는 다양한 이유가 있다.
상품 비교
찜하기
구매
가격 부담
재고 없음
깜빡함
유사 상품 구매
구매 의사 포기 원인
과제를 위한 목표 선정
이 중에 구매 의지가 있지만, 아직 못산 고객에 집중해보자.
가설 정의
구매 의사가 있는데 깜빡한 사람에게 푸시 메시지로 다시 알려주면 구매 할꺼야?!
실험 설계
● 누구에게 보낼까?
● 몇 시에 보낼까?
● 얼마나 자주 보낼까?
● 어떤 메시지로 보낼까?
● 어떤 상품을 보낼까?
● 실험군과 대조군을 어떻게 나눌 것인가?
실험을 하기 위해서 필요한 준비사항을 파악해야 합니다.
필요 데이터 정의
● 누구에게 보낼까?
○ x일 내 장바구니에 상품을 담고 미구매한 고객
● 몇 시에 보낼까?
○ 고객별 활성화 시간 파악 후 그 시간에
● 얼마나 자주 보낼까?
○ 고객의 푸시 알림 해지 현황 파악
● 어떤 메시지로 보낼까?
○ 상품의 특성에 따라
● 어떤 상품을 보낼까?
○ 고객이 구매할만한 상품
● 실험군과 대조군을 어떻게 나눌 것인가?(A/B Test)
○ 2:8, 5:5, ….
고객
장바구니
상품
주문
DATA
실험에 필요한 준비 사항에 대해서 정의하고, 데이터를 추출합니다.
데이터 추출 로직 개발(SQL Query)
데이터 추출 & 기다림….
결과는 언제 나오는 거야…..
데이터 추출 성능 최적화(SQL Tuning)
데이터 추출 로직을 튜닝하면 1시간 기다릴 데이터가 1분만에 나옵니다.
10번의 비슷한 작업을 한다면 10시간이 걸릴 것이 10분이면 됩니다.
데이터 추출
추출
검증
수정
원하는 결과가 나올 때까지 데이터를 뽑고, 검증하고 개선해서 추출 하는 작업을 반복합니다.
실험 수행
실험 대상, 상품, 메시지들이 준비되면 푸시 메시지를 발송합니다.
실험 수행
평가 지표 정의
● CTR(클릭율)
● CVR(전환율)
● GMV(거래액)
● OPT-OUT(수신 거부 건)
실험의 성과를 검증하기 위해서는 평가 지표를 정의해야 합니다.
평가 데이터 추출 로직 개발(SQL Query & Big Data )
실험이 종료되면 평가에 필요한 데이터를 추출합니다.
고객, 상품, 거래 정보는 DB에서… Log는 Hadoop에서...
데이터 추출 성능 최적화(SQL Tuning)
집에 일찍 가려면 또 다시 튜닝을 해야 돼요.
평가 데이터 추출
추출
검증
수정
지표 추가
시각화
실험 결과를 보기 좋게 시각화 합니다. 시각화 솔루션을 이용하면
보고서를 다시 만드는 작업을 줄여줍니다.
결과 분석
실험 결과에 대해서 평가지표를 확인하고 통계적으로 유의미한지 검증합니다.
임원 보고 및 의사결정
상용화 재실험 or 종료
실험 결과에 대해서 보고 후 상용화 여부를 확정합니다.
프로젝트 종료
프로젝트 고도화
향후계획
- 푸시 문구 개선
- 연관 상품 추천
- 대체 상품 추천
- ….
과학자의 연구 프로세스
이커머스 데이터 과학자의 업무 프로세스
이번 프로젝트에서 이용한 스킬
● 수학 & 통계
○ 머신러닝
○ 통계
○ 최적화
● 프로그래밍& 데이터베이스
○ Python or R
○ SQL
○ Hadoop
● 도메인지식 & 소프트스킬
○ 비즈니스에대한 열정
○ 데이터에대한 호기심
○ 문제 해결 능력
● 커뮤니케이션& 시각화
○ 임원 대상 보고 스킬
○ 데이터기반 의사결정
○ 시각화툴 이용(MSTR, Tableau 등)
그렇습니다… 결국 모든 스킬들이 다 필요하네요….
데이터 사이언티스트는 팀이다
하지만! 혼자 모든 것을 하는 것이 아닙니다.
결론
데이터 과학자는 기업에서 발생하는 문제를
데이터에서 원인과 답을 찾고 현장에 적용해서
더 나은 서비스를 제공하는 사람들.
감사합니다.

Mais conteúdo relacionado

Mais procurados

Mais procurados (20)

[우리가 데이터를 쓰는 법] 좋다는 건 알겠는데 좀 써보고 싶소. 데이터! - 넘버웍스 하용호 대표
[우리가 데이터를 쓰는 법] 좋다는 건 알겠는데 좀 써보고 싶소. 데이터! - 넘버웍스 하용호 대표[우리가 데이터를 쓰는 법] 좋다는 건 알겠는데 좀 써보고 싶소. 데이터! - 넘버웍스 하용호 대표
[우리가 데이터를 쓰는 법] 좋다는 건 알겠는데 좀 써보고 싶소. 데이터! - 넘버웍스 하용호 대표
 
스타트업은 데이터를 어떻게 바라봐야 할까? (개정판)
스타트업은 데이터를 어떻게 바라봐야 할까? (개정판)스타트업은 데이터를 어떻게 바라봐야 할까? (개정판)
스타트업은 데이터를 어떻게 바라봐야 할까? (개정판)
 
2011 H3 컨퍼런스-파이썬으로 클라우드 하고 싶어요
2011 H3 컨퍼런스-파이썬으로 클라우드 하고 싶어요2011 H3 컨퍼런스-파이썬으로 클라우드 하고 싶어요
2011 H3 컨퍼런스-파이썬으로 클라우드 하고 싶어요
 
[NDC18] 야생의 땅 듀랑고의 데이터 엔지니어링 이야기: 로그 시스템 구축 경험 공유
[NDC18] 야생의 땅 듀랑고의 데이터 엔지니어링 이야기: 로그 시스템 구축 경험 공유[NDC18] 야생의 땅 듀랑고의 데이터 엔지니어링 이야기: 로그 시스템 구축 경험 공유
[NDC18] 야생의 땅 듀랑고의 데이터 엔지니어링 이야기: 로그 시스템 구축 경험 공유
 
로그 기깔나게 잘 디자인하는 법
로그 기깔나게 잘 디자인하는 법로그 기깔나게 잘 디자인하는 법
로그 기깔나게 잘 디자인하는 법
 
대용량 로그분석 Bigquery로 간단히 사용하기 (20170215 T아카데미)
대용량 로그분석 Bigquery로 간단히 사용하기 (20170215 T아카데미)대용량 로그분석 Bigquery로 간단히 사용하기 (20170215 T아카데미)
대용량 로그분석 Bigquery로 간단히 사용하기 (20170215 T아카데미)
 
Data pipeline and data lake
Data pipeline and data lakeData pipeline and data lake
Data pipeline and data lake
 
데이터가 흐르는 조직 만들기 - 마이리얼트립
데이터가 흐르는 조직 만들기 - 마이리얼트립데이터가 흐르는 조직 만들기 - 마이리얼트립
데이터가 흐르는 조직 만들기 - 마이리얼트립
 
[KAIST 채용설명회] 데이터 엔지니어는 무슨 일을 하나요?
[KAIST 채용설명회] 데이터 엔지니어는 무슨 일을 하나요?[KAIST 채용설명회] 데이터 엔지니어는 무슨 일을 하나요?
[KAIST 채용설명회] 데이터 엔지니어는 무슨 일을 하나요?
 
「指標」を支えるエンジニアリング: DataOpsNight #1
「指標」を支えるエンジニアリング: DataOpsNight #1「指標」を支えるエンジニアリング: DataOpsNight #1
「指標」を支えるエンジニアリング: DataOpsNight #1
 
Massive service basic
Massive service basicMassive service basic
Massive service basic
 
지금이라도 알게되어 다행인, 새해 계획 잘 세우는 법
지금이라도 알게되어 다행인, 새해 계획 잘 세우는 법지금이라도 알게되어 다행인, 새해 계획 잘 세우는 법
지금이라도 알게되어 다행인, 새해 계획 잘 세우는 법
 
오늘 밤부터 쓰는 google analytics (구글 애널리틱스, GA)
오늘 밤부터 쓰는 google analytics (구글 애널리틱스, GA) 오늘 밤부터 쓰는 google analytics (구글 애널리틱스, GA)
오늘 밤부터 쓰는 google analytics (구글 애널리틱스, GA)
 
실전 스타트업 데이터분석: 소셜데이팅 이음은 이렇게 한다
실전 스타트업 데이터분석: 소셜데이팅 이음은 이렇게 한다실전 스타트업 데이터분석: 소셜데이팅 이음은 이렇게 한다
실전 스타트업 데이터분석: 소셜데이팅 이음은 이렇게 한다
 
[Causal Inference KR] 스타트업에서의 인과추론
[Causal Inference KR] 스타트업에서의 인과추론[Causal Inference KR] 스타트업에서의 인과추론
[Causal Inference KR] 스타트업에서의 인과추론
 
Spark + S3 + R3를 이용한 데이터 분석 시스템 만들기
Spark + S3 + R3를 이용한 데이터 분석 시스템 만들기Spark + S3 + R3를 이용한 데이터 분석 시스템 만들기
Spark + S3 + R3를 이용한 데이터 분석 시스템 만들기
 
실리콘 밸리 데이터 사이언티스트의 하루
실리콘 밸리 데이터 사이언티스트의 하루실리콘 밸리 데이터 사이언티스트의 하루
실리콘 밸리 데이터 사이언티스트의 하루
 
How To Become Better Engineer
How To Become Better EngineerHow To Become Better Engineer
How To Become Better Engineer
 
데이터 기반 성장을 위한 선결 조건: Product-Market Fit, Instrumentation, 그리고 프로세스
데이터 기반 성장을 위한 선결 조건: Product-Market Fit, Instrumentation, 그리고 프로세스데이터 기반 성장을 위한 선결 조건: Product-Market Fit, Instrumentation, 그리고 프로세스
데이터 기반 성장을 위한 선결 조건: Product-Market Fit, Instrumentation, 그리고 프로세스
 
Power Query Online
Power Query OnlinePower Query Online
Power Query Online
 

Semelhante a 장바구니를 든 데이터 사이언티스트

스타트업의 데이터 분석
스타트업의 데이터 분석스타트업의 데이터 분석
스타트업의 데이터 분석
Hyunjong Wi
 

Semelhante a 장바구니를 든 데이터 사이언티스트 (20)

애자일 머신러닝
애자일 머신러닝애자일 머신러닝
애자일 머신러닝
 
Learning dataanalyst 2020oct_yonsei
Learning dataanalyst 2020oct_yonseiLearning dataanalyst 2020oct_yonsei
Learning dataanalyst 2020oct_yonsei
 
더 나은 사용자 경험과 비즈니스를 만들기 위한 프로덕트 매니저로 일하기
더 나은 사용자 경험과 비즈니스를 만들기 위한 프로덕트 매니저로 일하기더 나은 사용자 경험과 비즈니스를 만들기 위한 프로덕트 매니저로 일하기
더 나은 사용자 경험과 비즈니스를 만들기 위한 프로덕트 매니저로 일하기
 
[데이터야놀자 2023] 비즈니스 분석가 vs 프로덕트 분석가_ 데이터 분석ᄀ...
[데이터야놀자 2023]  비즈니스 분석가 vs 프로덕트 분석가_ 데이터 분석ᄀ...[데이터야놀자 2023]  비즈니스 분석가 vs 프로덕트 분석가_ 데이터 분석ᄀ...
[데이터야놀자 2023] 비즈니스 분석가 vs 프로덕트 분석가_ 데이터 분석ᄀ...
 
스타트업의 데이터 분석
스타트업의 데이터 분석스타트업의 데이터 분석
스타트업의 데이터 분석
 
How to Create Value from Data, and Its Difficulty
How to Create Value from Data, and Its DifficultyHow to Create Value from Data, and Its Difficulty
How to Create Value from Data, and Its Difficulty
 
프로덕트 매니저 8년의 경험
프로덕트 매니저 8년의 경험프로덕트 매니저 8년의 경험
프로덕트 매니저 8년의 경험
 
Display Ads Platform에 대한 약간 그럴싸한 안내와 잡담
Display Ads Platform에 대한 약간 그럴싸한 안내와 잡담Display Ads Platform에 대한 약간 그럴싸한 안내와 잡담
Display Ads Platform에 대한 약간 그럴싸한 안내와 잡담
 
제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [굿아이디어스] : 아이디어스 작가를 위한 비지니스 대시보드
제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [굿아이디어스] : 아이디어스 작가를 위한 비지니스 대시보드제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [굿아이디어스] : 아이디어스 작가를 위한 비지니스 대시보드
제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [굿아이디어스] : 아이디어스 작가를 위한 비지니스 대시보드
 
글로벌 사례로 보는 데이터로 돈 버는 법 - 트레저데이터 (Treasure Data)
글로벌 사례로 보는 데이터로 돈 버는 법 - 트레저데이터 (Treasure Data)글로벌 사례로 보는 데이터로 돈 버는 법 - 트레저데이터 (Treasure Data)
글로벌 사례로 보는 데이터로 돈 버는 법 - 트레저데이터 (Treasure Data)
 
데이터를 비즈니스에 활용하기 왜 어려울까?
데이터를 비즈니스에 활용하기 왜 어려울까?데이터를 비즈니스에 활용하기 왜 어려울까?
데이터를 비즈니스에 활용하기 왜 어려울까?
 
[팝콘 시즌1] 윤석진 : 조직의 데이터 드리븐 문화를 위해 극복해야하는 문제들
[팝콘 시즌1] 윤석진 : 조직의 데이터 드리븐 문화를 위해 극복해야하는 문제들[팝콘 시즌1] 윤석진 : 조직의 데이터 드리븐 문화를 위해 극복해야하는 문제들
[팝콘 시즌1] 윤석진 : 조직의 데이터 드리븐 문화를 위해 극복해야하는 문제들
 
ITCT 사용자 중심 디자인 특강 - spoqa 남유정 UX designer
ITCT 사용자 중심 디자인 특강 - spoqa 남유정 UX designerITCT 사용자 중심 디자인 특강 - spoqa 남유정 UX designer
ITCT 사용자 중심 디자인 특강 - spoqa 남유정 UX designer
 
[PAP] 팝콘 시즌 1 컨퍼런스 사전 QnA
[PAP] 팝콘 시즌 1 컨퍼런스 사전 QnA[PAP] 팝콘 시즌 1 컨퍼런스 사전 QnA
[PAP] 팝콘 시즌 1 컨퍼런스 사전 QnA
 
[도서 리뷰] 헤드 퍼스트 데이터 분석 ( Head First Data Analysis )
[도서 리뷰]  헤드 퍼스트 데이터 분석 ( Head First Data Analysis )[도서 리뷰]  헤드 퍼스트 데이터 분석 ( Head First Data Analysis )
[도서 리뷰] 헤드 퍼스트 데이터 분석 ( Head First Data Analysis )
 
서비스 기획자의 데이터 분석
서비스 기획자의 데이터 분석서비스 기획자의 데이터 분석
서비스 기획자의 데이터 분석
 
[AKC2021] 힐링페이퍼의 애자일 전환(고찬혁 / 김종우)
[AKC2021] 힐링페이퍼의 애자일 전환(고찬혁 / 김종우)[AKC2021] 힐링페이퍼의 애자일 전환(고찬혁 / 김종우)
[AKC2021] 힐링페이퍼의 애자일 전환(고찬혁 / 김종우)
 
인공지능, 머신러닝의 이해 강의자료 2019.12.20
인공지능, 머신러닝의 이해 강의자료 2019.12.20인공지능, 머신러닝의 이해 강의자료 2019.12.20
인공지능, 머신러닝의 이해 강의자료 2019.12.20
 
분석 현장에서 요구되는 데이터과학자의 역량과 자질
분석 현장에서 요구되는 데이터과학자의 역량과 자질분석 현장에서 요구되는 데이터과학자의 역량과 자질
분석 현장에서 요구되는 데이터과학자의 역량과 자질
 
마케팅강의 08
마케팅강의 08마케팅강의 08
마케팅강의 08
 

장바구니를 든 데이터 사이언티스트