SlideShare a Scribd company logo
1 of 16
Download to read offline
분석전문가 5 기 우수사례 
국내 문학 신간 서적의 
판매량 예측 모델 개발 
멘토 : 김도현 
조원 : 나성호, 고민정, 박대 
건, 최태웅, 유성용
팀 소개 
KPDCH팀 
나성호 수석 고민정 수석 박대건 대표 최태웅 연구원 유성용 주임 
(Kevin) (Peter) (David) (Camel) (Harvey) 
하나금융 
경영연구소 케이에스비퓨처 케이에스비퓨처 ㈜ 오픈메이트 국민건강보험 
모델링 & PT 텍스트 마이닝 데이터 마트 데이터 마트 텍스트 마이닝 
2 / 16
목차 
Ⅰ. 개요 
① 나는 궁금합니다!! 
② 그래서 물었습니다. 왜 필요하신가요? 
③ MD 의 요구사항 구체화하기 
Ⅱ. 데이터마트 
④ Data 를 확보하라! (브레인스토밍) 
⑤ 데이터마트의 구축 
⑥ 종속변수의 정의 
Ⅲ. 분석방법론 
⑦ 회귀모형에 사용할 독립변수의 선택 
⑧ 다양한 회귀모형 생성 (다중회귀모형, GLM) 
⑨ 회귀모형 간 적합도 비교 (w/ MAPE) 
Ⅳ. 결론 
⑩ 회귀방정식의 완성 및 해석 
⑪ KPDCH 의 솔루션, 이렇게 활용해보세요. 
⑫ 프로젝트를 마무리하며 … 
3 / 16
나는 궁금합니다 !! 
대형 온라인서점 Y사의 
국내문학 상품기획자(MD) 
신간 서적이 나오면 
이 책이 얼마나 팔릴지 
미리 예측해야 하는데… 
좋은 방법이 없을까요?? 
4 / 16
그래서 물었습니다 . 왜 필요하신가요 ? 
예상 판매량 
실제 판매량 
 판매 전 , 출판사는 기분 좋고 
MD의 어깨는 으쓱해지나, 
 판매 후 , 월말 악성재고로 남 
아 
매몰비용이 증가됨 
[Case Ⅰ] 
예상 판매량 
실제 판매량 
 판매 전 , 출판사는 마음 상하 
고 
MD는 민망해질 뿐만 아니라, 
 판매 후 , 영업기회 상실에 따라 
기회비용이 증가됨 
[Case Ⅱ] 
5 / 16
MD의 요구사항 구체화하기 
Y서점 
MD 
국내문학 신간 서적의 판매량을 가능 
한 
정확하게 예측하고 싶습니다. 
KPDCH 
구체적인 판매량을 알고 싶으신가요? 
아니면 예상 등급 정도면 될까요? 
Y서점 
MD 
구체적인 수량으로 알려주시면 제가 
예상 
등급을 만들어 사용할 수 있을 것 같 
아요. 
KPDCH 
그렇다면, 회귀분석을 이용해서 판매 
량을 
예측하는 모델을 만들어 드리겠습니다 
. 
6 / 16
Data를 확보하라 ! (브레인스토밍 ) 
Y 사로부터 
정형 데이터 
확보 
인터넷에서 
베스트셀러 
정보 크롤링 
통계청에서 
제공하는 
데이터 활용 
저자 정보 
출판사 정보 
신간 서적 정보 
서적 일별 판매량 
파생변수 생성 등 
네이버 책 (Book) 
사이트에서 대형 
온라인 서점 6개사 
베스트셀러 정보를 
주 단위로 공개 
가구당 소득/지출 
→ 가처분소득 
도서 판매액 
소비심리지수 
실업률 등 
7 / 16
데이터마트의 구축① 
온라인 서점 Y사로부터 받은 정형데이터로 다양한 파생변수 생성 
ISBN(13) 도서명 출간일자 작가번호 출판사코드 정가 분야번호 
9788994… 별을 사랑 20130615 1556 100634 6,000 001006 
9788997… 이어령의 20130506 1703 107513 45,000 001006 
9788954… 그 여자의 20130114 51032 6 11,000 001006 
9788932… 견딜 수 20130115 51036 79 8,000 001006 
: : : : : : : 
ISBN(13) 날짜 판매량 
9788994… 20130615 1 
9788994… 20130616 3 
9788994… 20130617 2 
9788994… 20130618 2 
: : : 
작가번호 출판 종수 누적판매량 
1556 2 4,301 
1703 45 20,054 
51032 13 2,435 
51036 7 521 
: : : 
전체 출판 종수 : 20만여 
권 
일 판매량 : 100만여 건 
작가 수 : 7 만여 명 
출판사 수 : 2만여 개 
출판사코드 출판 종수 누적판매량 
100634 302 10,296 
107513 1745 242,154 
6 25 7,568 
79 61 14,325 
: : : 
8 / 16
데이터마트의 구축② 
네이버 책 사이트에서 6대 온라인 서점의 베스트셀러 정보 크롤링 
온라인 서점명 
장르명 
날짜 정보 (년/월/주차) 
베스트셀러 순위 (1~100위 
) 
도서명 
저자명 
출판사명 
ISBN(13) 
9 / 16
종속변수의 정의 
2013년 국내문학 신간 도서 866권의 출간 이후 14 일간 판매량 합계 
0 권 : 253종 
100권 이하 : 497 
종 
200권 이하 : 46 
종 
200권 초과 : 70 
종 
최소 : 0권 
최대 : 3,643권 
평균 : 85권 
정규분포가 아닌 
포아송분포 형태 
Y에 
log 
10 / 
16
회귀모형에 사용할 독립변수의 선택 
준비된 독립변수는 총 42개. 
이 중 종속변수와의 유의확률이 0.05 이하인 변수만 회귀모형에 적용 
Y사 데이터 베스트셀러 데이터 통계청 데이터 
독립변수 
판매지수(경영) 
판매지수(인문) 
판매지수(자/ 
계) 
판매지수(문학) 
저자지수(1w) 
저자지수(2w) 
출판사지수(3w) 
출판사지수(4w) 
: 
독립변수 
저자 출판종수 
저자 총판매량 
저자 평균판매량 
출판사 출판종수 
출판사 총판매량 
출판사 평균판매 
량 
가격(정가) 
최근 12M 판매량 
: 
상관계수 P-value 
0.165 9.5e-07 
0.433 2.2e-16 
0.408 2.2e-16 
0.080 0.019 
0.148 1.2e-05 
0.263 3.1e-15 
-0.021 0.536 
0.280 2.2e-16 
: : 
상관계수 P-value 
-0.027 0.436 
-0.018 0.587 
0.038 0.268 
0.004 0.905 
0.625 4.0e-09 
0.794 2.3e-14 
0.277 2.2e-16 
0.240 7.6e-13 
: : 
독립변수 
가구 총소득 (Q) 
가구 총소비 (Q) 
도서 소비 (Q) 
소비심리지수(M) 
경기예상지수(M) 
도소매 판매액 (M) 
온라인 판매액 (M) 
실업률(M) 
: 
상관계수 P-value 
-0.037 0.270 
-0.034 0.452 
-0.012 0.725 
-0.014 0.680 
0.004 0.898 
-0.012 0.732 
-0.032 0.342 
-0.015 0.664 
: : 
사용 가능 독립변수의 개수 
42개 → 24개 
11 / 
16
다양한 선형 회귀모형 생성 
① 다중회귀분석 (stepwise 방식) 
# linear model 
> reg <- D14_SALE ~ . 
> lm.tr <- step(lm(reg, 
data=bookdb.tr), 
direction=“backward”)) 
> summary(lm.tr) 
② 일반화 선형모형(GLM) 
# GLM, poisson regression 
> glm.pos <- glm(reg, 
data=bookdb.tr, 
family=poisson(link=log))) 
> summary(glm.pos) 
# GLM, Negative Binomial regression 
> glm.nbr <- glm.nb(reg, data= 
bookdb.tr, method=“glm.fit”, 
link=log)) 
> summary(glm.nbr) 
12 / 
16 
 다중회귀분석 과정 
- 전체 데이터를 Training data(80%) 와 Test 
data (20%) 로 임의로 나눈 후 , 
- Training data 로 stepwise 방식의 회귀식 생 
성 
- VIF 10 이상인 변수 제거 (다중공선성 해결) 
- Cook’s Distance 가 2 이상인 값 제거 
(Outlier)
회귀모형 간 적합도 비교 
MAPE(평균절대백분율오차) 사용 
# Mean Absolute Percentage Error 
실제값 대비 실제값과 예측값 편차 비 
율의 
평균. 0 에 가까울수록 모델 적합도 좋 
음 
# 모형 평가 지표 
Max Error, 오분류율, Min/Max Error, 
sMAPE, MAE, RSS 등이 있음 
선형모델간 적합도 비교 (w/ MAPE) 
선형모델 MAPE 
1. Linear Model 0.4517 
2. GLM Poisson 0.4635 
3. GLM Negative Binomial 0.7605 
회귀분석에는 수많은 형태가 있지만, 
사용자가 쉽게 이해할 수 있고, 
적용이 편리한 모델을 사용하는 것이 좋음 
13 / 
16
회귀 방정식의 완성 및 해석 
우리는 이 회귀방정식으로부터, 
저자의 기존 서적들이 베스트셀러에 등록 
될수록 신간 서적이 더 많이 팔리며, 
출판사보다 저자의 영향력이 더 크며, 
특히, 신간 서적의 출판일 3 주 전에 저자 
가 베스트셀러로 등록된 경우 , 신간 판매량에 
가장 큰 영향을 미치게 됨을 알 수 있다 . 
변수 계수(β) 표준화 
Y 절편 14.7 - 
저자 총 판매량 0.0004 0.063 
저자 최근 3개월 간 판매 
량 
-0.02 -0.083 
저자 베스트셀러 지수 (1w) -47.2 -0.198 
저자 베스트셀러 지수 (2w) 90.2 0.321 
저자 베스트셀러 지수 (3w) 215.7 0.802 
저자 베스트셀러 지수 (4w) -30.3 -0.094 
출판사 베스트셀러 지수 
7.84 0.071 
(4w) 
종속변수에 영향을 크게 주는 변수의 순서 
① 저자 베스트셀러 지수 _3w 
② 저자 베스트셀러 지수 _2w 
③ 저자 베스트셀러 지수 _1w 
14 / 
16
KPDCH의 솔루션 , 이렇게 활용해보세요 . 
신간 서적의 ‘출간 후 14 일 간 판매량 추정’ → 상위 30% 대상 프로모션 
진행 
1,000권 이상 
100권 이상 
10 권 이상 
1권 이상 
□ Test Data로 회귀방정식 검증한 결과 
예측값 
(누적) 
1,000 
권 
이상 
100권 
이상 
10권 
이상 
1권 
이상 
1권 
미만 
누적 
종수 
6종 20종 162종 169종 177종 
100권 
점유비 
66.7% 50.0% 9.9% 10.1% 10.2% 
[ROC curve & Lift chart] 
Optimal 
point 
* 판매량 1, 2위 서적의 순위를 정확하게 맞힘 
(권) 
15 / 
16
프로젝트를 마무리하며 … 
통찰력 
(Insight) 
KPDCH 
사람들이 언제, 왜 
책을 사는지 이유를 
알아야 했습니다. 
서점의 데이터와 
웹 크롤링 결과로 
파생변수를 만들어 
부족한 인사이트는 
브레인스토밍과 
구글링으로 채웠고 , 
처음 배우는 ‘ R’은 
많은 시간과 노력을 
요구했습니다만, 
여러 가지 회귀분석 
기법으로 예측모델을 
만들었습니다. 
그간의 과정을 
이렇게 공유하게 
되어 기쁩니다. 
상상력 
(Imagina-tion) 
정보력 
(Know-where) 
문제해결력 
(Know- 
How) 
열정 
(Passion) 
의사소통 
(Communi-cation)

More Related Content

Viewers also liked

트렌드분석사례 마인즈랩 축제페스티벌
트렌드분석사례 마인즈랩 축제페스티벌트렌드분석사례 마인즈랩 축제페스티벌
트렌드분석사례 마인즈랩 축제페스티벌Taejoon Yoo
 
[패스트캠퍼스]영화 관객수 예측 & Kaggle
[패스트캠퍼스]영화 관객수 예측 & Kaggle[패스트캠퍼스]영화 관객수 예측 & Kaggle
[패스트캠퍼스]영화 관객수 예측 & KaggleElle Chung
 
한글 언어 자원과 R: KoNLP 개선과 활용
한글 언어 자원과 R: KoNLP 개선과 활용한글 언어 자원과 R: KoNLP 개선과 활용
한글 언어 자원과 R: KoNLP 개선과 활용r-kor
 
빅데이터 분석과 모바일 비즈니스 활용전략
빅데이터 분석과 모바일 비즈니스 활용전략빅데이터 분석과 모바일 비즈니스 활용전략
빅데이터 분석과 모바일 비즈니스 활용전략Seungbyung Chae
 
[패스트캠퍼스] 데이터 사이언스 스쿨 조용환_영화 관객수 예측 시스템
[패스트캠퍼스] 데이터 사이언스 스쿨 조용환_영화 관객수 예측 시스템[패스트캠퍼스] 데이터 사이언스 스쿨 조용환_영화 관객수 예측 시스템
[패스트캠퍼스] 데이터 사이언스 스쿨 조용환_영화 관객수 예측 시스템FAST CAMPUS
 
빅데이터 인공지능 전략 및 로드맵
빅데이터 인공지능 전략 및 로드맵빅데이터 인공지능 전략 및 로드맵
빅데이터 인공지능 전략 및 로드맵r-kor
 
알파고 해부하기 2부
알파고 해부하기 2부알파고 해부하기 2부
알파고 해부하기 2부Donghun Lee
 
강화 학습 기초 Reinforcement Learning an introduction
강화 학습 기초 Reinforcement Learning an introduction강화 학습 기초 Reinforcement Learning an introduction
강화 학습 기초 Reinforcement Learning an introductionTaehoon Kim
 
R 프로그래밍-향상된 데이타 조작
R 프로그래밍-향상된 데이타 조작R 프로그래밍-향상된 데이타 조작
R 프로그래밍-향상된 데이타 조작Terry Cho
 
Hadoop과 SQL-on-Hadoop (A short intro to Hadoop and SQL-on-Hadoop)
Hadoop과 SQL-on-Hadoop (A short intro to Hadoop and SQL-on-Hadoop)Hadoop과 SQL-on-Hadoop (A short intro to Hadoop and SQL-on-Hadoop)
Hadoop과 SQL-on-Hadoop (A short intro to Hadoop and SQL-on-Hadoop)Matthew (정재화)
 
[모두의연구소] 쫄지말자딥러닝
[모두의연구소] 쫄지말자딥러닝[모두의연구소] 쫄지말자딥러닝
[모두의연구소] 쫄지말자딥러닝Modulabs
 
R 프로그래밍 기본 문법
R 프로그래밍 기본 문법R 프로그래밍 기본 문법
R 프로그래밍 기본 문법Terry Cho
 
Spark overview 이상훈(SK C&C)_스파크 사용자 모임_20141106
Spark overview 이상훈(SK C&C)_스파크 사용자 모임_20141106Spark overview 이상훈(SK C&C)_스파크 사용자 모임_20141106
Spark overview 이상훈(SK C&C)_스파크 사용자 모임_20141106SangHoon Lee
 

Viewers also liked (20)

분석8기 4조
분석8기 4조분석8기 4조
분석8기 4조
 
R_datamining
R_dataminingR_datamining
R_datamining
 
엑셀마이너를 활용한 데이터 분석
엑셀마이너를 활용한 데이터 분석엑셀마이너를 활용한 데이터 분석
엑셀마이너를 활용한 데이터 분석
 
트렌드분석사례 마인즈랩 축제페스티벌
트렌드분석사례 마인즈랩 축제페스티벌트렌드분석사례 마인즈랩 축제페스티벌
트렌드분석사례 마인즈랩 축제페스티벌
 
기술8기 2조
기술8기 2조기술8기 2조
기술8기 2조
 
기술7기 2조
기술7기 2조기술7기 2조
기술7기 2조
 
RHive tutorial - Installation
RHive tutorial - InstallationRHive tutorial - Installation
RHive tutorial - Installation
 
기술6기 3조
기술6기 3조기술6기 3조
기술6기 3조
 
[패스트캠퍼스]영화 관객수 예측 & Kaggle
[패스트캠퍼스]영화 관객수 예측 & Kaggle[패스트캠퍼스]영화 관객수 예측 & Kaggle
[패스트캠퍼스]영화 관객수 예측 & Kaggle
 
한글 언어 자원과 R: KoNLP 개선과 활용
한글 언어 자원과 R: KoNLP 개선과 활용한글 언어 자원과 R: KoNLP 개선과 활용
한글 언어 자원과 R: KoNLP 개선과 활용
 
빅데이터 분석과 모바일 비즈니스 활용전략
빅데이터 분석과 모바일 비즈니스 활용전략빅데이터 분석과 모바일 비즈니스 활용전략
빅데이터 분석과 모바일 비즈니스 활용전략
 
[패스트캠퍼스] 데이터 사이언스 스쿨 조용환_영화 관객수 예측 시스템
[패스트캠퍼스] 데이터 사이언스 스쿨 조용환_영화 관객수 예측 시스템[패스트캠퍼스] 데이터 사이언스 스쿨 조용환_영화 관객수 예측 시스템
[패스트캠퍼스] 데이터 사이언스 스쿨 조용환_영화 관객수 예측 시스템
 
빅데이터 인공지능 전략 및 로드맵
빅데이터 인공지능 전략 및 로드맵빅데이터 인공지능 전략 및 로드맵
빅데이터 인공지능 전략 및 로드맵
 
알파고 해부하기 2부
알파고 해부하기 2부알파고 해부하기 2부
알파고 해부하기 2부
 
강화 학습 기초 Reinforcement Learning an introduction
강화 학습 기초 Reinforcement Learning an introduction강화 학습 기초 Reinforcement Learning an introduction
강화 학습 기초 Reinforcement Learning an introduction
 
R 프로그래밍-향상된 데이타 조작
R 프로그래밍-향상된 데이타 조작R 프로그래밍-향상된 데이타 조작
R 프로그래밍-향상된 데이타 조작
 
Hadoop과 SQL-on-Hadoop (A short intro to Hadoop and SQL-on-Hadoop)
Hadoop과 SQL-on-Hadoop (A short intro to Hadoop and SQL-on-Hadoop)Hadoop과 SQL-on-Hadoop (A short intro to Hadoop and SQL-on-Hadoop)
Hadoop과 SQL-on-Hadoop (A short intro to Hadoop and SQL-on-Hadoop)
 
[모두의연구소] 쫄지말자딥러닝
[모두의연구소] 쫄지말자딥러닝[모두의연구소] 쫄지말자딥러닝
[모두의연구소] 쫄지말자딥러닝
 
R 프로그래밍 기본 문법
R 프로그래밍 기본 문법R 프로그래밍 기본 문법
R 프로그래밍 기본 문법
 
Spark overview 이상훈(SK C&C)_스파크 사용자 모임_20141106
Spark overview 이상훈(SK C&C)_스파크 사용자 모임_20141106Spark overview 이상훈(SK C&C)_스파크 사용자 모임_20141106
Spark overview 이상훈(SK C&C)_스파크 사용자 모임_20141106
 

Similar to 빅데이터 아카데미 연말평가발표자료 분석5기 우수팀(최종)

서비스 기획자를 위한 데이터분석 시작하기
서비스 기획자를 위한 데이터분석 시작하기서비스 기획자를 위한 데이터분석 시작하기
서비스 기획자를 위한 데이터분석 시작하기승화 양
 
글로벌 주가지수 증감 예측(제1회 미래에셋대우 빅데이터페스티벌, 입상작)
글로벌 주가지수 증감 예측(제1회 미래에셋대우 빅데이터페스티벌, 입상작)글로벌 주가지수 증감 예측(제1회 미래에셋대우 빅데이터페스티벌, 입상작)
글로벌 주가지수 증감 예측(제1회 미래에셋대우 빅데이터페스티벌, 입상작)Hanbin Seo
 
주가 정보 다루기.pdf
주가 정보 다루기.pdf주가 정보 다루기.pdf
주가 정보 다루기.pdfwonyong hwang
 
[데이터야놀자 2023] 비즈니스 분석가 vs 프로덕트 분석가_ 데이터 분석ᄀ...
[데이터야놀자 2023]  비즈니스 분석가 vs 프로덕트 분석가_ 데이터 분석ᄀ...[데이터야놀자 2023]  비즈니스 분석가 vs 프로덕트 분석가_ 데이터 분석ᄀ...
[데이터야놀자 2023] 비즈니스 분석가 vs 프로덕트 분석가_ 데이터 분석ᄀ...Jeongmin Ju
 
레코픽 설명회 15회-개인화 추천(with DMC미디어)
레코픽 설명회 15회-개인화 추천(with DMC미디어)레코픽 설명회 15회-개인화 추천(with DMC미디어)
레코픽 설명회 15회-개인화 추천(with DMC미디어)recopick
 
초단타매매 전략 소개 및 트렌드
초단타매매 전략 소개 및 트렌드초단타매매 전략 소개 및 트렌드
초단타매매 전략 소개 및 트렌드NAVER Engineering
 
글로벌 사례로 보는 데이터로 돈 버는 법 - 트레저데이터 (Treasure Data)
글로벌 사례로 보는 데이터로 돈 버는 법 - 트레저데이터 (Treasure Data)글로벌 사례로 보는 데이터로 돈 버는 법 - 트레저데이터 (Treasure Data)
글로벌 사례로 보는 데이터로 돈 버는 법 - 트레저데이터 (Treasure Data)Treasure Data, Inc.
 
Deview RecoPick팀 AWS에서 추쳔 구현하기
Deview RecoPick팀 AWS에서 추쳔 구현하기Deview RecoPick팀 AWS에서 추쳔 구현하기
Deview RecoPick팀 AWS에서 추쳔 구현하기Chaehyun Lee
 
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [무드등] : 무신사를 활용한 고객 상황에 따른 의류 추천 스타일링 대시보드
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [무드등] : 무신사를 활용한 고객 상황에 따른 의류 추천 스타일링 대시보드제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [무드등] : 무신사를 활용한 고객 상황에 따른 의류 추천 스타일링 대시보드
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [무드등] : 무신사를 활용한 고객 상황에 따른 의류 추천 스타일링 대시보드BOAZ Bigdata
 
Pycon2016 파이썬으로똑똑한주식투자 김대현
Pycon2016 파이썬으로똑똑한주식투자 김대현Pycon2016 파이썬으로똑똑한주식투자 김대현
Pycon2016 파이썬으로똑똑한주식투자 김대현Daehyun (Damon) Kim
 
린분석 with 레진코믹스 ( Lean Analytics with Lezhin Comics )
린분석 with 레진코믹스 ( Lean Analytics with Lezhin Comics )린분석 with 레진코믹스 ( Lean Analytics with Lezhin Comics )
린분석 with 레진코믹스 ( Lean Analytics with Lezhin Comics )정혁 권
 
제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [리뷰의 재발견 팀] : 이커머스 리뷰 유용성 파악 및 필터링
제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [리뷰의 재발견 팀] : 이커머스 리뷰 유용성 파악 및 필터링제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [리뷰의 재발견 팀] : 이커머스 리뷰 유용성 파악 및 필터링
제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [리뷰의 재발견 팀] : 이커머스 리뷰 유용성 파악 및 필터링BOAZ Bigdata
 
[NDC 2011] 게임 개발자를 위한 데이터분석의 도입
[NDC 2011] 게임 개발자를 위한 데이터분석의 도입[NDC 2011] 게임 개발자를 위한 데이터분석의 도입
[NDC 2011] 게임 개발자를 위한 데이터분석의 도입Hoon Park
 
제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [MarketIN팀] : 디지털 마케팅 헬스체킹 서비스
제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [MarketIN팀] : 디지털 마케팅 헬스체킹 서비스제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [MarketIN팀] : 디지털 마케팅 헬스체킹 서비스
제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [MarketIN팀] : 디지털 마케팅 헬스체킹 서비스BOAZ Bigdata
 
韩国Ppt高手收集的ppt图表素材[免积分下载]
韩国Ppt高手收集的ppt图表素材[免积分下载]韩国Ppt高手收集的ppt图表素材[免积分下载]
韩国Ppt高手收集的ppt图表素材[免积分下载]fgf201213
 
[시스템종합설계].pptx
[시스템종합설계].pptx[시스템종합설계].pptx
[시스템종합설계].pptxJohnKim663844
 
포스트 코로나 데이터 시각화 경진대회 - 대상
포스트 코로나 데이터 시각화 경진대회 - 대상포스트 코로나 데이터 시각화 경진대회 - 대상
포스트 코로나 데이터 시각화 경진대회 - 대상DACON AI 데이콘
 
브랜딧) 창업 프랜차이즈 추천 솔루션
브랜딧) 창업 프랜차이즈 추천 솔루션브랜딧) 창업 프랜차이즈 추천 솔루션
브랜딧) 창업 프랜차이즈 추천 솔루션YeongHyun
 
경영빅데이터분석 2조
경영빅데이터분석 2조경영빅데이터분석 2조
경영빅데이터분석 2조ssuser948856
 

Similar to 빅데이터 아카데미 연말평가발표자료 분석5기 우수팀(최종) (20)

서비스 기획자를 위한 데이터분석 시작하기
서비스 기획자를 위한 데이터분석 시작하기서비스 기획자를 위한 데이터분석 시작하기
서비스 기획자를 위한 데이터분석 시작하기
 
글로벌 주가지수 증감 예측(제1회 미래에셋대우 빅데이터페스티벌, 입상작)
글로벌 주가지수 증감 예측(제1회 미래에셋대우 빅데이터페스티벌, 입상작)글로벌 주가지수 증감 예측(제1회 미래에셋대우 빅데이터페스티벌, 입상작)
글로벌 주가지수 증감 예측(제1회 미래에셋대우 빅데이터페스티벌, 입상작)
 
주가 정보 다루기.pdf
주가 정보 다루기.pdf주가 정보 다루기.pdf
주가 정보 다루기.pdf
 
[데이터야놀자 2023] 비즈니스 분석가 vs 프로덕트 분석가_ 데이터 분석ᄀ...
[데이터야놀자 2023]  비즈니스 분석가 vs 프로덕트 분석가_ 데이터 분석ᄀ...[데이터야놀자 2023]  비즈니스 분석가 vs 프로덕트 분석가_ 데이터 분석ᄀ...
[데이터야놀자 2023] 비즈니스 분석가 vs 프로덕트 분석가_ 데이터 분석ᄀ...
 
레코픽 설명회 15회-개인화 추천(with DMC미디어)
레코픽 설명회 15회-개인화 추천(with DMC미디어)레코픽 설명회 15회-개인화 추천(with DMC미디어)
레코픽 설명회 15회-개인화 추천(with DMC미디어)
 
초단타매매 전략 소개 및 트렌드
초단타매매 전략 소개 및 트렌드초단타매매 전략 소개 및 트렌드
초단타매매 전략 소개 및 트렌드
 
글로벌 사례로 보는 데이터로 돈 버는 법 - 트레저데이터 (Treasure Data)
글로벌 사례로 보는 데이터로 돈 버는 법 - 트레저데이터 (Treasure Data)글로벌 사례로 보는 데이터로 돈 버는 법 - 트레저데이터 (Treasure Data)
글로벌 사례로 보는 데이터로 돈 버는 법 - 트레저데이터 (Treasure Data)
 
Deview RecoPick팀 AWS에서 추쳔 구현하기
Deview RecoPick팀 AWS에서 추쳔 구현하기Deview RecoPick팀 AWS에서 추쳔 구현하기
Deview RecoPick팀 AWS에서 추쳔 구현하기
 
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [무드등] : 무신사를 활용한 고객 상황에 따른 의류 추천 스타일링 대시보드
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [무드등] : 무신사를 활용한 고객 상황에 따른 의류 추천 스타일링 대시보드제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [무드등] : 무신사를 활용한 고객 상황에 따른 의류 추천 스타일링 대시보드
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [무드등] : 무신사를 활용한 고객 상황에 따른 의류 추천 스타일링 대시보드
 
Pycon2016 파이썬으로똑똑한주식투자 김대현
Pycon2016 파이썬으로똑똑한주식투자 김대현Pycon2016 파이썬으로똑똑한주식투자 김대현
Pycon2016 파이썬으로똑똑한주식투자 김대현
 
린분석 with 레진코믹스 ( Lean Analytics with Lezhin Comics )
린분석 with 레진코믹스 ( Lean Analytics with Lezhin Comics )린분석 with 레진코믹스 ( Lean Analytics with Lezhin Comics )
린분석 with 레진코믹스 ( Lean Analytics with Lezhin Comics )
 
Crosstarget
Crosstarget Crosstarget
Crosstarget
 
제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [리뷰의 재발견 팀] : 이커머스 리뷰 유용성 파악 및 필터링
제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [리뷰의 재발견 팀] : 이커머스 리뷰 유용성 파악 및 필터링제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [리뷰의 재발견 팀] : 이커머스 리뷰 유용성 파악 및 필터링
제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [리뷰의 재발견 팀] : 이커머스 리뷰 유용성 파악 및 필터링
 
[NDC 2011] 게임 개발자를 위한 데이터분석의 도입
[NDC 2011] 게임 개발자를 위한 데이터분석의 도입[NDC 2011] 게임 개발자를 위한 데이터분석의 도입
[NDC 2011] 게임 개발자를 위한 데이터분석의 도입
 
제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [MarketIN팀] : 디지털 마케팅 헬스체킹 서비스
제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [MarketIN팀] : 디지털 마케팅 헬스체킹 서비스제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [MarketIN팀] : 디지털 마케팅 헬스체킹 서비스
제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [MarketIN팀] : 디지털 마케팅 헬스체킹 서비스
 
韩国Ppt高手收集的ppt图表素材[免积分下载]
韩国Ppt高手收集的ppt图表素材[免积分下载]韩国Ppt高手收集的ppt图表素材[免积分下载]
韩国Ppt高手收集的ppt图表素材[免积分下载]
 
[시스템종합설계].pptx
[시스템종합설계].pptx[시스템종합설계].pptx
[시스템종합설계].pptx
 
포스트 코로나 데이터 시각화 경진대회 - 대상
포스트 코로나 데이터 시각화 경진대회 - 대상포스트 코로나 데이터 시각화 경진대회 - 대상
포스트 코로나 데이터 시각화 경진대회 - 대상
 
브랜딧) 창업 프랜차이즈 추천 솔루션
브랜딧) 창업 프랜차이즈 추천 솔루션브랜딧) 창업 프랜차이즈 추천 솔루션
브랜딧) 창업 프랜차이즈 추천 솔루션
 
경영빅데이터분석 2조
경영빅데이터분석 2조경영빅데이터분석 2조
경영빅데이터분석 2조
 

빅데이터 아카데미 연말평가발표자료 분석5기 우수팀(최종)

  • 1. 분석전문가 5 기 우수사례 국내 문학 신간 서적의 판매량 예측 모델 개발 멘토 : 김도현 조원 : 나성호, 고민정, 박대 건, 최태웅, 유성용
  • 2. 팀 소개 KPDCH팀 나성호 수석 고민정 수석 박대건 대표 최태웅 연구원 유성용 주임 (Kevin) (Peter) (David) (Camel) (Harvey) 하나금융 경영연구소 케이에스비퓨처 케이에스비퓨처 ㈜ 오픈메이트 국민건강보험 모델링 & PT 텍스트 마이닝 데이터 마트 데이터 마트 텍스트 마이닝 2 / 16
  • 3. 목차 Ⅰ. 개요 ① 나는 궁금합니다!! ② 그래서 물었습니다. 왜 필요하신가요? ③ MD 의 요구사항 구체화하기 Ⅱ. 데이터마트 ④ Data 를 확보하라! (브레인스토밍) ⑤ 데이터마트의 구축 ⑥ 종속변수의 정의 Ⅲ. 분석방법론 ⑦ 회귀모형에 사용할 독립변수의 선택 ⑧ 다양한 회귀모형 생성 (다중회귀모형, GLM) ⑨ 회귀모형 간 적합도 비교 (w/ MAPE) Ⅳ. 결론 ⑩ 회귀방정식의 완성 및 해석 ⑪ KPDCH 의 솔루션, 이렇게 활용해보세요. ⑫ 프로젝트를 마무리하며 … 3 / 16
  • 4. 나는 궁금합니다 !! 대형 온라인서점 Y사의 국내문학 상품기획자(MD) 신간 서적이 나오면 이 책이 얼마나 팔릴지 미리 예측해야 하는데… 좋은 방법이 없을까요?? 4 / 16
  • 5. 그래서 물었습니다 . 왜 필요하신가요 ? 예상 판매량 실제 판매량  판매 전 , 출판사는 기분 좋고 MD의 어깨는 으쓱해지나,  판매 후 , 월말 악성재고로 남 아 매몰비용이 증가됨 [Case Ⅰ] 예상 판매량 실제 판매량  판매 전 , 출판사는 마음 상하 고 MD는 민망해질 뿐만 아니라,  판매 후 , 영업기회 상실에 따라 기회비용이 증가됨 [Case Ⅱ] 5 / 16
  • 6. MD의 요구사항 구체화하기 Y서점 MD 국내문학 신간 서적의 판매량을 가능 한 정확하게 예측하고 싶습니다. KPDCH 구체적인 판매량을 알고 싶으신가요? 아니면 예상 등급 정도면 될까요? Y서점 MD 구체적인 수량으로 알려주시면 제가 예상 등급을 만들어 사용할 수 있을 것 같 아요. KPDCH 그렇다면, 회귀분석을 이용해서 판매 량을 예측하는 모델을 만들어 드리겠습니다 . 6 / 16
  • 7. Data를 확보하라 ! (브레인스토밍 ) Y 사로부터 정형 데이터 확보 인터넷에서 베스트셀러 정보 크롤링 통계청에서 제공하는 데이터 활용 저자 정보 출판사 정보 신간 서적 정보 서적 일별 판매량 파생변수 생성 등 네이버 책 (Book) 사이트에서 대형 온라인 서점 6개사 베스트셀러 정보를 주 단위로 공개 가구당 소득/지출 → 가처분소득 도서 판매액 소비심리지수 실업률 등 7 / 16
  • 8. 데이터마트의 구축① 온라인 서점 Y사로부터 받은 정형데이터로 다양한 파생변수 생성 ISBN(13) 도서명 출간일자 작가번호 출판사코드 정가 분야번호 9788994… 별을 사랑 20130615 1556 100634 6,000 001006 9788997… 이어령의 20130506 1703 107513 45,000 001006 9788954… 그 여자의 20130114 51032 6 11,000 001006 9788932… 견딜 수 20130115 51036 79 8,000 001006 : : : : : : : ISBN(13) 날짜 판매량 9788994… 20130615 1 9788994… 20130616 3 9788994… 20130617 2 9788994… 20130618 2 : : : 작가번호 출판 종수 누적판매량 1556 2 4,301 1703 45 20,054 51032 13 2,435 51036 7 521 : : : 전체 출판 종수 : 20만여 권 일 판매량 : 100만여 건 작가 수 : 7 만여 명 출판사 수 : 2만여 개 출판사코드 출판 종수 누적판매량 100634 302 10,296 107513 1745 242,154 6 25 7,568 79 61 14,325 : : : 8 / 16
  • 9. 데이터마트의 구축② 네이버 책 사이트에서 6대 온라인 서점의 베스트셀러 정보 크롤링 온라인 서점명 장르명 날짜 정보 (년/월/주차) 베스트셀러 순위 (1~100위 ) 도서명 저자명 출판사명 ISBN(13) 9 / 16
  • 10. 종속변수의 정의 2013년 국내문학 신간 도서 866권의 출간 이후 14 일간 판매량 합계 0 권 : 253종 100권 이하 : 497 종 200권 이하 : 46 종 200권 초과 : 70 종 최소 : 0권 최대 : 3,643권 평균 : 85권 정규분포가 아닌 포아송분포 형태 Y에 log 10 / 16
  • 11. 회귀모형에 사용할 독립변수의 선택 준비된 독립변수는 총 42개. 이 중 종속변수와의 유의확률이 0.05 이하인 변수만 회귀모형에 적용 Y사 데이터 베스트셀러 데이터 통계청 데이터 독립변수 판매지수(경영) 판매지수(인문) 판매지수(자/ 계) 판매지수(문학) 저자지수(1w) 저자지수(2w) 출판사지수(3w) 출판사지수(4w) : 독립변수 저자 출판종수 저자 총판매량 저자 평균판매량 출판사 출판종수 출판사 총판매량 출판사 평균판매 량 가격(정가) 최근 12M 판매량 : 상관계수 P-value 0.165 9.5e-07 0.433 2.2e-16 0.408 2.2e-16 0.080 0.019 0.148 1.2e-05 0.263 3.1e-15 -0.021 0.536 0.280 2.2e-16 : : 상관계수 P-value -0.027 0.436 -0.018 0.587 0.038 0.268 0.004 0.905 0.625 4.0e-09 0.794 2.3e-14 0.277 2.2e-16 0.240 7.6e-13 : : 독립변수 가구 총소득 (Q) 가구 총소비 (Q) 도서 소비 (Q) 소비심리지수(M) 경기예상지수(M) 도소매 판매액 (M) 온라인 판매액 (M) 실업률(M) : 상관계수 P-value -0.037 0.270 -0.034 0.452 -0.012 0.725 -0.014 0.680 0.004 0.898 -0.012 0.732 -0.032 0.342 -0.015 0.664 : : 사용 가능 독립변수의 개수 42개 → 24개 11 / 16
  • 12. 다양한 선형 회귀모형 생성 ① 다중회귀분석 (stepwise 방식) # linear model > reg <- D14_SALE ~ . > lm.tr <- step(lm(reg, data=bookdb.tr), direction=“backward”)) > summary(lm.tr) ② 일반화 선형모형(GLM) # GLM, poisson regression > glm.pos <- glm(reg, data=bookdb.tr, family=poisson(link=log))) > summary(glm.pos) # GLM, Negative Binomial regression > glm.nbr <- glm.nb(reg, data= bookdb.tr, method=“glm.fit”, link=log)) > summary(glm.nbr) 12 / 16  다중회귀분석 과정 - 전체 데이터를 Training data(80%) 와 Test data (20%) 로 임의로 나눈 후 , - Training data 로 stepwise 방식의 회귀식 생 성 - VIF 10 이상인 변수 제거 (다중공선성 해결) - Cook’s Distance 가 2 이상인 값 제거 (Outlier)
  • 13. 회귀모형 간 적합도 비교 MAPE(평균절대백분율오차) 사용 # Mean Absolute Percentage Error 실제값 대비 실제값과 예측값 편차 비 율의 평균. 0 에 가까울수록 모델 적합도 좋 음 # 모형 평가 지표 Max Error, 오분류율, Min/Max Error, sMAPE, MAE, RSS 등이 있음 선형모델간 적합도 비교 (w/ MAPE) 선형모델 MAPE 1. Linear Model 0.4517 2. GLM Poisson 0.4635 3. GLM Negative Binomial 0.7605 회귀분석에는 수많은 형태가 있지만, 사용자가 쉽게 이해할 수 있고, 적용이 편리한 모델을 사용하는 것이 좋음 13 / 16
  • 14. 회귀 방정식의 완성 및 해석 우리는 이 회귀방정식으로부터, 저자의 기존 서적들이 베스트셀러에 등록 될수록 신간 서적이 더 많이 팔리며, 출판사보다 저자의 영향력이 더 크며, 특히, 신간 서적의 출판일 3 주 전에 저자 가 베스트셀러로 등록된 경우 , 신간 판매량에 가장 큰 영향을 미치게 됨을 알 수 있다 . 변수 계수(β) 표준화 Y 절편 14.7 - 저자 총 판매량 0.0004 0.063 저자 최근 3개월 간 판매 량 -0.02 -0.083 저자 베스트셀러 지수 (1w) -47.2 -0.198 저자 베스트셀러 지수 (2w) 90.2 0.321 저자 베스트셀러 지수 (3w) 215.7 0.802 저자 베스트셀러 지수 (4w) -30.3 -0.094 출판사 베스트셀러 지수 7.84 0.071 (4w) 종속변수에 영향을 크게 주는 변수의 순서 ① 저자 베스트셀러 지수 _3w ② 저자 베스트셀러 지수 _2w ③ 저자 베스트셀러 지수 _1w 14 / 16
  • 15. KPDCH의 솔루션 , 이렇게 활용해보세요 . 신간 서적의 ‘출간 후 14 일 간 판매량 추정’ → 상위 30% 대상 프로모션 진행 1,000권 이상 100권 이상 10 권 이상 1권 이상 □ Test Data로 회귀방정식 검증한 결과 예측값 (누적) 1,000 권 이상 100권 이상 10권 이상 1권 이상 1권 미만 누적 종수 6종 20종 162종 169종 177종 100권 점유비 66.7% 50.0% 9.9% 10.1% 10.2% [ROC curve & Lift chart] Optimal point * 판매량 1, 2위 서적의 순위를 정확하게 맞힘 (권) 15 / 16
  • 16. 프로젝트를 마무리하며 … 통찰력 (Insight) KPDCH 사람들이 언제, 왜 책을 사는지 이유를 알아야 했습니다. 서점의 데이터와 웹 크롤링 결과로 파생변수를 만들어 부족한 인사이트는 브레인스토밍과 구글링으로 채웠고 , 처음 배우는 ‘ R’은 많은 시간과 노력을 요구했습니다만, 여러 가지 회귀분석 기법으로 예측모델을 만들었습니다. 그간의 과정을 이렇게 공유하게 되어 기쁩니다. 상상력 (Imagina-tion) 정보력 (Know-where) 문제해결력 (Know- How) 열정 (Passion) 의사소통 (Communi-cation)