빅데이터 아카데미 연말평가발표자료 분석5기 우수팀(최종)

분석전문가 5 기 우수사례
국내 문학 신간 서적의
판매량 예측 모델 개발
멘토 : 김도현
조원 : 나성호, 고민정, 박대
건, 최태웅, 유성용

팀 소개
KPDCH팀
나성호 수석 고민정 수석 박대건 대표 최태웅 연구원 유성용 주임
(Kevin) (Peter) (David) (Camel) (Harvey)
하나금융
경영연구소 케이에스비퓨처 케이에스비퓨처 ㈜ 오픈메이트 국민건강보험
모델링 & PT 텍스트 마이닝 데이터 마트 데이터 마트 텍스트 마이닝
2 / 16

목차
Ⅰ. 개요
① 나는 궁금합니다!!
② 그래서 물었습니다. 왜 필요하신가요?
③ MD 의 요구사항 구체화하기
Ⅱ. 데이터마트
④ Data 를 확보하라! (브레인스토밍)
⑤ 데이터마트의 구축
⑥ 종속변수의 정의
Ⅲ. 분석방법론
⑦ 회귀모형에 사용할 독립변수의 선택
⑧ 다양한 회귀모형 생성 (다중회귀모형, GLM)
⑨ 회귀모형 간 적합도 비교 (w/ MAPE)
Ⅳ. 결론
⑩ 회귀방정식의 완성 및 해석
⑪ KPDCH 의 솔루션, 이렇게 활용해보세요.
⑫ 프로젝트를 마무리하며 …
3 / 16

나는 궁금합니다 !!
대형 온라인서점 Y사의
국내문학 상품기획자(MD)
신간 서적이 나오면
이 책이 얼마나 팔릴지
미리 예측해야 하는데…
좋은 방법이 없을까요??
4 / 16

그래서 물었습니다 . 왜 필요하신가요 ?
예상 판매량
실제 판매량
 판매 전 , 출판사는 기분 좋고
MD의 어깨는 으쓱해지나,
 판매 후 , 월말 악성재고로 남
아
매몰비용이 증가됨
[Case Ⅰ]
예상 판매량
실제 판매량
 판매 전 , 출판사는 마음 상하
고
MD는 민망해질 뿐만 아니라,
 판매 후 , 영업기회 상실에 따라
기회비용이 증가됨
[Case Ⅱ]
5 / 16

MD의 요구사항 구체화하기
Y서점
MD
국내문학 신간 서적의 판매량을 가능
한
정확하게 예측하고 싶습니다.
KPDCH
구체적인 판매량을 알고 싶으신가요?
아니면 예상 등급 정도면 될까요?
Y서점
MD
구체적인 수량으로 알려주시면 제가
예상
등급을 만들어 사용할 수 있을 것 같
아요.
KPDCH
그렇다면, 회귀분석을 이용해서 판매
량을
예측하는 모델을 만들어 드리겠습니다
.
6 / 16

Data를 확보하라 ! (브레인스토밍 )
Y 사로부터
정형 데이터
확보
인터넷에서
베스트셀러
정보 크롤링
통계청에서
제공하는
데이터 활용
저자 정보
출판사 정보
신간 서적 정보
서적 일별 판매량
파생변수 생성 등
네이버 책 (Book)
사이트에서 대형
온라인 서점 6개사
베스트셀러 정보를
주 단위로 공개
가구당 소득/지출
→ 가처분소득
도서 판매액
소비심리지수
실업률 등
7 / 16

데이터마트의 구축①
온라인 서점 Y사로부터 받은 정형데이터로 다양한 파생변수 생성
ISBN(13) 도서명 출간일자 작가번호 출판사코드 정가 분야번호
9788994… 별을 사랑 20130615 1556 100634 6,000 001006
9788997… 이어령의 20130506 1703 107513 45,000 001006
9788954… 그 여자의 20130114 51032 6 11,000 001006
9788932… 견딜 수 20130115 51036 79 8,000 001006
: : : : : : :
ISBN(13) 날짜 판매량
9788994… 20130615 1
9788994… 20130616 3
9788994… 20130617 2
9788994… 20130618 2
: : :
작가번호 출판 종수 누적판매량
1556 2 4,301
1703 45 20,054
51032 13 2,435
51036 7 521
: : :
전체 출판 종수 : 20만여
권
일 판매량 : 100만여 건
작가 수 : 7 만여 명
출판사 수 : 2만여 개
출판사코드 출판 종수 누적판매량
100634 302 10,296
107513 1745 242,154
6 25 7,568
79 61 14,325
: : :
8 / 16

데이터마트의 구축②
네이버 책 사이트에서 6대 온라인 서점의 베스트셀러 정보 크롤링
온라인 서점명
장르명
날짜 정보 (년/월/주차)
베스트셀러 순위 (1~100위
)
도서명
저자명
출판사명
ISBN(13)
9 / 16

종속변수의 정의
2013년 국내문학 신간 도서 866권의 출간 이후 14 일간 판매량 합계
0 권 : 253종
100권 이하 : 497
종
200권 이하 : 46
종
200권 초과 : 70
종
최소 : 0권
최대 : 3,643권
평균 : 85권
정규분포가 아닌
포아송분포 형태
Y에
log
10 /
16

회귀모형에 사용할 독립변수의 선택
준비된 독립변수는 총 42개.
이 중 종속변수와의 유의확률이 0.05 이하인 변수만 회귀모형에 적용
Y사 데이터 베스트셀러 데이터 통계청 데이터
독립변수
판매지수(경영)
판매지수(인문)
판매지수(자/
계)
판매지수(문학)
저자지수(1w)
저자지수(2w)
출판사지수(3w)
출판사지수(4w)
:
독립변수
저자 출판종수
저자 총판매량
저자 평균판매량
출판사 출판종수
출판사 총판매량
출판사 평균판매
량
가격(정가)
최근 12M 판매량
:
상관계수 P-value
0.165 9.5e-07
0.433 2.2e-16
0.408 2.2e-16
0.080 0.019
0.148 1.2e-05
0.263 3.1e-15
-0.021 0.536
0.280 2.2e-16
: :
-0.027 0.436
-0.018 0.587
0.038 0.268
0.004 0.905
0.625 4.0e-09
0.794 2.3e-14
0.277 2.2e-16
0.240 7.6e-13
: :
독립변수
가구 총소득 (Q)
가구 총소비 (Q)
도서 소비 (Q)
소비심리지수(M)
경기예상지수(M)
도소매 판매액 (M)
온라인 판매액 (M)
실업률(M)
:
-0.037 0.270
-0.034 0.452
-0.012 0.725
-0.014 0.680
0.004 0.898
-0.012 0.732
-0.032 0.342
-0.015 0.664
: :
사용 가능 독립변수의 개수
42개 → 24개
11 /
16

다양한 선형 회귀모형 생성
① 다중회귀분석 (stepwise 방식)
# linear model
> reg <- D14_SALE ~ .
> lm.tr <- step(lm(reg,
data=bookdb.tr),
direction=“backward”))
> summary(lm.tr)
② 일반화 선형모형(GLM)
# GLM, poisson regression
> glm.pos <- glm(reg,
data=bookdb.tr,
family=poisson(link=log)))
> summary(glm.pos)
# GLM, Negative Binomial regression
> glm.nbr <- glm.nb(reg, data=
bookdb.tr, method=“glm.fit”,
link=log))
> summary(glm.nbr)
12 /
16
 다중회귀분석 과정
- 전체 데이터를 Training data(80%) 와 Test
data (20%) 로 임의로 나눈 후 ,
- Training data 로 stepwise 방식의 회귀식 생
성
- VIF 10 이상인 변수 제거 (다중공선성 해결)
- Cook’s Distance 가 2 이상인 값 제거
(Outlier)

회귀모형 간 적합도 비교
MAPE(평균절대백분율오차) 사용
# Mean Absolute Percentage Error
실제값 대비 실제값과 예측값 편차 비
율의
평균. 0 에 가까울수록 모델 적합도 좋
음
# 모형 평가 지표
Max Error, 오분류율, Min/Max Error,
sMAPE, MAE, RSS 등이 있음
선형모델간 적합도 비교 (w/ MAPE)
선형모델 MAPE
1. Linear Model 0.4517
2. GLM Poisson 0.4635
3. GLM Negative Binomial 0.7605
회귀분석에는 수많은 형태가 있지만,
사용자가 쉽게 이해할 수 있고,
적용이 편리한 모델을 사용하는 것이 좋음
13 /
16

회귀 방정식의 완성 및 해석
우리는 이 회귀방정식으로부터,
저자의 기존 서적들이 베스트셀러에 등록
될수록 신간 서적이 더 많이 팔리며,
출판사보다 저자의 영향력이 더 크며,
특히, 신간 서적의 출판일 3 주 전에 저자
가 베스트셀러로 등록된 경우 , 신간 판매량에
가장 큰 영향을 미치게 됨을 알 수 있다 .
변수 계수(β) 표준화
Y 절편 14.7 -
저자 총 판매량 0.0004 0.063
저자 최근 3개월 간 판매
량
-0.02 -0.083
저자 베스트셀러 지수 (1w) -47.2 -0.198
저자 베스트셀러 지수 (2w) 90.2 0.321
저자 베스트셀러 지수 (3w) 215.7 0.802
저자 베스트셀러 지수 (4w) -30.3 -0.094
출판사 베스트셀러 지수
7.84 0.071
(4w)
종속변수에 영향을 크게 주는 변수의 순서
① 저자 베스트셀러 지수 _3w
② 저자 베스트셀러 지수 _2w
③ 저자 베스트셀러 지수 _1w
14 /
16

KPDCH의 솔루션 , 이렇게 활용해보세요 .
신간 서적의 ‘출간 후 14 일 간 판매량 추정’ → 상위 30% 대상 프로모션
진행
1,000권 이상
100권 이상
10 권 이상
1권 이상
□ Test Data로 회귀방정식 검증한 결과
예측값
(누적)
1,000
권
이상
100권
이상
10권
이상
1권
이상
1권
미만
누적
종수
6종 20종 162종 169종 177종
100권
점유비
66.7% 50.0% 9.9% 10.1% 10.2%
[ROC curve & Lift chart]
Optimal
point
* 판매량 1, 2위 서적의 순위를 정확하게 맞힘
(권)
15 /
16

프로젝트를 마무리하며 …
통찰력
(Insight)
KPDCH
사람들이 언제, 왜
책을 사는지 이유를
알아야 했습니다.
서점의 데이터와
웹 크롤링 결과로
파생변수를 만들어
부족한 인사이트는
브레인스토밍과
구글링으로 채웠고 ,
처음 배우는 ‘ R’은
많은 시간과 노력을
요구했습니다만,
여러 가지 회귀분석
기법으로 예측모델을
만들었습니다.
그간의 과정을
이렇게 공유하게
되어 기쁩니다.
상상력
(Imagina-tion)
정보력
(Know-where)
문제해결력
(Know-
How)
열정
(Passion)
의사소통
(Communi-cation)

빅데이터 아카데미 연말평가발표자료 분석5기 우수팀(최종)

Recommended

Recommended

More Related Content

Viewers also liked

Viewers also liked (20)

Similar to 빅데이터 아카데미 연말평가발표자료 분석5기 우수팀(최종)

Similar to 빅데이터 아카데미 연말평가발표자료 분석5기 우수팀(최종) (20)

빅데이터 아카데미 연말평가발표자료 분석5기 우수팀(최종)