1. 데이터 사이언스 SCHOOL
1
Abstract
- 영화 관객 수를 예측함에 있어 구전효과를 제외한 마케팅 효과를 반영하는 개봉 1주차 누적 관객 수를
예측한다.
- 배급사, 감독, 배우 점수 등 7개의 변수 입력(feature) → 개봉 전 영화의 1주차 관객수 예측(target)
프로젝트 개요
why
- 영화가 개봉하기 전, 초기 흥행 성적에 영향을 미치는 변수들을 알아보고 앞으로 개봉할 유사 영화의 관객 수를 예
측모델을 만들어보기 위해 시작함.
how
- 데이터 수집
- ‘영화진흥위원회’ 웹사이트 : 1주차 관객수(y), 스크린수,배급사,감독,배우(X)
- ‘네이버 영화’ 웹사이트 크롤링: 사전평점, 평가자 수, 보고싶어요 수(X)
- 방법론
- 전처리 과정 : Scikit-Learn 패키지의 RobustScaler
- 선형 회귀 분석(statsmodels 패키지의 OLS 클래스 사용)
영화 개봉 1주차 관객수 예측
팀 project / 2016.08 ~ 2016.09
[그림1] scaling 후 dataset
[그림2] 회귀분석 결과표
2. 데이터 사이언스 SCHOOL
2
Abstract
- 그동안 배웠던 이론 중 분류 모델을 실습하자는 취지에서 출발, Kaggle에 있는 전체 competition 중
classification이 필요한 subject를 선정
- bone_length, rotting_flesh, hair_length, has_soul, color 5개의 변수 입력(feature) → ghost, goblin,
ghoul 총 3가지 type(target)으로 예측
프로젝트 개요
how
- 데이터 수집
- 주어진 train data 371개, test data 528개 사용
- 방법론
- 전처리 과정 : category 변수에 대해 Label Encoding 시행
- classification 위해 의사 결정 나무(Decision Tree) 모형 사용
- score = .66 on public leaderboard, 성능 개선 작업 필요
Kaggle (https://www.kaggle.com/c/ghouls-goblins-and-ghosts-boo)
개인 project / 2016.12 ~ 2016.12
[그림1] 데이터 출처와 pandas로 읽은 train data 샘플
[그림2] DecisionTreeClassifier의 시각화