1. Ecommerce
고객 특성 분석 2조
201410078 김응주
201610605 박지은
201510792 윤인나
201510642 이준희
201615022 김설하
2. Index
0. 주제 설정
01. Olist
02. 협업 과정
1. 데이터 수집
01. 데이터 정제
02. 결측지 제거
03. 테블로 시각화
2. 데이터 분석
01. 군집 분석
02. 다중 회귀 분석
03. 로지스틱 회귀 분석
04. 랜덤포레스트
3. 상품 추천 알고리즘 및 결론
3. G O O D P E L L O
주제 설정
https://www.pagbrasil.com/market-insights-brazil/, www.olist.com,
https://news.kotra.or.kr/user/globalAllBbs/kotranews/album/2/globalBbsDataAllView.do?d
-1-
브라질의 오픈마켓 ‘olist’
Brazilian E-commerce Market Growth
출처: pagbrasil
출처: olist 공식 홈페이지
4. G O O D P E L L O
주제설정-협업 과정
발표
12월 18일
PPT 제작
12월 14일~
17일
데이터
분석 및
시각화
12월 4일~
14일
주제선정
및 역할
배분
12월 2일
11월 27일
~12월 2일
각자 주제
선정
-2-
5. G O O D P E L L O
주제설정-협업 과정
데이터 주제 선정 GIT HUB 프로젝트 협업
-3-
6. G O O D P E L L O
주제 설정-olist
Kaggle Data - Ecommerce 고객 특성 분석
https://www.kaggle.com/olistbr/brazilian-ecommerce -4-
10. G O O D P E L L O
데이터 수집
Tableau 주별 매출현황
https://public.tableau.com/profile/park.ji.eun#!/vizhome/_28304/sheet0 -8-
11. G O O D P E L L O
데이터 수집
https://public.tableau.com/profile/park.ji.eun#!/vizhome/_28304/sheet2 -9-
Tableau 주별 매출비중
12. G O O D P E L L O
데이터 수집
Tableau 구매 금액(주 단위)
https://public.tableau.com/profile/.37296393#!/vizhome/1_9285/2?publish=yes -10-
13. G O O D P E L L O
Tableau 구매 금액(시 단위)
데이터 수집
https://public.tableau.com/profile/.37296393#!/vizhome/1_9285/1?publish=yes -11-
14. G O O D P E L L O
데이터 수집
Tableau 품목별 판매 비중
https://public.tableau.com/profile/park.ji.eun#!/vizhome/_28304/2 -12-
15. G O O D P E L L O
데이터 분석-군집분석
k-means clustering 분석 코드(Python)
-13-
16. G O O D P E L L O
데이터 분석-군집분석
군집수 4개
군집수 3개 군집수 5개
-14-
군집수 2개 일때 고객 데이터를 가장 잘 구별
최적화 된 군집 수 찾기
17. G O O D P E L L O
기존의 군집수 2개 분석 결과 변수 대체:
배송 소요 기간을 구매 수량으로 대체
변수 3가지: 배송 소요기간, 할부 개월 수, 고객 구매 금액
데이터분석-군집분석
-15-
변수 3가지: 구매수량, 할부 개월 수, 고객 구매 금액
18. G O O D P E L L O
데이터 분석-다중 회귀 분석
결과
https://m.blog.naver.com/PostView.nhn?blogId=samsjang&logNo=221017639342&proxyReferer=htt
ps%3A%2F%2Fwww.google.co.kr%2F
elbow 기법
-16-
19. G O O D P E L L O
데이터 분석- 다중 회귀 분석
결과
종속변수= 고객의 구매 금액
독립변수= 화물 운송 비용, 제품 구매 수량, 제품의 이름 길이,
제품의 설명글 길이, 제품의 사진 개수, 제품의 무게, 제품의
폭, 제품의 길이, 제품의 높이, 할부 개월 수
결과분석 코드(R사용)
-17-
20. G O O D P E L L O
데이터 분석- 다중 회귀 분석
결과R사용 분석 코드결과: 결정계수 0.3215
(전체 데이터의 약 32% 설명)
K-fold 교차 검증 결과:
R-squared 값 0.3204537
-18-
21. G O O D P E L L O
만족,분만족 비욜이 50:50-> 데이터 샘플링 필요 없음
데이터 분석- 로지스틱 회귀분석
-19-
22. G O O D P E L L O
결과로지스틱 회귀분석 코드(Python)
데이터 분석- 로지스틱 회귀분석
-20-
23. G O O D P E L L O
데이터 분석- 로지스틱 회귀분석(수정)
결과결과로지스틱 회귀분석 코드(Python)
-21-
24. G O O D P E L L O
데이터 분석- 로지스틱 회귀분석(수정)
결과로지스틱 회귀분석 코드분석 결과: 모델 성능 0.87
-22-
25. G O O D P E L L O
데이터 분석- 로지스틱 회귀 분석
K-fold 교차검증 코드와 결과
-23-
26. G O O D P E L L O
데이터 분석- 랜덤포레스트
결과
랜덤포레스트 분석 코드
결과: 예측력 0.95
-24-
28. G O O D P E L L O
상품 추천 알고리즘 및 결론
상품 추천 알고리즘(협업 필터링)을 구현하고자 했으나 고객의 구매
데이터와 상품 데이터가 모두 단일 데이터로 불가능.
고객의 직업, 나이 등 고객의 개인 정보에 대한 정보 제공 아쉬움.
-26-
29. G O O D P E L L O
출처
-27-
-분석 데이터 자료 (Ecommerce 고객 특성 분석)
https://www.kaggle.com/olistbr/brazilian-ecommerce
-elbow기법
: https://m.blog.naver.com/PostView.nhn?blogId=samsjang&logNo=221017639342&proxyRefere
r=https%3A%2F%2Fwww.google.co.kr%2F
-랜덤포레스트
https://partrita.github.io/posts/random-forest-python/
-로지스틱 회귀분석
https://3months.tistory.com/28
https://towardsdatascience.com/building-a-logistic-regression-in-python-step-by-step-
becd4d56c9c8