SlideShare uma empresa Scribd logo
1 de 30
Baixar para ler offline
Ecommerce
고객 특성 분석 2조
201410078 김응주
201610605 박지은
201510792 윤인나
201510642 이준희
201615022 김설하
Index
0. 주제 설정
01. Olist
02. 협업 과정
1. 데이터 수집
01. 데이터 정제
02. 결측지 제거
03. 테블로 시각화
2. 데이터 분석
01. 군집 분석
02. 다중 회귀 분석
03. 로지스틱 회귀 분석
04. 랜덤포레스트
3. 상품 추천 알고리즘 및 결론
G O O D P E L L O
주제 설정
https://www.pagbrasil.com/market-insights-brazil/, www.olist.com,
https://news.kotra.or.kr/user/globalAllBbs/kotranews/album/2/globalBbsDataAllView.do?d
-1-
브라질의 오픈마켓 ‘olist’
Brazilian E-commerce Market Growth
출처: pagbrasil
출처: olist 공식 홈페이지
G O O D P E L L O
주제설정-협업 과정
발표
12월 18일
PPT 제작
12월 14일~
17일
데이터
분석 및
시각화
12월 4일~
14일
주제선정
및 역할
배분
12월 2일
11월 27일
~12월 2일
각자 주제
선정
-2-
G O O D P E L L O
주제설정-협업 과정
데이터 주제 선정 GIT HUB 프로젝트 협업
-3-
G O O D P E L L O
주제 설정-olist
Kaggle Data - Ecommerce 고객 특성 분석
https://www.kaggle.com/olistbr/brazilian-ecommerce -4-
G O O D P E L L O
데이터수집
데이터 정제 과정
-5-
총 120MB
G O O D P E L L O
데이터수집
데이터 정제 코드
-6-
G O O D P E L L O
결측치 제거
데이터수집
-7-
G O O D P E L L O
데이터 수집
Tableau 주별 매출현황
https://public.tableau.com/profile/park.ji.eun#!/vizhome/_28304/sheet0 -8-
G O O D P E L L O
데이터 수집
https://public.tableau.com/profile/park.ji.eun#!/vizhome/_28304/sheet2 -9-
Tableau 주별 매출비중
G O O D P E L L O
데이터 수집
Tableau 구매 금액(주 단위)
https://public.tableau.com/profile/.37296393#!/vizhome/1_9285/2?publish=yes -10-
G O O D P E L L O
Tableau 구매 금액(시 단위)
데이터 수집
https://public.tableau.com/profile/.37296393#!/vizhome/1_9285/1?publish=yes -11-
G O O D P E L L O
데이터 수집
Tableau 품목별 판매 비중
https://public.tableau.com/profile/park.ji.eun#!/vizhome/_28304/2 -12-
G O O D P E L L O
데이터 분석-군집분석
k-means clustering 분석 코드(Python)
-13-
G O O D P E L L O
데이터 분석-군집분석
군집수 4개
군집수 3개 군집수 5개
-14-
군집수 2개 일때 고객 데이터를 가장 잘 구별
최적화 된 군집 수 찾기
G O O D P E L L O
기존의 군집수 2개 분석 결과 변수 대체:
배송 소요 기간을 구매 수량으로 대체
변수 3가지: 배송 소요기간, 할부 개월 수, 고객 구매 금액
데이터분석-군집분석
-15-
변수 3가지: 구매수량, 할부 개월 수, 고객 구매 금액
G O O D P E L L O
데이터 분석-다중 회귀 분석
결과
https://m.blog.naver.com/PostView.nhn?blogId=samsjang&logNo=221017639342&proxyReferer=htt
ps%3A%2F%2Fwww.google.co.kr%2F
elbow 기법
-16-
G O O D P E L L O
데이터 분석- 다중 회귀 분석
결과
종속변수= 고객의 구매 금액
독립변수= 화물 운송 비용, 제품 구매 수량, 제품의 이름 길이,
제품의 설명글 길이, 제품의 사진 개수, 제품의 무게, 제품의
폭, 제품의 길이, 제품의 높이, 할부 개월 수
결과분석 코드(R사용)
-17-
G O O D P E L L O
데이터 분석- 다중 회귀 분석
결과R사용 분석 코드결과: 결정계수 0.3215
(전체 데이터의 약 32% 설명)
K-fold 교차 검증 결과:
R-squared 값 0.3204537
-18-
G O O D P E L L O
만족,분만족 비욜이 50:50-> 데이터 샘플링 필요 없음
데이터 분석- 로지스틱 회귀분석
-19-
G O O D P E L L O
결과로지스틱 회귀분석 코드(Python)
데이터 분석- 로지스틱 회귀분석
-20-
G O O D P E L L O
데이터 분석- 로지스틱 회귀분석(수정)
결과결과로지스틱 회귀분석 코드(Python)
-21-
G O O D P E L L O
데이터 분석- 로지스틱 회귀분석(수정)
결과로지스틱 회귀분석 코드분석 결과: 모델 성능 0.87
-22-
G O O D P E L L O
데이터 분석- 로지스틱 회귀 분석
K-fold 교차검증 코드와 결과
-23-
G O O D P E L L O
데이터 분석- 랜덤포레스트
결과
랜덤포레스트 분석 코드
결과: 예측력 0.95
-24-
G O O D P E L L O
데이터 분석- 랜덤포레스트
-25-
G O O D P E L L O
상품 추천 알고리즘 및 결론
상품 추천 알고리즘(협업 필터링)을 구현하고자 했으나 고객의 구매
데이터와 상품 데이터가 모두 단일 데이터로 불가능.
고객의 직업, 나이 등 고객의 개인 정보에 대한 정보 제공 아쉬움.
-26-
G O O D P E L L O
출처
-27-
-분석 데이터 자료 (Ecommerce 고객 특성 분석)
https://www.kaggle.com/olistbr/brazilian-ecommerce
-elbow기법
: https://m.blog.naver.com/PostView.nhn?blogId=samsjang&logNo=221017639342&proxyRefere
r=https%3A%2F%2Fwww.google.co.kr%2F
-랜덤포레스트
https://partrita.github.io/posts/random-forest-python/
-로지스틱 회귀분석
https://3months.tistory.com/28
https://towardsdatascience.com/building-a-logistic-regression-in-python-step-by-step-
becd4d56c9c8
THANK
YOUn

Mais conteúdo relacionado

Semelhante a 경영빅데이터분석 2조

Big Data Analytics and Data Mining
Big Data Analytics and Data MiningBig Data Analytics and Data Mining
Big Data Analytics and Data MiningSuHyun Jeon
 
Aiffel 해커톤 최종 발표
Aiffel 해커톤 최종 발표Aiffel 해커톤 최종 발표
Aiffel 해커톤 최종 발표kiminPark2
 
PLM analytics
PLM analytics PLM analytics
PLM analytics dohun kim
 
[2016 데이터 그랜드 컨퍼런스] 2 4(빅데이터). 오픈메이트 공간정보로 풀어보는 빅데이터 세상
[2016 데이터 그랜드 컨퍼런스] 2 4(빅데이터). 오픈메이트 공간정보로 풀어보는 빅데이터 세상[2016 데이터 그랜드 컨퍼런스] 2 4(빅데이터). 오픈메이트 공간정보로 풀어보는 빅데이터 세상
[2016 데이터 그랜드 컨퍼런스] 2 4(빅데이터). 오픈메이트 공간정보로 풀어보는 빅데이터 세상K data
 
빅데이터실습교육 소비분야 영남대_언론정보_20141117
빅데이터실습교육 소비분야 영남대_언론정보_20141117빅데이터실습교육 소비분야 영남대_언론정보_20141117
빅데이터실습교육 소비분야 영남대_언론정보_20141117Han Woo PARK
 
[BizSpring] Data Consulting_사례집.pdf
[BizSpring] Data Consulting_사례집.pdf[BizSpring] Data Consulting_사례집.pdf
[BizSpring] Data Consulting_사례집.pdfBizSpring Inc.
 
블록체인 데이터와 머신러닝으로 만들어내는 금융업계의 고객 가치
블록체인 데이터와 머신러닝으로 만들어내는 금융업계의 고객 가치블록체인 데이터와 머신러닝으로 만들어내는 금융업계의 고객 가치
블록체인 데이터와 머신러닝으로 만들어내는 금융업계의 고객 가치Chris Hoyean Song
 
Rpa usecase modified
Rpa usecase modifiedRpa usecase modified
Rpa usecase modifiedssuser9a50211
 
[데이터야놀자 2023] 비즈니스 분석가 vs 프로덕트 분석가_ 데이터 분석ᄀ...
[데이터야놀자 2023]  비즈니스 분석가 vs 프로덕트 분석가_ 데이터 분석ᄀ...[데이터야놀자 2023]  비즈니스 분석가 vs 프로덕트 분석가_ 데이터 분석ᄀ...
[데이터야놀자 2023] 비즈니스 분석가 vs 프로덕트 분석가_ 데이터 분석ᄀ...Jeongmin Ju
 
온라인 마케팅을 위한 빅데이터 분석
온라인 마케팅을 위한 빅데이터 분석온라인 마케팅을 위한 빅데이터 분석
온라인 마케팅을 위한 빅데이터 분석수보 김
 
Web applications that analyze used smartphone prices
Web applications that analyze used smartphone pricesWeb applications that analyze used smartphone prices
Web applications that analyze used smartphone pricesYunha Park
 
데이터드리븐 DX 추진방안_202306.pdf
데이터드리븐 DX 추진방안_202306.pdf데이터드리븐 DX 추진방안_202306.pdf
데이터드리븐 DX 추진방안_202306.pdfYunjeong Susan Hong
 
서비스 기획자의 데이터 분석
서비스 기획자의 데이터 분석서비스 기획자의 데이터 분석
서비스 기획자의 데이터 분석YOO SE KYUN
 
실리콘 밸리 데이터 사이언티스트의 하루
실리콘 밸리 데이터 사이언티스트의 하루실리콘 밸리 데이터 사이언티스트의 하루
실리콘 밸리 데이터 사이언티스트의 하루Jaimie Kwon (권재명)
 
[Partner TechForum] 고객을 360도로 이해하고 수익으로 연결하는 글로벌 선도 금융 기업들의 데이터 플랫폼 활용 사례
[Partner TechForum] 고객을 360도로 이해하고 수익으로 연결하는 글로벌 선도 금융 기업들의 데이터 플랫폼 활용 사례[Partner TechForum] 고객을 360도로 이해하고 수익으로 연결하는 글로벌 선도 금융 기업들의 데이터 플랫폼 활용 사례
[Partner TechForum] 고객을 360도로 이해하고 수익으로 연결하는 글로벌 선도 금융 기업들의 데이터 플랫폼 활용 사례Amazon Web Services Korea
 
[2A7]Linkedin'sDataScienceWhyIsItScience
[2A7]Linkedin'sDataScienceWhyIsItScience[2A7]Linkedin'sDataScienceWhyIsItScience
[2A7]Linkedin'sDataScienceWhyIsItScienceNAVER D2
 
AWS Finance Symposum_AWS 로 빅데이터 분석을 쉽고 간단하게 시작하기
AWS Finance Symposum_AWS 로 빅데이터 분석을 쉽고 간단하게 시작하기AWS Finance Symposum_AWS 로 빅데이터 분석을 쉽고 간단하게 시작하기
AWS Finance Symposum_AWS 로 빅데이터 분석을 쉽고 간단하게 시작하기Amazon Web Services Korea
 
학교에서는 배울 수 없는 스타트업 엔지니어링 (연세대 특강)
학교에서는 배울 수 없는 스타트업 엔지니어링 (연세대 특강)학교에서는 배울 수 없는 스타트업 엔지니어링 (연세대 특강)
학교에서는 배울 수 없는 스타트업 엔지니어링 (연세대 특강)Lab80
 

Semelhante a 경영빅데이터분석 2조 (20)

Big Data Analytics and Data Mining
Big Data Analytics and Data MiningBig Data Analytics and Data Mining
Big Data Analytics and Data Mining
 
Aiffel 해커톤 최종 발표
Aiffel 해커톤 최종 발표Aiffel 해커톤 최종 발표
Aiffel 해커톤 최종 발표
 
PLM analytics
PLM analytics PLM analytics
PLM analytics
 
[2016 데이터 그랜드 컨퍼런스] 2 4(빅데이터). 오픈메이트 공간정보로 풀어보는 빅데이터 세상
[2016 데이터 그랜드 컨퍼런스] 2 4(빅데이터). 오픈메이트 공간정보로 풀어보는 빅데이터 세상[2016 데이터 그랜드 컨퍼런스] 2 4(빅데이터). 오픈메이트 공간정보로 풀어보는 빅데이터 세상
[2016 데이터 그랜드 컨퍼런스] 2 4(빅데이터). 오픈메이트 공간정보로 풀어보는 빅데이터 세상
 
빅데이터실습교육 소비분야 영남대_언론정보_20141117
빅데이터실습교육 소비분야 영남대_언론정보_20141117빅데이터실습교육 소비분야 영남대_언론정보_20141117
빅데이터실습교육 소비분야 영남대_언론정보_20141117
 
[BizSpring] Data Consulting_사례집.pdf
[BizSpring] Data Consulting_사례집.pdf[BizSpring] Data Consulting_사례집.pdf
[BizSpring] Data Consulting_사례집.pdf
 
블록체인 데이터와 머신러닝으로 만들어내는 금융업계의 고객 가치
블록체인 데이터와 머신러닝으로 만들어내는 금융업계의 고객 가치블록체인 데이터와 머신러닝으로 만들어내는 금융업계의 고객 가치
블록체인 데이터와 머신러닝으로 만들어내는 금융업계의 고객 가치
 
Rpa usecase modified
Rpa usecase modifiedRpa usecase modified
Rpa usecase modified
 
[데이터야놀자 2023] 비즈니스 분석가 vs 프로덕트 분석가_ 데이터 분석ᄀ...
[데이터야놀자 2023]  비즈니스 분석가 vs 프로덕트 분석가_ 데이터 분석ᄀ...[데이터야놀자 2023]  비즈니스 분석가 vs 프로덕트 분석가_ 데이터 분석ᄀ...
[데이터야놀자 2023] 비즈니스 분석가 vs 프로덕트 분석가_ 데이터 분석ᄀ...
 
온라인 마케팅을 위한 빅데이터 분석
온라인 마케팅을 위한 빅데이터 분석온라인 마케팅을 위한 빅데이터 분석
온라인 마케팅을 위한 빅데이터 분석
 
Web applications that analyze used smartphone prices
Web applications that analyze used smartphone pricesWeb applications that analyze used smartphone prices
Web applications that analyze used smartphone prices
 
데이터드리븐 DX 추진방안_202306.pdf
데이터드리븐 DX 추진방안_202306.pdf데이터드리븐 DX 추진방안_202306.pdf
데이터드리븐 DX 추진방안_202306.pdf
 
서비스 기획자의 데이터 분석
서비스 기획자의 데이터 분석서비스 기획자의 데이터 분석
서비스 기획자의 데이터 분석
 
실리콘 밸리 데이터 사이언티스트의 하루
실리콘 밸리 데이터 사이언티스트의 하루실리콘 밸리 데이터 사이언티스트의 하루
실리콘 밸리 데이터 사이언티스트의 하루
 
[Partner TechForum] 고객을 360도로 이해하고 수익으로 연결하는 글로벌 선도 금융 기업들의 데이터 플랫폼 활용 사례
[Partner TechForum] 고객을 360도로 이해하고 수익으로 연결하는 글로벌 선도 금융 기업들의 데이터 플랫폼 활용 사례[Partner TechForum] 고객을 360도로 이해하고 수익으로 연결하는 글로벌 선도 금융 기업들의 데이터 플랫폼 활용 사례
[Partner TechForum] 고객을 360도로 이해하고 수익으로 연결하는 글로벌 선도 금융 기업들의 데이터 플랫폼 활용 사례
 
[2A7]Linkedin'sDataScienceWhyIsItScience
[2A7]Linkedin'sDataScienceWhyIsItScience[2A7]Linkedin'sDataScienceWhyIsItScience
[2A7]Linkedin'sDataScienceWhyIsItScience
 
Use case of rpa
Use case of rpaUse case of rpa
Use case of rpa
 
AWS Finance Symposum_AWS 로 빅데이터 분석을 쉽고 간단하게 시작하기
AWS Finance Symposum_AWS 로 빅데이터 분석을 쉽고 간단하게 시작하기AWS Finance Symposum_AWS 로 빅데이터 분석을 쉽고 간단하게 시작하기
AWS Finance Symposum_AWS 로 빅데이터 분석을 쉽고 간단하게 시작하기
 
Sa246 발표
Sa246 발표Sa246 발표
Sa246 발표
 
학교에서는 배울 수 없는 스타트업 엔지니어링 (연세대 특강)
학교에서는 배울 수 없는 스타트업 엔지니어링 (연세대 특강)학교에서는 배울 수 없는 스타트업 엔지니어링 (연세대 특강)
학교에서는 배울 수 없는 스타트업 엔지니어링 (연세대 특강)
 

경영빅데이터분석 2조

  • 1. Ecommerce 고객 특성 분석 2조 201410078 김응주 201610605 박지은 201510792 윤인나 201510642 이준희 201615022 김설하
  • 2. Index 0. 주제 설정 01. Olist 02. 협업 과정 1. 데이터 수집 01. 데이터 정제 02. 결측지 제거 03. 테블로 시각화 2. 데이터 분석 01. 군집 분석 02. 다중 회귀 분석 03. 로지스틱 회귀 분석 04. 랜덤포레스트 3. 상품 추천 알고리즘 및 결론
  • 3. G O O D P E L L O 주제 설정 https://www.pagbrasil.com/market-insights-brazil/, www.olist.com, https://news.kotra.or.kr/user/globalAllBbs/kotranews/album/2/globalBbsDataAllView.do?d -1- 브라질의 오픈마켓 ‘olist’ Brazilian E-commerce Market Growth 출처: pagbrasil 출처: olist 공식 홈페이지
  • 4. G O O D P E L L O 주제설정-협업 과정 발표 12월 18일 PPT 제작 12월 14일~ 17일 데이터 분석 및 시각화 12월 4일~ 14일 주제선정 및 역할 배분 12월 2일 11월 27일 ~12월 2일 각자 주제 선정 -2-
  • 5. G O O D P E L L O 주제설정-협업 과정 데이터 주제 선정 GIT HUB 프로젝트 협업 -3-
  • 6. G O O D P E L L O 주제 설정-olist Kaggle Data - Ecommerce 고객 특성 분석 https://www.kaggle.com/olistbr/brazilian-ecommerce -4-
  • 7. G O O D P E L L O 데이터수집 데이터 정제 과정 -5- 총 120MB
  • 8. G O O D P E L L O 데이터수집 데이터 정제 코드 -6-
  • 9. G O O D P E L L O 결측치 제거 데이터수집 -7-
  • 10. G O O D P E L L O 데이터 수집 Tableau 주별 매출현황 https://public.tableau.com/profile/park.ji.eun#!/vizhome/_28304/sheet0 -8-
  • 11. G O O D P E L L O 데이터 수집 https://public.tableau.com/profile/park.ji.eun#!/vizhome/_28304/sheet2 -9- Tableau 주별 매출비중
  • 12. G O O D P E L L O 데이터 수집 Tableau 구매 금액(주 단위) https://public.tableau.com/profile/.37296393#!/vizhome/1_9285/2?publish=yes -10-
  • 13. G O O D P E L L O Tableau 구매 금액(시 단위) 데이터 수집 https://public.tableau.com/profile/.37296393#!/vizhome/1_9285/1?publish=yes -11-
  • 14. G O O D P E L L O 데이터 수집 Tableau 품목별 판매 비중 https://public.tableau.com/profile/park.ji.eun#!/vizhome/_28304/2 -12-
  • 15. G O O D P E L L O 데이터 분석-군집분석 k-means clustering 분석 코드(Python) -13-
  • 16. G O O D P E L L O 데이터 분석-군집분석 군집수 4개 군집수 3개 군집수 5개 -14- 군집수 2개 일때 고객 데이터를 가장 잘 구별 최적화 된 군집 수 찾기
  • 17. G O O D P E L L O 기존의 군집수 2개 분석 결과 변수 대체: 배송 소요 기간을 구매 수량으로 대체 변수 3가지: 배송 소요기간, 할부 개월 수, 고객 구매 금액 데이터분석-군집분석 -15- 변수 3가지: 구매수량, 할부 개월 수, 고객 구매 금액
  • 18. G O O D P E L L O 데이터 분석-다중 회귀 분석 결과 https://m.blog.naver.com/PostView.nhn?blogId=samsjang&logNo=221017639342&proxyReferer=htt ps%3A%2F%2Fwww.google.co.kr%2F elbow 기법 -16-
  • 19. G O O D P E L L O 데이터 분석- 다중 회귀 분석 결과 종속변수= 고객의 구매 금액 독립변수= 화물 운송 비용, 제품 구매 수량, 제품의 이름 길이, 제품의 설명글 길이, 제품의 사진 개수, 제품의 무게, 제품의 폭, 제품의 길이, 제품의 높이, 할부 개월 수 결과분석 코드(R사용) -17-
  • 20. G O O D P E L L O 데이터 분석- 다중 회귀 분석 결과R사용 분석 코드결과: 결정계수 0.3215 (전체 데이터의 약 32% 설명) K-fold 교차 검증 결과: R-squared 값 0.3204537 -18-
  • 21. G O O D P E L L O 만족,분만족 비욜이 50:50-> 데이터 샘플링 필요 없음 데이터 분석- 로지스틱 회귀분석 -19-
  • 22. G O O D P E L L O 결과로지스틱 회귀분석 코드(Python) 데이터 분석- 로지스틱 회귀분석 -20-
  • 23. G O O D P E L L O 데이터 분석- 로지스틱 회귀분석(수정) 결과결과로지스틱 회귀분석 코드(Python) -21-
  • 24. G O O D P E L L O 데이터 분석- 로지스틱 회귀분석(수정) 결과로지스틱 회귀분석 코드분석 결과: 모델 성능 0.87 -22-
  • 25. G O O D P E L L O 데이터 분석- 로지스틱 회귀 분석 K-fold 교차검증 코드와 결과 -23-
  • 26. G O O D P E L L O 데이터 분석- 랜덤포레스트 결과 랜덤포레스트 분석 코드 결과: 예측력 0.95 -24-
  • 27. G O O D P E L L O 데이터 분석- 랜덤포레스트 -25-
  • 28. G O O D P E L L O 상품 추천 알고리즘 및 결론 상품 추천 알고리즘(협업 필터링)을 구현하고자 했으나 고객의 구매 데이터와 상품 데이터가 모두 단일 데이터로 불가능. 고객의 직업, 나이 등 고객의 개인 정보에 대한 정보 제공 아쉬움. -26-
  • 29. G O O D P E L L O 출처 -27- -분석 데이터 자료 (Ecommerce 고객 특성 분석) https://www.kaggle.com/olistbr/brazilian-ecommerce -elbow기법 : https://m.blog.naver.com/PostView.nhn?blogId=samsjang&logNo=221017639342&proxyRefere r=https%3A%2F%2Fwww.google.co.kr%2F -랜덤포레스트 https://partrita.github.io/posts/random-forest-python/ -로지스틱 회귀분석 https://3months.tistory.com/28 https://towardsdatascience.com/building-a-logistic-regression-in-python-step-by-step- becd4d56c9c8