SlideShare uma empresa Scribd logo
1 de 33
Baixar para ler offline
파이썬 라이브러리로 쉽게
시작하는 데이터 분석
아무것도 모르는 문과생도 환영
데이터분석 해볼까 말까 망설이는 분들이 망설이지 말고 도전해보시기를
바라며 만든 슬라이드입니다. 아무것도 모르는 문과학생이 강의 2개와 책
1권을 읽고 시도해 본 데이터 분석입니다. 파이썬 Scikit Learn
 Library를
사용하였습니다! 정말 잘 만들어진 라이브러리이라 초보자들이 쉽게
접근하기 좋습니다.
강의 1:	
  Intro	
  to	
  CS	
  and	
  Programming	
  Using	
  Python -­‐ 링크
책1:	
  깐깐하게 배우는 파이썬 -­‐ 링크
강의2:	
  Machine	
  Learning (강추강추!) -­‐ 링크
Bank	
  Credit	
  Scoring	
  Algorithm
윤희경
은행 신용 평가 알고리즘 만들기
데이터 사이언스의 고향(?) 캐글 데이터를 이용했습니다!
그 중에서도 ’돈 좀 빌려줘!(?)’라는 이름의 2011년 대회 데이터를요!
1	
  Data
• Content:	
  credit	
  history	
  of	
  customers
• Size:	
  150,000	
  records	
  *	
  (1	
  id	
  +	
  10	
  features	
  +	
  1	
  target)
Variable  Name Description Type
SeriousDlqin2yrs Person  experienced  90  days  past  due  delinquency  or  worse   Y/N
RevolvingUtilizationOfUnsecuredLines
Total  balance  on  credit  cards  and  personal  lines  of  credit  except  real  estate  and  no  installment  debt  like  
car  loans  divided  by  the  sum  of  credit  limits percentage
age Age  of  borrower  in  years integer
NumberOfTime30-­59DaysPastDueNotWorse Number  of  times  borrower  has  been  30-­59  days  past  due  but  no  worse  in  the  last  2  years. integer
DebtRatio Monthly  debt  payments,  alimony,living   costs  divided  by  monthy  gross  income percentage
MonthlyIncome Monthly  income real
NumberOfOpenCreditLinesAndLoans Number  of  Open  loans  (installment  like  car  loan  or  mortgage)  and  Lines  of  credit  (e.g.  credit  cards) integer
NumberOfTimes90DaysLate Number  of  times  borrower  has  been  90  days  or  more  past  due. integer
NumberRealEstateLoansOrLines Number  of  mortgage  and  real  estate  loans  including  home  equity  lines  of  credit integer
NumberOfTime60-­89DaysPastDueNotWorse Number  of  times  borrower  has  been  60-­89  days  past  due  but  no  worse  in  the  last  2  years. integer
NumberOfDependents Number  of  dependents  in  family  excluding  themselves  (spouse,  children  etc.) integer
십 오만명의 은행 고객에 대한 과거 신용기록 데이터입니다.
10개 신상 정보 및 과거 신용 정보로 ‘연체 여부’를 예측하기 위한 데이터
셋입니다!
Features
Age	
  Distribution Debt	
  Ratio
몇 개 항목을 하나씩 뜯어봅니다.
Features
Monthly	
  Income Number	
  of	
  Loans
몇 개 항목을 하나씩 뜯어봅니다.
Target	
  Value:	
  Default	
  or	
  Not?
연체여부 항목입니다. 연체를 안한 사람이 압도적으로 많은 불균형한
데이터셋이군요~
1	
  Goal
Business	
  goal	
  
Maximize	
  profit	
  by	
  filtering	
  out	
  customers	
  with	
  high	
  possibility	
  of	
  
default
Analysis	
  goal
Build	
  credit	
  scoring	
  model	
  with	
  maximum	
  f-­‐score,	
  not	
  accuracy
Accuracy가 아닌 F-score가 최대화되는 평가 모델을 만들어 수익을
극대화하는 것이 목표입니다. 그렇다면, 왜 Accuracy가 아닌 F-score인가?
Why	
  F-­‐Score?
• The	
  data	
  is	
  a	
  skewed	
  data with	
  
tiny	
  percentage	
  of	
  default	
  
customers	
  (SeriousDlqin2yrs	
  =	
  
1).
• Over	
  93%	
  accuracy	
  can	
  be	
  
achieved	
  without	
  filtering	
  out	
  a	
  
single	
  default	
  customer.
모두 다 연체를 안했다고 예측해도 93%가 넘는 정확도를 가지기 때문에
Accuracy는 적절한 지표가 아닙니다. 중요한 것은 7% 가량의 연체자를
가려내는 것!
Process	
  
Data
First	
  
Model
Evaluate
Modified	
  
Model
Threshold
Polynomial	
  Degree
C	
  (Regularization	
  Term)
우선 Scikit learn패키지의 디폴트 모델로 첫 모델을 만들고, 각종 파라미터를
조금씩 조절하여 모델을 개선시켜보도록 하겠습니다.
1	
  Process	
  Data
먼저, 데이터 가공하기!
2.1	
  Process	
  Data
Original	
  Data
150,000	
  
records
(100	
  %)
Cross	
  
Valida-­‐
tion
(20	
  %)
Test
(20	
  %)
Training
(60	
  %)Random	
  Sampling	
  
by	
  Shuffling	
  Data
60%의 개발셋, 20%의 크로스밸리데이션셋(파라미터 튜닝 용),
20%테스트셋으로 나눕니다.
2	
  Build	
  First	
  Model
첫번째 모델을 만듭니다.
First	
  Model
Logistic	
  Regression
Threshold Polynomial C F	
  score Accuracy
First	
  Model 0.5 1 1 0.0786 0.9336
Modified	
  Model
Change	
  (%)
(Tested	
  on	
  Test	
  Data)
Threshold,
 Polynomial
 degree,
 C값이 모두 디폴트로 위와 같이 주어질 때,
F-score는 0.0786
3	
  Evaluate	
  Model
이 첫번째 모델을 평가해 볼까요?
LR2.3	
  Evaluate	
  Model:	
  Learning	
  Curve
• High	
  bias
• Increase	
  in	
  #	
  of	
  train	
  data	
  
doesn’t	
  improve	
  cv	
  accuracy.
• There	
  is	
  no	
  big	
  gap	
  between	
  
train	
  accuracy	
  and	
  cv	
  accuracy.
• Increasing	
  #	
  of	
  train	
  data	
  
won’t	
  be	
  much	
  helpful.
Ø We	
  need	
  to	
  develop	
  more	
  
complex	
  model.
개발셋 크기를 증가시켜나갈때, Accuracy가 그다지 개선이 되지 않으므로,
모델이 너무 단순한 것 같군요. 좀 더 복잡한 모델을 만들어보죠!
4	
  Modify	
  Model
1.	
  Threshold
2.	
  Polynomial	
  Degree
3.	
  C	
  (Regularization	
  Term)
세 가지 파라미터를 조정하여 모델을 개선시켜봅시다.
1.	
  Threshold
최적의 Threshold(Probability 몇 이상을 무연체, 몇 이하를 연체로
예측할것인가)를 찾아봅시다
1.	
  Threshold
• Threshold	
  that	
  maximizes	
  F-­‐
score	
  	
  0.125
• Accuracy	
  is	
  sacrificed	
  for	
  
better	
  f-­‐score.
Threshold를 0~0.5사이에서 바꾸어가면서 F-score를 측정합니다. 0.125로
기준을 정할 때, F-score가 최대화됩니다.
2.	
  Add	
  Polynomial	
  Features
로지스틱 회귀 모형으로도 비선형 관계를 설명할 수 있습니다. 항목의 차수를
높이는 것인데요. 그림은 10개의 항목의 차수를 2로 높인 경우입니다.
1(0차)+10(1차)+10*9/2(1차*1차)+10(2차)=66개의 항목을 만들수
있습니다.
2.	
  Add	
  Polynomial	
  Features
• Polynomial	
  degree	
  that	
  
maximizes	
  F-­‐score	
  	
  2
• 10	
  features	
  (original)	
  -­‐	
  66	
  
features	
  (poly	
  2)
트레이닝 시간이 오래 걸려 1차, 2차, 3차만 테스트해보았습니다. 2차일때 F-
score가 극대화됩니다.
3.	
  C	
  (regularization	
  term)
• C	
  that	
  maximizes	
  F-­‐score	
  	
  
3
Regularization
 파라미터입니다. C가 커질수록 모델은 덜 복잡해집니다. 좀더
부드러운 곡선을 그리죠. C가 3인 지점에서 F-score가 극대화되네요.
5.	
  Conclusion
Improvements	
  made	
  from	
  the	
  first	
  model	
  to	
  the	
  modified	
  
model
모델은 얼마나 개선되었을까요?
Modified	
  Model	
  
Logistic	
  Regression
Threshold Polynomial C F	
  score Accuracy
First	
  Model 0.5 1 1 0.0786 0.9336
Modified	
  Model 0.125 2 3 0.4027 0.9108
Change	
  (%) +	
  412.34% -­‐2.44%
(Tested	
  on	
  Test	
  Data)
F-score가 무려 412.34%나 개선되었습니다. Accuracy는 2.44%정도
손해를 보았지만요!
How	
  many	
  default	
  customers	
  were	
  filtered	
  out?
4.23%
40.28%
이게 무슨의미냐 하면, 처음에는 연체고객의 4.23%밖에 걸러내지 못했지만
개선후에는 무려 40.28%나 걸러낼 수 있게 된 것입니다.
Modified	
  Model	
  -­‐ Coefficients	
  
• 10	
  most	
  positively correlated	
  
features	
  (out	
  of	
  66	
  polynomial	
  
features)
• How	
  to	
  interpret	
  the	
  table
• When	
  1,	
  multiply	
  once.
• When	
  2,	
  multiply	
  twice.
• For	
  example,	
  
• Feature	
  #5:	
  
DebtRatio*MonthlyIncome
• Feature	
  #4:	
  NumberOfTimes60-­‐
89DaysPastDueNotWorse^2
위 항목들은 클수록 연체할 확률이 적었습니다.

Mais conteúdo relacionado

Mais procurados

[DevGround] 린하게 구축하는 스타트업 데이터파이프라인
[DevGround] 린하게 구축하는 스타트업 데이터파이프라인[DevGround] 린하게 구축하는 스타트업 데이터파이프라인
[DevGround] 린하게 구축하는 스타트업 데이터파이프라인Jae Young Park
 
인공지능추천시스템 airs개발기_모델링과시스템
인공지능추천시스템 airs개발기_모델링과시스템인공지능추천시스템 airs개발기_모델링과시스템
인공지능추천시스템 airs개발기_모델링과시스템NAVER D2
 
백억개의 로그를 모아 검색하고 분석하고 학습도 시켜보자 : 로기스
백억개의 로그를 모아 검색하고 분석하고 학습도 시켜보자 : 로기스백억개의 로그를 모아 검색하고 분석하고 학습도 시켜보자 : 로기스
백억개의 로그를 모아 검색하고 분석하고 학습도 시켜보자 : 로기스NAVER D2
 
Data pipeline and data lake
Data pipeline and data lakeData pipeline and data lake
Data pipeline and data lakeDaeMyung Kang
 
Airflow를 이용한 데이터 Workflow 관리
Airflow를 이용한  데이터 Workflow 관리Airflow를 이용한  데이터 Workflow 관리
Airflow를 이용한 데이터 Workflow 관리YoungHeon (Roy) Kim
 
[NDC2017 : 박준철] Python 게임 서버 안녕하십니까 - 몬스터 슈퍼리그 게임 서버
[NDC2017 : 박준철] Python 게임 서버 안녕하십니까 - 몬스터 슈퍼리그 게임 서버[NDC2017 : 박준철] Python 게임 서버 안녕하십니까 - 몬스터 슈퍼리그 게임 서버
[NDC2017 : 박준철] Python 게임 서버 안녕하십니까 - 몬스터 슈퍼리그 게임 서버준철 박
 
AWS Personalize 중심으로 살펴본 추천 시스템 원리와 구축
AWS Personalize 중심으로 살펴본 추천 시스템 원리와 구축AWS Personalize 중심으로 살펴본 추천 시스템 원리와 구축
AWS Personalize 중심으로 살펴본 추천 시스템 원리와 구축Sungmin Kim
 
C#을 사용한 빠른 툴 개발
C#을 사용한 빠른 툴 개발C#을 사용한 빠른 툴 개발
C#을 사용한 빠른 툴 개발흥배 최
 
[NEXT] Flask 로 Restful API 서버 만들기
[NEXT] Flask 로 Restful API 서버 만들기 [NEXT] Flask 로 Restful API 서버 만들기
[NEXT] Flask 로 Restful API 서버 만들기 YoungSu Son
 
역삼역, 이마트 AI_v최종.pdf
역삼역, 이마트 AI_v최종.pdf역삼역, 이마트 AI_v최종.pdf
역삼역, 이마트 AI_v최종.pdfDeukJin Jeon
 
[NDC18] 만들고 붓고 부수고 - 〈야생의 땅: 듀랑고〉 서버 관리 배포 이야기
[NDC18] 만들고 붓고 부수고 - 〈야생의 땅: 듀랑고〉 서버 관리 배포 이야기[NDC18] 만들고 붓고 부수고 - 〈야생의 땅: 듀랑고〉 서버 관리 배포 이야기
[NDC18] 만들고 붓고 부수고 - 〈야생의 땅: 듀랑고〉 서버 관리 배포 이야기Chanwoong Kim
 
[236] 카카오의데이터파이프라인 윤도영
[236] 카카오의데이터파이프라인 윤도영[236] 카카오의데이터파이프라인 윤도영
[236] 카카오의데이터파이프라인 윤도영NAVER D2
 
How To Become Better Engineer
How To Become Better EngineerHow To Become Better Engineer
How To Become Better EngineerDaeMyung Kang
 
어떻게 하면 데이터 사이언티스트가 될 수 있나요?
어떻게 하면 데이터 사이언티스트가 될 수 있나요?어떻게 하면 데이터 사이언티스트가 될 수 있나요?
어떻게 하면 데이터 사이언티스트가 될 수 있나요?Yongho Ha
 
Spark + S3 + R3를 이용한 데이터 분석 시스템 만들기
Spark + S3 + R3를 이용한 데이터 분석 시스템 만들기Spark + S3 + R3를 이용한 데이터 분석 시스템 만들기
Spark + S3 + R3를 이용한 데이터 분석 시스템 만들기AWSKRUG - AWS한국사용자모임
 
제 14회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [카페 어디가?팀] : 카페 및 장소 추천 서비스
제 14회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [카페 어디가?팀] : 카페 및 장소 추천 서비스제 14회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [카페 어디가?팀] : 카페 및 장소 추천 서비스
제 14회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [카페 어디가?팀] : 카페 및 장소 추천 서비스BOAZ Bigdata
 
[NDC18] 야생의 땅 듀랑고의 데이터 엔지니어링 이야기: 로그 시스템 구축 경험 공유
[NDC18] 야생의 땅 듀랑고의 데이터 엔지니어링 이야기: 로그 시스템 구축 경험 공유[NDC18] 야생의 땅 듀랑고의 데이터 엔지니어링 이야기: 로그 시스템 구축 경험 공유
[NDC18] 야생의 땅 듀랑고의 데이터 엔지니어링 이야기: 로그 시스템 구축 경험 공유Hyojun Jeon
 
[야생의 땅: 듀랑고] 서버 아키텍처 Vol. 2 (자막)
[야생의 땅: 듀랑고] 서버 아키텍처 Vol. 2 (자막)[야생의 땅: 듀랑고] 서버 아키텍처 Vol. 2 (자막)
[야생의 땅: 듀랑고] 서버 아키텍처 Vol. 2 (자막)Heungsub Lee
 
BigQuery의 모든 것(기획자, 마케터, 신입 데이터 분석가를 위한) 입문편
BigQuery의 모든 것(기획자, 마케터, 신입 데이터 분석가를 위한) 입문편BigQuery의 모든 것(기획자, 마케터, 신입 데이터 분석가를 위한) 입문편
BigQuery의 모든 것(기획자, 마케터, 신입 데이터 분석가를 위한) 입문편Seongyun Byeon
 
개발을잘하고싶어요-네이버랩스 송기선님
개발을잘하고싶어요-네이버랩스 송기선님개발을잘하고싶어요-네이버랩스 송기선님
개발을잘하고싶어요-네이버랩스 송기선님NAVER D2
 

Mais procurados (20)

[DevGround] 린하게 구축하는 스타트업 데이터파이프라인
[DevGround] 린하게 구축하는 스타트업 데이터파이프라인[DevGround] 린하게 구축하는 스타트업 데이터파이프라인
[DevGround] 린하게 구축하는 스타트업 데이터파이프라인
 
인공지능추천시스템 airs개발기_모델링과시스템
인공지능추천시스템 airs개발기_모델링과시스템인공지능추천시스템 airs개발기_모델링과시스템
인공지능추천시스템 airs개발기_모델링과시스템
 
백억개의 로그를 모아 검색하고 분석하고 학습도 시켜보자 : 로기스
백억개의 로그를 모아 검색하고 분석하고 학습도 시켜보자 : 로기스백억개의 로그를 모아 검색하고 분석하고 학습도 시켜보자 : 로기스
백억개의 로그를 모아 검색하고 분석하고 학습도 시켜보자 : 로기스
 
Data pipeline and data lake
Data pipeline and data lakeData pipeline and data lake
Data pipeline and data lake
 
Airflow를 이용한 데이터 Workflow 관리
Airflow를 이용한  데이터 Workflow 관리Airflow를 이용한  데이터 Workflow 관리
Airflow를 이용한 데이터 Workflow 관리
 
[NDC2017 : 박준철] Python 게임 서버 안녕하십니까 - 몬스터 슈퍼리그 게임 서버
[NDC2017 : 박준철] Python 게임 서버 안녕하십니까 - 몬스터 슈퍼리그 게임 서버[NDC2017 : 박준철] Python 게임 서버 안녕하십니까 - 몬스터 슈퍼리그 게임 서버
[NDC2017 : 박준철] Python 게임 서버 안녕하십니까 - 몬스터 슈퍼리그 게임 서버
 
AWS Personalize 중심으로 살펴본 추천 시스템 원리와 구축
AWS Personalize 중심으로 살펴본 추천 시스템 원리와 구축AWS Personalize 중심으로 살펴본 추천 시스템 원리와 구축
AWS Personalize 중심으로 살펴본 추천 시스템 원리와 구축
 
C#을 사용한 빠른 툴 개발
C#을 사용한 빠른 툴 개발C#을 사용한 빠른 툴 개발
C#을 사용한 빠른 툴 개발
 
[NEXT] Flask 로 Restful API 서버 만들기
[NEXT] Flask 로 Restful API 서버 만들기 [NEXT] Flask 로 Restful API 서버 만들기
[NEXT] Flask 로 Restful API 서버 만들기
 
역삼역, 이마트 AI_v최종.pdf
역삼역, 이마트 AI_v최종.pdf역삼역, 이마트 AI_v최종.pdf
역삼역, 이마트 AI_v최종.pdf
 
[NDC18] 만들고 붓고 부수고 - 〈야생의 땅: 듀랑고〉 서버 관리 배포 이야기
[NDC18] 만들고 붓고 부수고 - 〈야생의 땅: 듀랑고〉 서버 관리 배포 이야기[NDC18] 만들고 붓고 부수고 - 〈야생의 땅: 듀랑고〉 서버 관리 배포 이야기
[NDC18] 만들고 붓고 부수고 - 〈야생의 땅: 듀랑고〉 서버 관리 배포 이야기
 
[236] 카카오의데이터파이프라인 윤도영
[236] 카카오의데이터파이프라인 윤도영[236] 카카오의데이터파이프라인 윤도영
[236] 카카오의데이터파이프라인 윤도영
 
How To Become Better Engineer
How To Become Better EngineerHow To Become Better Engineer
How To Become Better Engineer
 
어떻게 하면 데이터 사이언티스트가 될 수 있나요?
어떻게 하면 데이터 사이언티스트가 될 수 있나요?어떻게 하면 데이터 사이언티스트가 될 수 있나요?
어떻게 하면 데이터 사이언티스트가 될 수 있나요?
 
Spark + S3 + R3를 이용한 데이터 분석 시스템 만들기
Spark + S3 + R3를 이용한 데이터 분석 시스템 만들기Spark + S3 + R3를 이용한 데이터 분석 시스템 만들기
Spark + S3 + R3를 이용한 데이터 분석 시스템 만들기
 
제 14회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [카페 어디가?팀] : 카페 및 장소 추천 서비스
제 14회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [카페 어디가?팀] : 카페 및 장소 추천 서비스제 14회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [카페 어디가?팀] : 카페 및 장소 추천 서비스
제 14회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [카페 어디가?팀] : 카페 및 장소 추천 서비스
 
[NDC18] 야생의 땅 듀랑고의 데이터 엔지니어링 이야기: 로그 시스템 구축 경험 공유
[NDC18] 야생의 땅 듀랑고의 데이터 엔지니어링 이야기: 로그 시스템 구축 경험 공유[NDC18] 야생의 땅 듀랑고의 데이터 엔지니어링 이야기: 로그 시스템 구축 경험 공유
[NDC18] 야생의 땅 듀랑고의 데이터 엔지니어링 이야기: 로그 시스템 구축 경험 공유
 
[야생의 땅: 듀랑고] 서버 아키텍처 Vol. 2 (자막)
[야생의 땅: 듀랑고] 서버 아키텍처 Vol. 2 (자막)[야생의 땅: 듀랑고] 서버 아키텍처 Vol. 2 (자막)
[야생의 땅: 듀랑고] 서버 아키텍처 Vol. 2 (자막)
 
BigQuery의 모든 것(기획자, 마케터, 신입 데이터 분석가를 위한) 입문편
BigQuery의 모든 것(기획자, 마케터, 신입 데이터 분석가를 위한) 입문편BigQuery의 모든 것(기획자, 마케터, 신입 데이터 분석가를 위한) 입문편
BigQuery의 모든 것(기획자, 마케터, 신입 데이터 분석가를 위한) 입문편
 
개발을잘하고싶어요-네이버랩스 송기선님
개발을잘하고싶어요-네이버랩스 송기선님개발을잘하고싶어요-네이버랩스 송기선님
개발을잘하고싶어요-네이버랩스 송기선님
 

Destaque

파이썬 크롤링 모듈
파이썬 크롤링 모듈파이썬 크롤링 모듈
파이썬 크롤링 모듈Yong Joon Moon
 
자바, 미안하다! 파이썬 한국어 NLP
자바, 미안하다! 파이썬 한국어 NLP자바, 미안하다! 파이썬 한국어 NLP
자바, 미안하다! 파이썬 한국어 NLPEunjeong (Lucy) Park
 
파이썬 생존 안내서 (자막)
파이썬 생존 안내서 (자막)파이썬 생존 안내서 (자막)
파이썬 생존 안내서 (자막)Heungsub Lee
 
파이썬을 배워야하는 이유 발표자료 - 김연수
파이썬을 배워야하는 이유 발표자료 - 김연수파이썬을 배워야하는 이유 발표자료 - 김연수
파이썬을 배워야하는 이유 발표자료 - 김연수Yeon Soo Kim
 
Python 활용: 이미지 처리와 데이터 분석
Python 활용: 이미지 처리와 데이터 분석Python 활용: 이미지 처리와 데이터 분석
Python 활용: 이미지 처리와 데이터 분석용 최
 
취미로 하는 커뮤니티 사이트 분석
취미로 하는 커뮤니티 사이트 분석취미로 하는 커뮤니티 사이트 분석
취미로 하는 커뮤니티 사이트 분석Hyunjong Lee
 
[패스트캠퍼스 파이썬을 활용한 데이터분석 CAMP] 수강 후기_항공기상데이터분석
[패스트캠퍼스 파이썬을 활용한 데이터분석 CAMP] 수강 후기_항공기상데이터분석[패스트캠퍼스 파이썬을 활용한 데이터분석 CAMP] 수강 후기_항공기상데이터분석
[패스트캠퍼스 파이썬을 활용한 데이터분석 CAMP] 수강 후기_항공기상데이터분석Haedong Shin
 
TOMS Roasting, Co. Digital Strategy
TOMS Roasting, Co. Digital StrategyTOMS Roasting, Co. Digital Strategy
TOMS Roasting, Co. Digital StrategySarah Sheff
 
Bcom 275 final exam guide version b
Bcom 275 final exam guide version bBcom 275 final exam guide version b
Bcom 275 final exam guide version bbuypropunal1976
 
seminar in language
seminar in languageseminar in language
seminar in languagerzan nather
 
Tugas komputer
Tugas komputerTugas komputer
Tugas komputeranazma
 
Customer of the future
Customer of the futureCustomer of the future
Customer of the futuredanagendler
 
The future of connected retail
The future of connected retailThe future of connected retail
The future of connected retaildanagendler
 
Messenger kristen 3.3
Messenger kristen 3.3Messenger kristen 3.3
Messenger kristen 3.3spdgyrl1980
 
Trafo dan-jenisnya
Trafo dan-jenisnyaTrafo dan-jenisnya
Trafo dan-jenisnyaM.R Prahadi
 
Trabajo final
Trabajo finalTrabajo final
Trabajo finalurena04
 
Mekanika lagrangian
Mekanika lagrangianMekanika lagrangian
Mekanika lagrangianReza Aditya
 
Introduction to Natural Language Processing
Introduction to Natural Language ProcessingIntroduction to Natural Language Processing
Introduction to Natural Language ProcessingEunGi Hong
 

Destaque (20)

파이썬 크롤링 모듈
파이썬 크롤링 모듈파이썬 크롤링 모듈
파이썬 크롤링 모듈
 
자바, 미안하다! 파이썬 한국어 NLP
자바, 미안하다! 파이썬 한국어 NLP자바, 미안하다! 파이썬 한국어 NLP
자바, 미안하다! 파이썬 한국어 NLP
 
파이썬 생존 안내서 (자막)
파이썬 생존 안내서 (자막)파이썬 생존 안내서 (자막)
파이썬 생존 안내서 (자막)
 
파이썬을 배워야하는 이유 발표자료 - 김연수
파이썬을 배워야하는 이유 발표자료 - 김연수파이썬을 배워야하는 이유 발표자료 - 김연수
파이썬을 배워야하는 이유 발표자료 - 김연수
 
Python 활용: 이미지 처리와 데이터 분석
Python 활용: 이미지 처리와 데이터 분석Python 활용: 이미지 처리와 데이터 분석
Python 활용: 이미지 처리와 데이터 분석
 
취미로 하는 커뮤니티 사이트 분석
취미로 하는 커뮤니티 사이트 분석취미로 하는 커뮤니티 사이트 분석
취미로 하는 커뮤니티 사이트 분석
 
[패스트캠퍼스 파이썬을 활용한 데이터분석 CAMP] 수강 후기_항공기상데이터분석
[패스트캠퍼스 파이썬을 활용한 데이터분석 CAMP] 수강 후기_항공기상데이터분석[패스트캠퍼스 파이썬을 활용한 데이터분석 CAMP] 수강 후기_항공기상데이터분석
[패스트캠퍼스 파이썬을 활용한 데이터분석 CAMP] 수강 후기_항공기상데이터분석
 
TOMS Roasting, Co. Digital Strategy
TOMS Roasting, Co. Digital StrategyTOMS Roasting, Co. Digital Strategy
TOMS Roasting, Co. Digital Strategy
 
Bcom 275 final exam guide version b
Bcom 275 final exam guide version bBcom 275 final exam guide version b
Bcom 275 final exam guide version b
 
seminar in language
seminar in languageseminar in language
seminar in language
 
Tugas komputer
Tugas komputerTugas komputer
Tugas komputer
 
Customer of the future
Customer of the futureCustomer of the future
Customer of the future
 
Ajay Mareedu
Ajay MareeduAjay Mareedu
Ajay Mareedu
 
The future of connected retail
The future of connected retailThe future of connected retail
The future of connected retail
 
Messenger kristen 3.3
Messenger kristen 3.3Messenger kristen 3.3
Messenger kristen 3.3
 
Trafo dan-jenisnya
Trafo dan-jenisnyaTrafo dan-jenisnya
Trafo dan-jenisnya
 
Cv Usman Burney
Cv Usman BurneyCv Usman Burney
Cv Usman Burney
 
Trabajo final
Trabajo finalTrabajo final
Trabajo final
 
Mekanika lagrangian
Mekanika lagrangianMekanika lagrangian
Mekanika lagrangian
 
Introduction to Natural Language Processing
Introduction to Natural Language ProcessingIntroduction to Natural Language Processing
Introduction to Natural Language Processing
 

Semelhante a 파이썬 라이브러리로 쉽게 시작하는 데이터 분석

2017 빅콘테스트
2017 빅콘테스트2017 빅콘테스트
2017 빅콘테스트Sanghyun Kim
 
더 나은 S/W를 만드는 것에 관하여 (OKKY 세미나)
더 나은 S/W를 만드는 것에 관하여 (OKKY 세미나)더 나은 S/W를 만드는 것에 관하여 (OKKY 세미나)
더 나은 S/W를 만드는 것에 관하여 (OKKY 세미나)Jeongho Shin
 
제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [보야져 팀] : 기업연계프로젝트 3종세트 [마케팅시각화/서비스기획/분석시스템 구축]
제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [보야져 팀] : 기업연계프로젝트 3종세트 [마케팅시각화/서비스기획/분석시스템 구축]제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [보야져 팀] : 기업연계프로젝트 3종세트 [마케팅시각화/서비스기획/분석시스템 구축]
제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [보야져 팀] : 기업연계프로젝트 3종세트 [마케팅시각화/서비스기획/분석시스템 구축]BOAZ Bigdata
 
제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [리뷰의 재발견 팀] : 이커머스 리뷰 유용성 파악 및 필터링
제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [리뷰의 재발견 팀] : 이커머스 리뷰 유용성 파악 및 필터링제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [리뷰의 재발견 팀] : 이커머스 리뷰 유용성 파악 및 필터링
제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [리뷰의 재발견 팀] : 이커머스 리뷰 유용성 파악 및 필터링BOAZ Bigdata
 
Deep learning framework 제작
Deep learning framework 제작Deep learning framework 제작
Deep learning framework 제작Tae Young Lee
 
[팝콘 시즌1] 최보경 : 실무자를 위한 인과추론 활용 - Best Practices
[팝콘 시즌1] 최보경 : 실무자를 위한 인과추론 활용 - Best Practices[팝콘 시즌1] 최보경 : 실무자를 위한 인과추론 활용 - Best Practices
[팝콘 시즌1] 최보경 : 실무자를 위한 인과추론 활용 - Best PracticesPAP (Product Analytics Playground)
 
[PAP] 실무자를 위한 인과추론 활용 : Best Practices
[PAP] 실무자를 위한 인과추론 활용 : Best Practices[PAP] 실무자를 위한 인과추론 활용 : Best Practices
[PAP] 실무자를 위한 인과추론 활용 : Best PracticesBokyung Choi
 
Learning dataanalyst 2020oct_yonsei
Learning dataanalyst 2020oct_yonseiLearning dataanalyst 2020oct_yonsei
Learning dataanalyst 2020oct_yonseiIsabel Myeongju Han
 
Chapter 11 Practical Methodology
Chapter 11 Practical MethodologyChapter 11 Practical Methodology
Chapter 11 Practical MethodologyKyeongUkJang
 
통신사 고객 이탈분석
통신사 고객 이탈분석통신사 고객 이탈분석
통신사 고객 이탈분석DataScienceLab
 
브랜딧) 창업 프랜차이즈 추천 솔루션
브랜딧) 창업 프랜차이즈 추천 솔루션브랜딧) 창업 프랜차이즈 추천 솔루션
브랜딧) 창업 프랜차이즈 추천 솔루션YeongHyun
 
학교에서는 배울 수 없는 스타트업 엔지니어링 (연세대 특강)
학교에서는 배울 수 없는 스타트업 엔지니어링 (연세대 특강)학교에서는 배울 수 없는 스타트업 엔지니어링 (연세대 특강)
학교에서는 배울 수 없는 스타트업 엔지니어링 (연세대 특강)Lab80
 
[도서 리뷰] 헤드 퍼스트 데이터 분석 ( Head First Data Analysis )
[도서 리뷰]  헤드 퍼스트 데이터 분석 ( Head First Data Analysis )[도서 리뷰]  헤드 퍼스트 데이터 분석 ( Head First Data Analysis )
[도서 리뷰] 헤드 퍼스트 데이터 분석 ( Head First Data Analysis )Seung-Woo Kang
 
(주)위세아이텍 - 비지도 학습을 적용한 유사 금형설계도면 검색
(주)위세아이텍 - 비지도 학습을 적용한 유사 금형설계도면 검색 (주)위세아이텍 - 비지도 학습을 적용한 유사 금형설계도면 검색
(주)위세아이텍 - 비지도 학습을 적용한 유사 금형설계도면 검색 wiseitech
 
데이터를 얻으려는 노오오력
데이터를 얻으려는 노오오력데이터를 얻으려는 노오오력
데이터를 얻으려는 노오오력Youngjae Kim
 
프로덕트 매니지먼트하기
프로덕트 매니지먼트하기프로덕트 매니지먼트하기
프로덕트 매니지먼트하기YOO SE KYUN
 
머신러닝으로 쏟아지는 유저 CS 답변하기 DEVIEW 2017
머신러닝으로 쏟아지는 유저 CS 답변하기 DEVIEW 2017머신러닝으로 쏟아지는 유저 CS 답변하기 DEVIEW 2017
머신러닝으로 쏟아지는 유저 CS 답변하기 DEVIEW 2017Donghwa Kim
 

Semelhante a 파이썬 라이브러리로 쉽게 시작하는 데이터 분석 (20)

2017 빅콘테스트
2017 빅콘테스트2017 빅콘테스트
2017 빅콘테스트
 
더 나은 S/W를 만드는 것에 관하여 (OKKY 세미나)
더 나은 S/W를 만드는 것에 관하여 (OKKY 세미나)더 나은 S/W를 만드는 것에 관하여 (OKKY 세미나)
더 나은 S/W를 만드는 것에 관하여 (OKKY 세미나)
 
제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [보야져 팀] : 기업연계프로젝트 3종세트 [마케팅시각화/서비스기획/분석시스템 구축]
제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [보야져 팀] : 기업연계프로젝트 3종세트 [마케팅시각화/서비스기획/분석시스템 구축]제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [보야져 팀] : 기업연계프로젝트 3종세트 [마케팅시각화/서비스기획/분석시스템 구축]
제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [보야져 팀] : 기업연계프로젝트 3종세트 [마케팅시각화/서비스기획/분석시스템 구축]
 
제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [리뷰의 재발견 팀] : 이커머스 리뷰 유용성 파악 및 필터링
제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [리뷰의 재발견 팀] : 이커머스 리뷰 유용성 파악 및 필터링제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [리뷰의 재발견 팀] : 이커머스 리뷰 유용성 파악 및 필터링
제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [리뷰의 재발견 팀] : 이커머스 리뷰 유용성 파악 및 필터링
 
Deep learning framework 제작
Deep learning framework 제작Deep learning framework 제작
Deep learning framework 제작
 
[팝콘 시즌1] 최보경 : 실무자를 위한 인과추론 활용 - Best Practices
[팝콘 시즌1] 최보경 : 실무자를 위한 인과추론 활용 - Best Practices[팝콘 시즌1] 최보경 : 실무자를 위한 인과추론 활용 - Best Practices
[팝콘 시즌1] 최보경 : 실무자를 위한 인과추론 활용 - Best Practices
 
[PAP] 실무자를 위한 인과추론 활용 : Best Practices
[PAP] 실무자를 위한 인과추론 활용 : Best Practices[PAP] 실무자를 위한 인과추론 활용 : Best Practices
[PAP] 실무자를 위한 인과추론 활용 : Best Practices
 
Learning dataanalyst 2020oct_yonsei
Learning dataanalyst 2020oct_yonseiLearning dataanalyst 2020oct_yonsei
Learning dataanalyst 2020oct_yonsei
 
Chapter 11 Practical Methodology
Chapter 11 Practical MethodologyChapter 11 Practical Methodology
Chapter 11 Practical Methodology
 
통신사 고객 이탈분석
통신사 고객 이탈분석통신사 고객 이탈분석
통신사 고객 이탈분석
 
브랜딧) 창업 프랜차이즈 추천 솔루션
브랜딧) 창업 프랜차이즈 추천 솔루션브랜딧) 창업 프랜차이즈 추천 솔루션
브랜딧) 창업 프랜차이즈 추천 솔루션
 
학교에서는 배울 수 없는 스타트업 엔지니어링 (연세대 특강)
학교에서는 배울 수 없는 스타트업 엔지니어링 (연세대 특강)학교에서는 배울 수 없는 스타트업 엔지니어링 (연세대 특강)
학교에서는 배울 수 없는 스타트업 엔지니어링 (연세대 특강)
 
[도서 리뷰] 헤드 퍼스트 데이터 분석 ( Head First Data Analysis )
[도서 리뷰]  헤드 퍼스트 데이터 분석 ( Head First Data Analysis )[도서 리뷰]  헤드 퍼스트 데이터 분석 ( Head First Data Analysis )
[도서 리뷰] 헤드 퍼스트 데이터 분석 ( Head First Data Analysis )
 
H사 IPA Usecase
H사 IPA UsecaseH사 IPA Usecase
H사 IPA Usecase
 
Ipa usecase
Ipa usecaseIpa usecase
Ipa usecase
 
(주)위세아이텍 - 비지도 학습을 적용한 유사 금형설계도면 검색
(주)위세아이텍 - 비지도 학습을 적용한 유사 금형설계도면 검색 (주)위세아이텍 - 비지도 학습을 적용한 유사 금형설계도면 검색
(주)위세아이텍 - 비지도 학습을 적용한 유사 금형설계도면 검색
 
데이터를 얻으려는 노오오력
데이터를 얻으려는 노오오력데이터를 얻으려는 노오오력
데이터를 얻으려는 노오오력
 
분석6기 4조
분석6기 4조분석6기 4조
분석6기 4조
 
프로덕트 매니지먼트하기
프로덕트 매니지먼트하기프로덕트 매니지먼트하기
프로덕트 매니지먼트하기
 
머신러닝으로 쏟아지는 유저 CS 답변하기 DEVIEW 2017
머신러닝으로 쏟아지는 유저 CS 답변하기 DEVIEW 2017머신러닝으로 쏟아지는 유저 CS 답변하기 DEVIEW 2017
머신러닝으로 쏟아지는 유저 CS 답변하기 DEVIEW 2017
 

파이썬 라이브러리로 쉽게 시작하는 데이터 분석

  • 1. 파이썬 라이브러리로 쉽게 시작하는 데이터 분석 아무것도 모르는 문과생도 환영
  • 2. 데이터분석 해볼까 말까 망설이는 분들이 망설이지 말고 도전해보시기를 바라며 만든 슬라이드입니다. 아무것도 모르는 문과학생이 강의 2개와 책 1권을 읽고 시도해 본 데이터 분석입니다. 파이썬 Scikit Learn
  • 3.  Library를 사용하였습니다! 정말 잘 만들어진 라이브러리이라 초보자들이 쉽게 접근하기 좋습니다. 강의 1:  Intro  to  CS  and  Programming  Using  Python -­‐ 링크 책1:  깐깐하게 배우는 파이썬 -­‐ 링크 강의2:  Machine  Learning (강추강추!) -­‐ 링크
  • 4. Bank  Credit  Scoring  Algorithm 윤희경 은행 신용 평가 알고리즘 만들기
  • 5. 데이터 사이언스의 고향(?) 캐글 데이터를 이용했습니다!
  • 6. 그 중에서도 ’돈 좀 빌려줘!(?)’라는 이름의 2011년 대회 데이터를요!
  • 7. 1  Data • Content:  credit  history  of  customers • Size:  150,000  records  *  (1  id  +  10  features  +  1  target) Variable  Name Description Type SeriousDlqin2yrs Person  experienced  90  days  past  due  delinquency  or  worse   Y/N RevolvingUtilizationOfUnsecuredLines Total  balance  on  credit  cards  and  personal  lines  of  credit  except  real  estate  and  no  installment  debt  like   car  loans  divided  by  the  sum  of  credit  limits percentage age Age  of  borrower  in  years integer NumberOfTime30-­59DaysPastDueNotWorse Number  of  times  borrower  has  been  30-­59  days  past  due  but  no  worse  in  the  last  2  years. integer DebtRatio Monthly  debt  payments,  alimony,living   costs  divided  by  monthy  gross  income percentage MonthlyIncome Monthly  income real NumberOfOpenCreditLinesAndLoans Number  of  Open  loans  (installment  like  car  loan  or  mortgage)  and  Lines  of  credit  (e.g.  credit  cards) integer NumberOfTimes90DaysLate Number  of  times  borrower  has  been  90  days  or  more  past  due. integer NumberRealEstateLoansOrLines Number  of  mortgage  and  real  estate  loans  including  home  equity  lines  of  credit integer NumberOfTime60-­89DaysPastDueNotWorse Number  of  times  borrower  has  been  60-­89  days  past  due  but  no  worse  in  the  last  2  years. integer NumberOfDependents Number  of  dependents  in  family  excluding  themselves  (spouse,  children  etc.) integer 십 오만명의 은행 고객에 대한 과거 신용기록 데이터입니다. 10개 신상 정보 및 과거 신용 정보로 ‘연체 여부’를 예측하기 위한 데이터 셋입니다!
  • 8. Features Age  Distribution Debt  Ratio 몇 개 항목을 하나씩 뜯어봅니다.
  • 9. Features Monthly  Income Number  of  Loans 몇 개 항목을 하나씩 뜯어봅니다.
  • 10. Target  Value:  Default  or  Not? 연체여부 항목입니다. 연체를 안한 사람이 압도적으로 많은 불균형한 데이터셋이군요~
  • 11. 1  Goal Business  goal   Maximize  profit  by  filtering  out  customers  with  high  possibility  of   default Analysis  goal Build  credit  scoring  model  with  maximum  f-­‐score,  not  accuracy Accuracy가 아닌 F-score가 최대화되는 평가 모델을 만들어 수익을 극대화하는 것이 목표입니다. 그렇다면, 왜 Accuracy가 아닌 F-score인가?
  • 12. Why  F-­‐Score? • The  data  is  a  skewed  data with   tiny  percentage  of  default   customers  (SeriousDlqin2yrs  =   1). • Over  93%  accuracy  can  be   achieved  without  filtering  out  a   single  default  customer. 모두 다 연체를 안했다고 예측해도 93%가 넘는 정확도를 가지기 때문에 Accuracy는 적절한 지표가 아닙니다. 중요한 것은 7% 가량의 연체자를 가려내는 것!
  • 13. Process   Data First   Model Evaluate Modified   Model Threshold Polynomial  Degree C  (Regularization  Term) 우선 Scikit learn패키지의 디폴트 모델로 첫 모델을 만들고, 각종 파라미터를 조금씩 조절하여 모델을 개선시켜보도록 하겠습니다.
  • 14. 1  Process  Data 먼저, 데이터 가공하기!
  • 15. 2.1  Process  Data Original  Data 150,000   records (100  %) Cross   Valida-­‐ tion (20  %) Test (20  %) Training (60  %)Random  Sampling   by  Shuffling  Data 60%의 개발셋, 20%의 크로스밸리데이션셋(파라미터 튜닝 용), 20%테스트셋으로 나눕니다.
  • 16. 2  Build  First  Model 첫번째 모델을 만듭니다.
  • 17. First  Model Logistic  Regression Threshold Polynomial C F  score Accuracy First  Model 0.5 1 1 0.0786 0.9336 Modified  Model Change  (%) (Tested  on  Test  Data) Threshold,
  • 20.  C값이 모두 디폴트로 위와 같이 주어질 때, F-score는 0.0786
  • 21. 3  Evaluate  Model 이 첫번째 모델을 평가해 볼까요?
  • 22. LR2.3  Evaluate  Model:  Learning  Curve • High  bias • Increase  in  #  of  train  data   doesn’t  improve  cv  accuracy. • There  is  no  big  gap  between   train  accuracy  and  cv  accuracy. • Increasing  #  of  train  data   won’t  be  much  helpful. Ø We  need  to  develop  more   complex  model. 개발셋 크기를 증가시켜나갈때, Accuracy가 그다지 개선이 되지 않으므로, 모델이 너무 단순한 것 같군요. 좀 더 복잡한 모델을 만들어보죠!
  • 23. 4  Modify  Model 1.  Threshold 2.  Polynomial  Degree 3.  C  (Regularization  Term) 세 가지 파라미터를 조정하여 모델을 개선시켜봅시다.
  • 24. 1.  Threshold 최적의 Threshold(Probability 몇 이상을 무연체, 몇 이하를 연체로 예측할것인가)를 찾아봅시다
  • 25. 1.  Threshold • Threshold  that  maximizes  F-­‐ score    0.125 • Accuracy  is  sacrificed  for   better  f-­‐score. Threshold를 0~0.5사이에서 바꾸어가면서 F-score를 측정합니다. 0.125로 기준을 정할 때, F-score가 최대화됩니다.
  • 26. 2.  Add  Polynomial  Features 로지스틱 회귀 모형으로도 비선형 관계를 설명할 수 있습니다. 항목의 차수를 높이는 것인데요. 그림은 10개의 항목의 차수를 2로 높인 경우입니다. 1(0차)+10(1차)+10*9/2(1차*1차)+10(2차)=66개의 항목을 만들수 있습니다.
  • 27. 2.  Add  Polynomial  Features • Polynomial  degree  that   maximizes  F-­‐score    2 • 10  features  (original)  -­‐  66   features  (poly  2) 트레이닝 시간이 오래 걸려 1차, 2차, 3차만 테스트해보았습니다. 2차일때 F- score가 극대화됩니다.
  • 28. 3.  C  (regularization  term) • C  that  maximizes  F-­‐score     3 Regularization
  • 29.  파라미터입니다. C가 커질수록 모델은 덜 복잡해집니다. 좀더 부드러운 곡선을 그리죠. C가 3인 지점에서 F-score가 극대화되네요.
  • 30. 5.  Conclusion Improvements  made  from  the  first  model  to  the  modified   model 모델은 얼마나 개선되었을까요?
  • 31. Modified  Model   Logistic  Regression Threshold Polynomial C F  score Accuracy First  Model 0.5 1 1 0.0786 0.9336 Modified  Model 0.125 2 3 0.4027 0.9108 Change  (%) +  412.34% -­‐2.44% (Tested  on  Test  Data) F-score가 무려 412.34%나 개선되었습니다. Accuracy는 2.44%정도 손해를 보았지만요!
  • 32. How  many  default  customers  were  filtered  out? 4.23% 40.28% 이게 무슨의미냐 하면, 처음에는 연체고객의 4.23%밖에 걸러내지 못했지만 개선후에는 무려 40.28%나 걸러낼 수 있게 된 것입니다.
  • 33. Modified  Model  -­‐ Coefficients   • 10  most  positively correlated   features  (out  of  66  polynomial   features) • How  to  interpret  the  table • When  1,  multiply  once. • When  2,  multiply  twice. • For  example,   • Feature  #5:   DebtRatio*MonthlyIncome • Feature  #4:  NumberOfTimes60-­‐ 89DaysPastDueNotWorse^2 위 항목들은 클수록 연체할 확률이 적었습니다.
  • 34. Modified  Model  -­‐ Coefficients   • 10  most  negatively correlated  features  (out  of   66  polynomial  features) 위 항목들은 클수록 연체할 확률이 높았습니다
  • 35. The  End. Scikit Learn 패키지를 이용하면 위 과정이 그리 어렵지 않으니, 궁금하신 분들은 한번 시도해 보시는 것도 좋을 것 같습니다!
  • 36. 4  Appendix 1. Explore  Data 1. One  Feature:  Histograms 2. Two  Features:  Scatter  Plots    Separated  Histograms
  • 37. 4.1  Explore  Data I. One  Feature:  Histogram II. Two  Features:  Scatter  Plot    Separated  Histograms In  the  report,  we  only  take  ‘age’  feature  as  an   example.  For  more  features,  please  refer  to   ‘Appendix_ExploreData.html’   I.  One  feature:  Histogram
  • 38. 2.  Two  Feature:  Scatter  Plot 2.  Separated  Histograms