29. 2nd 3600px
1st 2750px
3rd 4550px
2nd 1060px
1st 560px
3rd 2050px
1000px
2000px
3000px
4000px
5000px
첫 화면 크기 560px
네이버가 제공한
화면크기
User가 사용한크
기
첫 화면크기
Valid max 4050
( 98%)
2nd 610px
1st 560px
3rd 720px
-크기 boxplot
이 자료를 바탕으로 제공화면 크기를 조절
할 계획임.
43. 0. 데이터 분석
데이터 분석은 크게 5가지 작업으로 구분된다.
(1) Data Collection – 수집
: 필요한 자료수집 ( 생각보다 어려움 )
(2) Descriptive Statistics - 기술통계
: 데이터를 이해하는 지점.
(3) Exploratory data analysis – 탐구적 자료분석
: 같음, 다름을 찾아내는 지점.
(4) Hypothesis testing – 가설검정
: 확신을 얻는 지점.
(5) Estimation – 추정
: 모델을 완성하는 지점.5가지를 균형있게 수행할 수 있는 사람을 ‘데이터사이언티스트’ 라고 한다.
44. 1. 기술통계 (Descriptive Statistics)
- 데이터가 어떻게 생겼는지 이해하는 부분
“송중기가어떻게생겼는가?”
->잘생겼네.
->눈은어떻고,코는어떻고,…
평균
Median, quantile, variance, …
45. 1. 기술통계 (Descriptive Statistics)
- 데이터가 어떻게 생겼는지 이해하는 부분
“기초 통계를보고싶다”
데이터가 어떻게 생겼는지 알고싶다
[ multi modal 예제 ]
가장짧은말로,가장많은모습을설명한다.
! 대부분, 데이터를 이해하는 과정에서 분석의 전체 구조가 나온다.
46. 2. 탐구적 자료분석 (Exploratory Data Analysis )
- 특징 ( 패턴 및 특이점) 찾는 부분
이중에유독 다른 한장을 찾을 수 있
나?
① ②
③ ④
47. 2. 탐구적 자료분석 (Exploratory Data Analysis )
- 패턴 및 특이점 찾는 부분
- Sequence Mining
- Clustering
- Classification
- Topic modeling
- Deep learning
[ clustering 예제]
48. 3. 가설검정 (Hypothesis testing)
- 찾아낸 특징이 정말로 그러한지 확신하는 부분
“송중기와송혜교가만나는 사이인
가?”
->증거: 반지,커플티..
49. 3. 가설검정 (Hypothesis testing)
- 찾아낸 특징이 정말로 그러한지 확신하는 부분
- P-value
- T test, Chi square
test
- Likelihood ratio
- Cross validation
56. 3.5 분포통계
제가 사용하는 분포 구조입니다.
베르누이 이항분포 정규분표
t분표
카이스퀘
어분표
F분표
다항분포
다변량정
규분표
베타분포
드리쉴레
분포
프아송
분포
감마분포
(지수분포)
검정통계continuousdiscrete
동전던지기
여러번 무한번
평균
제곱:
분산
나누기
일정시간
거꾸로
거꾸로
거꾸로
주사위
여러번
무한번
57. 3.5 분포통계
제가 사용하는 분포 구조입니다.
베르누이 이항분포 정규분표
t분표
카이스퀘
어분표
F분표
다항분포
다변량정
규분표
베타분포
드리쉴레
분포
프아송
분포
감마분포
(지수분포)
검정통계continuousdiscrete
bernuill binomial
poisson
multinomial
Multivariate
normaml
gaussian
beta
dirichlet
Student t
Chi-square
F
Gamma
일정시간
-