SlideShare uma empresa Scribd logo
1 de 33
Baixar para ler offline
통계, 자료분석 입문

                  김성익
        noerror@softnette.com


             kasa발표자료
               2011/06/25
개요
• 기초적인 통계, 자료분석 개념 정리

• Why
 – 게임 서비스 시 체계적이고 신속한 유저 대응
   을 위한 시스템 구성
 – 통계 및 자료 분석 개념 사용되고 있음
   • VSM, PCA이용한 DXT, MOTION GRAPH등등
 – 그냥 일반 상식으로
1. 통계 기본 개념들
•   어떻게 측정치가 실제 값이 되는가?
•   기술통계, 추측통계
•   샘플링
•   대표 값
•   표준편차
•   주성분 분석
•   신뢰성, 타당성
통계적 추측
• 실제값 != 예측값
• 예측 값을 실제 값으로 만드는 마법
통계적 추측
• 실제값 = 예측값 + 오차
통계
• 기술 통계
 – 모든 정보로 집단 특성 조사
 – 센서스 census 전수조사
 – 모집단의 특성이 다양하게 분포되는 경우
• 추측통계
 – 모집단 가운데서 표본을 추출해서 모집단의
   특성을 추측
 – 샘플링
샘플링
• 설계
 – 모집단 정의
 – 샘플링 프레임 (목록, 기준)
 – 샘플링 방법 선택
   • 확률적 샘플링 (순수 랜덤)
       –   단순 랜덤 샘플링 simple random sampling
       –   층화 샘플링 stratified sampling
       –   군집 샘플링 cluster sampling
       –   체계적 샘플링 systematic sampling
   • 비확률적 샘플링 (의도적으로 분류)
       – 편의 샘플링 convenience sampling
       – 판단 샘플링 judgement sampling
       – 쿼타 샘플링 quota sampling (vs cluster sampling)
 – 표본 수 결정
   • 최대 허용 오차, 신뢰수준
대표값
• 모집단의 특성을 나타내는 값
 – 평균   mean
  • 산술 평균 arithmetic mean


 – 중앙값    median
  • 데이터를 순서대로 나열한 데이터 중 가운데 값
    (짝수면 가운데 두 수의 평균)
 – 최빈값
  • 가장 많은 값
표준편차
• 평균으로는 데이터가 얼마나 흩어져 있는 지는 알
  수 없다
• 표준 편차 (s)
• 분산 (s2)


 – 값이 작으면 데이터는 평균 주변에 모이지만, 크면 평
   균에서 크게 벗어나는 성질
 – (자유도)
• 변동계수   coefficient of variation : CV
 – 평균에 대한 상대적 분산도
 – 표준편차를 평균으로 나눈 값
정규분포
• 히스토그램 histogram
  확률 밀도 함수 probability density function
   – 데이터 수 증가, 폭이 좁아지면




• 정규분포       normal distribution
   – 종모양
   – 중심극한정리 centeral limit theorem
      • 표본의 수가 많다면, 모집단의 실제 분포와 관계없이, 표본평균
        의 표본분포는 정규분포를 따른다
      • Lilliefores 검정 : 데이터가 정규분포를 따르는 지 검사
정규분포
• 정규분포는 다음의 특성을 가지고 있다
표준정규분포
• 즉, 평균과 표준 편차를 알면 데이터의 분
  포도를 예측 할 수 있다
응용 예
   • VSM     variance shadow map




   • Chebyshev 부등식 이용
      – 분산이용, occlusion 정도를 구함

http://www.punkuser.net/vsm/
주성분 분석
• 주성분 분석 principal component analysis
• 고유값 eigenvalue




• 의미 있는 개념의 수만큼 의미 있는 주성
  분이 추출
주성분 분석 응용 예
   • DXT 압축 알고리즘
      – PCA축을 이용하여 블록의 두 지점 결정
      – 각 픽셀은 두 점 사이의 블랜드 값
   • 애니메이션 그래프
      – 복잡한 모션을 특성 몇 개로 대표
      – 모션 탐색 시 사용



http://www.slideshare.net/noerror/dxtcompression
http://www.gdcvault.com/play/1705/Momentum-vs-Character
신뢰성
• 신뢰성   reliability   측정
 – 재검사
 – 반분법
• 내적 일관성 측정
 – 측정값의 분산에서 실제 값의 분산이 차지하는 비율
 – 크론바흐 알파 Cronbach’s alpha



   • 값이 클수록 신뢰성이 높다
     – 신뢰성 있는 크론바하 알파는 얼마 이상 ???
       0.7 ??? Nunnally(1978)
타당성
• 타당성   Validity

 – 기준 타당성
 – 내용 타당성
 – 개념 타당성
2. 자료분석
•   모수 분석 / 비모수 분석
•   상관 관계 분석
•   로지스틱 회귀 분석
•   분산 분석
•   요인 분석
•   군집 분석
자료분석
• 모수 분석    parametric analysis

 – 모수(평균, 분산 등)를 이용하여 추측
 – 자료가 정규 분포를 따른다
   • 중심극한정리
• 비모수 분석      nonparametric analysis

 – 분포와 무관한 방법
 – 도수 frequency, 부호 sign, 순위       rank   등의 통계량
   으로 분석
상관 관계 분석
• 종속 변수(반응변수) Y와 독립변수(설명변수) X사이의 연관성을 파
  악
• 연관도 측정
  – 공분산
    • 선형 관계 방향 유무 (관계 정도는 알 수 없음)
  – 상관 계수
    • 표준화된 공분산
    • 방향과 퍼진 정도
단순 회귀 분석
• 회귀분석        regression analysis
 – 다른 변수의 값이 어떻게 변할 것인지를 예측
• 두 변수 사이에 존재하는 상호의존 관계를 함
  수 관계로 표현
 – 모 회귀 방정식 population regression equation
   E(Yi) = α + β xi
 – 표본자료를 이용 α, β 를 추정
    • 최소제곱법        least square method

• 잔차   residual
 – 예측한 값과 측정한 값의 차이(오차, 개별성)
단순 회귀 분석
• 총변동
 – SST = 회귀제곱합 SSR + 잔차제곱합 SSE
• 결정계수(r2)   coefficient of determination

 – SSR / SST = 1 – SSE / SST
 – 잔차가 작을 수록 결정계수가 커진다
 – 결정계수 0.7 = 70%로 회귀식을 설명할 수 있
   다
• 상관 계수(r)   coefficient of correlation
단순 회귀 분석
• F 검점
   – 회귀 모형을 사용할 것인지 검정
      • F가 1보다 충분히 커야 한다
   – F = MSR / MSE
      • MSR (mean square regression) <- 회귀변동
      • MSE (mean square error) <- 평균 잔차변동
      • 자유도
• t 검정
   – 독립 변수와 종속 변수의 관계의 유의미성
      • T값이 유의 값 보다 크다면 유의미
• 잔차 분석 residual analysis
   – 잔차가 서로 무관해야 함 (상관성 X)
   – 거빈 와트슨 통계량 Durbin-Watson statistic
다중 회귀 분석
• 한 개의 종속 변수와 여러 개의 독립변수의
  관계를 분석
• 회귀 방정식
  Yi = α + β1x1i + β2 x2i + .. + ei
• 다중 공선성 multicollinearity
  – 독립 변수들 사이의 상호의존도가 높으면 회귀계
    수의 부호가 바뀌거나 0에 가까운 값으로 나타남
  – 분산확대인자 Variance inflation factor
    • 클수록 다중 공선성이 심하다
  – 상관 관계가 높은 변수들 중 하나만 남기고 나머
    지 변수들은 모형에서 제거
다중 회귀 분석
• 적합성 검정
 – 전반 검정
 – 부분 검정
  • 다중 공선성 문제를 해결하기 위해 추가적인 검정
    절차 필요
  • 독립변수 각각의 회귀계수에 대해 유의성 검정
로지스틱 회귀 분석
• 자료가 두 그룹으로 나누어진 상황에서, 두 그룹이 구분되는
  특성을 파악하여 다른 어떤 데이터가 어느 그룹에 속하는 지
  예측
• 오즈 (odds)
  – 그룹 1에 속할 확률 / 그룹 2에 속할 확률
     • 그룹 1에 속할 확률 p
     • 오즈 = p / (1-p)
• 로그 오즈
  – 오즈에 로그를 취한 값
  – 로그오즈 = ln( p / (1-p) )
  – 로지스틱 회귀 모형 = α + β1x1i + β2 x2i + ..
• 로지스틱 회귀 방정식
  – p = 1 / (1 + exp[ - (α + β1x1i + β2 x2i + ..) ] )
  – 최대우도법 maximum likelihood method 으로 추정
분산 분석
• ANOVA analysis of variance
  – 두 개 이상으로 구성된 그룹의 평균을 비교하
    는 목적의 분산
  – 평균의 정확성 측정
• 단일 요일 분산 분석 one way ANOVA
• 2요인 분산 분석 two way ANOVA
요인분석
• 측정 변수들의 상호 의존 관계를 나타낼 수 있도록 만드는 새로운
  변수
• 탐색적 요인분석
  확증적 요인분석
• 초기 요인 추출
  – 주성분 분석 principal component analysis
  – 반복된 주성분 분석 iterated principal component
  – 최대우도법 maximum likelihood method
• 요인 다이어그램
  – 요익 적재값을 그래프를 그려서 시각화
• 요인 회전      factor rotation
  – 직교 회전    orthogonal rotation
       • 배리맥스 회전 varimax rotation
  –   사각 회전 oblique rotation
       • 비직교회전 non-orthogonal rotation
군집분석
• 데이터의 군집을 분류
• 프로파일 다이어그램
• 두 점간의 거리
 – 유클리디안 거리
 – 절대차이
• 두 군집간의 거리
 – 중심 연결법, 단일 연결법, 완전 연결법, 평균 연
   결법, …
• 계층적 군집화 – 응집법, 분리법
  비계층적 군집화 – k 평균 군집화
3. 통계적 추측
• 기본
 – 어떤 가설을 참이라고 가정
 – 일어날 가능성이 희박한 표본 평균값에 대한
   수준을 정함
 – 표본 자료를 통해 계산된 표본 평균이 그 수준
   을 벗어나면
 – 참이라고 가정한 그 가설은 기각
통계적 가설
•   귀무가설(H0) nullhypothesis
    – 일반적으로 인정하는 가설
    – 주장하고자 하는 가설의 반대
•   대립가설(H1) alternative hypothesis
    – 일반적으로 주장하고자 하는 가설
    – 귀무 가설의 반대 (대립)
•   결론적으로 귀무 가설을 기각시켜서 대립 가설을 주장하는 로직
•   결론 해석
    – 가설이 참이다 X
    – 가설을 기각할만한 충분한 이유가 없다 (O)
        •   유의 수준


•   1종 오류
    – 귀무가설이 진실임에도 불구하고 귀무가설을
      기각하고 대립가설을 채택하는 경우
•   2종 오류
    – 귀무가설이 진실이 아님에도 불구하고
      귀무가설을 채택하는 경우
통계적 절차
•   유의 수준, 귀무가설, 대립 가설 설정
•   검정 통계량 결정
•   기각역 결정
•   검정 통계량의 계산
•   통계적 의사 결정
질문/답
• 감사합니다

Mais conteúdo relacionado

Mais procurados

13.상관과 회귀
13.상관과 회귀13.상관과 회귀
13.상관과 회귀
Yoonwhan Lee
 
04.r 기초 유의성 검증
04.r 기초   유의성 검증04.r 기초   유의성 검증
04.r 기초 유의성 검증
Yoonwhan Lee
 
11.두표본의 평균비교
11.두표본의 평균비교11.두표본의 평균비교
11.두표본의 평균비교
Yoonwhan Lee
 
02.자료다루기
02.자료다루기02.자료다루기
02.자료다루기
Yoonwhan Lee
 

Mais procurados (14)

13.상관과 회귀
13.상관과 회귀13.상관과 회귀
13.상관과 회귀
 
04.r 기초 유의성 검증
04.r 기초   유의성 검증04.r 기초   유의성 검증
04.r 기초 유의성 검증
 
11.두표본의 평균비교
11.두표본의 평균비교11.두표본의 평균비교
11.두표본의 평균비교
 
02.자료다루기
02.자료다루기02.자료다루기
02.자료다루기
 
06.확률분포
06.확률분포06.확률분포
06.확률분포
 
확률변수와 분포함수
확률변수와 분포함수확률변수와 분포함수
확률변수와 분포함수
 
01.r 기초 확률분포
01.r 기초   확률분포01.r 기초   확률분포
01.r 기초 확률분포
 
Head first statistics_summary_ch03
Head first statistics_summary_ch03Head first statistics_summary_ch03
Head first statistics_summary_ch03
 
Head first statistics_summary_ch02
Head first statistics_summary_ch02Head first statistics_summary_ch02
Head first statistics_summary_ch02
 
연구학교 데이터분석
연구학교 데이터분석 연구학교 데이터분석
연구학교 데이터분석
 
Week5 data vis(2)
Week5 data vis(2)Week5 data vis(2)
Week5 data vis(2)
 
기초 확률 관련
기초 확률 관련기초 확률 관련
기초 확률 관련
 
[논문발표] 20160801 A Sentiment-Enhanced Personalized Location Recommendation System
[논문발표] 20160801 A Sentiment-Enhanced Personalized Location Recommendation System[논문발표] 20160801 A Sentiment-Enhanced Personalized Location Recommendation System
[논문발표] 20160801 A Sentiment-Enhanced Personalized Location Recommendation System
 
05.확률
05.확률05.확률
05.확률
 

Destaque

09.통계적가설검정
09.통계적가설검정09.통계적가설검정
09.통계적가설검정
Yoonwhan Lee
 
00.통계학입문
00.통계학입문00.통계학입문
00.통계학입문
Yoonwhan Lee
 
통계자료 분석을 위한 R
통계자료 분석을 위한 R통계자료 분석을 위한 R
통계자료 분석을 위한 R
Yoonwhan Lee
 
사업예산실무 Intro 120530_prezi
사업예산실무 Intro 120530_prezi사업예산실무 Intro 120530_prezi
사업예산실무 Intro 120530_prezi
Hipertech Inc.
 
장아찌사업계획서(0623)
장아찌사업계획서(0623)장아찌사업계획서(0623)
장아찌사업계획서(0623)
Hipertech Inc.
 
창업론2조발표
창업론2조발표창업론2조발표
창업론2조발표
Inyoung Lee
 
고산 약속타운 사업계획서 임경수
고산 약속타운 사업계획서   임경수고산 약속타운 사업계획서   임경수
고산 약속타운 사업계획서 임경수
seekly
 
신세계 마케팅전략 (No.1)(브랜딩제안)_뇌새김
신세계 마케팅전략 (No.1)(브랜딩제안)_뇌새김신세계 마케팅전략 (No.1)(브랜딩제안)_뇌새김
신세계 마케팅전략 (No.1)(브랜딩제안)_뇌새김
승욱 유
 
단순선형회귀분석예제
단순선형회귀분석예제단순선형회귀분석예제
단순선형회귀분석예제
Yoonwhan Lee
 

Destaque (20)

R과 기초통계 : 02.기술통계-자료나타내기
R과 기초통계 : 02.기술통계-자료나타내기R과 기초통계 : 02.기술통계-자료나타내기
R과 기초통계 : 02.기술통계-자료나타내기
 
R과 기초통계 : 01.자료다루기
R과 기초통계 : 01.자료다루기R과 기초통계 : 01.자료다루기
R과 기초통계 : 01.자료다루기
 
R 기초 : R Basics
R 기초 : R BasicsR 기초 : R Basics
R 기초 : R Basics
 
09.통계적가설검정
09.통계적가설검정09.통계적가설검정
09.통계적가설검정
 
00.통계학입문
00.통계학입문00.통계학입문
00.통계학입문
 
통계자료 분석을 위한 R
통계자료 분석을 위한 R통계자료 분석을 위한 R
통계자료 분석을 위한 R
 
사업예산실무 Intro 120530_prezi
사업예산실무 Intro 120530_prezi사업예산실무 Intro 120530_prezi
사업예산실무 Intro 120530_prezi
 
장아찌사업계획서(0623)
장아찌사업계획서(0623)장아찌사업계획서(0623)
장아찌사업계획서(0623)
 
창업론2조발표
창업론2조발표창업론2조발표
창업론2조발표
 
고산 약속타운 사업계획서 임경수
고산 약속타운 사업계획서   임경수고산 약속타운 사업계획서   임경수
고산 약속타운 사업계획서 임경수
 
뉴스젤리 메이킹스토리 1
뉴스젤리 메이킹스토리 1뉴스젤리 메이킹스토리 1
뉴스젤리 메이킹스토리 1
 
마이크로소프트 클라우드 Erp 서비스 nav 2013 소개 비영리법인 및 공공산업
마이크로소프트 클라우드 Erp 서비스 nav 2013 소개 비영리법인 및 공공산업마이크로소프트 클라우드 Erp 서비스 nav 2013 소개 비영리법인 및 공공산업
마이크로소프트 클라우드 Erp 서비스 nav 2013 소개 비영리법인 및 공공산업
 
신세계 마케팅전략 (No.1)(브랜딩제안)_뇌새김
신세계 마케팅전략 (No.1)(브랜딩제안)_뇌새김신세계 마케팅전략 (No.1)(브랜딩제안)_뇌새김
신세계 마케팅전략 (No.1)(브랜딩제안)_뇌새김
 
뉴스젤리 메이킹 스토리 2
뉴스젤리 메이킹 스토리 2뉴스젤리 메이킹 스토리 2
뉴스젤리 메이킹 스토리 2
 
공공데이터로 보는 사회문제_Full
공공데이터로 보는 사회문제_Full공공데이터로 보는 사회문제_Full
공공데이터로 보는 사회문제_Full
 
1[1].2.10알고리즘 분석
1[1].2.10알고리즘 분석1[1].2.10알고리즘 분석
1[1].2.10알고리즘 분석
 
단순선형회귀분석예제
단순선형회귀분석예제단순선형회귀분석예제
단순선형회귀분석예제
 
왜 정보시스템 프로젝트는 실패하는가? (Why Information System Projects Fail?)
왜 정보시스템 프로젝트는 실패하는가? (Why Information System Projects Fail?)왜 정보시스템 프로젝트는 실패하는가? (Why Information System Projects Fail?)
왜 정보시스템 프로젝트는 실패하는가? (Why Information System Projects Fail?)
 
6sigma 혁신활동의 실제기업사례[lg텔레콤(close loop power control)]
6sigma 혁신활동의 실제기업사례[lg텔레콤(close loop power control)]6sigma 혁신활동의 실제기업사례[lg텔레콤(close loop power control)]
6sigma 혁신활동의 실제기업사례[lg텔레콤(close loop power control)]
 
웹사이트기획 및 관리
웹사이트기획 및 관리웹사이트기획 및 관리
웹사이트기획 및 관리
 

Semelhante a 11_통계 자료분석 입문

웹보메트릭스와 계량정보학06 1
웹보메트릭스와 계량정보학06 1웹보메트릭스와 계량정보학06 1
웹보메트릭스와 계량정보학06 1
Han Woo PARK
 
웹보메트릭스06 1
웹보메트릭스06 1웹보메트릭스06 1
웹보메트릭스06 1
Inho Cho
 

Semelhante a 11_통계 자료분석 입문 (20)

From maching learning to deep learning episode2
From maching learning to deep learning episode2 From maching learning to deep learning episode2
From maching learning to deep learning episode2
 
Mahout
MahoutMahout
Mahout
 
Spc개요
Spc개요Spc개요
Spc개요
 
제자리통계 0913
제자리통계 0913제자리통계 0913
제자리통계 0913
 
Crash Course on Graphical models
Crash Course on Graphical modelsCrash Course on Graphical models
Crash Course on Graphical models
 
From maching learning to deep learning
From maching learning to deep learningFrom maching learning to deep learning
From maching learning to deep learning
 
웹보메트릭스와 계량정보학06 1
웹보메트릭스와 계량정보학06 1웹보메트릭스와 계량정보학06 1
웹보메트릭스와 계량정보학06 1
 
웹보메트릭스06 1
웹보메트릭스06 1웹보메트릭스06 1
웹보메트릭스06 1
 
표집
표집표집
표집
 
딥러닝의 기본
딥러닝의 기본딥러닝의 기본
딥러닝의 기본
 
LLG Data Journalism Module3 Review
LLG Data Journalism Module3 ReviewLLG Data Journalism Module3 Review
LLG Data Journalism Module3 Review
 
2.supervised learning
2.supervised learning2.supervised learning
2.supervised learning
 
데이터 분석 프로세스
데이터 분석 프로세스데이터 분석 프로세스
데이터 분석 프로세스
 
230601이종기-시장조사론특강교안-신뢰성과 타당성-요인분석-최종.pdf
230601이종기-시장조사론특강교안-신뢰성과 타당성-요인분석-최종.pdf230601이종기-시장조사론특강교안-신뢰성과 타당성-요인분석-최종.pdf
230601이종기-시장조사론특강교안-신뢰성과 타당성-요인분석-최종.pdf
 
07. PCA
07. PCA07. PCA
07. PCA
 
2.linear regression and logistic regression
2.linear regression and logistic regression2.linear regression and logistic regression
2.linear regression and logistic regression
 
Information Retrieval - Evaluation
Information Retrieval - EvaluationInformation Retrieval - Evaluation
Information Retrieval - Evaluation
 
Statistics for psychology, Inferential Statistics and Hypothesis Testing
Statistics for psychology, Inferential Statistics and Hypothesis TestingStatistics for psychology, Inferential Statistics and Hypothesis Testing
Statistics for psychology, Inferential Statistics and Hypothesis Testing
 
122
122122
122
 
★강의교재_데이터 분석을 위한 통계와 확률_v2.pptx
★강의교재_데이터 분석을 위한 통계와 확률_v2.pptx★강의교재_데이터 분석을 위한 통계와 확률_v2.pptx
★강의교재_데이터 분석을 위한 통계와 확률_v2.pptx
 

Mais de noerror

NDC08_실시간비주얼그래프편집
NDC08_실시간비주얼그래프편집NDC08_실시간비주얼그래프편집
NDC08_실시간비주얼그래프편집
noerror
 
KCGS11_실시간 피사계 심도 렌더링 개선 기법
KCGS11_실시간 피사계 심도 렌더링 개선 기법KCGS11_실시간 피사계 심도 렌더링 개선 기법
KCGS11_실시간 피사계 심도 렌더링 개선 기법
noerror
 
11_SH를 이용한 실시간 투명 근사법
11_SH를 이용한 실시간 투명 근사법11_SH를 이용한 실시간 투명 근사법
11_SH를 이용한 실시간 투명 근사법
noerror
 
ICON08_게임 애니메이션 최적화 기법
ICON08_게임 애니메이션 최적화 기법ICON08_게임 애니메이션 최적화 기법
ICON08_게임 애니메이션 최적화 기법
noerror
 
08_Marching Cube Terrains
08_Marching Cube Terrains08_Marching Cube Terrains
08_Marching Cube Terrains
noerror
 
08_게임 물리 프로그래밍 가이드
08_게임 물리 프로그래밍 가이드08_게임 물리 프로그래밍 가이드
08_게임 물리 프로그래밍 가이드
noerror
 
08_플래시 맛보기
08_플래시 맛보기08_플래시 맛보기
08_플래시 맛보기
noerror
 
08_애니메이션고등학교 게임과 특강
08_애니메이션고등학교 게임과 특강08_애니메이션고등학교 게임과 특강
08_애니메이션고등학교 게임과 특강
noerror
 
08_Wxwidgets 소개
08_Wxwidgets 소개08_Wxwidgets 소개
08_Wxwidgets 소개
noerror
 
07_PhysX 강체물리 입문
07_PhysX 강체물리 입문07_PhysX 강체물리 입문
07_PhysX 강체물리 입문
noerror
 
07_스케일폼 소개
07_스케일폼 소개07_스케일폼 소개
07_스케일폼 소개
noerror
 
07_Visual Shader Editor
07_Visual Shader Editor07_Visual Shader Editor
07_Visual Shader Editor
noerror
 
06_HDR 소개
06_HDR 소개06_HDR 소개
06_HDR 소개
noerror
 
06_게임엔진 활용팁
06_게임엔진 활용팁06_게임엔진 활용팁
06_게임엔진 활용팁
noerror
 
06_게임엔진구성
06_게임엔진구성06_게임엔진구성
06_게임엔진구성
noerror
 
06_자동차물리입문(1)
06_자동차물리입문(1)06_자동차물리입문(1)
06_자동차물리입문(1)
noerror
 

Mais de noerror (20)

15_TextureAtlas
15_TextureAtlas15_TextureAtlas
15_TextureAtlas
 
11_웹서비스활용
11_웹서비스활용11_웹서비스활용
11_웹서비스활용
 
NDC08_실시간비주얼그래프편집
NDC08_실시간비주얼그래프편집NDC08_실시간비주얼그래프편집
NDC08_실시간비주얼그래프편집
 
NDC12_Lockless게임서버설계와구현
NDC12_Lockless게임서버설계와구현NDC12_Lockless게임서버설계와구현
NDC12_Lockless게임서버설계와구현
 
KCGS11_실시간 피사계 심도 렌더링 개선 기법
KCGS11_실시간 피사계 심도 렌더링 개선 기법KCGS11_실시간 피사계 심도 렌더링 개선 기법
KCGS11_실시간 피사계 심도 렌더링 개선 기법
 
11_빠른 개발 가능한 레벨 편집 시스템
11_빠른 개발 가능한 레벨 편집 시스템11_빠른 개발 가능한 레벨 편집 시스템
11_빠른 개발 가능한 레벨 편집 시스템
 
11_SH를 이용한 실시간 투명 근사법
11_SH를 이용한 실시간 투명 근사법11_SH를 이용한 실시간 투명 근사법
11_SH를 이용한 실시간 투명 근사법
 
ICON08_게임 애니메이션 최적화 기법
ICON08_게임 애니메이션 최적화 기법ICON08_게임 애니메이션 최적화 기법
ICON08_게임 애니메이션 최적화 기법
 
08_Marching Cube Terrains
08_Marching Cube Terrains08_Marching Cube Terrains
08_Marching Cube Terrains
 
08_게임 물리 프로그래밍 가이드
08_게임 물리 프로그래밍 가이드08_게임 물리 프로그래밍 가이드
08_게임 물리 프로그래밍 가이드
 
08_플래시 맛보기
08_플래시 맛보기08_플래시 맛보기
08_플래시 맛보기
 
08_애니메이션고등학교 게임과 특강
08_애니메이션고등학교 게임과 특강08_애니메이션고등학교 게임과 특강
08_애니메이션고등학교 게임과 특강
 
08_Wxwidgets 소개
08_Wxwidgets 소개08_Wxwidgets 소개
08_Wxwidgets 소개
 
07_PhysX 강체물리 입문
07_PhysX 강체물리 입문07_PhysX 강체물리 입문
07_PhysX 강체물리 입문
 
07_스케일폼 소개
07_스케일폼 소개07_스케일폼 소개
07_스케일폼 소개
 
07_Visual Shader Editor
07_Visual Shader Editor07_Visual Shader Editor
07_Visual Shader Editor
 
06_HDR 소개
06_HDR 소개06_HDR 소개
06_HDR 소개
 
06_게임엔진 활용팁
06_게임엔진 활용팁06_게임엔진 활용팁
06_게임엔진 활용팁
 
06_게임엔진구성
06_게임엔진구성06_게임엔진구성
06_게임엔진구성
 
06_자동차물리입문(1)
06_자동차물리입문(1)06_자동차물리입문(1)
06_자동차물리입문(1)
 

11_통계 자료분석 입문

  • 1. 통계, 자료분석 입문 김성익 noerror@softnette.com kasa발표자료 2011/06/25
  • 2. 개요 • 기초적인 통계, 자료분석 개념 정리 • Why – 게임 서비스 시 체계적이고 신속한 유저 대응 을 위한 시스템 구성 – 통계 및 자료 분석 개념 사용되고 있음 • VSM, PCA이용한 DXT, MOTION GRAPH등등 – 그냥 일반 상식으로
  • 3. 1. 통계 기본 개념들 • 어떻게 측정치가 실제 값이 되는가? • 기술통계, 추측통계 • 샘플링 • 대표 값 • 표준편차 • 주성분 분석 • 신뢰성, 타당성
  • 4. 통계적 추측 • 실제값 != 예측값 • 예측 값을 실제 값으로 만드는 마법
  • 5. 통계적 추측 • 실제값 = 예측값 + 오차
  • 6. 통계 • 기술 통계 – 모든 정보로 집단 특성 조사 – 센서스 census 전수조사 – 모집단의 특성이 다양하게 분포되는 경우 • 추측통계 – 모집단 가운데서 표본을 추출해서 모집단의 특성을 추측 – 샘플링
  • 7. 샘플링 • 설계 – 모집단 정의 – 샘플링 프레임 (목록, 기준) – 샘플링 방법 선택 • 확률적 샘플링 (순수 랜덤) – 단순 랜덤 샘플링 simple random sampling – 층화 샘플링 stratified sampling – 군집 샘플링 cluster sampling – 체계적 샘플링 systematic sampling • 비확률적 샘플링 (의도적으로 분류) – 편의 샘플링 convenience sampling – 판단 샘플링 judgement sampling – 쿼타 샘플링 quota sampling (vs cluster sampling) – 표본 수 결정 • 최대 허용 오차, 신뢰수준
  • 8. 대표값 • 모집단의 특성을 나타내는 값 – 평균 mean • 산술 평균 arithmetic mean – 중앙값 median • 데이터를 순서대로 나열한 데이터 중 가운데 값 (짝수면 가운데 두 수의 평균) – 최빈값 • 가장 많은 값
  • 9. 표준편차 • 평균으로는 데이터가 얼마나 흩어져 있는 지는 알 수 없다 • 표준 편차 (s) • 분산 (s2) – 값이 작으면 데이터는 평균 주변에 모이지만, 크면 평 균에서 크게 벗어나는 성질 – (자유도) • 변동계수 coefficient of variation : CV – 평균에 대한 상대적 분산도 – 표준편차를 평균으로 나눈 값
  • 10. 정규분포 • 히스토그램 histogram 확률 밀도 함수 probability density function – 데이터 수 증가, 폭이 좁아지면 • 정규분포 normal distribution – 종모양 – 중심극한정리 centeral limit theorem • 표본의 수가 많다면, 모집단의 실제 분포와 관계없이, 표본평균 의 표본분포는 정규분포를 따른다 • Lilliefores 검정 : 데이터가 정규분포를 따르는 지 검사
  • 11. 정규분포 • 정규분포는 다음의 특성을 가지고 있다
  • 12. 표준정규분포 • 즉, 평균과 표준 편차를 알면 데이터의 분 포도를 예측 할 수 있다
  • 13. 응용 예 • VSM variance shadow map • Chebyshev 부등식 이용 – 분산이용, occlusion 정도를 구함 http://www.punkuser.net/vsm/
  • 14. 주성분 분석 • 주성분 분석 principal component analysis • 고유값 eigenvalue • 의미 있는 개념의 수만큼 의미 있는 주성 분이 추출
  • 15. 주성분 분석 응용 예 • DXT 압축 알고리즘 – PCA축을 이용하여 블록의 두 지점 결정 – 각 픽셀은 두 점 사이의 블랜드 값 • 애니메이션 그래프 – 복잡한 모션을 특성 몇 개로 대표 – 모션 탐색 시 사용 http://www.slideshare.net/noerror/dxtcompression http://www.gdcvault.com/play/1705/Momentum-vs-Character
  • 16. 신뢰성 • 신뢰성 reliability 측정 – 재검사 – 반분법 • 내적 일관성 측정 – 측정값의 분산에서 실제 값의 분산이 차지하는 비율 – 크론바흐 알파 Cronbach’s alpha • 값이 클수록 신뢰성이 높다 – 신뢰성 있는 크론바하 알파는 얼마 이상 ??? 0.7 ??? Nunnally(1978)
  • 17. 타당성 • 타당성 Validity – 기준 타당성 – 내용 타당성 – 개념 타당성
  • 18. 2. 자료분석 • 모수 분석 / 비모수 분석 • 상관 관계 분석 • 로지스틱 회귀 분석 • 분산 분석 • 요인 분석 • 군집 분석
  • 19. 자료분석 • 모수 분석 parametric analysis – 모수(평균, 분산 등)를 이용하여 추측 – 자료가 정규 분포를 따른다 • 중심극한정리 • 비모수 분석 nonparametric analysis – 분포와 무관한 방법 – 도수 frequency, 부호 sign, 순위 rank 등의 통계량 으로 분석
  • 20. 상관 관계 분석 • 종속 변수(반응변수) Y와 독립변수(설명변수) X사이의 연관성을 파 악 • 연관도 측정 – 공분산 • 선형 관계 방향 유무 (관계 정도는 알 수 없음) – 상관 계수 • 표준화된 공분산 • 방향과 퍼진 정도
  • 21. 단순 회귀 분석 • 회귀분석 regression analysis – 다른 변수의 값이 어떻게 변할 것인지를 예측 • 두 변수 사이에 존재하는 상호의존 관계를 함 수 관계로 표현 – 모 회귀 방정식 population regression equation E(Yi) = α + β xi – 표본자료를 이용 α, β 를 추정 • 최소제곱법 least square method • 잔차 residual – 예측한 값과 측정한 값의 차이(오차, 개별성)
  • 22. 단순 회귀 분석 • 총변동 – SST = 회귀제곱합 SSR + 잔차제곱합 SSE • 결정계수(r2) coefficient of determination – SSR / SST = 1 – SSE / SST – 잔차가 작을 수록 결정계수가 커진다 – 결정계수 0.7 = 70%로 회귀식을 설명할 수 있 다 • 상관 계수(r) coefficient of correlation
  • 23. 단순 회귀 분석 • F 검점 – 회귀 모형을 사용할 것인지 검정 • F가 1보다 충분히 커야 한다 – F = MSR / MSE • MSR (mean square regression) <- 회귀변동 • MSE (mean square error) <- 평균 잔차변동 • 자유도 • t 검정 – 독립 변수와 종속 변수의 관계의 유의미성 • T값이 유의 값 보다 크다면 유의미 • 잔차 분석 residual analysis – 잔차가 서로 무관해야 함 (상관성 X) – 거빈 와트슨 통계량 Durbin-Watson statistic
  • 24. 다중 회귀 분석 • 한 개의 종속 변수와 여러 개의 독립변수의 관계를 분석 • 회귀 방정식 Yi = α + β1x1i + β2 x2i + .. + ei • 다중 공선성 multicollinearity – 독립 변수들 사이의 상호의존도가 높으면 회귀계 수의 부호가 바뀌거나 0에 가까운 값으로 나타남 – 분산확대인자 Variance inflation factor • 클수록 다중 공선성이 심하다 – 상관 관계가 높은 변수들 중 하나만 남기고 나머 지 변수들은 모형에서 제거
  • 25. 다중 회귀 분석 • 적합성 검정 – 전반 검정 – 부분 검정 • 다중 공선성 문제를 해결하기 위해 추가적인 검정 절차 필요 • 독립변수 각각의 회귀계수에 대해 유의성 검정
  • 26. 로지스틱 회귀 분석 • 자료가 두 그룹으로 나누어진 상황에서, 두 그룹이 구분되는 특성을 파악하여 다른 어떤 데이터가 어느 그룹에 속하는 지 예측 • 오즈 (odds) – 그룹 1에 속할 확률 / 그룹 2에 속할 확률 • 그룹 1에 속할 확률 p • 오즈 = p / (1-p) • 로그 오즈 – 오즈에 로그를 취한 값 – 로그오즈 = ln( p / (1-p) ) – 로지스틱 회귀 모형 = α + β1x1i + β2 x2i + .. • 로지스틱 회귀 방정식 – p = 1 / (1 + exp[ - (α + β1x1i + β2 x2i + ..) ] ) – 최대우도법 maximum likelihood method 으로 추정
  • 27. 분산 분석 • ANOVA analysis of variance – 두 개 이상으로 구성된 그룹의 평균을 비교하 는 목적의 분산 – 평균의 정확성 측정 • 단일 요일 분산 분석 one way ANOVA • 2요인 분산 분석 two way ANOVA
  • 28. 요인분석 • 측정 변수들의 상호 의존 관계를 나타낼 수 있도록 만드는 새로운 변수 • 탐색적 요인분석 확증적 요인분석 • 초기 요인 추출 – 주성분 분석 principal component analysis – 반복된 주성분 분석 iterated principal component – 최대우도법 maximum likelihood method • 요인 다이어그램 – 요익 적재값을 그래프를 그려서 시각화 • 요인 회전 factor rotation – 직교 회전 orthogonal rotation • 배리맥스 회전 varimax rotation – 사각 회전 oblique rotation • 비직교회전 non-orthogonal rotation
  • 29. 군집분석 • 데이터의 군집을 분류 • 프로파일 다이어그램 • 두 점간의 거리 – 유클리디안 거리 – 절대차이 • 두 군집간의 거리 – 중심 연결법, 단일 연결법, 완전 연결법, 평균 연 결법, … • 계층적 군집화 – 응집법, 분리법 비계층적 군집화 – k 평균 군집화
  • 30. 3. 통계적 추측 • 기본 – 어떤 가설을 참이라고 가정 – 일어날 가능성이 희박한 표본 평균값에 대한 수준을 정함 – 표본 자료를 통해 계산된 표본 평균이 그 수준 을 벗어나면 – 참이라고 가정한 그 가설은 기각
  • 31. 통계적 가설 • 귀무가설(H0) nullhypothesis – 일반적으로 인정하는 가설 – 주장하고자 하는 가설의 반대 • 대립가설(H1) alternative hypothesis – 일반적으로 주장하고자 하는 가설 – 귀무 가설의 반대 (대립) • 결론적으로 귀무 가설을 기각시켜서 대립 가설을 주장하는 로직 • 결론 해석 – 가설이 참이다 X – 가설을 기각할만한 충분한 이유가 없다 (O) • 유의 수준 • 1종 오류 – 귀무가설이 진실임에도 불구하고 귀무가설을 기각하고 대립가설을 채택하는 경우 • 2종 오류 – 귀무가설이 진실이 아님에도 불구하고 귀무가설을 채택하는 경우
  • 32. 통계적 절차 • 유의 수준, 귀무가설, 대립 가설 설정 • 검정 통계량 결정 • 기각역 결정 • 검정 통계량의 계산 • 통계적 의사 결정