SlideShare uma empresa Scribd logo
1 de 16
Baixar para ler offline
통계의 힘[도서 정리]
통계학의 역사와 개념
타임게이트 SW 연구소
통계의 힘 (한장 요약)
• 통계 리터러시
- 1903년, H.G. 웰스 : 통계학적 사고 는 장차 사회인이 가져야할 기본 교양
- 통계학은 모든 과학적 분석 방법의 기본 - 교육학, Sabermetrics, 경제학, 경영 ….
- IT와 통계의 협업에 의한 빅데이터 분석
• 정보 비용을 대폭 줄여주는 통계
- 적절한 수의 표본 조사와 의미있는 오차 범위에 의한 분석은 분석을 위한 비용을 절감
• 통계학의 핵심인 오차와 인과 관계 분석  중요한 결정을 위한 자료 제공
• ‘임의화’라는 최강의 무기 : ‘객관성’을 갖는 통계 실험법
- 반복실험, 무작위화, 국소 관리  A/B 테스트
- ‘현실’, ‘윤리’, ‘감정’ 이라는 세가지 임의화 장벽  ‘역학조사’ 방법 사용
• 현대 통계학의 발전  일반화 회귀 모델, 심슨의 역설, 역학 조사 ....
• 통계의 6가지 활용 : 사회/역학조사, 심리통계, 데이터마이닝, 텍스트 마이닝, 계량경제학
- ‘빈도론’ vs ‘베이시안(Bayesian)’
• 증거(Evidence)에 기반한 사회현상의 파악  에비던스의 객관성 계층에 따라서
- 계통적 리뷰/메타분석 > 임의화 실험 > 역학 조사 > 전문가 의견/ 기초실험
목차
• 빅데이터, 통계학에서 시작하라
• 정보 비용을 대폭 줄여주는 통계
• 오차와 인과관계가 통계학의 핵심이다
• ‘임의화’라는 최강의 무기 활용하기
• 통계학은 계속 발전하고 있다
• 통계학의 여섯가지 활용 분야
• 에비던스 활용하기
빅데이터, 통계학에서 시작하라 – 통계 리터러시
• 1903년, H.G. 웰스 – 읽기, 쓰기와 마찬가지로 통계학적 사고 역시 장차 사회인이 가져야할 기본
교양
• 답을 알려주는 실용적인 학문, 통계학
– 사다리 타기의 당첨 확률 테스트
– 어떤 분야든 데이터를 모아 분석함으로써 가장 올바르고 빠른 답 제시
– 원인을 모르는 전염병을 막기위해 연구하는 학문 ‘역학’에 큰 기여함
 ‘역학의 아버지’ 존 스노 : 런던의 콜레라에 대한 조사  급수 펌프에 따른 발병 빈도 조사
• 통계학은 모든 과학적 분석 방법의 기본
– EBM(Evidence Based Medicine) : 현대 의료의 가장 중요한 개념 중 하나
– 교육학 : WWC (What Works Clearinghouse) 프로젝트
– Sabermetrics : 과학적 통계로 야구를 이해하려는 노력
– 경제학, 경영관리, 마케팅 등에 활용
• IT와 통계의 기막힌 결혼  빅데이터
– 통계 해석 기법은 1960년대 모양새가 갖추어짐
– IT의 발전으로 데이터 수와 계산의 한계를 넘어섬  활용 범위 확대
정보 비용을 대폭 줄여주는 통계 – 통계의 효용
• 빅데이터를 분석하여 투자한 비용에 맞는 수익을 얻고 있는가?
– 테라 바이트의 방대한 데이터 + 고성능 서버  뭔가 알 수 있어야 하지 않나?
– “무엇을 알고 싶은가?” 를 먼저 확인해야~~
• 뉴딜 정책을 뒷받침한 통계가들
– 뉴딜 정책의 근간이 된 실업률 24.9%의 확인
 등록카드를 통한 전수 조사  실업자들의 비협조  실업률이 낮게 조사
 0.5% (60~70만명) 표본조사  상당히 정확한 결과
• 적절한 표본조사 : 적은 비용으로 충분히 필요한 정보를 얻는 방법
• 의미있는 오차 범위와 비용
– 표준 오차 (표준 편차) : 표본의 평균에서 +/- 2x(표준오차) 내의 범위에 있을 확률이 95%
– 빅데이터 전체를 분석할 필요가 있더라도, 먼저 표본 데이터를 이용한 탐색적 해석으로 가설 작성 필요
– 해석은 자체에 가치가 있는 것이 아니라, 활용을 통해 할 수 있는 일과 그 가치에 의해 결정
오차와 인과관계가 통계학의 핵심 – 실행 결정을 위한 자료 확보
• 이익을 위한 실행을 결정하기 위한 세 가지 질문
– 어떤 요인을 변화시켜야 이익이 향상될까?
– 그런변화를 일으키는 행동은 실제로 가능한가?
– 그에 따르는 비용이 이익을 상회할까?
옆의 호감도 그래프에서는 ‘호감도를 높이면 매출이 상승할까?’,
‘얼마의 비용으로 얼마의 호감도와 매출이 향상될까?’ 라는 질문에 답이 없다
• 집계 만으로 가치가 있었던 19세기 나이팅게일 통계
– 전투 부상에 의한 사망보다 부상 후 감염에 의한 사망 수가 압도적으로 많다  병원 청결 주장
 사망 원인에 대한 실체를 밝혀냄 . (병원 청결을 위한) 투자에 대한 (인명 구조 효과의) 효용에 대한 답을 할 수는 없음
• ‘시청자 수’, ‘접속수’, ‘호감도’ 등 지표 자체가 아닌 이익으로 이어지는 데이터 분석 필요
– 통계학은 ‘기억의 편중’ 과 같은 인간의 결함을 보완  경험과 감이 아닌 데이터 기반의 결정을 도움
 DM 발송과 매출의 비례 관계 및 대상 고객, DM 내용에 대한 분석 보고서  60억엔 수익
– A/B 테스트, 카이제곱검정, 유의값 p등을 통한 오차를 고려한 상태의 의미있는 결과 확인 필요
• 인과 관계의 방향에 유의
– 광고와 상품 구매 : ‘광고  구매’ 혹은 ‘구매 광고’ 폭력 게임과 소년범죄 : ‘게임 폭력성’ 혹은 ‘폭력성  게임’
– 2 가지 개해결책 : 1) 역학적 방법 (관련 있는 조건 추적 조사  공정비교) 2) 임의화 테스트(조건을 ‘공정하게’ 갖춘 실험)
아무것도 알려주지 않는 그래프
브랜드
호감도
‘임의화’ 라는 최강의 무기 – 객관성 확보를 위한 통계적 방법
• 임의화 실험 : 인간이 제어할 수 있는 모든 것에 대한 인과관계 분석
– 로버트 A. 피셔 : 실험 계획법(The design of Experiments)  참고자료 참조
– 밀크티에 대한 감별 테스트, 현대 대다수 인터넷 기업의 A/B 테스트
– 적은 비용과 최소한의 위험부담으로 실수 가능성 줄임  적은 비용으로 일부러 실수(A/B 테스트)
 조앤패브릭 : ‘재봉틀을 2대 사면 10% 할인’  A/B 테스트 결과, 3배 이상의 매출 증대
 콘티넨탈 항공 : 비행기 지연, 대기예약 취소에 대한 대처  A/B 테스트 결과, 사과와 선물이 효과적(참고자료 참조)
• ‘오차’에 대한 세 가지 접근법  동일화가 어려운 부분에 대한 실험적 접근법
– 1) ‘사례가 있었다’는 언급, 2)무시, 3) 임의화를 활용한 인과관계를 확률로 표시
– 비료와 밀 수확에 대한 연구 : 2개 구역을 40개로 분할 A 비료와 B 비료를 각각 20곳씩 임의화 테스트
• 임의화의 세 가지 한계 : 현실, 윤리, 감정
– 현실 : 절대적 표본수의 제한, 조건 조절이 불가능한 경우
 우주 왕복선 비행사 수는 3명 혹은 4명 : 테스트 비용의 제한, 결혼의 선택 , 지진 경험과 정신적인 강건성
– 윤리 : 실험에 의한 개인의 상대적 피해  통계학자의 윤리적 지침 (인위적 유해없어야, 극대극 상황이
없어야)
 나치의 인체실험, 흡연와 폐암의 연관 관계 임의화 테스트, 일부 빈곤가정에 대한 주택임대비용지원 (결과적으로 실시)
– 감정 : 차별적 대우에 대한 반감(주택 비용 지원, 아마존 상대 가격 테스트(참고자료 참조) )
[참고자료] 로널드 A. 피셔 – 현대 통계학의 아버지
• 실험 계획법 (The design of experiment) - 1935 년
• 우유가 먼저인가? 홍차가 먼저 인가?
– 우유를 먼저 넣은 밀크티와 홍차를 먼저 넣은 밀크티의 구분은 가능한가?
– 임의화 비교 실험에 의한 검증 제안
– 검증법에 대한 고민
 한번 맞춘 경우  50% 의 확률을 가짐
 여러번 맞춘 경우  특정 규칙에 따른 것은 아닌지 에 대한 확인 필요
 한번의 실험의 경우  특수 시간, 특수 여건에 의한 것인지 확인 필요
• Fisher의 3원칙
– 반복 실험 ( Repetition and Replication )
– 무작위화 ( Randomization )
– 국소 관리 ( Local Control )
• 2003년 영국왕립 화학 협회 - 한 잔의 완벽한 홍차를 타는 법
– 우유를 먼저 넣는 것이 뜨거운 홍차에 의한 우유 단백질의 변형(75도에서 발생)을 막는다.
[참고자료] A/B 테스트 활용 사례 – 콘티넨탈 항공
[참고자료] 임의화의 벽 – (현실, 윤리 그리고) 감정
통계학은 계속 발전하고 있다 – 현대 통계적 방법
• 역학 조사 : 임의화가 어려운 경우 조사 관찰에 의한 인과 관계 확인
– 흡연과 암의 인과관계 : ‘윤리’적으로 임의화 실험 불가  윌리엄 돌(W. Doll) : 역학적 방법론으로 분석
 케이스 컨트롤(Case Control) 연구 : 흡연 외의 연관성 있을 조건을 동등하게 갖춘 상태에서 비교 분석
 피셔의 반론 : 임의화가 없는 ‘동등한 그룹의 층별 해석’은 한계가 있다  예상 못한 조건이 있을 수 있다!!!
 제롬 콘필드의 ‘세상의 모든 연구’에 의한 재반론  전 세계의 케이스 콘트롤 연구에서 동일한 결과
• ‘평범으로의 회귀’를 분석하는 회귀분석
– 우생학 연구에서 시작된 회귀분석  평범으로의 회귀!!!
– 하나의 변수로 다른 변수의 값을 예측하거나 설명하는 방법
– 회귀계수(기울기, 절편)에 불규칙성이 존재  이에 대한 오차 분석 필요
• 일반화 선형 모델을 정리한 한장의 도표  오른쪽 참조 (다른 분석간에 동일 결과)
• 심슨의 파라독스  층별 분석 혹은 다중회귀분석 필요
– 상관 관계가 있는 두 변수에 의한 영향(용과 바이킹, 성적과 성별)
– 상호작용이 없는 변수의 선택이 중요  로지스틱 회귀에 의한 ‘성향점수’ 방법
• 0과 1의 결과변수를 Odds Ratio 로 바꿔 다중회귀분석 적용
평균신장
부모의 평균키
자식의키
E(자식의 키) = a × 부모의 평균키 + b
[참고자료] 심슨의 파라독스
2018년 2월 26일
통계학의 여섯가지 활용 분야 – 통계 관련 사업
• 사회 조사 전문가 : 정확함을 추구 (실태 파악 후 대책에 대한 논의의 시발점 제공)
– ‘결측’ 등 추정치의 보정을 위한 분석 기법 도입. 공공 정보 혹은 비즈니스 마켓팅 정보 조사
• 역학자 혹은 생물 통계가 : ‘타당한 판단’을 추구
– p 값에 근거한 ‘원인’을 찾는다면 추정치의 적용 가능성에 얽매이지 않음. (담배의 유해성)
• 심리 통계가 : IQ( Intelligence Quotient)의 탄생을 가져오다
– 1904 년 <뭔가 부족한 선행연구> : 선행 연구들의 측정 지표간의 상관관계 분석  1개의 합성변수 (IQ)
– 심리와 관련된 추상적 내용 분석  좋은 ‘질문지’ 작성에 노력  좋은 질문지는 ‘회사의 자산’!!
• 데이터 마이닝 : 마케팅 현장에서 탄생 (1995년 KDD(Knowledge Discovery in Database) 회의)
– IBM의 ‘기저귀와 맥주’의 바스켓 분석  통계의 카이제곱검정이 편함(구글의 세르게이 브린)
– Neural Network /Support Vector Machine : 곡선적 관계성 혹은 다변수의 복합 관계에 높은 정확도
• 텍스트 마이닝 : 자연어 문장을 통계학적으로 분석
– 텍스트 마이닝의 기본 ‘형태소 분석’ 과 구글의 N-gram  SNS 텍스트 마이닝, 고객 센터 문의 내용 분석
• 계량 경제학 : 경제학의 이론에 근거한 회귀 분석에 관심
– 가격, 소비, 저축 등의 상호 관계를 기술한 연립 방정식을 바탕으로 연역을 반복  회귀 분석 결과를 응용
[참고자료]베이즈파와 빈도론 파의 대립 – 통계를 보는 시각
• 베이즈론자(Bayesian) vs 빈도론 확률을 미리 상정하는가? 상정하지 않는가?
– 그냥 빈도의 결과에서 추론하는가? Vs 사전 확률과 사후 확률의 곱으로 표시하는가?
– 계량 경제학자, 데이터 마이닝  베이즈론이 우세 (효율성 추구)
– 사회조사, 역학, 생물통계학, 심리통계학  빈도론이 우세 (보수적인 판단이 필요한 경우)
• 베이즈적 사고에서는 ‘사전확률’을 가정하면 데이터에서 무엇을 알 수 있나? 하는 연역이 가능
– 스팸 메일 확인에 효율적 (낮은 빈도에서도 추정 가능. 향후 사후 확률은 점진적 수정)
에비던스(Evidence) 활용 – 통계를 통한 사회현상 분석
• Evidence의 계층 구조
– 최하층 : 전문가 의견 과 기초 실험
 달걀과 쥐의 발버둥 실험, 몸의 성분에 따른 효용(머리카락을 먹는다고 대머리가 해결?)
– 유용한 Evidence : 실제 상황에서 적정 수의 인간을 분석한 결과
 예) 역학 실험, 임의화 비교 실험
 타당한 인과 추론을 얻어냄
– 자기 의견에 유리한 자료만 인용하는 ‘서술적 리뷰’
 게임과 소년 범죄의 악영향 연구시  관계가 오차범위 정도라는 결과 등을 고의로 누락
– 계통적 리뷰 : 검토할 논문의 조건을 결정한 상태에서 과거의 관련 분야 모든 문헌으로 조건 검색
 검색된 내용에 대한 분석 후 결론  현시점에서의 최고의 답
– 메타 분석 : 계통적 리뷰에서 복수의 임의화 비교 실험 혹은 관찰 결과를 한층 심도있게 정리
• ‘최선의 답’은 공개되어 있다.
– 계통적 리뷰와 메타 분석의 결과를 인류 전체가 공유하기 위한 노력
 코크란 공동계획( http://www.cochrane.org/), 캠벨 공동계획(http://www.campbellcollaboration.org/)
 WWC(What Works Clearinghouse) 프로젝트, Google Scholar (http://scholar.google.co.kr/)
• ‘전력’ 과 ‘ 최선’ : 혼자서 모든 힘을 다하는 것이 최선인가?  To Err is Human
임의화 비교 실험
계통적 리뷰/메타 분석
역학, 관찰 연구
전문가의견, 기초실험
Evidence의 계층
Address
서울특별시 성동구 아차산로 17
11층 (성수동 1가, 서울숲엘타워)
우편번호 04789
Telephone
Tel : (02)575-0409
Fax: (02)6003-1987

Mais conteúdo relacionado

Mais procurados

「診断精度研究のメタ分析」の入門
「診断精度研究のメタ分析」の入門「診断精度研究のメタ分析」の入門
「診断精度研究のメタ分析」の入門
yokomitsuken5
 
次世代シーケンサが求める機械学習
次世代シーケンサが求める機械学習次世代シーケンサが求める機械学習
次世代シーケンサが求める機械学習
sesejun
 

Mais procurados (20)

第2回DARM勉強会
第2回DARM勉強会第2回DARM勉強会
第2回DARM勉強会
 
PRML§12-連続潜在変数
PRML§12-連続潜在変数PRML§12-連続潜在変数
PRML§12-連続潜在変数
 
量的データの分析・報告で気をつけたいこと
量的データの分析・報告で気をつけたいこと量的データの分析・報告で気をつけたいこと
量的データの分析・報告で気をつけたいこと
 
因果探索: 観察データから 因果仮説を探索する
因果探索: 観察データから因果仮説を探索する因果探索: 観察データから因果仮説を探索する
因果探索: 観察データから 因果仮説を探索する
 
「サラミ法」に隠れた危険:出版の量ではなく質を重視する
「サラミ法」に隠れた危険:出版の量ではなく質を重視する「サラミ法」に隠れた危険:出版の量ではなく質を重視する
「サラミ法」に隠れた危険:出版の量ではなく質を重視する
 
Rによるベイジアンネットワーク入門
Rによるベイジアンネットワーク入門Rによるベイジアンネットワーク入門
Rによるベイジアンネットワーク入門
 
CRAN Rパッケージ BNSLの概要
CRAN Rパッケージ BNSLの概要CRAN Rパッケージ BNSLの概要
CRAN Rパッケージ BNSLの概要
 
「生態学における統計的因果推論」という大ネタへの挑戦:その理論的背景と適用事例
「生態学における統計的因果推論」という大ネタへの挑戦:その理論的背景と適用事例「生態学における統計的因果推論」という大ネタへの挑戦:その理論的背景と適用事例
「生態学における統計的因果推論」という大ネタへの挑戦:その理論的背景と適用事例
 
「診断精度研究のメタ分析」の入門
「診断精度研究のメタ分析」の入門「診断精度研究のメタ分析」の入門
「診断精度研究のメタ分析」の入門
 
観察研究の必須事項
観察研究の必須事項観察研究の必須事項
観察研究の必須事項
 
臨床疫学研究における傾向スコア分析の使い⽅ 〜観察研究における治療効果研究〜
臨床疫学研究における傾向スコア分析の使い⽅ 〜観察研究における治療効果研究〜臨床疫学研究における傾向スコア分析の使い⽅ 〜観察研究における治療効果研究〜
臨床疫学研究における傾向スコア分析の使い⽅ 〜観察研究における治療効果研究〜
 
相互情報量を用いた独立性の検定
相互情報量を用いた独立性の検定相互情報量を用いた独立性の検定
相互情報量を用いた独立性の検定
 
GLMM in interventional study at Require 23, 20151219
GLMM in interventional study at Require 23, 20151219GLMM in interventional study at Require 23, 20151219
GLMM in interventional study at Require 23, 20151219
 
構造方程式モデルによる因果推論: 因果構造探索に関する最近の発展
構造方程式モデルによる因果推論: 因果構造探索に関する最近の発展構造方程式モデルによる因果推論: 因果構造探索に関する最近の発展
構造方程式モデルによる因果推論: 因果構造探索に関する最近の発展
 
COSMIN 尺度開発研究の質の評価(2018)井上和哉 発表(各指標特性の基準等)
COSMIN 尺度開発研究の質の評価(2018)井上和哉 発表(各指標特性の基準等)COSMIN 尺度開発研究の質の評価(2018)井上和哉 発表(各指標特性の基準等)
COSMIN 尺度開発研究の質の評価(2018)井上和哉 発表(各指標特性の基準等)
 
ディープボルツマンマシン入門
ディープボルツマンマシン入門ディープボルツマンマシン入門
ディープボルツマンマシン入門
 
反応性と解釈可能性の評価
反応性と解釈可能性の評価反応性と解釈可能性の評価
反応性と解釈可能性の評価
 
リンパ節腫脹 パート2 問診診断
リンパ節腫脹 パート2 問診診断リンパ節腫脹 パート2 問診診断
リンパ節腫脹 パート2 問診診断
 
次世代シーケンサが求める機械学習
次世代シーケンサが求める機械学習次世代シーケンサが求める機械学習
次世代シーケンサが求める機械学習
 
星野「調査観察データの統計科学」第1&2章
星野「調査観察データの統計科学」第1&2章星野「調査観察データの統計科学」第1&2章
星野「調査観察データの統計科学」第1&2章
 

Semelhante a 통계의 힘 (스터디 자료)

(마더세이프라운드) 임상연구에 필요한 기초 통계
(마더세이프라운드) 임상연구에 필요한 기초 통계 (마더세이프라운드) 임상연구에 필요한 기초 통계
(마더세이프라운드) 임상연구에 필요한 기초 통계
mothersafe
 
09.통계적가설검정
09.통계적가설검정09.통계적가설검정
09.통계적가설검정
Yoonwhan Lee
 

Semelhante a 통계의 힘 (스터디 자료) (18)

Epidemiology
EpidemiologyEpidemiology
Epidemiology
 
12 역학
12 역학12 역학
12 역학
 
[통계페스티발] 무덤에서 요람까지 통계와 함께
[통계페스티발] 무덤에서 요람까지 통계와 함께[통계페스티발] 무덤에서 요람까지 통계와 함께
[통계페스티발] 무덤에서 요람까지 통계와 함께
 
빅데이터
빅데이터빅데이터
빅데이터
 
(마더세이프라운드) 임상연구에 필요한 기초 통계
(마더세이프라운드) 임상연구에 필요한 기초 통계 (마더세이프라운드) 임상연구에 필요한 기초 통계
(마더세이프라운드) 임상연구에 필요한 기초 통계
 
[2018 Bigdata win-win conference] 4
[2018 Bigdata win-win conference] 4[2018 Bigdata win-win conference] 4
[2018 Bigdata win-win conference] 4
 
[도서 리뷰] 헤드 퍼스트 데이터 분석 ( Head First Data Analysis )
[도서 리뷰]  헤드 퍼스트 데이터 분석 ( Head First Data Analysis )[도서 리뷰]  헤드 퍼스트 데이터 분석 ( Head First Data Analysis )
[도서 리뷰] 헤드 퍼스트 데이터 분석 ( Head First Data Analysis )
 
Perceptions of fear appeal and preference for feedback in tailored health com...
Perceptions of fear appeal and preference for feedback in tailored health com...Perceptions of fear appeal and preference for feedback in tailored health com...
Perceptions of fear appeal and preference for feedback in tailored health com...
 
09.통계적가설검정
09.통계적가설검정09.통계적가설검정
09.통계적가설검정
 
Big data2
Big data2Big data2
Big data2
 
[2016 데이터 그랜드 컨퍼런스] 6 4(전략,솔루션). 신테카바이오 insilico-임상연구동향
[2016 데이터 그랜드 컨퍼런스] 6 4(전략,솔루션). 신테카바이오 insilico-임상연구동향[2016 데이터 그랜드 컨퍼런스] 6 4(전략,솔루션). 신테카바이오 insilico-임상연구동향
[2016 데이터 그랜드 컨퍼런스] 6 4(전략,솔루션). 신테카바이오 insilico-임상연구동향
 
병원 의료 및 제약 Bigdata 활용 마케팅전략
병원 의료 및 제약 Bigdata 활용 마케팅전략병원 의료 및 제약 Bigdata 활용 마케팅전략
병원 의료 및 제약 Bigdata 활용 마케팅전략
 
Health Mashups: Presenting Statistical Patterns between Wellbeing Data and Co...
Health Mashups: Presenting Statistical Patterns between Wellbeing Data and Co...Health Mashups: Presenting Statistical Patterns between Wellbeing Data and Co...
Health Mashups: Presenting Statistical Patterns between Wellbeing Data and Co...
 
소비자 이해의 지름길입체적 관찰
소비자 이해의 지름길입체적 관찰소비자 이해의 지름길입체적 관찰
소비자 이해의 지름길입체적 관찰
 
데이터과학의 정의와 대표과제 도출
데이터과학의 정의와 대표과제 도출데이터과학의 정의와 대표과제 도출
데이터과학의 정의와 대표과제 도출
 
Statistics for psychology, Inferential Statistics and Hypothesis Testing
Statistics for psychology, Inferential Statistics and Hypothesis TestingStatistics for psychology, Inferential Statistics and Hypothesis Testing
Statistics for psychology, Inferential Statistics and Hypothesis Testing
 
의료에서의 인공지능 정리 파일 김치원 V5
의료에서의 인공지능 정리 파일 김치원 V5의료에서의 인공지능 정리 파일 김치원 V5
의료에서의 인공지능 정리 파일 김치원 V5
 
Causal Inference : Primer (2019-06-01 잔디콘)
Causal Inference : Primer (2019-06-01 잔디콘)Causal Inference : Primer (2019-06-01 잔디콘)
Causal Inference : Primer (2019-06-01 잔디콘)
 

Mais de Seung-Woo Kang

Mais de Seung-Woo Kang (19)

[도서 리뷰] 디스럽트(Disrupt)
[도서 리뷰] 디스럽트(Disrupt)[도서 리뷰] 디스럽트(Disrupt)
[도서 리뷰] 디스럽트(Disrupt)
 
[도서 리뷰] 인센티브와 무임승차
[도서 리뷰] 인센티브와 무임승차[도서 리뷰] 인센티브와 무임승차
[도서 리뷰] 인센티브와 무임승차
 
[도서 리뷰] 왜 지금 핀테크인가?
[도서 리뷰] 왜 지금 핀테크인가?[도서 리뷰] 왜 지금 핀테크인가?
[도서 리뷰] 왜 지금 핀테크인가?
 
[도서 리뷰] 어떻게 돌파할 것인가
[도서 리뷰] 어떻게 돌파할 것인가[도서 리뷰] 어떻게 돌파할 것인가
[도서 리뷰] 어떻게 돌파할 것인가
 
[도서 리뷰] 이나모리 가즈오의 회계경영
[도서 리뷰] 이나모리 가즈오의 회계경영[도서 리뷰] 이나모리 가즈오의 회계경영
[도서 리뷰] 이나모리 가즈오의 회계경영
 
차이의 붕괴(Collapse of Distinction) - 도서 요약
차이의 붕괴(Collapse of Distinction) - 도서 요약차이의 붕괴(Collapse of Distinction) - 도서 요약
차이의 붕괴(Collapse of Distinction) - 도서 요약
 
일본 기업은 AI를 어떻게 활용하고 있을까(도서 정리)
일본 기업은 AI를 어떻게 활용하고 있을까(도서 정리)일본 기업은 AI를 어떻게 활용하고 있을까(도서 정리)
일본 기업은 AI를 어떻게 활용하고 있을까(도서 정리)
 
소음과 투자 (도서 요약)
소음과 투자 (도서 요약)소음과 투자 (도서 요약)
소음과 투자 (도서 요약)
 
피케티의 21세기 자본론(도서요약)
피케티의 21세기 자본론(도서요약)피케티의 21세기 자본론(도서요약)
피케티의 21세기 자본론(도서요약)
 
현명한 초보 투자자(도서 요약)
현명한 초보 투자자(도서 요약)현명한 초보 투자자(도서 요약)
현명한 초보 투자자(도서 요약)
 
세상에서 가장 쉬운 회계학 입문(도서 요약)
세상에서 가장 쉬운 회계학 입문(도서 요약)세상에서 가장 쉬운 회계학 입문(도서 요약)
세상에서 가장 쉬운 회계학 입문(도서 요약)
 
캐리커처 생성기 테스트
캐리커처 생성기 테스트캐리커처 생성기 테스트
캐리커처 생성기 테스트
 
주가_변화시점탐지(Change point Detection)
주가_변화시점탐지(Change point Detection)주가_변화시점탐지(Change point Detection)
주가_변화시점탐지(Change point Detection)
 
시계열 분석의 이해와 활용
시계열 분석의 이해와 활용시계열 분석의 이해와 활용
시계열 분석의 이해와 활용
 
스플렁크 머신러닝 연동
스플렁크 머신러닝 연동스플렁크 머신러닝 연동
스플렁크 머신러닝 연동
 
하이퍼레저 프로젝트 개요
하이퍼레저 프로젝트 개요하이퍼레저 프로젝트 개요
하이퍼레저 프로젝트 개요
 
Azure ml studio_fraud_detection
Azure ml studio_fraud_detectionAzure ml studio_fraud_detection
Azure ml studio_fraud_detection
 
MS_QnA_Maker_챗봇만들기
MS_QnA_Maker_챗봇만들기MS_QnA_Maker_챗봇만들기
MS_QnA_Maker_챗봇만들기
 
블록체인 이해와 활용
블록체인 이해와 활용블록체인 이해와 활용
블록체인 이해와 활용
 

통계의 힘 (스터디 자료)

  • 1. 통계의 힘[도서 정리] 통계학의 역사와 개념 타임게이트 SW 연구소
  • 2. 통계의 힘 (한장 요약) • 통계 리터러시 - 1903년, H.G. 웰스 : 통계학적 사고 는 장차 사회인이 가져야할 기본 교양 - 통계학은 모든 과학적 분석 방법의 기본 - 교육학, Sabermetrics, 경제학, 경영 …. - IT와 통계의 협업에 의한 빅데이터 분석 • 정보 비용을 대폭 줄여주는 통계 - 적절한 수의 표본 조사와 의미있는 오차 범위에 의한 분석은 분석을 위한 비용을 절감 • 통계학의 핵심인 오차와 인과 관계 분석  중요한 결정을 위한 자료 제공 • ‘임의화’라는 최강의 무기 : ‘객관성’을 갖는 통계 실험법 - 반복실험, 무작위화, 국소 관리  A/B 테스트 - ‘현실’, ‘윤리’, ‘감정’ 이라는 세가지 임의화 장벽  ‘역학조사’ 방법 사용 • 현대 통계학의 발전  일반화 회귀 모델, 심슨의 역설, 역학 조사 .... • 통계의 6가지 활용 : 사회/역학조사, 심리통계, 데이터마이닝, 텍스트 마이닝, 계량경제학 - ‘빈도론’ vs ‘베이시안(Bayesian)’ • 증거(Evidence)에 기반한 사회현상의 파악  에비던스의 객관성 계층에 따라서 - 계통적 리뷰/메타분석 > 임의화 실험 > 역학 조사 > 전문가 의견/ 기초실험
  • 3. 목차 • 빅데이터, 통계학에서 시작하라 • 정보 비용을 대폭 줄여주는 통계 • 오차와 인과관계가 통계학의 핵심이다 • ‘임의화’라는 최강의 무기 활용하기 • 통계학은 계속 발전하고 있다 • 통계학의 여섯가지 활용 분야 • 에비던스 활용하기
  • 4. 빅데이터, 통계학에서 시작하라 – 통계 리터러시 • 1903년, H.G. 웰스 – 읽기, 쓰기와 마찬가지로 통계학적 사고 역시 장차 사회인이 가져야할 기본 교양 • 답을 알려주는 실용적인 학문, 통계학 – 사다리 타기의 당첨 확률 테스트 – 어떤 분야든 데이터를 모아 분석함으로써 가장 올바르고 빠른 답 제시 – 원인을 모르는 전염병을 막기위해 연구하는 학문 ‘역학’에 큰 기여함  ‘역학의 아버지’ 존 스노 : 런던의 콜레라에 대한 조사  급수 펌프에 따른 발병 빈도 조사 • 통계학은 모든 과학적 분석 방법의 기본 – EBM(Evidence Based Medicine) : 현대 의료의 가장 중요한 개념 중 하나 – 교육학 : WWC (What Works Clearinghouse) 프로젝트 – Sabermetrics : 과학적 통계로 야구를 이해하려는 노력 – 경제학, 경영관리, 마케팅 등에 활용 • IT와 통계의 기막힌 결혼  빅데이터 – 통계 해석 기법은 1960년대 모양새가 갖추어짐 – IT의 발전으로 데이터 수와 계산의 한계를 넘어섬  활용 범위 확대
  • 5. 정보 비용을 대폭 줄여주는 통계 – 통계의 효용 • 빅데이터를 분석하여 투자한 비용에 맞는 수익을 얻고 있는가? – 테라 바이트의 방대한 데이터 + 고성능 서버  뭔가 알 수 있어야 하지 않나? – “무엇을 알고 싶은가?” 를 먼저 확인해야~~ • 뉴딜 정책을 뒷받침한 통계가들 – 뉴딜 정책의 근간이 된 실업률 24.9%의 확인  등록카드를 통한 전수 조사  실업자들의 비협조  실업률이 낮게 조사  0.5% (60~70만명) 표본조사  상당히 정확한 결과 • 적절한 표본조사 : 적은 비용으로 충분히 필요한 정보를 얻는 방법 • 의미있는 오차 범위와 비용 – 표준 오차 (표준 편차) : 표본의 평균에서 +/- 2x(표준오차) 내의 범위에 있을 확률이 95% – 빅데이터 전체를 분석할 필요가 있더라도, 먼저 표본 데이터를 이용한 탐색적 해석으로 가설 작성 필요 – 해석은 자체에 가치가 있는 것이 아니라, 활용을 통해 할 수 있는 일과 그 가치에 의해 결정
  • 6. 오차와 인과관계가 통계학의 핵심 – 실행 결정을 위한 자료 확보 • 이익을 위한 실행을 결정하기 위한 세 가지 질문 – 어떤 요인을 변화시켜야 이익이 향상될까? – 그런변화를 일으키는 행동은 실제로 가능한가? – 그에 따르는 비용이 이익을 상회할까? 옆의 호감도 그래프에서는 ‘호감도를 높이면 매출이 상승할까?’, ‘얼마의 비용으로 얼마의 호감도와 매출이 향상될까?’ 라는 질문에 답이 없다 • 집계 만으로 가치가 있었던 19세기 나이팅게일 통계 – 전투 부상에 의한 사망보다 부상 후 감염에 의한 사망 수가 압도적으로 많다  병원 청결 주장  사망 원인에 대한 실체를 밝혀냄 . (병원 청결을 위한) 투자에 대한 (인명 구조 효과의) 효용에 대한 답을 할 수는 없음 • ‘시청자 수’, ‘접속수’, ‘호감도’ 등 지표 자체가 아닌 이익으로 이어지는 데이터 분석 필요 – 통계학은 ‘기억의 편중’ 과 같은 인간의 결함을 보완  경험과 감이 아닌 데이터 기반의 결정을 도움  DM 발송과 매출의 비례 관계 및 대상 고객, DM 내용에 대한 분석 보고서  60억엔 수익 – A/B 테스트, 카이제곱검정, 유의값 p등을 통한 오차를 고려한 상태의 의미있는 결과 확인 필요 • 인과 관계의 방향에 유의 – 광고와 상품 구매 : ‘광고  구매’ 혹은 ‘구매 광고’ 폭력 게임과 소년범죄 : ‘게임 폭력성’ 혹은 ‘폭력성  게임’ – 2 가지 개해결책 : 1) 역학적 방법 (관련 있는 조건 추적 조사  공정비교) 2) 임의화 테스트(조건을 ‘공정하게’ 갖춘 실험) 아무것도 알려주지 않는 그래프 브랜드 호감도
  • 7. ‘임의화’ 라는 최강의 무기 – 객관성 확보를 위한 통계적 방법 • 임의화 실험 : 인간이 제어할 수 있는 모든 것에 대한 인과관계 분석 – 로버트 A. 피셔 : 실험 계획법(The design of Experiments)  참고자료 참조 – 밀크티에 대한 감별 테스트, 현대 대다수 인터넷 기업의 A/B 테스트 – 적은 비용과 최소한의 위험부담으로 실수 가능성 줄임  적은 비용으로 일부러 실수(A/B 테스트)  조앤패브릭 : ‘재봉틀을 2대 사면 10% 할인’  A/B 테스트 결과, 3배 이상의 매출 증대  콘티넨탈 항공 : 비행기 지연, 대기예약 취소에 대한 대처  A/B 테스트 결과, 사과와 선물이 효과적(참고자료 참조) • ‘오차’에 대한 세 가지 접근법  동일화가 어려운 부분에 대한 실험적 접근법 – 1) ‘사례가 있었다’는 언급, 2)무시, 3) 임의화를 활용한 인과관계를 확률로 표시 – 비료와 밀 수확에 대한 연구 : 2개 구역을 40개로 분할 A 비료와 B 비료를 각각 20곳씩 임의화 테스트 • 임의화의 세 가지 한계 : 현실, 윤리, 감정 – 현실 : 절대적 표본수의 제한, 조건 조절이 불가능한 경우  우주 왕복선 비행사 수는 3명 혹은 4명 : 테스트 비용의 제한, 결혼의 선택 , 지진 경험과 정신적인 강건성 – 윤리 : 실험에 의한 개인의 상대적 피해  통계학자의 윤리적 지침 (인위적 유해없어야, 극대극 상황이 없어야)  나치의 인체실험, 흡연와 폐암의 연관 관계 임의화 테스트, 일부 빈곤가정에 대한 주택임대비용지원 (결과적으로 실시) – 감정 : 차별적 대우에 대한 반감(주택 비용 지원, 아마존 상대 가격 테스트(참고자료 참조) )
  • 8. [참고자료] 로널드 A. 피셔 – 현대 통계학의 아버지 • 실험 계획법 (The design of experiment) - 1935 년 • 우유가 먼저인가? 홍차가 먼저 인가? – 우유를 먼저 넣은 밀크티와 홍차를 먼저 넣은 밀크티의 구분은 가능한가? – 임의화 비교 실험에 의한 검증 제안 – 검증법에 대한 고민  한번 맞춘 경우  50% 의 확률을 가짐  여러번 맞춘 경우  특정 규칙에 따른 것은 아닌지 에 대한 확인 필요  한번의 실험의 경우  특수 시간, 특수 여건에 의한 것인지 확인 필요 • Fisher의 3원칙 – 반복 실험 ( Repetition and Replication ) – 무작위화 ( Randomization ) – 국소 관리 ( Local Control ) • 2003년 영국왕립 화학 협회 - 한 잔의 완벽한 홍차를 타는 법 – 우유를 먼저 넣는 것이 뜨거운 홍차에 의한 우유 단백질의 변형(75도에서 발생)을 막는다.
  • 9. [참고자료] A/B 테스트 활용 사례 – 콘티넨탈 항공
  • 10. [참고자료] 임의화의 벽 – (현실, 윤리 그리고) 감정
  • 11. 통계학은 계속 발전하고 있다 – 현대 통계적 방법 • 역학 조사 : 임의화가 어려운 경우 조사 관찰에 의한 인과 관계 확인 – 흡연과 암의 인과관계 : ‘윤리’적으로 임의화 실험 불가  윌리엄 돌(W. Doll) : 역학적 방법론으로 분석  케이스 컨트롤(Case Control) 연구 : 흡연 외의 연관성 있을 조건을 동등하게 갖춘 상태에서 비교 분석  피셔의 반론 : 임의화가 없는 ‘동등한 그룹의 층별 해석’은 한계가 있다  예상 못한 조건이 있을 수 있다!!!  제롬 콘필드의 ‘세상의 모든 연구’에 의한 재반론  전 세계의 케이스 콘트롤 연구에서 동일한 결과 • ‘평범으로의 회귀’를 분석하는 회귀분석 – 우생학 연구에서 시작된 회귀분석  평범으로의 회귀!!! – 하나의 변수로 다른 변수의 값을 예측하거나 설명하는 방법 – 회귀계수(기울기, 절편)에 불규칙성이 존재  이에 대한 오차 분석 필요 • 일반화 선형 모델을 정리한 한장의 도표  오른쪽 참조 (다른 분석간에 동일 결과) • 심슨의 파라독스  층별 분석 혹은 다중회귀분석 필요 – 상관 관계가 있는 두 변수에 의한 영향(용과 바이킹, 성적과 성별) – 상호작용이 없는 변수의 선택이 중요  로지스틱 회귀에 의한 ‘성향점수’ 방법 • 0과 1의 결과변수를 Odds Ratio 로 바꿔 다중회귀분석 적용 평균신장 부모의 평균키 자식의키 E(자식의 키) = a × 부모의 평균키 + b
  • 13. 통계학의 여섯가지 활용 분야 – 통계 관련 사업 • 사회 조사 전문가 : 정확함을 추구 (실태 파악 후 대책에 대한 논의의 시발점 제공) – ‘결측’ 등 추정치의 보정을 위한 분석 기법 도입. 공공 정보 혹은 비즈니스 마켓팅 정보 조사 • 역학자 혹은 생물 통계가 : ‘타당한 판단’을 추구 – p 값에 근거한 ‘원인’을 찾는다면 추정치의 적용 가능성에 얽매이지 않음. (담배의 유해성) • 심리 통계가 : IQ( Intelligence Quotient)의 탄생을 가져오다 – 1904 년 <뭔가 부족한 선행연구> : 선행 연구들의 측정 지표간의 상관관계 분석  1개의 합성변수 (IQ) – 심리와 관련된 추상적 내용 분석  좋은 ‘질문지’ 작성에 노력  좋은 질문지는 ‘회사의 자산’!! • 데이터 마이닝 : 마케팅 현장에서 탄생 (1995년 KDD(Knowledge Discovery in Database) 회의) – IBM의 ‘기저귀와 맥주’의 바스켓 분석  통계의 카이제곱검정이 편함(구글의 세르게이 브린) – Neural Network /Support Vector Machine : 곡선적 관계성 혹은 다변수의 복합 관계에 높은 정확도 • 텍스트 마이닝 : 자연어 문장을 통계학적으로 분석 – 텍스트 마이닝의 기본 ‘형태소 분석’ 과 구글의 N-gram  SNS 텍스트 마이닝, 고객 센터 문의 내용 분석 • 계량 경제학 : 경제학의 이론에 근거한 회귀 분석에 관심 – 가격, 소비, 저축 등의 상호 관계를 기술한 연립 방정식을 바탕으로 연역을 반복  회귀 분석 결과를 응용
  • 14. [참고자료]베이즈파와 빈도론 파의 대립 – 통계를 보는 시각 • 베이즈론자(Bayesian) vs 빈도론 확률을 미리 상정하는가? 상정하지 않는가? – 그냥 빈도의 결과에서 추론하는가? Vs 사전 확률과 사후 확률의 곱으로 표시하는가? – 계량 경제학자, 데이터 마이닝  베이즈론이 우세 (효율성 추구) – 사회조사, 역학, 생물통계학, 심리통계학  빈도론이 우세 (보수적인 판단이 필요한 경우) • 베이즈적 사고에서는 ‘사전확률’을 가정하면 데이터에서 무엇을 알 수 있나? 하는 연역이 가능 – 스팸 메일 확인에 효율적 (낮은 빈도에서도 추정 가능. 향후 사후 확률은 점진적 수정)
  • 15. 에비던스(Evidence) 활용 – 통계를 통한 사회현상 분석 • Evidence의 계층 구조 – 최하층 : 전문가 의견 과 기초 실험  달걀과 쥐의 발버둥 실험, 몸의 성분에 따른 효용(머리카락을 먹는다고 대머리가 해결?) – 유용한 Evidence : 실제 상황에서 적정 수의 인간을 분석한 결과  예) 역학 실험, 임의화 비교 실험  타당한 인과 추론을 얻어냄 – 자기 의견에 유리한 자료만 인용하는 ‘서술적 리뷰’  게임과 소년 범죄의 악영향 연구시  관계가 오차범위 정도라는 결과 등을 고의로 누락 – 계통적 리뷰 : 검토할 논문의 조건을 결정한 상태에서 과거의 관련 분야 모든 문헌으로 조건 검색  검색된 내용에 대한 분석 후 결론  현시점에서의 최고의 답 – 메타 분석 : 계통적 리뷰에서 복수의 임의화 비교 실험 혹은 관찰 결과를 한층 심도있게 정리 • ‘최선의 답’은 공개되어 있다. – 계통적 리뷰와 메타 분석의 결과를 인류 전체가 공유하기 위한 노력  코크란 공동계획( http://www.cochrane.org/), 캠벨 공동계획(http://www.campbellcollaboration.org/)  WWC(What Works Clearinghouse) 프로젝트, Google Scholar (http://scholar.google.co.kr/) • ‘전력’ 과 ‘ 최선’ : 혼자서 모든 힘을 다하는 것이 최선인가?  To Err is Human 임의화 비교 실험 계통적 리뷰/메타 분석 역학, 관찰 연구 전문가의견, 기초실험 Evidence의 계층
  • 16. Address 서울특별시 성동구 아차산로 17 11층 (성수동 1가, 서울숲엘타워) 우편번호 04789 Telephone Tel : (02)575-0409 Fax: (02)6003-1987