2. 통계의 힘 (한장 요약)
• 통계 리터러시
- 1903년, H.G. 웰스 : 통계학적 사고 는 장차 사회인이 가져야할 기본 교양
- 통계학은 모든 과학적 분석 방법의 기본 - 교육학, Sabermetrics, 경제학, 경영 ….
- IT와 통계의 협업에 의한 빅데이터 분석
• 정보 비용을 대폭 줄여주는 통계
- 적절한 수의 표본 조사와 의미있는 오차 범위에 의한 분석은 분석을 위한 비용을 절감
• 통계학의 핵심인 오차와 인과 관계 분석 중요한 결정을 위한 자료 제공
• ‘임의화’라는 최강의 무기 : ‘객관성’을 갖는 통계 실험법
- 반복실험, 무작위화, 국소 관리 A/B 테스트
- ‘현실’, ‘윤리’, ‘감정’ 이라는 세가지 임의화 장벽 ‘역학조사’ 방법 사용
• 현대 통계학의 발전 일반화 회귀 모델, 심슨의 역설, 역학 조사 ....
• 통계의 6가지 활용 : 사회/역학조사, 심리통계, 데이터마이닝, 텍스트 마이닝, 계량경제학
- ‘빈도론’ vs ‘베이시안(Bayesian)’
• 증거(Evidence)에 기반한 사회현상의 파악 에비던스의 객관성 계층에 따라서
- 계통적 리뷰/메타분석 > 임의화 실험 > 역학 조사 > 전문가 의견/ 기초실험
3. 목차
• 빅데이터, 통계학에서 시작하라
• 정보 비용을 대폭 줄여주는 통계
• 오차와 인과관계가 통계학의 핵심이다
• ‘임의화’라는 최강의 무기 활용하기
• 통계학은 계속 발전하고 있다
• 통계학의 여섯가지 활용 분야
• 에비던스 활용하기
4. 빅데이터, 통계학에서 시작하라 – 통계 리터러시
• 1903년, H.G. 웰스 – 읽기, 쓰기와 마찬가지로 통계학적 사고 역시 장차 사회인이 가져야할 기본
교양
• 답을 알려주는 실용적인 학문, 통계학
– 사다리 타기의 당첨 확률 테스트
– 어떤 분야든 데이터를 모아 분석함으로써 가장 올바르고 빠른 답 제시
– 원인을 모르는 전염병을 막기위해 연구하는 학문 ‘역학’에 큰 기여함
‘역학의 아버지’ 존 스노 : 런던의 콜레라에 대한 조사 급수 펌프에 따른 발병 빈도 조사
• 통계학은 모든 과학적 분석 방법의 기본
– EBM(Evidence Based Medicine) : 현대 의료의 가장 중요한 개념 중 하나
– 교육학 : WWC (What Works Clearinghouse) 프로젝트
– Sabermetrics : 과학적 통계로 야구를 이해하려는 노력
– 경제학, 경영관리, 마케팅 등에 활용
• IT와 통계의 기막힌 결혼 빅데이터
– 통계 해석 기법은 1960년대 모양새가 갖추어짐
– IT의 발전으로 데이터 수와 계산의 한계를 넘어섬 활용 범위 확대
5. 정보 비용을 대폭 줄여주는 통계 – 통계의 효용
• 빅데이터를 분석하여 투자한 비용에 맞는 수익을 얻고 있는가?
– 테라 바이트의 방대한 데이터 + 고성능 서버 뭔가 알 수 있어야 하지 않나?
– “무엇을 알고 싶은가?” 를 먼저 확인해야~~
• 뉴딜 정책을 뒷받침한 통계가들
– 뉴딜 정책의 근간이 된 실업률 24.9%의 확인
등록카드를 통한 전수 조사 실업자들의 비협조 실업률이 낮게 조사
0.5% (60~70만명) 표본조사 상당히 정확한 결과
• 적절한 표본조사 : 적은 비용으로 충분히 필요한 정보를 얻는 방법
• 의미있는 오차 범위와 비용
– 표준 오차 (표준 편차) : 표본의 평균에서 +/- 2x(표준오차) 내의 범위에 있을 확률이 95%
– 빅데이터 전체를 분석할 필요가 있더라도, 먼저 표본 데이터를 이용한 탐색적 해석으로 가설 작성 필요
– 해석은 자체에 가치가 있는 것이 아니라, 활용을 통해 할 수 있는 일과 그 가치에 의해 결정
6. 오차와 인과관계가 통계학의 핵심 – 실행 결정을 위한 자료 확보
• 이익을 위한 실행을 결정하기 위한 세 가지 질문
– 어떤 요인을 변화시켜야 이익이 향상될까?
– 그런변화를 일으키는 행동은 실제로 가능한가?
– 그에 따르는 비용이 이익을 상회할까?
옆의 호감도 그래프에서는 ‘호감도를 높이면 매출이 상승할까?’,
‘얼마의 비용으로 얼마의 호감도와 매출이 향상될까?’ 라는 질문에 답이 없다
• 집계 만으로 가치가 있었던 19세기 나이팅게일 통계
– 전투 부상에 의한 사망보다 부상 후 감염에 의한 사망 수가 압도적으로 많다 병원 청결 주장
사망 원인에 대한 실체를 밝혀냄 . (병원 청결을 위한) 투자에 대한 (인명 구조 효과의) 효용에 대한 답을 할 수는 없음
• ‘시청자 수’, ‘접속수’, ‘호감도’ 등 지표 자체가 아닌 이익으로 이어지는 데이터 분석 필요
– 통계학은 ‘기억의 편중’ 과 같은 인간의 결함을 보완 경험과 감이 아닌 데이터 기반의 결정을 도움
DM 발송과 매출의 비례 관계 및 대상 고객, DM 내용에 대한 분석 보고서 60억엔 수익
– A/B 테스트, 카이제곱검정, 유의값 p등을 통한 오차를 고려한 상태의 의미있는 결과 확인 필요
• 인과 관계의 방향에 유의
– 광고와 상품 구매 : ‘광고 구매’ 혹은 ‘구매 광고’ 폭력 게임과 소년범죄 : ‘게임 폭력성’ 혹은 ‘폭력성 게임’
– 2 가지 개해결책 : 1) 역학적 방법 (관련 있는 조건 추적 조사 공정비교) 2) 임의화 테스트(조건을 ‘공정하게’ 갖춘 실험)
아무것도 알려주지 않는 그래프
브랜드
호감도
7. ‘임의화’ 라는 최강의 무기 – 객관성 확보를 위한 통계적 방법
• 임의화 실험 : 인간이 제어할 수 있는 모든 것에 대한 인과관계 분석
– 로버트 A. 피셔 : 실험 계획법(The design of Experiments) 참고자료 참조
– 밀크티에 대한 감별 테스트, 현대 대다수 인터넷 기업의 A/B 테스트
– 적은 비용과 최소한의 위험부담으로 실수 가능성 줄임 적은 비용으로 일부러 실수(A/B 테스트)
조앤패브릭 : ‘재봉틀을 2대 사면 10% 할인’ A/B 테스트 결과, 3배 이상의 매출 증대
콘티넨탈 항공 : 비행기 지연, 대기예약 취소에 대한 대처 A/B 테스트 결과, 사과와 선물이 효과적(참고자료 참조)
• ‘오차’에 대한 세 가지 접근법 동일화가 어려운 부분에 대한 실험적 접근법
– 1) ‘사례가 있었다’는 언급, 2)무시, 3) 임의화를 활용한 인과관계를 확률로 표시
– 비료와 밀 수확에 대한 연구 : 2개 구역을 40개로 분할 A 비료와 B 비료를 각각 20곳씩 임의화 테스트
• 임의화의 세 가지 한계 : 현실, 윤리, 감정
– 현실 : 절대적 표본수의 제한, 조건 조절이 불가능한 경우
우주 왕복선 비행사 수는 3명 혹은 4명 : 테스트 비용의 제한, 결혼의 선택 , 지진 경험과 정신적인 강건성
– 윤리 : 실험에 의한 개인의 상대적 피해 통계학자의 윤리적 지침 (인위적 유해없어야, 극대극 상황이
없어야)
나치의 인체실험, 흡연와 폐암의 연관 관계 임의화 테스트, 일부 빈곤가정에 대한 주택임대비용지원 (결과적으로 실시)
– 감정 : 차별적 대우에 대한 반감(주택 비용 지원, 아마존 상대 가격 테스트(참고자료 참조) )
8. [참고자료] 로널드 A. 피셔 – 현대 통계학의 아버지
• 실험 계획법 (The design of experiment) - 1935 년
• 우유가 먼저인가? 홍차가 먼저 인가?
– 우유를 먼저 넣은 밀크티와 홍차를 먼저 넣은 밀크티의 구분은 가능한가?
– 임의화 비교 실험에 의한 검증 제안
– 검증법에 대한 고민
한번 맞춘 경우 50% 의 확률을 가짐
여러번 맞춘 경우 특정 규칙에 따른 것은 아닌지 에 대한 확인 필요
한번의 실험의 경우 특수 시간, 특수 여건에 의한 것인지 확인 필요
• Fisher의 3원칙
– 반복 실험 ( Repetition and Replication )
– 무작위화 ( Randomization )
– 국소 관리 ( Local Control )
• 2003년 영국왕립 화학 협회 - 한 잔의 완벽한 홍차를 타는 법
– 우유를 먼저 넣는 것이 뜨거운 홍차에 의한 우유 단백질의 변형(75도에서 발생)을 막는다.
11. 통계학은 계속 발전하고 있다 – 현대 통계적 방법
• 역학 조사 : 임의화가 어려운 경우 조사 관찰에 의한 인과 관계 확인
– 흡연과 암의 인과관계 : ‘윤리’적으로 임의화 실험 불가 윌리엄 돌(W. Doll) : 역학적 방법론으로 분석
케이스 컨트롤(Case Control) 연구 : 흡연 외의 연관성 있을 조건을 동등하게 갖춘 상태에서 비교 분석
피셔의 반론 : 임의화가 없는 ‘동등한 그룹의 층별 해석’은 한계가 있다 예상 못한 조건이 있을 수 있다!!!
제롬 콘필드의 ‘세상의 모든 연구’에 의한 재반론 전 세계의 케이스 콘트롤 연구에서 동일한 결과
• ‘평범으로의 회귀’를 분석하는 회귀분석
– 우생학 연구에서 시작된 회귀분석 평범으로의 회귀!!!
– 하나의 변수로 다른 변수의 값을 예측하거나 설명하는 방법
– 회귀계수(기울기, 절편)에 불규칙성이 존재 이에 대한 오차 분석 필요
• 일반화 선형 모델을 정리한 한장의 도표 오른쪽 참조 (다른 분석간에 동일 결과)
• 심슨의 파라독스 층별 분석 혹은 다중회귀분석 필요
– 상관 관계가 있는 두 변수에 의한 영향(용과 바이킹, 성적과 성별)
– 상호작용이 없는 변수의 선택이 중요 로지스틱 회귀에 의한 ‘성향점수’ 방법
• 0과 1의 결과변수를 Odds Ratio 로 바꿔 다중회귀분석 적용
평균신장
부모의 평균키
자식의키
E(자식의 키) = a × 부모의 평균키 + b
13. 통계학의 여섯가지 활용 분야 – 통계 관련 사업
• 사회 조사 전문가 : 정확함을 추구 (실태 파악 후 대책에 대한 논의의 시발점 제공)
– ‘결측’ 등 추정치의 보정을 위한 분석 기법 도입. 공공 정보 혹은 비즈니스 마켓팅 정보 조사
• 역학자 혹은 생물 통계가 : ‘타당한 판단’을 추구
– p 값에 근거한 ‘원인’을 찾는다면 추정치의 적용 가능성에 얽매이지 않음. (담배의 유해성)
• 심리 통계가 : IQ( Intelligence Quotient)의 탄생을 가져오다
– 1904 년 <뭔가 부족한 선행연구> : 선행 연구들의 측정 지표간의 상관관계 분석 1개의 합성변수 (IQ)
– 심리와 관련된 추상적 내용 분석 좋은 ‘질문지’ 작성에 노력 좋은 질문지는 ‘회사의 자산’!!
• 데이터 마이닝 : 마케팅 현장에서 탄생 (1995년 KDD(Knowledge Discovery in Database) 회의)
– IBM의 ‘기저귀와 맥주’의 바스켓 분석 통계의 카이제곱검정이 편함(구글의 세르게이 브린)
– Neural Network /Support Vector Machine : 곡선적 관계성 혹은 다변수의 복합 관계에 높은 정확도
• 텍스트 마이닝 : 자연어 문장을 통계학적으로 분석
– 텍스트 마이닝의 기본 ‘형태소 분석’ 과 구글의 N-gram SNS 텍스트 마이닝, 고객 센터 문의 내용 분석
• 계량 경제학 : 경제학의 이론에 근거한 회귀 분석에 관심
– 가격, 소비, 저축 등의 상호 관계를 기술한 연립 방정식을 바탕으로 연역을 반복 회귀 분석 결과를 응용
14. [참고자료]베이즈파와 빈도론 파의 대립 – 통계를 보는 시각
• 베이즈론자(Bayesian) vs 빈도론 확률을 미리 상정하는가? 상정하지 않는가?
– 그냥 빈도의 결과에서 추론하는가? Vs 사전 확률과 사후 확률의 곱으로 표시하는가?
– 계량 경제학자, 데이터 마이닝 베이즈론이 우세 (효율성 추구)
– 사회조사, 역학, 생물통계학, 심리통계학 빈도론이 우세 (보수적인 판단이 필요한 경우)
• 베이즈적 사고에서는 ‘사전확률’을 가정하면 데이터에서 무엇을 알 수 있나? 하는 연역이 가능
– 스팸 메일 확인에 효율적 (낮은 빈도에서도 추정 가능. 향후 사후 확률은 점진적 수정)
15. 에비던스(Evidence) 활용 – 통계를 통한 사회현상 분석
• Evidence의 계층 구조
– 최하층 : 전문가 의견 과 기초 실험
달걀과 쥐의 발버둥 실험, 몸의 성분에 따른 효용(머리카락을 먹는다고 대머리가 해결?)
– 유용한 Evidence : 실제 상황에서 적정 수의 인간을 분석한 결과
예) 역학 실험, 임의화 비교 실험
타당한 인과 추론을 얻어냄
– 자기 의견에 유리한 자료만 인용하는 ‘서술적 리뷰’
게임과 소년 범죄의 악영향 연구시 관계가 오차범위 정도라는 결과 등을 고의로 누락
– 계통적 리뷰 : 검토할 논문의 조건을 결정한 상태에서 과거의 관련 분야 모든 문헌으로 조건 검색
검색된 내용에 대한 분석 후 결론 현시점에서의 최고의 답
– 메타 분석 : 계통적 리뷰에서 복수의 임의화 비교 실험 혹은 관찰 결과를 한층 심도있게 정리
• ‘최선의 답’은 공개되어 있다.
– 계통적 리뷰와 메타 분석의 결과를 인류 전체가 공유하기 위한 노력
코크란 공동계획( http://www.cochrane.org/), 캠벨 공동계획(http://www.campbellcollaboration.org/)
WWC(What Works Clearinghouse) 프로젝트, Google Scholar (http://scholar.google.co.kr/)
• ‘전력’ 과 ‘ 최선’ : 혼자서 모든 힘을 다하는 것이 최선인가? To Err is Human
임의화 비교 실험
계통적 리뷰/메타 분석
역학, 관찰 연구
전문가의견, 기초실험
Evidence의 계층
16. Address
서울특별시 성동구 아차산로 17
11층 (성수동 1가, 서울숲엘타워)
우편번호 04789
Telephone
Tel : (02)575-0409
Fax: (02)6003-1987