SlideShare uma empresa Scribd logo
1 de 32
Baixar para ler offline
허현 / NCSOFT
그래인저 인과 검정
-닭이 먼저냐 달걀이 먼저냐-
Product
Analytics
Playground
저를 소개합니다
소개
3년차 접어든 데이터 분석가
배민라이더스 관련
사업 운영 분석
게임 데이터 분석
지표개발
인턴
현재
꾸준한 좋은 분석 +
분석 프로세스 개발
=> J커브 성장
관심사
밥 먹기 돈 벌기
주식 코인 부동산
스마트스토어 연봉상승
연말정산 스톡옵션 유튜버
회사에서 제일 힘든 상황
현님, 오늘 뭐 먹을까요?
친구들이랑 약속 잡을 때 제일 힘든 것
뭐 먹을래?
관심사
밥 먹기 돈 벌기
주식 코인 부동산
스마트스토어 연봉상승
연말정산 스톡옵션 유튜버
회사에서 제일 힘든 상황
현님, 오늘 뭐 먹을까요?
친구들이랑 약속 잡을 때 제일 힘든 것
뭐 먹을래?
관심사
밥 먹기 돈 벌기
생각보다 어렵습니다
주식 코인 부동산
스마트스토어 연봉상승
연말정산 스톡옵션 유튜버
회사에서 제일 힘든 상황
현님, 오늘 뭐 먹을까요?
친구들이랑 약속 잡을 때 제일 힘든 것
뭐 먹을래?
관심사
밥 먹기 돈 벌기
결정 해야 되기 때문에
관심사
의사결정 해야 되기 때문입니다
밥 잘 먹고
돈 잘 벌기 위해서 을 잘 하고 싶다
을 잘 하게 돕고 싶다
의사결정의 유형
의사결정의 유형
직관적 의사결정 논리적 의사결정 데이터 기반 의사결정
이봐, 해봤어? (정주영)
It's not the customer's
job to know what they
want (Steve Jobs)
가설 -> 데이터 검정
실험
인과추론
SWOT 4P 4C
MECE BCG매트릭스
비즈니스 모델 캔버스
Hill’s criteria for causation
Hill’s criteria for causation
1. 강도 (효과 크기)
2. 일관성
3. 특이성
4. 시간성
5. 용량 반응 관계
6. 타당성 (설명 가능성)
7. 일치성
8. 실험 근거
9. 유사성
Hill’s criteria for causation
1. 강도 (효과 크기)
평소 만족도가 10인데 에어프라이어를 쓰고 10.01이 되었다면 변화 정도가 작다.
연관성의 크기가 클 수록 인과성이 높다
2. 일관성
에어프라이어 처음 썼을 때는 좋았는데, 그 뒤로 좋았던 적 없다면 일관성이 떨어진다
3. 특이성
평소에 에어프라이어 없이 요리 하다가 에어프라이어를 썼을 때 만족도가 높다면
평소와 다른 특이한 액션을 취했기에 그것이 삶의 질에 영향을 주었다고 할 수 있다
10.01 20
Hill’s criteria for causation
4. 시간성
에어프라이어를 쓰고 기분이 좋아져야 인과성이 형성된다
기분 좋아서 에어프라이어 쓰면 인과성이 아니다
5. 용량 반응 관계
초기에는 높은 만족도를 보이다가 점차 만족의 정도가 줄어드는 것
6. 타당성 (설명 가능성)
에어프라이어를 쓰면 어떤 이유에서 삶의 질이 올라가는지 대략적으로
설명할 수 있어야 타당한 인과성이다
시간
Hill’s criteria for causation
7. 일치성
친구나 지인도 에어프라이어를 쓰고 삶의 질이 올랐고
나도 올랐다면 기존에 알려진 내용과 일치한다
8. 실험 근거
A 집단에게는 에어프라이어를 쓰게 하고 B 집단에게는 못 쓰게 했는데
둘의 일정기간 후 삶의 만족도 차이가 난다면 실험적 근거가 있다
9. 유사성
에어프라이어와 어느정도 유사한 전자레인지, 후라이팬처럼
상황과 논리 구조적으로 비슷하다면 인과성이 있다
Hill’s criteria for causation
1. 강도 (효과 크기)
2. 일관성
3. 특이성
4. 시간성
5. 용량 반응 관계
6. 타당성 (설명 가능성)
7. 일치성
8. 실험 근거
9. 유사성
그래인저 인과 검정!
(이거 아님)
그래인저 인과 검정
-닭이 먼저냐 달걀이 먼저냐-
그래인저 인과 검정
(Y)
(X)
그래인저 인과 검정
Yt = 𝚺aiXt-i + ϵ1
p
i=1
Yt = 𝚺biYt-i + ϵ2
p
i=1
시간적 선행성 자기회귀 모델
아이디어
수식
이전 시점의 X로 Y를 추정 이전 시점의 Y로 Y를 추정
Yt = 𝚺aiXt-i + 𝚺biYt-i + ϵ
p
i=1
p
i=1
그래인저 인과 검정
시계열 데이터에 사용
- 정상성을 만족시켜야 함
인과관계와는 엄밀히 달라서 그래인저 인과 검정을 통해 밝혀진 관계는
그래인저 인과가 있다, G-causality가 있다 라고 합니다
기본적으로는 단방향 추정이기 때문에
X->Y, Y->X로 한 번씩 해서 양방향으로 확인합니다
그래인저 인과 검정
해석
X -/- Y 서로 영향이 없다
X --> Y X가 Y에 선행한다
X <-- Y Y가 X에 선행한다
X <-> Y 서로 영향을 준다
적용 사례 (간단히)
적용 사례
MMORPG 게임은 하나의 사회
알고 싶었던 내용) 매출 불평등도가 낮으면 미래의 매출이 높아질까?
- 불평등도 낮음 = 매출이 상위권 유저에 쏠리지 않고 균형있게 발생 =
상위권 유저와 과금으로 인한 스펙업 격차가 크게 벌어지지 않음
- 불평등도 높음 = 매출이 상위권 유저에 쏠림 =
상위권 유저의 스펙업이 빨라지고 소과금 유저와 격차가 빠르게 벌어짐
> 매출의 방향성에 대한 질문
소위 갓겜
P2W
적용 사례 (cont.)
여러 조합으로 불평등지수를 만들어보고 매출 관련 지표와 상관성을 확인
A 불평등 지수와 매출 지표 상관성이 -0.3~-0.4 수준으로 나타남
= 상위권 유저 쏠림 현상이 전반적 매출 지표에 유리함을 의미
가짜 상관관계가 아닐까, 불평등 지수가 매출 지표에 선행하는가
체크하기 위해 그래인저 인과 검정 사용
적용 사례 (cont.)
과정
- 주차별 불평등 지수 데이터와 매출 데이터를 준비
- 정상성 처리를 해주고 그래인저 인과 검정 양방향 진행
결론
불평등 지수 -/- 매출 지표
유의점(한계)과
사용하면 좋은 이유
유의점(한계)과 사용하면 좋은 이유
유의점
- 원칙적으로 자세한(granular) 지표보다는 거시적인 지표에 어울리는 방법
- ex) GDP-실업률, 매출-AU, 취급 상품 수(SKU)-MARPU
- 다중선형회귀이기 때문에 선형적인 데이터에 쓸 수 있다
- 여전히 내생성 문제는 존재한다
유의점(한계)과 사용하면 좋은 이유
사용하면 좋은 이유
- 정답을 찾진 못해도 오답을 거를 수는 있다 (Spurious correlations)
- 선행하지 않으면 절대 인과성이 있다 할 수 없으니까 (필요 조건)
- 잠재적 결과 프레임워크나 구조적 인과 모델에 비해 논쟁의 여지가 적어
빠르게 가짜 상관성을 걸러내기 좋다 (포맷화하기 좋다)
유의점(한계)과 사용하면 좋은 이유
사용하면 좋은 이유 (cont.)
연구자가 아닌 회사에서 의사결정을 하는/돕는 사람은
의사결정 사이클 안에서(시간 제약)
완벽한 엄밀성을 갖출 수는 없다는 것을 인정하고
상황별로 적절한 인과분석 포맷을 만들어 사용하는 게 좋다고 생각합니다
(dowhy, econml, causalml 모두 포맷화한 라이브러리)
유의점(한계)과 사용하면 좋은 이유
사용하면 좋은 이유 (cont.)
미국 90년대 범죄율 감소의 원인
70년대 낙태 합법화
(2005년 출간)
감옥 수 증가, 수감 인원 증가
(2011년 출간)
6년
엄밀하게 하려해도 결론이 바뀌는 게 인과분석
책 내용의 기반이 되는 원 논문의
작성, 심사, 발행 기간이 몇 년 소요 되지만
이조차 완전하다 평가하기 어려움
비즈니스 환경이라면 더더욱 빠른 의사결정이 필요
유의점(한계)과 사용하면 좋은 이유
사용하면 좋은 이유 (cont.)
연구자가 아닌 회사에서 의사결정을 하는/돕는 사람은
의사결정 사이클 안에서(시간 제약)
완벽한 엄밀성을 갖출 수는 없다는 것을 인정하고
상황 별로 적절한 인과분석 포맷을 만들어 사용하는 게 좋다고 생각합니다
(dowhy, econml, causalml 모두 포맷화한 라이브러리)
오늘 뭐 먹을까요? 라는 질문에 완벽한 답을 찾기란 어렵지만,
상황별로 유형화 해놓으면 빠르게 점심을 먹을 수 있는 것처럼요
오늘은 무난하게 국밥 먹을까요? 비 오는데 가까운 가게에서 먹을까요?
감사합니다

Mais conteúdo relacionado

Mais procurados

[PAP] 팝콘 시즌 1 컨퍼런스 사전 QnA
[PAP] 팝콘 시즌 1 컨퍼런스 사전 QnA[PAP] 팝콘 시즌 1 컨퍼런스 사전 QnA
[PAP] 팝콘 시즌 1 컨퍼런스 사전 QnABokyung Choi
 
신뢰할 수 있는 A/B 테스트를 위해 알아야 할 것들
신뢰할 수 있는 A/B 테스트를 위해 알아야 할 것들신뢰할 수 있는 A/B 테스트를 위해 알아야 할 것들
신뢰할 수 있는 A/B 테스트를 위해 알아야 할 것들Minho Lee
 
실무에서 활용하는 A/B테스트
실무에서 활용하는 A/B테스트실무에서 활용하는 A/B테스트
실무에서 활용하는 A/B테스트JeongMin Kwon
 
실리콘 밸리 데이터 사이언티스트의 하루
실리콘 밸리 데이터 사이언티스트의 하루실리콘 밸리 데이터 사이언티스트의 하루
실리콘 밸리 데이터 사이언티스트의 하루Jaimie Kwon (권재명)
 
데이터 기반 성장을 위한 선결 조건: Product-Market Fit, Instrumentation, 그리고 프로세스
데이터 기반 성장을 위한 선결 조건: Product-Market Fit, Instrumentation, 그리고 프로세스데이터 기반 성장을 위한 선결 조건: Product-Market Fit, Instrumentation, 그리고 프로세스
데이터 기반 성장을 위한 선결 조건: Product-Market Fit, Instrumentation, 그리고 프로세스Minwoo Kim
 
[팝콘 시즌1] 박동혁 : 마케터에게 필요한 Data Literacy
[팝콘 시즌1] 박동혁 : 마케터에게 필요한 Data Literacy[팝콘 시즌1] 박동혁 : 마케터에게 필요한 Data Literacy
[팝콘 시즌1] 박동혁 : 마케터에게 필요한 Data LiteracyPAP (Product Analytics Playground)
 
데이터 분석에 필요한 기본 개념: 지표, Funnel 등 데이터를 이해하기 위한 멘탈 모델(Mental Model)
데이터 분석에 필요한 기본 개념: 지표, Funnel 등 데이터를 이해하기 위한 멘탈 모델(Mental Model)데이터 분석에 필요한 기본 개념: 지표, Funnel 등 데이터를 이해하기 위한 멘탈 모델(Mental Model)
데이터 분석에 필요한 기본 개념: 지표, Funnel 등 데이터를 이해하기 위한 멘탈 모델(Mental Model)Minwoo Kim
 
Data Engineering 101
Data Engineering 101Data Engineering 101
Data Engineering 101DaeMyung Kang
 
스타트업 데이터분석 - 퍼널분석과 코호트분석
스타트업 데이터분석 - 퍼널분석과 코호트분석스타트업 데이터분석 - 퍼널분석과 코호트분석
스타트업 데이터분석 - 퍼널분석과 코호트분석Seonggwan Lee
 
데이터는 차트가 아니라 돈이 되어야 한다.
데이터는 차트가 아니라 돈이 되어야 한다.데이터는 차트가 아니라 돈이 되어야 한다.
데이터는 차트가 아니라 돈이 되어야 한다.Yongho Ha
 
데이터가 흐르는 조직 만들기 - 마이리얼트립
데이터가 흐르는 조직 만들기 - 마이리얼트립데이터가 흐르는 조직 만들기 - 마이리얼트립
데이터가 흐르는 조직 만들기 - 마이리얼트립승화 양
 
[우리가 데이터를 쓰는 법] 좋다는 건 알겠는데 좀 써보고 싶소. 데이터! - 넘버웍스 하용호 대표
[우리가 데이터를 쓰는 법] 좋다는 건 알겠는데 좀 써보고 싶소. 데이터! - 넘버웍스 하용호 대표[우리가 데이터를 쓰는 법] 좋다는 건 알겠는데 좀 써보고 싶소. 데이터! - 넘버웍스 하용호 대표
[우리가 데이터를 쓰는 법] 좋다는 건 알겠는데 좀 써보고 싶소. 데이터! - 넘버웍스 하용호 대표Dylan Ko
 
[261] 실시간 추천엔진 머신한대에 구겨넣기
[261] 실시간 추천엔진 머신한대에 구겨넣기[261] 실시간 추천엔진 머신한대에 구겨넣기
[261] 실시간 추천엔진 머신한대에 구겨넣기NAVER D2
 
[225]NSML: 머신러닝 플랫폼 서비스하기 & 모델 튜닝 자동화하기
[225]NSML: 머신러닝 플랫폼 서비스하기 & 모델 튜닝 자동화하기[225]NSML: 머신러닝 플랫폼 서비스하기 & 모델 튜닝 자동화하기
[225]NSML: 머신러닝 플랫폼 서비스하기 & 모델 튜닝 자동화하기NAVER D2
 
네이버서치ABT: 신뢰할 수 있는 A/B 테스트 플랫폼 개발 및 정착기
네이버서치ABT: 신뢰할 수 있는 A/B 테스트 플랫폼 개발 및 정착기네이버서치ABT: 신뢰할 수 있는 A/B 테스트 플랫폼 개발 및 정착기
네이버서치ABT: 신뢰할 수 있는 A/B 테스트 플랫폼 개발 및 정착기Jin Young Kim
 
인공지능추천시스템 airs개발기_모델링과시스템
인공지능추천시스템 airs개발기_모델링과시스템인공지능추천시스템 airs개발기_모델링과시스템
인공지능추천시스템 airs개발기_모델링과시스템NAVER D2
 
Little Big Data #1. 바닥부터 시작하는 데이터 인프라
Little Big Data #1. 바닥부터 시작하는 데이터 인프라Little Big Data #1. 바닥부터 시작하는 데이터 인프라
Little Big Data #1. 바닥부터 시작하는 데이터 인프라Seongyun Byeon
 
[MLOps KR 행사] MLOps 춘추 전국 시대 정리(210605)
[MLOps KR 행사] MLOps 춘추 전국 시대 정리(210605)[MLOps KR 행사] MLOps 춘추 전국 시대 정리(210605)
[MLOps KR 행사] MLOps 춘추 전국 시대 정리(210605)Seongyun Byeon
 
하이퍼커넥트에서 자동 광고 측정 서비스 구현하기 - PyCon Korea 2018
하이퍼커넥트에서 자동 광고 측정 서비스 구현하기 - PyCon Korea 2018하이퍼커넥트에서 자동 광고 측정 서비스 구현하기 - PyCon Korea 2018
하이퍼커넥트에서 자동 광고 측정 서비스 구현하기 - PyCon Korea 2018승호 박
 
오늘 밤부터 쓰는 google analytics (구글 애널리틱스, GA)
오늘 밤부터 쓰는 google analytics (구글 애널리틱스, GA) 오늘 밤부터 쓰는 google analytics (구글 애널리틱스, GA)
오늘 밤부터 쓰는 google analytics (구글 애널리틱스, GA) Yongho Ha
 

Mais procurados (20)

[PAP] 팝콘 시즌 1 컨퍼런스 사전 QnA
[PAP] 팝콘 시즌 1 컨퍼런스 사전 QnA[PAP] 팝콘 시즌 1 컨퍼런스 사전 QnA
[PAP] 팝콘 시즌 1 컨퍼런스 사전 QnA
 
신뢰할 수 있는 A/B 테스트를 위해 알아야 할 것들
신뢰할 수 있는 A/B 테스트를 위해 알아야 할 것들신뢰할 수 있는 A/B 테스트를 위해 알아야 할 것들
신뢰할 수 있는 A/B 테스트를 위해 알아야 할 것들
 
실무에서 활용하는 A/B테스트
실무에서 활용하는 A/B테스트실무에서 활용하는 A/B테스트
실무에서 활용하는 A/B테스트
 
실리콘 밸리 데이터 사이언티스트의 하루
실리콘 밸리 데이터 사이언티스트의 하루실리콘 밸리 데이터 사이언티스트의 하루
실리콘 밸리 데이터 사이언티스트의 하루
 
데이터 기반 성장을 위한 선결 조건: Product-Market Fit, Instrumentation, 그리고 프로세스
데이터 기반 성장을 위한 선결 조건: Product-Market Fit, Instrumentation, 그리고 프로세스데이터 기반 성장을 위한 선결 조건: Product-Market Fit, Instrumentation, 그리고 프로세스
데이터 기반 성장을 위한 선결 조건: Product-Market Fit, Instrumentation, 그리고 프로세스
 
[팝콘 시즌1] 박동혁 : 마케터에게 필요한 Data Literacy
[팝콘 시즌1] 박동혁 : 마케터에게 필요한 Data Literacy[팝콘 시즌1] 박동혁 : 마케터에게 필요한 Data Literacy
[팝콘 시즌1] 박동혁 : 마케터에게 필요한 Data Literacy
 
데이터 분석에 필요한 기본 개념: 지표, Funnel 등 데이터를 이해하기 위한 멘탈 모델(Mental Model)
데이터 분석에 필요한 기본 개념: 지표, Funnel 등 데이터를 이해하기 위한 멘탈 모델(Mental Model)데이터 분석에 필요한 기본 개념: 지표, Funnel 등 데이터를 이해하기 위한 멘탈 모델(Mental Model)
데이터 분석에 필요한 기본 개념: 지표, Funnel 등 데이터를 이해하기 위한 멘탈 모델(Mental Model)
 
Data Engineering 101
Data Engineering 101Data Engineering 101
Data Engineering 101
 
스타트업 데이터분석 - 퍼널분석과 코호트분석
스타트업 데이터분석 - 퍼널분석과 코호트분석스타트업 데이터분석 - 퍼널분석과 코호트분석
스타트업 데이터분석 - 퍼널분석과 코호트분석
 
데이터는 차트가 아니라 돈이 되어야 한다.
데이터는 차트가 아니라 돈이 되어야 한다.데이터는 차트가 아니라 돈이 되어야 한다.
데이터는 차트가 아니라 돈이 되어야 한다.
 
데이터가 흐르는 조직 만들기 - 마이리얼트립
데이터가 흐르는 조직 만들기 - 마이리얼트립데이터가 흐르는 조직 만들기 - 마이리얼트립
데이터가 흐르는 조직 만들기 - 마이리얼트립
 
[우리가 데이터를 쓰는 법] 좋다는 건 알겠는데 좀 써보고 싶소. 데이터! - 넘버웍스 하용호 대표
[우리가 데이터를 쓰는 법] 좋다는 건 알겠는데 좀 써보고 싶소. 데이터! - 넘버웍스 하용호 대표[우리가 데이터를 쓰는 법] 좋다는 건 알겠는데 좀 써보고 싶소. 데이터! - 넘버웍스 하용호 대표
[우리가 데이터를 쓰는 법] 좋다는 건 알겠는데 좀 써보고 싶소. 데이터! - 넘버웍스 하용호 대표
 
[261] 실시간 추천엔진 머신한대에 구겨넣기
[261] 실시간 추천엔진 머신한대에 구겨넣기[261] 실시간 추천엔진 머신한대에 구겨넣기
[261] 실시간 추천엔진 머신한대에 구겨넣기
 
[225]NSML: 머신러닝 플랫폼 서비스하기 & 모델 튜닝 자동화하기
[225]NSML: 머신러닝 플랫폼 서비스하기 & 모델 튜닝 자동화하기[225]NSML: 머신러닝 플랫폼 서비스하기 & 모델 튜닝 자동화하기
[225]NSML: 머신러닝 플랫폼 서비스하기 & 모델 튜닝 자동화하기
 
네이버서치ABT: 신뢰할 수 있는 A/B 테스트 플랫폼 개발 및 정착기
네이버서치ABT: 신뢰할 수 있는 A/B 테스트 플랫폼 개발 및 정착기네이버서치ABT: 신뢰할 수 있는 A/B 테스트 플랫폼 개발 및 정착기
네이버서치ABT: 신뢰할 수 있는 A/B 테스트 플랫폼 개발 및 정착기
 
인공지능추천시스템 airs개발기_모델링과시스템
인공지능추천시스템 airs개발기_모델링과시스템인공지능추천시스템 airs개발기_모델링과시스템
인공지능추천시스템 airs개발기_모델링과시스템
 
Little Big Data #1. 바닥부터 시작하는 데이터 인프라
Little Big Data #1. 바닥부터 시작하는 데이터 인프라Little Big Data #1. 바닥부터 시작하는 데이터 인프라
Little Big Data #1. 바닥부터 시작하는 데이터 인프라
 
[MLOps KR 행사] MLOps 춘추 전국 시대 정리(210605)
[MLOps KR 행사] MLOps 춘추 전국 시대 정리(210605)[MLOps KR 행사] MLOps 춘추 전국 시대 정리(210605)
[MLOps KR 행사] MLOps 춘추 전국 시대 정리(210605)
 
하이퍼커넥트에서 자동 광고 측정 서비스 구현하기 - PyCon Korea 2018
하이퍼커넥트에서 자동 광고 측정 서비스 구현하기 - PyCon Korea 2018하이퍼커넥트에서 자동 광고 측정 서비스 구현하기 - PyCon Korea 2018
하이퍼커넥트에서 자동 광고 측정 서비스 구현하기 - PyCon Korea 2018
 
오늘 밤부터 쓰는 google analytics (구글 애널리틱스, GA)
오늘 밤부터 쓰는 google analytics (구글 애널리틱스, GA) 오늘 밤부터 쓰는 google analytics (구글 애널리틱스, GA)
오늘 밤부터 쓰는 google analytics (구글 애널리틱스, GA)
 

Semelhante a [팝콘 시즌1] 허현 : 닭이 먼저 달걀이 먼저? 그래인저 인과검정

Ml for 정형데이터
Ml for 정형데이터Ml for 정형데이터
Ml for 정형데이터JEEHYUN PAIK
 
[도서 리뷰] 헤드 퍼스트 데이터 분석 ( Head First Data Analysis )
[도서 리뷰]  헤드 퍼스트 데이터 분석 ( Head First Data Analysis )[도서 리뷰]  헤드 퍼스트 데이터 분석 ( Head First Data Analysis )
[도서 리뷰] 헤드 퍼스트 데이터 분석 ( Head First Data Analysis )Seung-Woo Kang
 
스타트업은 데이터를 어떻게 바라봐야 할까? (개정판)
스타트업은 데이터를 어떻게 바라봐야 할까? (개정판)스타트업은 데이터를 어떻게 바라봐야 할까? (개정판)
스타트업은 데이터를 어떻게 바라봐야 할까? (개정판)Yongho Ha
 
190829 테헤란로 런치클럽-그로스, 만병통치약에 대한 허와 실 (눔코리아 그로스팀 양욱진 매니저)
190829 테헤란로 런치클럽-그로스, 만병통치약에 대한 허와 실 (눔코리아 그로스팀 양욱진 매니저)190829 테헤란로 런치클럽-그로스, 만병통치약에 대한 허와 실 (눔코리아 그로스팀 양욱진 매니저)
190829 테헤란로 런치클럽-그로스, 만병통치약에 대한 허와 실 (눔코리아 그로스팀 양욱진 매니저)StartupAlliance
 
Hello, Recommender System
Hello, Recommender SystemHello, Recommender System
Hello, Recommender SystemKyuhwan Jung
 
[PyCon KR 2018] 땀내를 줄이는 Data와 Feature 다루기
[PyCon KR 2018] 땀내를 줄이는 Data와 Feature 다루기[PyCon KR 2018] 땀내를 줄이는 Data와 Feature 다루기
[PyCon KR 2018] 땀내를 줄이는 Data와 Feature 다루기Joeun Park
 
Visual ActionBoard 소개
Visual ActionBoard 소개Visual ActionBoard 소개
Visual ActionBoard 소개The Innovation Lab
 
韩国Ppt高手收集的ppt图表素材[免积分下载]
韩国Ppt高手收集的ppt图表素材[免积分下载]韩国Ppt高手收集的ppt图表素材[免积分下载]
韩国Ppt高手收集的ppt图表素材[免积分下载]fgf201213
 
Chapter 11 Practical Methodology
Chapter 11 Practical MethodologyChapter 11 Practical Methodology
Chapter 11 Practical MethodologyKyeongUkJang
 

Semelhante a [팝콘 시즌1] 허현 : 닭이 먼저 달걀이 먼저? 그래인저 인과검정 (9)

Ml for 정형데이터
Ml for 정형데이터Ml for 정형데이터
Ml for 정형데이터
 
[도서 리뷰] 헤드 퍼스트 데이터 분석 ( Head First Data Analysis )
[도서 리뷰]  헤드 퍼스트 데이터 분석 ( Head First Data Analysis )[도서 리뷰]  헤드 퍼스트 데이터 분석 ( Head First Data Analysis )
[도서 리뷰] 헤드 퍼스트 데이터 분석 ( Head First Data Analysis )
 
스타트업은 데이터를 어떻게 바라봐야 할까? (개정판)
스타트업은 데이터를 어떻게 바라봐야 할까? (개정판)스타트업은 데이터를 어떻게 바라봐야 할까? (개정판)
스타트업은 데이터를 어떻게 바라봐야 할까? (개정판)
 
190829 테헤란로 런치클럽-그로스, 만병통치약에 대한 허와 실 (눔코리아 그로스팀 양욱진 매니저)
190829 테헤란로 런치클럽-그로스, 만병통치약에 대한 허와 실 (눔코리아 그로스팀 양욱진 매니저)190829 테헤란로 런치클럽-그로스, 만병통치약에 대한 허와 실 (눔코리아 그로스팀 양욱진 매니저)
190829 테헤란로 런치클럽-그로스, 만병통치약에 대한 허와 실 (눔코리아 그로스팀 양욱진 매니저)
 
Hello, Recommender System
Hello, Recommender SystemHello, Recommender System
Hello, Recommender System
 
[PyCon KR 2018] 땀내를 줄이는 Data와 Feature 다루기
[PyCon KR 2018] 땀내를 줄이는 Data와 Feature 다루기[PyCon KR 2018] 땀내를 줄이는 Data와 Feature 다루기
[PyCon KR 2018] 땀내를 줄이는 Data와 Feature 다루기
 
Visual ActionBoard 소개
Visual ActionBoard 소개Visual ActionBoard 소개
Visual ActionBoard 소개
 
韩国Ppt高手收集的ppt图表素材[免积分下载]
韩国Ppt高手收集的ppt图表素材[免积分下载]韩国Ppt高手收集的ppt图表素材[免积分下载]
韩国Ppt高手收集的ppt图表素材[免积分下载]
 
Chapter 11 Practical Methodology
Chapter 11 Practical MethodologyChapter 11 Practical Methodology
Chapter 11 Practical Methodology
 

[팝콘 시즌1] 허현 : 닭이 먼저 달걀이 먼저? 그래인저 인과검정

  • 1. 허현 / NCSOFT 그래인저 인과 검정 -닭이 먼저냐 달걀이 먼저냐- Product Analytics Playground
  • 3. 소개 3년차 접어든 데이터 분석가 배민라이더스 관련 사업 운영 분석 게임 데이터 분석 지표개발 인턴 현재 꾸준한 좋은 분석 + 분석 프로세스 개발 => J커브 성장
  • 5. 주식 코인 부동산 스마트스토어 연봉상승 연말정산 스톡옵션 유튜버 회사에서 제일 힘든 상황 현님, 오늘 뭐 먹을까요? 친구들이랑 약속 잡을 때 제일 힘든 것 뭐 먹을래? 관심사 밥 먹기 돈 벌기
  • 6. 주식 코인 부동산 스마트스토어 연봉상승 연말정산 스톡옵션 유튜버 회사에서 제일 힘든 상황 현님, 오늘 뭐 먹을까요? 친구들이랑 약속 잡을 때 제일 힘든 것 뭐 먹을래? 관심사 밥 먹기 돈 벌기 생각보다 어렵습니다
  • 7. 주식 코인 부동산 스마트스토어 연봉상승 연말정산 스톡옵션 유튜버 회사에서 제일 힘든 상황 현님, 오늘 뭐 먹을까요? 친구들이랑 약속 잡을 때 제일 힘든 것 뭐 먹을래? 관심사 밥 먹기 돈 벌기 결정 해야 되기 때문에
  • 8. 관심사 의사결정 해야 되기 때문입니다 밥 잘 먹고 돈 잘 벌기 위해서 을 잘 하고 싶다 을 잘 하게 돕고 싶다
  • 10. 의사결정의 유형 직관적 의사결정 논리적 의사결정 데이터 기반 의사결정 이봐, 해봤어? (정주영) It's not the customer's job to know what they want (Steve Jobs) 가설 -> 데이터 검정 실험 인과추론 SWOT 4P 4C MECE BCG매트릭스 비즈니스 모델 캔버스
  • 12. Hill’s criteria for causation 1. 강도 (효과 크기) 2. 일관성 3. 특이성 4. 시간성 5. 용량 반응 관계 6. 타당성 (설명 가능성) 7. 일치성 8. 실험 근거 9. 유사성
  • 13. Hill’s criteria for causation 1. 강도 (효과 크기) 평소 만족도가 10인데 에어프라이어를 쓰고 10.01이 되었다면 변화 정도가 작다. 연관성의 크기가 클 수록 인과성이 높다 2. 일관성 에어프라이어 처음 썼을 때는 좋았는데, 그 뒤로 좋았던 적 없다면 일관성이 떨어진다 3. 특이성 평소에 에어프라이어 없이 요리 하다가 에어프라이어를 썼을 때 만족도가 높다면 평소와 다른 특이한 액션을 취했기에 그것이 삶의 질에 영향을 주었다고 할 수 있다 10.01 20
  • 14. Hill’s criteria for causation 4. 시간성 에어프라이어를 쓰고 기분이 좋아져야 인과성이 형성된다 기분 좋아서 에어프라이어 쓰면 인과성이 아니다 5. 용량 반응 관계 초기에는 높은 만족도를 보이다가 점차 만족의 정도가 줄어드는 것 6. 타당성 (설명 가능성) 에어프라이어를 쓰면 어떤 이유에서 삶의 질이 올라가는지 대략적으로 설명할 수 있어야 타당한 인과성이다 시간
  • 15. Hill’s criteria for causation 7. 일치성 친구나 지인도 에어프라이어를 쓰고 삶의 질이 올랐고 나도 올랐다면 기존에 알려진 내용과 일치한다 8. 실험 근거 A 집단에게는 에어프라이어를 쓰게 하고 B 집단에게는 못 쓰게 했는데 둘의 일정기간 후 삶의 만족도 차이가 난다면 실험적 근거가 있다 9. 유사성 에어프라이어와 어느정도 유사한 전자레인지, 후라이팬처럼 상황과 논리 구조적으로 비슷하다면 인과성이 있다
  • 16. Hill’s criteria for causation 1. 강도 (효과 크기) 2. 일관성 3. 특이성 4. 시간성 5. 용량 반응 관계 6. 타당성 (설명 가능성) 7. 일치성 8. 실험 근거 9. 유사성 그래인저 인과 검정! (이거 아님)
  • 17. 그래인저 인과 검정 -닭이 먼저냐 달걀이 먼저냐-
  • 19. 그래인저 인과 검정 Yt = 𝚺aiXt-i + ϵ1 p i=1 Yt = 𝚺biYt-i + ϵ2 p i=1 시간적 선행성 자기회귀 모델 아이디어 수식 이전 시점의 X로 Y를 추정 이전 시점의 Y로 Y를 추정 Yt = 𝚺aiXt-i + 𝚺biYt-i + ϵ p i=1 p i=1
  • 20. 그래인저 인과 검정 시계열 데이터에 사용 - 정상성을 만족시켜야 함 인과관계와는 엄밀히 달라서 그래인저 인과 검정을 통해 밝혀진 관계는 그래인저 인과가 있다, G-causality가 있다 라고 합니다 기본적으로는 단방향 추정이기 때문에 X->Y, Y->X로 한 번씩 해서 양방향으로 확인합니다
  • 21. 그래인저 인과 검정 해석 X -/- Y 서로 영향이 없다 X --> Y X가 Y에 선행한다 X <-- Y Y가 X에 선행한다 X <-> Y 서로 영향을 준다
  • 23. 적용 사례 MMORPG 게임은 하나의 사회 알고 싶었던 내용) 매출 불평등도가 낮으면 미래의 매출이 높아질까? - 불평등도 낮음 = 매출이 상위권 유저에 쏠리지 않고 균형있게 발생 = 상위권 유저와 과금으로 인한 스펙업 격차가 크게 벌어지지 않음 - 불평등도 높음 = 매출이 상위권 유저에 쏠림 = 상위권 유저의 스펙업이 빨라지고 소과금 유저와 격차가 빠르게 벌어짐 > 매출의 방향성에 대한 질문 소위 갓겜 P2W
  • 24. 적용 사례 (cont.) 여러 조합으로 불평등지수를 만들어보고 매출 관련 지표와 상관성을 확인 A 불평등 지수와 매출 지표 상관성이 -0.3~-0.4 수준으로 나타남 = 상위권 유저 쏠림 현상이 전반적 매출 지표에 유리함을 의미 가짜 상관관계가 아닐까, 불평등 지수가 매출 지표에 선행하는가 체크하기 위해 그래인저 인과 검정 사용
  • 25. 적용 사례 (cont.) 과정 - 주차별 불평등 지수 데이터와 매출 데이터를 준비 - 정상성 처리를 해주고 그래인저 인과 검정 양방향 진행 결론 불평등 지수 -/- 매출 지표
  • 27. 유의점(한계)과 사용하면 좋은 이유 유의점 - 원칙적으로 자세한(granular) 지표보다는 거시적인 지표에 어울리는 방법 - ex) GDP-실업률, 매출-AU, 취급 상품 수(SKU)-MARPU - 다중선형회귀이기 때문에 선형적인 데이터에 쓸 수 있다 - 여전히 내생성 문제는 존재한다
  • 28. 유의점(한계)과 사용하면 좋은 이유 사용하면 좋은 이유 - 정답을 찾진 못해도 오답을 거를 수는 있다 (Spurious correlations) - 선행하지 않으면 절대 인과성이 있다 할 수 없으니까 (필요 조건) - 잠재적 결과 프레임워크나 구조적 인과 모델에 비해 논쟁의 여지가 적어 빠르게 가짜 상관성을 걸러내기 좋다 (포맷화하기 좋다)
  • 29. 유의점(한계)과 사용하면 좋은 이유 사용하면 좋은 이유 (cont.) 연구자가 아닌 회사에서 의사결정을 하는/돕는 사람은 의사결정 사이클 안에서(시간 제약) 완벽한 엄밀성을 갖출 수는 없다는 것을 인정하고 상황별로 적절한 인과분석 포맷을 만들어 사용하는 게 좋다고 생각합니다 (dowhy, econml, causalml 모두 포맷화한 라이브러리)
  • 30. 유의점(한계)과 사용하면 좋은 이유 사용하면 좋은 이유 (cont.) 미국 90년대 범죄율 감소의 원인 70년대 낙태 합법화 (2005년 출간) 감옥 수 증가, 수감 인원 증가 (2011년 출간) 6년 엄밀하게 하려해도 결론이 바뀌는 게 인과분석 책 내용의 기반이 되는 원 논문의 작성, 심사, 발행 기간이 몇 년 소요 되지만 이조차 완전하다 평가하기 어려움 비즈니스 환경이라면 더더욱 빠른 의사결정이 필요
  • 31. 유의점(한계)과 사용하면 좋은 이유 사용하면 좋은 이유 (cont.) 연구자가 아닌 회사에서 의사결정을 하는/돕는 사람은 의사결정 사이클 안에서(시간 제약) 완벽한 엄밀성을 갖출 수는 없다는 것을 인정하고 상황 별로 적절한 인과분석 포맷을 만들어 사용하는 게 좋다고 생각합니다 (dowhy, econml, causalml 모두 포맷화한 라이브러리) 오늘 뭐 먹을까요? 라는 질문에 완벽한 답을 찾기란 어렵지만, 상황별로 유형화 해놓으면 빠르게 점심을 먹을 수 있는 것처럼요 오늘은 무난하게 국밥 먹을까요? 비 오는데 가까운 가게에서 먹을까요?