허현 : 닭이 먼저 달걀이 먼저? 그래인저 인과검정
발표영상 https://youtu.be/Yb3UU66XoIM
---
PAP가 준비한 팝콘 시즌1에서 프로덕트와 함께 성장하는 데이터 실무자들의 이야기를 담았습니다.
---
PAP(Product Analytics Playground)는 프로덕트 데이터 분석에 대해 편안하게 이야기할 수 있는 커뮤니티입니다.
우리는 데이터 드리븐 프로덕트 문화를 더 많은 분들이 각자의 자리에서 이끌어갈 수 있도록 하는 것을 목표로 합니다.
다양한 직군의 사람들이 모여 프로덕트를 만들듯 PAP 역시 다양한 멤버로 구성되어 있으며, 여러분들의 참여로 만들어집니다.
---
공식 페이지 : https://playinpap.oopy.io
페이스북 그룹 : https://www.facebook.com/groups/talkinpap
팀블로그 : https://playinpap.github.io
10. 의사결정의 유형
직관적 의사결정 논리적 의사결정 데이터 기반 의사결정
이봐, 해봤어? (정주영)
It's not the customer's
job to know what they
want (Steve Jobs)
가설 -> 데이터 검정
실험
인과추론
SWOT 4P 4C
MECE BCG매트릭스
비즈니스 모델 캔버스
12. Hill’s criteria for causation
1. 강도 (효과 크기)
2. 일관성
3. 특이성
4. 시간성
5. 용량 반응 관계
6. 타당성 (설명 가능성)
7. 일치성
8. 실험 근거
9. 유사성
13. Hill’s criteria for causation
1. 강도 (효과 크기)
평소 만족도가 10인데 에어프라이어를 쓰고 10.01이 되었다면 변화 정도가 작다.
연관성의 크기가 클 수록 인과성이 높다
2. 일관성
에어프라이어 처음 썼을 때는 좋았는데, 그 뒤로 좋았던 적 없다면 일관성이 떨어진다
3. 특이성
평소에 에어프라이어 없이 요리 하다가 에어프라이어를 썼을 때 만족도가 높다면
평소와 다른 특이한 액션을 취했기에 그것이 삶의 질에 영향을 주었다고 할 수 있다
10.01 20
14. Hill’s criteria for causation
4. 시간성
에어프라이어를 쓰고 기분이 좋아져야 인과성이 형성된다
기분 좋아서 에어프라이어 쓰면 인과성이 아니다
5. 용량 반응 관계
초기에는 높은 만족도를 보이다가 점차 만족의 정도가 줄어드는 것
6. 타당성 (설명 가능성)
에어프라이어를 쓰면 어떤 이유에서 삶의 질이 올라가는지 대략적으로
설명할 수 있어야 타당한 인과성이다
시간
15. Hill’s criteria for causation
7. 일치성
친구나 지인도 에어프라이어를 쓰고 삶의 질이 올랐고
나도 올랐다면 기존에 알려진 내용과 일치한다
8. 실험 근거
A 집단에게는 에어프라이어를 쓰게 하고 B 집단에게는 못 쓰게 했는데
둘의 일정기간 후 삶의 만족도 차이가 난다면 실험적 근거가 있다
9. 유사성
에어프라이어와 어느정도 유사한 전자레인지, 후라이팬처럼
상황과 논리 구조적으로 비슷하다면 인과성이 있다
16. Hill’s criteria for causation
1. 강도 (효과 크기)
2. 일관성
3. 특이성
4. 시간성
5. 용량 반응 관계
6. 타당성 (설명 가능성)
7. 일치성
8. 실험 근거
9. 유사성
그래인저 인과 검정!
(이거 아님)
19. 그래인저 인과 검정
Yt = 𝚺aiXt-i + ϵ1
p
i=1
Yt = 𝚺biYt-i + ϵ2
p
i=1
시간적 선행성 자기회귀 모델
아이디어
수식
이전 시점의 X로 Y를 추정 이전 시점의 Y로 Y를 추정
Yt = 𝚺aiXt-i + 𝚺biYt-i + ϵ
p
i=1
p
i=1
20. 그래인저 인과 검정
시계열 데이터에 사용
- 정상성을 만족시켜야 함
인과관계와는 엄밀히 달라서 그래인저 인과 검정을 통해 밝혀진 관계는
그래인저 인과가 있다, G-causality가 있다 라고 합니다
기본적으로는 단방향 추정이기 때문에
X->Y, Y->X로 한 번씩 해서 양방향으로 확인합니다
21. 그래인저 인과 검정
해석
X -/- Y 서로 영향이 없다
X --> Y X가 Y에 선행한다
X <-- Y Y가 X에 선행한다
X <-> Y 서로 영향을 준다
23. 적용 사례
MMORPG 게임은 하나의 사회
알고 싶었던 내용) 매출 불평등도가 낮으면 미래의 매출이 높아질까?
- 불평등도 낮음 = 매출이 상위권 유저에 쏠리지 않고 균형있게 발생 =
상위권 유저와 과금으로 인한 스펙업 격차가 크게 벌어지지 않음
- 불평등도 높음 = 매출이 상위권 유저에 쏠림 =
상위권 유저의 스펙업이 빨라지고 소과금 유저와 격차가 빠르게 벌어짐
> 매출의 방향성에 대한 질문
소위 갓겜
P2W
24. 적용 사례 (cont.)
여러 조합으로 불평등지수를 만들어보고 매출 관련 지표와 상관성을 확인
A 불평등 지수와 매출 지표 상관성이 -0.3~-0.4 수준으로 나타남
= 상위권 유저 쏠림 현상이 전반적 매출 지표에 유리함을 의미
가짜 상관관계가 아닐까, 불평등 지수가 매출 지표에 선행하는가
체크하기 위해 그래인저 인과 검정 사용
25. 적용 사례 (cont.)
과정
- 주차별 불평등 지수 데이터와 매출 데이터를 준비
- 정상성 처리를 해주고 그래인저 인과 검정 양방향 진행
결론
불평등 지수 -/- 매출 지표
27. 유의점(한계)과 사용하면 좋은 이유
유의점
- 원칙적으로 자세한(granular) 지표보다는 거시적인 지표에 어울리는 방법
- ex) GDP-실업률, 매출-AU, 취급 상품 수(SKU)-MARPU
- 다중선형회귀이기 때문에 선형적인 데이터에 쓸 수 있다
- 여전히 내생성 문제는 존재한다
28. 유의점(한계)과 사용하면 좋은 이유
사용하면 좋은 이유
- 정답을 찾진 못해도 오답을 거를 수는 있다 (Spurious correlations)
- 선행하지 않으면 절대 인과성이 있다 할 수 없으니까 (필요 조건)
- 잠재적 결과 프레임워크나 구조적 인과 모델에 비해 논쟁의 여지가 적어
빠르게 가짜 상관성을 걸러내기 좋다 (포맷화하기 좋다)
29. 유의점(한계)과 사용하면 좋은 이유
사용하면 좋은 이유 (cont.)
연구자가 아닌 회사에서 의사결정을 하는/돕는 사람은
의사결정 사이클 안에서(시간 제약)
완벽한 엄밀성을 갖출 수는 없다는 것을 인정하고
상황별로 적절한 인과분석 포맷을 만들어 사용하는 게 좋다고 생각합니다
(dowhy, econml, causalml 모두 포맷화한 라이브러리)
30. 유의점(한계)과 사용하면 좋은 이유
사용하면 좋은 이유 (cont.)
미국 90년대 범죄율 감소의 원인
70년대 낙태 합법화
(2005년 출간)
감옥 수 증가, 수감 인원 증가
(2011년 출간)
6년
엄밀하게 하려해도 결론이 바뀌는 게 인과분석
책 내용의 기반이 되는 원 논문의
작성, 심사, 발행 기간이 몇 년 소요 되지만
이조차 완전하다 평가하기 어려움
비즈니스 환경이라면 더더욱 빠른 의사결정이 필요
31. 유의점(한계)과 사용하면 좋은 이유
사용하면 좋은 이유 (cont.)
연구자가 아닌 회사에서 의사결정을 하는/돕는 사람은
의사결정 사이클 안에서(시간 제약)
완벽한 엄밀성을 갖출 수는 없다는 것을 인정하고
상황 별로 적절한 인과분석 포맷을 만들어 사용하는 게 좋다고 생각합니다
(dowhy, econml, causalml 모두 포맷화한 라이브러리)
오늘 뭐 먹을까요? 라는 질문에 완벽한 답을 찾기란 어렵지만,
상황별로 유형화 해놓으면 빠르게 점심을 먹을 수 있는 것처럼요
오늘은 무난하게 국밥 먹을까요? 비 오는데 가까운 가게에서 먹을까요?