4. 복습: 데이터 클리닝의 과정
1
①클리닝(cleaning): 나쁜 데이터를 처리하고 질을 높이는 과정
• 중복된 데이터(duplicate)가 없다.
• 누락된 데이터(missing)가 없다.
• 데이터에 오타(typo)가 없다.
• 데이터에 오류(error)가 없다.
• 이상치(outlier), 불필요한 공백, 눈에 띄는 패턴이 없다.
• 데이터의 서식(format)이 일관적이다.
②변환(transformation): 데이터 분석을 쉽게 할 수 있게 구조를
바꾸는 작업
• Wide(세로형)-long(가로형)
• 데이터의 자료형(data type)이 일치한다.
• 하나의 변수에서 다른 파생변수를 만든다.
• 데이터 분석 모델에 맞게 변형한다.
1. 데이터 불러오기
(Import)
2. 처리할 데이터 찾기
(Screen)
3. 나쁜 데이터의 원인 진단
(Diagnose)
4, 데이터 수정
(Treat)
5. 기록
(Document)
5. • 중요한 것과 중요하지 않은 것을 구분
• 정량적 분석으로 답할 수 있는지 확인
✓열심히 공부하는 학생이 성공하는가?
• 보여줄 수 있는 질문의 분류
✓분포(distribution)
✓순서/정렬/순위(order/sort/rank)
✓구성(composition)
✓추세(growth/trend)
✓관계(relationship)
✓프로파일링(profiling)
복습: 데이터 시각화 시작하기 - 질문하기
1
1. 질문하기
2. 데이터의 선택과 수집
3. 패턴 파악하기
4. 우선순위 설정
5. 결과 리포트
조르즈 카몽이스(2017). 데이터 시각화 원리. 에이콘출판사
7. 추세 (trend/growth)
2
• 선 차트 (line chart)
✓개별 관측치의 비교보다는 전체적인 흐름에 초점
조르즈 카몽이스(2017). 데이터 시각화 원리. 에이콘출판사
8. 추세 (trend/growth)
2
• 선 차트 (line chart)
✓개별 관측치의 비교보다는 전체적인 흐름에 초점
• 기울기 차트 (slope chart)
✓두 지점 사이의 변화를 나타냄
✓비교대상이 많을 때 직관적
조르즈 카몽이스(2017). 데이터 시각화 원리. 에이콘출판사
https://hankookilbo.com/News/Read/201901031704096282?NClass=DG04
9. 추세 (trend/growth)
2
• 주의사항
✓일정한 축 눈금 간격
✓눈금의 범위를 조정하여 차이를 부각할 수
도 있으나, 해석할 때 과장하지 않도록 주의
✓시간의 경우 왼쪽에서 오른쪽으로 표시
✓적절한 축 기준 선택
✓의도하지 않은 관계성을 보여주지 않도록 주의
조르즈 카몽이스(2017). 데이터 시각화 원리. 에이콘출판사
https://www.news1.kr/articles/?3823172
http://www.inven.co.kr/board/webzine/2097/1342455
https://medium.economist.com/mistakes-weve-drawn-a-few-8cdd8a42d368
11. 관계 (relationship)
3
상관관계 (correlation)
• 어떤 변수가 증가할 때 다른 변수가 함께 증가/감소
• 신장과 체중
• 유튜브를 보는 시간과 공부하는 시간
• 통계적으로는 여러 상관계수로 표현(Pearson, Spearman, …)
인과관계 (causation)
• 원인과 결과
• 원인이 결과보다 시간적으로 앞서는가?
• 다른 요인 없이 원인만으로 결과를 설명할 수 있는가?
• 대부분의 경우 상관관계에서 인과관계는 파악할 수 없다.
12. 관계 (relationship)
3
대부분의 경우 상관관계에서 인과관계는 파악할 수 없다.
• 알 수 없는 다른 변수(Z)가 X, Y 모두에 영향
✓예시: 까마귀 날자 배 떨어진다.
• X → Y가 아니라 Y → X로 영향을 받는 경우
✓예시: 소방대원이 많이 출동할수록 화재 피해가 크다.
• X → Y이지만 원인(X)가 잘못 측정된 경우
✓예시: 정치적인 이슈에 대한 관심이 많을수록 선거에 투표한다.
13. 관계 (relationship)
3
상관관계의 구성: 방향, 강도, 모양
• 방향
✓X, Y가 같이 증가하는가?
✓X가 증가하면 Y는 감소하는가?
• 강도
✓좁은 범위에 분포하는가?
✓무작위로 흩어졌는가?
• 모양
✓선형인가?
✓비선형이라면 어떤 방식으로 변화하는가?
조르즈 카몽이스(2017). 데이터 시각화 원리. 에이콘출판사
14. 관계 (relationship)
3
• 산점도 (scatter plot)
• 버블 차트 (bubble chart)
✓양적 변수가 점(버블)의 크기로 인코딩된 산점도
✓비교하기 어려우므로 중요한 데이터를 버블의 크기로 인코딩하는 것은 권장하지 않으나, 추
가적인 시사점이 있을 때 사용할 수 있음
• 군집 (cluster)
조르즈 카몽이스(2017). 데이터 시각화 원리. 에이콘출판사