SlideShare uma empresa Scribd logo
1 de 16
Baixar para ler offline
Data Visualization (5)
유 은
1. 복습
2. 추세(trend/growth)
3. 관계(relationship)
목차
0
복습: 데이터 클리닝
1
원시
데이터
수집
데이터
처리
데이터
클리닝
탐색적
데이터
분석
통계분석
기계학습
알고리즘
데이터
상품개발
커뮤니케이션
시각화
결과보고
<데이터 과학의 과정> Cathy O’Neil & Rachel Schutt (2013), Doing Data Science, O’REILLY.
• 데이터에서 이상치, 결측치 등 나쁜 데이터를 골라내는 과정 (cleansing, scrubbing, …)
• 나쁜 데이터: 목적에 부합하지 않는 모든 데이터 (bad data, dirty data, …)
• 왜 생기나? 좋은 데이터로 만드는 비용 > 좋은 데이터의 이득
복습: 데이터 클리닝의 과정
1
①클리닝(cleaning): 나쁜 데이터를 처리하고 질을 높이는 과정
• 중복된 데이터(duplicate)가 없다.
• 누락된 데이터(missing)가 없다.
• 데이터에 오타(typo)가 없다.
• 데이터에 오류(error)가 없다.
• 이상치(outlier), 불필요한 공백, 눈에 띄는 패턴이 없다.
• 데이터의 서식(format)이 일관적이다.
②변환(transformation): 데이터 분석을 쉽게 할 수 있게 구조를
바꾸는 작업
• Wide(세로형)-long(가로형)
• 데이터의 자료형(data type)이 일치한다.
• 하나의 변수에서 다른 파생변수를 만든다.
• 데이터 분석 모델에 맞게 변형한다.
1. 데이터 불러오기
(Import)
2. 처리할 데이터 찾기
(Screen)
3. 나쁜 데이터의 원인 진단
(Diagnose)
4, 데이터 수정
(Treat)
5. 기록
(Document)
• 중요한 것과 중요하지 않은 것을 구분
• 정량적 분석으로 답할 수 있는지 확인
✓열심히 공부하는 학생이 성공하는가?
• 보여줄 수 있는 질문의 분류
✓분포(distribution)
✓순서/정렬/순위(order/sort/rank)
✓구성(composition)
✓추세(growth/trend)
✓관계(relationship)
✓프로파일링(profiling)
복습: 데이터 시각화 시작하기 - 질문하기
1
1. 질문하기
2. 데이터의 선택과 수집
3. 패턴 파악하기
4. 우선순위 설정
5. 결과 리포트
조르즈 카몽이스(2017). 데이터 시각화 원리. 에이콘출판사
복습: 구성
1
폴 누스바우머 내플릭 (2015). 데이터 스토리텔링. 정사범 옮김, 에이콘출판사
추세 (trend/growth)
2
• 선 차트 (line chart)
✓개별 관측치의 비교보다는 전체적인 흐름에 초점
조르즈 카몽이스(2017). 데이터 시각화 원리. 에이콘출판사
추세 (trend/growth)
2
• 선 차트 (line chart)
✓개별 관측치의 비교보다는 전체적인 흐름에 초점
• 기울기 차트 (slope chart)
✓두 지점 사이의 변화를 나타냄
✓비교대상이 많을 때 직관적
조르즈 카몽이스(2017). 데이터 시각화 원리. 에이콘출판사
https://hankookilbo.com/News/Read/201901031704096282?NClass=DG04
추세 (trend/growth)
2
• 주의사항
✓일정한 축 눈금 간격
✓눈금의 범위를 조정하여 차이를 부각할 수
도 있으나, 해석할 때 과장하지 않도록 주의
✓시간의 경우 왼쪽에서 오른쪽으로 표시
✓적절한 축 기준 선택
✓의도하지 않은 관계성을 보여주지 않도록 주의
조르즈 카몽이스(2017). 데이터 시각화 원리. 에이콘출판사
https://www.news1.kr/articles/?3823172
http://www.inven.co.kr/board/webzine/2097/1342455
https://medium.economist.com/mistakes-weve-drawn-a-few-8cdd8a42d368
관계 (relationship)
3
https://www.nejm.org/doi/full/10.1056/NEJMon1211064
관계 (relationship)
3
상관관계 (correlation)
• 어떤 변수가 증가할 때 다른 변수가 함께 증가/감소
• 신장과 체중
• 유튜브를 보는 시간과 공부하는 시간
• 통계적으로는 여러 상관계수로 표현(Pearson, Spearman, …)
인과관계 (causation)
• 원인과 결과
• 원인이 결과보다 시간적으로 앞서는가?
• 다른 요인 없이 원인만으로 결과를 설명할 수 있는가?
• 대부분의 경우 상관관계에서 인과관계는 파악할 수 없다.
관계 (relationship)
3
대부분의 경우 상관관계에서 인과관계는 파악할 수 없다.
• 알 수 없는 다른 변수(Z)가 X, Y 모두에 영향
✓예시: 까마귀 날자 배 떨어진다.
• X → Y가 아니라 Y → X로 영향을 받는 경우
✓예시: 소방대원이 많이 출동할수록 화재 피해가 크다.
• X → Y이지만 원인(X)가 잘못 측정된 경우
✓예시: 정치적인 이슈에 대한 관심이 많을수록 선거에 투표한다.
관계 (relationship)
3
상관관계의 구성: 방향, 강도, 모양
• 방향
✓X, Y가 같이 증가하는가?
✓X가 증가하면 Y는 감소하는가?
• 강도
✓좁은 범위에 분포하는가?
✓무작위로 흩어졌는가?
• 모양
✓선형인가?
✓비선형이라면 어떤 방식으로 변화하는가?
조르즈 카몽이스(2017). 데이터 시각화 원리. 에이콘출판사
관계 (relationship)
3
• 산점도 (scatter plot)
• 버블 차트 (bubble chart)
✓양적 변수가 점(버블)의 크기로 인코딩된 산점도
✓비교하기 어려우므로 중요한 데이터를 버블의 크기로 인코딩하는 것은 권장하지 않으나, 추
가적인 시사점이 있을 때 사용할 수 있음
• 군집 (cluster)
조르즈 카몽이스(2017). 데이터 시각화 원리. 에이콘출판사
관계 (relationship)
3
https://www.gapminder.org/downloads/updated-gapminder-world-poster-2015/
End of document
유 은
eunyu1031@gmail.com

Mais conteúdo relacionado

Semelhante a Week9 data vis(5)

Semelhante a Week9 data vis(5) (14)

Peopleplus hr session(2) people analytics, start today
Peopleplus hr session(2) people analytics, start todayPeopleplus hr session(2) people analytics, start today
Peopleplus hr session(2) people analytics, start today
 
빅데이터
빅데이터빅데이터
빅데이터
 
Digital transformation era, role and competencies of hr
Digital transformation era, role and competencies of hrDigital transformation era, role and competencies of hr
Digital transformation era, role and competencies of hr
 
Data driven design 소화하기
Data driven design 소화하기Data driven design 소화하기
Data driven design 소화하기
 
[통계분석연구회] 2016년 겨울 맞이 추천 도서와 영상
[통계분석연구회] 2016년 겨울 맞이 추천 도서와 영상[통계분석연구회] 2016년 겨울 맞이 추천 도서와 영상
[통계분석연구회] 2016년 겨울 맞이 추천 도서와 영상
 
데이터 사이언티스트를 꿈꾸는 분들을 위한 개인적인 데이터 사이언스 경험과 소회 - what I experienced as a data sc...
데이터 사이언티스트를 꿈꾸는 분들을 위한 개인적인 데이터 사이언스 경험과 소회 - what I experienced as a data sc...데이터 사이언티스트를 꿈꾸는 분들을 위한 개인적인 데이터 사이언스 경험과 소회 - what I experienced as a data sc...
데이터 사이언티스트를 꿈꾸는 분들을 위한 개인적인 데이터 사이언스 경험과 소회 - what I experienced as a data sc...
 
웹데이터분석학 Ch10. 숨겨진 웹데이터 분석 함정을 위한 최상의 해결책
웹데이터분석학 Ch10. 숨겨진 웹데이터 분석 함정을 위한 최상의 해결책웹데이터분석학 Ch10. 숨겨진 웹데이터 분석 함정을 위한 최상의 해결책
웹데이터분석학 Ch10. 숨겨진 웹데이터 분석 함정을 위한 최상의 해결책
 
[2018 Bigdata win-win conference] 4
[2018 Bigdata win-win conference] 4[2018 Bigdata win-win conference] 4
[2018 Bigdata win-win conference] 4
 
빅데이터 분야를 위한 이미지 마이닝 기술동향 및 산업 동향 고찰
빅데이터 분야를 위한 이미지 마이닝 기술동향 및 산업 동향 고찰빅데이터 분야를 위한 이미지 마이닝 기술동향 및 산업 동향 고찰
빅데이터 분야를 위한 이미지 마이닝 기술동향 및 산업 동향 고찰
 
빅데이터 분야를 위한 이미지 마이닝 기술동향 및 산업 동향 고찰
빅데이터 분야를 위한 이미지 마이닝 기술동향 및 산업 동향 고찰빅데이터 분야를 위한 이미지 마이닝 기술동향 및 산업 동향 고찰
빅데이터 분야를 위한 이미지 마이닝 기술동향 및 산업 동향 고찰
 
[week6] 데이터읽어주는남자
[week6] 데이터읽어주는남자[week6] 데이터읽어주는남자
[week6] 데이터읽어주는남자
 
Deep Learning for AI (1)
Deep Learning for AI (1)Deep Learning for AI (1)
Deep Learning for AI (1)
 
About cerebro scholar
About cerebro scholarAbout cerebro scholar
About cerebro scholar
 
연구업적 데이터베이스를 활용한 빅데이터 분석시스템 (16 sep2014)
연구업적 데이터베이스를 활용한 빅데이터 분석시스템 (16 sep2014)연구업적 데이터베이스를 활용한 빅데이터 분석시스템 (16 sep2014)
연구업적 데이터베이스를 활용한 빅데이터 분석시스템 (16 sep2014)
 

Mais de Eun Yu (7)

Week6 data vis(3)
Week6 data vis(3)Week6 data vis(3)
Week6 data vis(3)
 
Week5 data vis(2)
Week5 data vis(2)Week5 data vis(2)
Week5 data vis(2)
 
Week13 cluster(2)
Week13 cluster(2)Week13 cluster(2)
Week13 cluster(2)
 
Week12 cluster(1)
Week12 cluster(1)Week12 cluster(1)
Week12 cluster(1)
 
Week11 map
Week11 mapWeek11 map
Week11 map
 
Week2-3 review
Week2-3 reviewWeek2-3 review
Week2-3 review
 
Week1 ot
Week1 otWeek1 ot
Week1 ot
 

Week9 data vis(5)

  • 2. 1. 복습 2. 추세(trend/growth) 3. 관계(relationship) 목차 0
  • 3. 복습: 데이터 클리닝 1 원시 데이터 수집 데이터 처리 데이터 클리닝 탐색적 데이터 분석 통계분석 기계학습 알고리즘 데이터 상품개발 커뮤니케이션 시각화 결과보고 <데이터 과학의 과정> Cathy O’Neil & Rachel Schutt (2013), Doing Data Science, O’REILLY. • 데이터에서 이상치, 결측치 등 나쁜 데이터를 골라내는 과정 (cleansing, scrubbing, …) • 나쁜 데이터: 목적에 부합하지 않는 모든 데이터 (bad data, dirty data, …) • 왜 생기나? 좋은 데이터로 만드는 비용 > 좋은 데이터의 이득
  • 4. 복습: 데이터 클리닝의 과정 1 ①클리닝(cleaning): 나쁜 데이터를 처리하고 질을 높이는 과정 • 중복된 데이터(duplicate)가 없다. • 누락된 데이터(missing)가 없다. • 데이터에 오타(typo)가 없다. • 데이터에 오류(error)가 없다. • 이상치(outlier), 불필요한 공백, 눈에 띄는 패턴이 없다. • 데이터의 서식(format)이 일관적이다. ②변환(transformation): 데이터 분석을 쉽게 할 수 있게 구조를 바꾸는 작업 • Wide(세로형)-long(가로형) • 데이터의 자료형(data type)이 일치한다. • 하나의 변수에서 다른 파생변수를 만든다. • 데이터 분석 모델에 맞게 변형한다. 1. 데이터 불러오기 (Import) 2. 처리할 데이터 찾기 (Screen) 3. 나쁜 데이터의 원인 진단 (Diagnose) 4, 데이터 수정 (Treat) 5. 기록 (Document)
  • 5. • 중요한 것과 중요하지 않은 것을 구분 • 정량적 분석으로 답할 수 있는지 확인 ✓열심히 공부하는 학생이 성공하는가? • 보여줄 수 있는 질문의 분류 ✓분포(distribution) ✓순서/정렬/순위(order/sort/rank) ✓구성(composition) ✓추세(growth/trend) ✓관계(relationship) ✓프로파일링(profiling) 복습: 데이터 시각화 시작하기 - 질문하기 1 1. 질문하기 2. 데이터의 선택과 수집 3. 패턴 파악하기 4. 우선순위 설정 5. 결과 리포트 조르즈 카몽이스(2017). 데이터 시각화 원리. 에이콘출판사
  • 6. 복습: 구성 1 폴 누스바우머 내플릭 (2015). 데이터 스토리텔링. 정사범 옮김, 에이콘출판사
  • 7. 추세 (trend/growth) 2 • 선 차트 (line chart) ✓개별 관측치의 비교보다는 전체적인 흐름에 초점 조르즈 카몽이스(2017). 데이터 시각화 원리. 에이콘출판사
  • 8. 추세 (trend/growth) 2 • 선 차트 (line chart) ✓개별 관측치의 비교보다는 전체적인 흐름에 초점 • 기울기 차트 (slope chart) ✓두 지점 사이의 변화를 나타냄 ✓비교대상이 많을 때 직관적 조르즈 카몽이스(2017). 데이터 시각화 원리. 에이콘출판사 https://hankookilbo.com/News/Read/201901031704096282?NClass=DG04
  • 9. 추세 (trend/growth) 2 • 주의사항 ✓일정한 축 눈금 간격 ✓눈금의 범위를 조정하여 차이를 부각할 수 도 있으나, 해석할 때 과장하지 않도록 주의 ✓시간의 경우 왼쪽에서 오른쪽으로 표시 ✓적절한 축 기준 선택 ✓의도하지 않은 관계성을 보여주지 않도록 주의 조르즈 카몽이스(2017). 데이터 시각화 원리. 에이콘출판사 https://www.news1.kr/articles/?3823172 http://www.inven.co.kr/board/webzine/2097/1342455 https://medium.economist.com/mistakes-weve-drawn-a-few-8cdd8a42d368
  • 11. 관계 (relationship) 3 상관관계 (correlation) • 어떤 변수가 증가할 때 다른 변수가 함께 증가/감소 • 신장과 체중 • 유튜브를 보는 시간과 공부하는 시간 • 통계적으로는 여러 상관계수로 표현(Pearson, Spearman, …) 인과관계 (causation) • 원인과 결과 • 원인이 결과보다 시간적으로 앞서는가? • 다른 요인 없이 원인만으로 결과를 설명할 수 있는가? • 대부분의 경우 상관관계에서 인과관계는 파악할 수 없다.
  • 12. 관계 (relationship) 3 대부분의 경우 상관관계에서 인과관계는 파악할 수 없다. • 알 수 없는 다른 변수(Z)가 X, Y 모두에 영향 ✓예시: 까마귀 날자 배 떨어진다. • X → Y가 아니라 Y → X로 영향을 받는 경우 ✓예시: 소방대원이 많이 출동할수록 화재 피해가 크다. • X → Y이지만 원인(X)가 잘못 측정된 경우 ✓예시: 정치적인 이슈에 대한 관심이 많을수록 선거에 투표한다.
  • 13. 관계 (relationship) 3 상관관계의 구성: 방향, 강도, 모양 • 방향 ✓X, Y가 같이 증가하는가? ✓X가 증가하면 Y는 감소하는가? • 강도 ✓좁은 범위에 분포하는가? ✓무작위로 흩어졌는가? • 모양 ✓선형인가? ✓비선형이라면 어떤 방식으로 변화하는가? 조르즈 카몽이스(2017). 데이터 시각화 원리. 에이콘출판사
  • 14. 관계 (relationship) 3 • 산점도 (scatter plot) • 버블 차트 (bubble chart) ✓양적 변수가 점(버블)의 크기로 인코딩된 산점도 ✓비교하기 어려우므로 중요한 데이터를 버블의 크기로 인코딩하는 것은 권장하지 않으나, 추 가적인 시사점이 있을 때 사용할 수 있음 • 군집 (cluster) 조르즈 카몽이스(2017). 데이터 시각화 원리. 에이콘출판사
  • 16. End of document 유 은 eunyu1031@gmail.com