SlideShare a Scribd company logo
1 of 31
Download to read offline
Data Visualization (2)
유 은
• 2차 자료의 출처, 조사방법, 표본의 구성
데이터 수집
0
원시
데이터
수집
데이터
처리
데이터
클리닝
탐색적
데이터
분석
통계분석
기계학습
알고리즘
데이터
상품개발
커뮤니케이션
시각화
결과보고
<데이터 과학의 과정> Cathy O’Neil & Rachel Schutt (2013), Doing Data Science, O’REILLY.
1. 척도와 측정
2. 변수
3. 기술통계
4. 데이터 시각화
5. 데이터 시각화 시작하기
목차
0
데이터 (data)
• 정보를 나타내는 수치로, 가공되지 않고 아직 의미를 가지지 않은 상태의 개체
• 수집/측정/분석되어 새로운 가치를 창출
- 질적자료/정성적 데이터(qualitative data)
• 숫자가 아닌 형태의 자료 (예: 직업, 성별 등)
- 양적자료/정량적 데이터(quantitative data)
• 숫자로 전환시키는 규칙, 즉 척도(scale)를 이용하여 변환된 데이터
• 정형 데이터 (structured data): 전통적인 행-열 데이터베이스(relational database) 방식
으로 저장된 데이터
척도와 측정
1
질적자료 척도 선택 자료의 측정 양적자료
이훈영 (2012), 연구조사방법론, 도서출판 청람.
척도 (scale)
• 관찰대상의 속성을 측정하여 그 값을 숫자로 나타내는 일종의 규칙
• 질적자료를 척도로 측정하여 양적자료로 전환할 수 있음
측정(measure)
• 관찰대상의 속성을 계량화하기 위해 척도에 따라 수치를 부여하고 변수로 표현하는 과정
• 측정도구들은 나름대로의 규칙이나 측정 단위를 정하여 사용함
척도와 측정
1
• 질적자료: 성별, 키, 팔 길이, 허리 둘레, 몸무게
• 척도: 남=1/여=0, 센티미터(centimeter), 인치(inch), 킬로그
램(kilogram)
• 측정도구: 줄자, 체중계
척도 (scale)와 측정(measure): 예시
• 예1) 줄자로 어린이의 키를 재서 cm로 기록한다.
✓관찰 대상: 어린이
✓속성: 키
✓측정도구: 줄자
✓척도(일정한 규칙): cm
✓변수: cm로 표현한 키
• 예2)토익으로 학생의 영어능력을 계량화하여 점수로 기록한다.
✓관찰 대상: 학생
✓속성: 영어능력
✓측정도구: 토익시험문제
✓척도(일정한 규칙): 배점
✓변수: 토익점수
척도와 측정
1
척도 (scale)와 측정(measure): 예시
• 예3) 콘텐츠 시청 여부를 판단한다.
✓관찰 대상: 시청자
✓속성: 특정 영상을 시청하였는지
✓측정도구: 서버의 시청시작-종료 로그
✓척도(일정한 규칙): 70%이상 시청하였는가 → 2분 이상 시청하였는가
✓변수: 시청 여부
척도와 측정
1
https://www.marketwatch.com/story/netflix-changes-its-view-on-views-which-will-boost-its-numbers-by-35-2020-01-21
• 척도의 종류
척도와 측정
1
양적척도
명목척도
(Nominal scale)
서열척도
(Ordinal scale)
등간척도
(Interval scale)
비율척도
(Ratio scale)
• 관찰대상의 관심속성을 측정하여 그 값을 범주로 나타냄
• 숫자는 숫자로서의 양적 의미는 없고, 관찰대상을 서로 구별하기 위해
서 사용한 기호
• 모든 연산 불가능
• 예)성인/청소년, 영화의 장르(로맨스, 공포, 액션), …
질적척도
• 척도의 종류
척도와 측정
1
양적척도
명목척도
(Nominal scale)
서열척도
(Ordinal scale)
등간척도
(Interval scale)
비율척도
(Ratio scale)
• 관찰대상의 관심속성을 측정하여 그 값을 순위로 나타냄
• 명목척도처럼 대상을 서로 구분할 수 있으며, 속성의 크기에 따라 대상
의 순서를 정할 수 있음
• 하지만 상대적인 순위만 구분할 뿐 서열 간의 차이 정도, 즉 간격을 측
정하지 않음
• 모든 연산 불가능
• 예) 등수(1등/2등/3등), 빈도 조사 등
질적척도
• 척도의 종류
척도와 측정
1
양적척도
명목척도
(Nominal scale)
서열척도
(Ordinal scale)
등간척도
(Interval scale)
비율척도
(Ratio scale)
• 관찰대상의 속성값을 상대적 크기로 나타내며, 대상 간에 비교가 가능
• 속성 크기에 따른 관찰대상의 서열뿐 아니라 대상들 간에 어느 정도 차
이가 있는가에 관한 정보도 포함
• 하지만 속성의 절대적 크기를 측정할 수 없으므로 사칙연산 중 가감(+,
-)만 가능하고 승제(÷, ×)는 불가능
• 0이 의미를 가지지 않음
• 예) 섭씨 온도
0°C은 물이 어는 기준점이지 온도가 없는 게 아님
20°C는 10°C보다 2배 덥지 않음
질적척도
• 척도의 종류
척도와 측정
1
양적척도
명목척도
(Nominal scale)
서열척도
(Ordinal scale)
등간척도
(Interval scale)
비율척도
(Ratio scale)
• 속성의 상대적인 크기는 물론 절대적인 크기까지 측정할 수 있다.
• 순서, 상대적인 크기 등 서로 다른 상황에서 독립적으로 측정된 값들 간
에도 절대적인 기준으로 크기를 비교할 수 있음
• 절대적 기준인 영점(zero)이 존재하고 모든 사칙연산(+, -, ÷, ×)이 가
능함
• 예) 키, 몸무게, 가격 등
2kg은 1kg보다 두 배 무거움
0 meter = 0 feet
만원은 천원의 10배 가치를 가짐 1,000 * 10 = 10,000
질적척도
• 척도의 종류
척도와 측정
1
양적척도
명목척도
(Nominal scale)
서열척도
(Ordinal scale)
등간척도
(Interval scale)
비율척도
(Ratio scale)
질적척도
범주
범주
범주
범주
순위
순위
순위
등간
등간
절대
영점
• 정보량 증가
• 측정에 필요한 비용 증가
• 예) 월소득 (명목:100만원기준)
비율
척도
서열
척도
명목
척도
20 6 0
100 2 1
45 5 0
60 4 0
150 1 1
78 3 0
• 척도로 측정된 결과인 양적자료(quantitative data)는 변수와 상수로 구성
• 상수(constant): 관찰대상에서 모든 경우에 변하지 않으며 하나의 값만 가짐
• 변수(variable): 관찰대상들이 2개 이상의 서로 다른 값을 가짐
✓산술적인 사칙연산이 의미가 없는 질적변수(qualitative variable)와, 사칙연산의 일부 혹은
모두가 의미 있는 양적변수(quantitative variable)로 나뉨
✓질적자료는 수치로 표현되지 않은 자료이고 양적자료는 수치로 표현된 자료이기 때문에, 질
적변수와 양적변수는 모두 정량적 데이터에 속함
변수
2
자료 척도 변수
양적자료 질적척도 명목척도 질적변수
(연산불가능)
서열척도
양적척도 등간척도 양적변수
(연산가능)
비율척도
질적자료 계량화 안됨
• 변수(variable)란 척도를 이용하여 관심대상이 되는 개체의 속성을 측정한 값을
대표하여 말함
✓프로그래밍에서의 변수와 정의가 다르므로 주의할 것
• 같은 개체의 속성을 측정했어도 척도에 따라 다양한 변수를 만들 수 있음
✓예) 월소득 (명목:100만원기준)
변수
2
비율척도 서열척도 명목척도
양적변수 질적변수 질적변수
숫자형 순서형 이진형
20 6 0
100 2 1
45 5 0
60 4 0
150 1 1
78 3 0
• 척도에 따라 변수와 변수의 타입이 정해짐
• 범주가 2개인 변수를 이진형(binary)a, 범주가 서열이 있는 변수를 순서형
(ordinal)b 변수라고 한다.
변수
2
자료 척도 변수 타입 예시
양적자료 질적척도 명목척도 질적변수
(연산불가능)
범주형
(categorical)
0(탈퇴)/1(가입)a
1(사과)/2(배)/3(귤)
1(상)/2(중)/3(하)b
서열척도
양적척도 등간척도 양적변수
(연산가능)
숫자형
(numerical)
-10, -2, 3.33, 4.9, 8,
100000…
비율척도
질적자료 계량화 안됨
기술통계(descriptive statistics)
• 수로 측정된 현상을 설명 및 요약
• 데이터를 이해하기 위한 첫 번째 과정인 탐색적 데이터 분석(exploratory data analysis)에
속하며, 데이터의 특징 및 여러 데이터 간의 관계를 살펴보게 됨
기술통계
3
<Experimental Design and Analysis> Seltman (2018). http://www.stat.cmu.edu/~hseltman/309/Book/Book.pdf
기술통계(descriptive statistics)
• 설명 - 빈도/도수(frequency) 분석
기술통계
3
기술통계(descriptive statistics)
• 설명 - 빈도/도수(frequency) 분석
• 요약 – 중심경향치(central tendency)
✓ 최빈값 (mode): 주어진 데이터 중에서 가장 자주 나오는 값
✓ 중앙값 (median): 주어진 데이터를 크기 순으로 정렬했을 때 중앙에 있는 값
✓ 평균 (mean): 주어진 데이터를 모두 더해 데이터의 개수로 나눈 값
✓ 최빈값과 중앙값은 매우 크거나 아주 작은 이상치(outlier)에 영향을 덜 받음
✓ 범주형은 연산이 의미가 없으므로 최빈값을, 숫자형은 평균/중앙값을 보게 됨
기술통계
3
기술통계(descriptive statistics)
• 설명 - 빈도/도수(frequency) 분석
• 요약 – 중심경향치(central tendency)
✓ 최빈값 (mode): 주어진 데이터 중에서 가장 자주 나오는 값
✓ 중앙값 (median): 주어진 데이터를 크기 순으로 정렬했을 때 중앙에 있는 값
✓ 평균 (mean): 주어진 데이터를 모두 더해 데이터의 개수로 나눈 값
✓ 최빈값과 중앙값은 매우 크거나 아주 작은 이상치(outlier)에 영향을 덜 받음
✓ 범주형은 연산이 의미가 없으므로 최빈값을, 숫자형은 평균/중앙값을 보게 됨
• 분포 – 분산(variance), 표준편차(standard deviation) 등
• 이 외에 사분위수(quartile) 등을 활용
기술통계
3
기술통계(descriptive statistics)
• 시각화로 데이터의 분포/사분위수 빠르게 파악하기: 박스 플롯(box plot)
• Q1: 제1사분위수(25%)
• Q2(Median): 제 2사분위수(50%)이며 중앙값
• Q3: 제3사분위수(75%)
• IQR(interquartile range): Q3-Q1
• Upper whisker end: Q3+1.5IQR
• Lower whisker end: Q1-1.5IQR
• Outlier: whisker end 범위 밖의 이상치
통계적인 정의는 없으며 맥락과 목적 고려
기술통계
3
데이터 시각화(data visualization)
• 정의: 추상적인 수량 데이터에 인지적 메커니즘을 적용하여 데이터의 관련된 형
태나 순서, 또는 예외사항을 나타낸 것으로, 원 데이터(raw data)를 바탕으로
직접적인 관점을 제공하며 정보를 효과적으로 전달하기 위한 방법이다.
• 목적: 커뮤니케이션
✓인포그래픽
✓대시보드
✓프로파일링
데이터 시각화
4
조르즈 카몽이스(2017). 데이터 시각화 원리. 에이콘출판사
https://news.nnlm.gov/sea/2019/07/24/florence-nightingale-and-the-
data-visualization-society/
데이터 시각화
4
데이터 시각화
4
데이터 시각화
4
데이터 시각화(data visualization)
• 필요한 것: Data visualization literacy
✓인지
✓데이터
✓통계
✓디자인
✓도구(소프트웨어)
✓컨텍스트
데이터 시각화
4
• 중요한 것과 중요하지 않은 것을 구분
• 정량적 분석으로 답할 수 있는지 확인
✓열심히 공부하는 학생이 성공하는가?
• 보여줄 수 있는 질문의 분류
✓분포(distribution)
✓순서/정렬/순위(order/sort/rank)
✓구성(composition)
✓추세(growth/trend)
✓관계(relation)
✓프로파일링(profiling)
데이터 시각화 시작하기
5
1. 질문하기
2. 데이터의 선택과 수집
3. 패턴 파악하기
4. 우선순위 설정
5. 결과 리포트
1. 출처를 확인한다.
• 신뢰할 만한 출처인가?
• 실제로 파악 가능한가?
2. 조사 방법을 확인한다.
• 어떤 방식으로 수집되었는가?
• 신뢰할 만한 표본인가?
• 언제 수집되었는가?
3. 데이터의 품질을 확인한다.
• 목적에 부합하는가?
• 데이터 클리닝이 필요한가?
데이터 시각화 시작하기
5
1. 질문하기
2. 데이터의 선택과 수집
3. 패턴 파악하기
4. 우선순위 설정
5. 결과 리포트
• 다양한 방법, 관점으로 탐색하기
데이터 시각화 시작하기
5
1. 질문하기
2. 데이터의 선택과 수집
3. 패턴 파악하기
4. 우선순위 설정
5. 결과 리포트
• 너무 많은 것을 말하려고 하면 아무것도 말할 수 없다.
• 커뮤니케이션의 목적에 집중
✓무슨 질문에서 시작하였는가?
✓데이터의 어떤 특성을 강조하고 싶은가?
✓가장 흥미로운 부분은 무엇이었는가?
✓시각화가 타인에게 어떤 영향을 미치기를 바라는가?
데이터 시각화 시작하기
5
1. 질문하기
2. 데이터의 선택과 수집
3. 패턴 파악하기
4. 우선순위 설정
5. 결과 리포트
• 스토리텔링의 영역: 대상, 주제, 방법
• 대상
✓여름 시범 학습 프로그램의 지속적인 운영을 위한 재정을 집
행하는 예산 위원회
• 주제
✓과학 관련 여름 시범 학습 프로그램은 성공적이었다. 따라서
추가 예산을 배정해 달라.
• 방법
✓시범 프로그램의 전과 후를 조사한 결과 데이터에 근거해 성
공을 입증한다.
데이터 시각화 시작하기
5
1. 질문하기
2. 데이터의 선택과 수집
3. 패턴 파악하기
4. 우선순위 설정
5. 결과 리포트
폴 누스바우머 내플릭 (2015). 데이터 스토리텔링. 정사범 옮김, 에이콘출판사
End of document
유 은
eunyu1031@gmail.com

More Related Content

Similar to Week5 data vis(2)

Week14 wrapup
Week14 wrapupWeek14 wrapup
Week14 wrapupEun Yu
 
★강의교재_데이터 분석을 위한 통계와 확률_v2.pptx
★강의교재_데이터 분석을 위한 통계와 확률_v2.pptx★강의교재_데이터 분석을 위한 통계와 확률_v2.pptx
★강의교재_데이터 분석을 위한 통계와 확률_v2.pptxDonghwan Lee
 
[PyCon KR 2018] 땀내를 줄이는 Data와 Feature 다루기
[PyCon KR 2018] 땀내를 줄이는 Data와 Feature 다루기[PyCon KR 2018] 땀내를 줄이는 Data와 Feature 다루기
[PyCon KR 2018] 땀내를 줄이는 Data와 Feature 다루기Joeun Park
 
[Ankus Open Source Conference 2013] 빅데이터 분석을 위한 통계 이해와 해석
[Ankus Open Source Conference 2013] 빅데이터 분석을 위한 통계 이해와 해석[Ankus Open Source Conference 2013] 빅데이터 분석을 위한 통계 이해와 해석
[Ankus Open Source Conference 2013] 빅데이터 분석을 위한 통계 이해와 해석SuHyun Jeon
 
연구학교 데이터분석
연구학교 데이터분석 연구학교 데이터분석
연구학교 데이터분석 성훈 김
 
Week6 data vis(3)
Week6 data vis(3)Week6 data vis(3)
Week6 data vis(3)Eun Yu
 
[통계페스티발] 무덤에서 요람까지 통계와 함께
[통계페스티발] 무덤에서 요람까지 통계와 함께[통계페스티발] 무덤에서 요람까지 통계와 함께
[통계페스티발] 무덤에서 요람까지 통계와 함께백승민 Baek Seung Min
 
[도서 리뷰] 헤드 퍼스트 데이터 분석 ( Head First Data Analysis )
[도서 리뷰]  헤드 퍼스트 데이터 분석 ( Head First Data Analysis )[도서 리뷰]  헤드 퍼스트 데이터 분석 ( Head First Data Analysis )
[도서 리뷰] 헤드 퍼스트 데이터 분석 ( Head First Data Analysis )Seung-Woo Kang
 
인포그래픽스 데이터분석과 저널리즘 3장 데이터수집,정제에서 분석까지
인포그래픽스 데이터분석과 저널리즘 3장 데이터수집,정제에서 분석까지인포그래픽스 데이터분석과 저널리즘 3장 데이터수집,정제에서 분석까지
인포그래픽스 데이터분석과 저널리즘 3장 데이터수집,정제에서 분석까지Han Woo PARK
 
[울산과학고 SW/STEAM] 1주차 - 데이터 시각화 방법론 및 사례
[울산과학고 SW/STEAM] 1주차 - 데이터 시각화 방법론 및 사례[울산과학고 SW/STEAM] 1주차 - 데이터 시각화 방법론 및 사례
[울산과학고 SW/STEAM] 1주차 - 데이터 시각화 방법론 및 사례Core.Today
 
Week7 data vis(4)
Week7 data vis(4)Week7 data vis(4)
Week7 data vis(4)Eun Yu
 
R을 이용한 데이터 분석
R을 이용한 데이터 분석R을 이용한 데이터 분석
R을 이용한 데이터 분석simon park
 
3장 데이터 수집, 정제에서 분석까지
3장 데이터 수집, 정제에서 분석까지3장 데이터 수집, 정제에서 분석까지
3장 데이터 수집, 정제에서 분석까지Hyochan PARK
 
Bigdate & R programming
Bigdate & R programmingBigdate & R programming
Bigdate & R programmingSeongWan Son
 
LLG Data Journalism Module3 Review
LLG Data Journalism Module3 ReviewLLG Data Journalism Module3 Review
LLG Data Journalism Module3 Reviewneuroassociates
 
추천 시스템 개요 (1)-draft
추천 시스템 개요 (1)-draft추천 시스템 개요 (1)-draft
추천 시스템 개요 (1)-drafthyunsung lee
 

Similar to Week5 data vis(2) (20)

Week14 wrapup
Week14 wrapupWeek14 wrapup
Week14 wrapup
 
★강의교재_데이터 분석을 위한 통계와 확률_v2.pptx
★강의교재_데이터 분석을 위한 통계와 확률_v2.pptx★강의교재_데이터 분석을 위한 통계와 확률_v2.pptx
★강의교재_데이터 분석을 위한 통계와 확률_v2.pptx
 
[PyCon KR 2018] 땀내를 줄이는 Data와 Feature 다루기
[PyCon KR 2018] 땀내를 줄이는 Data와 Feature 다루기[PyCon KR 2018] 땀내를 줄이는 Data와 Feature 다루기
[PyCon KR 2018] 땀내를 줄이는 Data와 Feature 다루기
 
[Ankus Open Source Conference 2013] 빅데이터 분석을 위한 통계 이해와 해석
[Ankus Open Source Conference 2013] 빅데이터 분석을 위한 통계 이해와 해석[Ankus Open Source Conference 2013] 빅데이터 분석을 위한 통계 이해와 해석
[Ankus Open Source Conference 2013] 빅데이터 분석을 위한 통계 이해와 해석
 
연구학교 데이터분석
연구학교 데이터분석 연구학교 데이터분석
연구학교 데이터분석
 
Week6 data vis(3)
Week6 data vis(3)Week6 data vis(3)
Week6 data vis(3)
 
122
122122
122
 
DSAC M2 #2
DSAC M2 #2DSAC M2 #2
DSAC M2 #2
 
[통계페스티발] 무덤에서 요람까지 통계와 함께
[통계페스티발] 무덤에서 요람까지 통계와 함께[통계페스티발] 무덤에서 요람까지 통계와 함께
[통계페스티발] 무덤에서 요람까지 통계와 함께
 
[도서 리뷰] 헤드 퍼스트 데이터 분석 ( Head First Data Analysis )
[도서 리뷰]  헤드 퍼스트 데이터 분석 ( Head First Data Analysis )[도서 리뷰]  헤드 퍼스트 데이터 분석 ( Head First Data Analysis )
[도서 리뷰] 헤드 퍼스트 데이터 분석 ( Head First Data Analysis )
 
Spc개요
Spc개요Spc개요
Spc개요
 
인포그래픽스 데이터분석과 저널리즘 3장 데이터수집,정제에서 분석까지
인포그래픽스 데이터분석과 저널리즘 3장 데이터수집,정제에서 분석까지인포그래픽스 데이터분석과 저널리즘 3장 데이터수집,정제에서 분석까지
인포그래픽스 데이터분석과 저널리즘 3장 데이터수집,정제에서 분석까지
 
[울산과학고 SW/STEAM] 1주차 - 데이터 시각화 방법론 및 사례
[울산과학고 SW/STEAM] 1주차 - 데이터 시각화 방법론 및 사례[울산과학고 SW/STEAM] 1주차 - 데이터 시각화 방법론 및 사례
[울산과학고 SW/STEAM] 1주차 - 데이터 시각화 방법론 및 사례
 
Week7 data vis(4)
Week7 data vis(4)Week7 data vis(4)
Week7 data vis(4)
 
R을 이용한 데이터 분석
R을 이용한 데이터 분석R을 이용한 데이터 분석
R을 이용한 데이터 분석
 
3장 데이터 수집, 정제에서 분석까지
3장 데이터 수집, 정제에서 분석까지3장 데이터 수집, 정제에서 분석까지
3장 데이터 수집, 정제에서 분석까지
 
Bigdate & R programming
Bigdate & R programmingBigdate & R programming
Bigdate & R programming
 
LLG Data Journalism Module3 Review
LLG Data Journalism Module3 ReviewLLG Data Journalism Module3 Review
LLG Data Journalism Module3 Review
 
Mahout
MahoutMahout
Mahout
 
추천 시스템 개요 (1)-draft
추천 시스템 개요 (1)-draft추천 시스템 개요 (1)-draft
추천 시스템 개요 (1)-draft
 

More from Eun Yu

Week9 data vis(5)
Week9 data vis(5)Week9 data vis(5)
Week9 data vis(5)Eun Yu
 
Week13 cluster(2)
Week13 cluster(2)Week13 cluster(2)
Week13 cluster(2)Eun Yu
 
Week12 cluster(1)
Week12 cluster(1)Week12 cluster(1)
Week12 cluster(1)Eun Yu
 
Week11 map
Week11 mapWeek11 map
Week11 mapEun Yu
 
Week4 data visualization
Week4 data visualization Week4 data visualization
Week4 data visualization Eun Yu
 
Week2-3 review
Week2-3 reviewWeek2-3 review
Week2-3 reviewEun Yu
 
Week1 ot
Week1 otWeek1 ot
Week1 otEun Yu
 

More from Eun Yu (7)

Week9 data vis(5)
Week9 data vis(5)Week9 data vis(5)
Week9 data vis(5)
 
Week13 cluster(2)
Week13 cluster(2)Week13 cluster(2)
Week13 cluster(2)
 
Week12 cluster(1)
Week12 cluster(1)Week12 cluster(1)
Week12 cluster(1)
 
Week11 map
Week11 mapWeek11 map
Week11 map
 
Week4 data visualization
Week4 data visualization Week4 data visualization
Week4 data visualization
 
Week2-3 review
Week2-3 reviewWeek2-3 review
Week2-3 review
 
Week1 ot
Week1 otWeek1 ot
Week1 ot
 

Week5 data vis(2)

  • 2. • 2차 자료의 출처, 조사방법, 표본의 구성 데이터 수집 0 원시 데이터 수집 데이터 처리 데이터 클리닝 탐색적 데이터 분석 통계분석 기계학습 알고리즘 데이터 상품개발 커뮤니케이션 시각화 결과보고 <데이터 과학의 과정> Cathy O’Neil & Rachel Schutt (2013), Doing Data Science, O’REILLY.
  • 3. 1. 척도와 측정 2. 변수 3. 기술통계 4. 데이터 시각화 5. 데이터 시각화 시작하기 목차 0
  • 4. 데이터 (data) • 정보를 나타내는 수치로, 가공되지 않고 아직 의미를 가지지 않은 상태의 개체 • 수집/측정/분석되어 새로운 가치를 창출 - 질적자료/정성적 데이터(qualitative data) • 숫자가 아닌 형태의 자료 (예: 직업, 성별 등) - 양적자료/정량적 데이터(quantitative data) • 숫자로 전환시키는 규칙, 즉 척도(scale)를 이용하여 변환된 데이터 • 정형 데이터 (structured data): 전통적인 행-열 데이터베이스(relational database) 방식 으로 저장된 데이터 척도와 측정 1 질적자료 척도 선택 자료의 측정 양적자료 이훈영 (2012), 연구조사방법론, 도서출판 청람.
  • 5. 척도 (scale) • 관찰대상의 속성을 측정하여 그 값을 숫자로 나타내는 일종의 규칙 • 질적자료를 척도로 측정하여 양적자료로 전환할 수 있음 측정(measure) • 관찰대상의 속성을 계량화하기 위해 척도에 따라 수치를 부여하고 변수로 표현하는 과정 • 측정도구들은 나름대로의 규칙이나 측정 단위를 정하여 사용함 척도와 측정 1 • 질적자료: 성별, 키, 팔 길이, 허리 둘레, 몸무게 • 척도: 남=1/여=0, 센티미터(centimeter), 인치(inch), 킬로그 램(kilogram) • 측정도구: 줄자, 체중계
  • 6. 척도 (scale)와 측정(measure): 예시 • 예1) 줄자로 어린이의 키를 재서 cm로 기록한다. ✓관찰 대상: 어린이 ✓속성: 키 ✓측정도구: 줄자 ✓척도(일정한 규칙): cm ✓변수: cm로 표현한 키 • 예2)토익으로 학생의 영어능력을 계량화하여 점수로 기록한다. ✓관찰 대상: 학생 ✓속성: 영어능력 ✓측정도구: 토익시험문제 ✓척도(일정한 규칙): 배점 ✓변수: 토익점수 척도와 측정 1
  • 7. 척도 (scale)와 측정(measure): 예시 • 예3) 콘텐츠 시청 여부를 판단한다. ✓관찰 대상: 시청자 ✓속성: 특정 영상을 시청하였는지 ✓측정도구: 서버의 시청시작-종료 로그 ✓척도(일정한 규칙): 70%이상 시청하였는가 → 2분 이상 시청하였는가 ✓변수: 시청 여부 척도와 측정 1 https://www.marketwatch.com/story/netflix-changes-its-view-on-views-which-will-boost-its-numbers-by-35-2020-01-21
  • 8. • 척도의 종류 척도와 측정 1 양적척도 명목척도 (Nominal scale) 서열척도 (Ordinal scale) 등간척도 (Interval scale) 비율척도 (Ratio scale) • 관찰대상의 관심속성을 측정하여 그 값을 범주로 나타냄 • 숫자는 숫자로서의 양적 의미는 없고, 관찰대상을 서로 구별하기 위해 서 사용한 기호 • 모든 연산 불가능 • 예)성인/청소년, 영화의 장르(로맨스, 공포, 액션), … 질적척도
  • 9. • 척도의 종류 척도와 측정 1 양적척도 명목척도 (Nominal scale) 서열척도 (Ordinal scale) 등간척도 (Interval scale) 비율척도 (Ratio scale) • 관찰대상의 관심속성을 측정하여 그 값을 순위로 나타냄 • 명목척도처럼 대상을 서로 구분할 수 있으며, 속성의 크기에 따라 대상 의 순서를 정할 수 있음 • 하지만 상대적인 순위만 구분할 뿐 서열 간의 차이 정도, 즉 간격을 측 정하지 않음 • 모든 연산 불가능 • 예) 등수(1등/2등/3등), 빈도 조사 등 질적척도
  • 10. • 척도의 종류 척도와 측정 1 양적척도 명목척도 (Nominal scale) 서열척도 (Ordinal scale) 등간척도 (Interval scale) 비율척도 (Ratio scale) • 관찰대상의 속성값을 상대적 크기로 나타내며, 대상 간에 비교가 가능 • 속성 크기에 따른 관찰대상의 서열뿐 아니라 대상들 간에 어느 정도 차 이가 있는가에 관한 정보도 포함 • 하지만 속성의 절대적 크기를 측정할 수 없으므로 사칙연산 중 가감(+, -)만 가능하고 승제(÷, ×)는 불가능 • 0이 의미를 가지지 않음 • 예) 섭씨 온도 0°C은 물이 어는 기준점이지 온도가 없는 게 아님 20°C는 10°C보다 2배 덥지 않음 질적척도
  • 11. • 척도의 종류 척도와 측정 1 양적척도 명목척도 (Nominal scale) 서열척도 (Ordinal scale) 등간척도 (Interval scale) 비율척도 (Ratio scale) • 속성의 상대적인 크기는 물론 절대적인 크기까지 측정할 수 있다. • 순서, 상대적인 크기 등 서로 다른 상황에서 독립적으로 측정된 값들 간 에도 절대적인 기준으로 크기를 비교할 수 있음 • 절대적 기준인 영점(zero)이 존재하고 모든 사칙연산(+, -, ÷, ×)이 가 능함 • 예) 키, 몸무게, 가격 등 2kg은 1kg보다 두 배 무거움 0 meter = 0 feet 만원은 천원의 10배 가치를 가짐 1,000 * 10 = 10,000 질적척도
  • 12. • 척도의 종류 척도와 측정 1 양적척도 명목척도 (Nominal scale) 서열척도 (Ordinal scale) 등간척도 (Interval scale) 비율척도 (Ratio scale) 질적척도 범주 범주 범주 범주 순위 순위 순위 등간 등간 절대 영점 • 정보량 증가 • 측정에 필요한 비용 증가 • 예) 월소득 (명목:100만원기준) 비율 척도 서열 척도 명목 척도 20 6 0 100 2 1 45 5 0 60 4 0 150 1 1 78 3 0
  • 13. • 척도로 측정된 결과인 양적자료(quantitative data)는 변수와 상수로 구성 • 상수(constant): 관찰대상에서 모든 경우에 변하지 않으며 하나의 값만 가짐 • 변수(variable): 관찰대상들이 2개 이상의 서로 다른 값을 가짐 ✓산술적인 사칙연산이 의미가 없는 질적변수(qualitative variable)와, 사칙연산의 일부 혹은 모두가 의미 있는 양적변수(quantitative variable)로 나뉨 ✓질적자료는 수치로 표현되지 않은 자료이고 양적자료는 수치로 표현된 자료이기 때문에, 질 적변수와 양적변수는 모두 정량적 데이터에 속함 변수 2 자료 척도 변수 양적자료 질적척도 명목척도 질적변수 (연산불가능) 서열척도 양적척도 등간척도 양적변수 (연산가능) 비율척도 질적자료 계량화 안됨
  • 14. • 변수(variable)란 척도를 이용하여 관심대상이 되는 개체의 속성을 측정한 값을 대표하여 말함 ✓프로그래밍에서의 변수와 정의가 다르므로 주의할 것 • 같은 개체의 속성을 측정했어도 척도에 따라 다양한 변수를 만들 수 있음 ✓예) 월소득 (명목:100만원기준) 변수 2 비율척도 서열척도 명목척도 양적변수 질적변수 질적변수 숫자형 순서형 이진형 20 6 0 100 2 1 45 5 0 60 4 0 150 1 1 78 3 0
  • 15. • 척도에 따라 변수와 변수의 타입이 정해짐 • 범주가 2개인 변수를 이진형(binary)a, 범주가 서열이 있는 변수를 순서형 (ordinal)b 변수라고 한다. 변수 2 자료 척도 변수 타입 예시 양적자료 질적척도 명목척도 질적변수 (연산불가능) 범주형 (categorical) 0(탈퇴)/1(가입)a 1(사과)/2(배)/3(귤) 1(상)/2(중)/3(하)b 서열척도 양적척도 등간척도 양적변수 (연산가능) 숫자형 (numerical) -10, -2, 3.33, 4.9, 8, 100000… 비율척도 질적자료 계량화 안됨
  • 16. 기술통계(descriptive statistics) • 수로 측정된 현상을 설명 및 요약 • 데이터를 이해하기 위한 첫 번째 과정인 탐색적 데이터 분석(exploratory data analysis)에 속하며, 데이터의 특징 및 여러 데이터 간의 관계를 살펴보게 됨 기술통계 3 <Experimental Design and Analysis> Seltman (2018). http://www.stat.cmu.edu/~hseltman/309/Book/Book.pdf
  • 17. 기술통계(descriptive statistics) • 설명 - 빈도/도수(frequency) 분석 기술통계 3
  • 18. 기술통계(descriptive statistics) • 설명 - 빈도/도수(frequency) 분석 • 요약 – 중심경향치(central tendency) ✓ 최빈값 (mode): 주어진 데이터 중에서 가장 자주 나오는 값 ✓ 중앙값 (median): 주어진 데이터를 크기 순으로 정렬했을 때 중앙에 있는 값 ✓ 평균 (mean): 주어진 데이터를 모두 더해 데이터의 개수로 나눈 값 ✓ 최빈값과 중앙값은 매우 크거나 아주 작은 이상치(outlier)에 영향을 덜 받음 ✓ 범주형은 연산이 의미가 없으므로 최빈값을, 숫자형은 평균/중앙값을 보게 됨 기술통계 3
  • 19. 기술통계(descriptive statistics) • 설명 - 빈도/도수(frequency) 분석 • 요약 – 중심경향치(central tendency) ✓ 최빈값 (mode): 주어진 데이터 중에서 가장 자주 나오는 값 ✓ 중앙값 (median): 주어진 데이터를 크기 순으로 정렬했을 때 중앙에 있는 값 ✓ 평균 (mean): 주어진 데이터를 모두 더해 데이터의 개수로 나눈 값 ✓ 최빈값과 중앙값은 매우 크거나 아주 작은 이상치(outlier)에 영향을 덜 받음 ✓ 범주형은 연산이 의미가 없으므로 최빈값을, 숫자형은 평균/중앙값을 보게 됨 • 분포 – 분산(variance), 표준편차(standard deviation) 등 • 이 외에 사분위수(quartile) 등을 활용 기술통계 3
  • 20. 기술통계(descriptive statistics) • 시각화로 데이터의 분포/사분위수 빠르게 파악하기: 박스 플롯(box plot) • Q1: 제1사분위수(25%) • Q2(Median): 제 2사분위수(50%)이며 중앙값 • Q3: 제3사분위수(75%) • IQR(interquartile range): Q3-Q1 • Upper whisker end: Q3+1.5IQR • Lower whisker end: Q1-1.5IQR • Outlier: whisker end 범위 밖의 이상치 통계적인 정의는 없으며 맥락과 목적 고려 기술통계 3
  • 21. 데이터 시각화(data visualization) • 정의: 추상적인 수량 데이터에 인지적 메커니즘을 적용하여 데이터의 관련된 형 태나 순서, 또는 예외사항을 나타낸 것으로, 원 데이터(raw data)를 바탕으로 직접적인 관점을 제공하며 정보를 효과적으로 전달하기 위한 방법이다. • 목적: 커뮤니케이션 ✓인포그래픽 ✓대시보드 ✓프로파일링 데이터 시각화 4 조르즈 카몽이스(2017). 데이터 시각화 원리. 에이콘출판사 https://news.nnlm.gov/sea/2019/07/24/florence-nightingale-and-the- data-visualization-society/
  • 25. 데이터 시각화(data visualization) • 필요한 것: Data visualization literacy ✓인지 ✓데이터 ✓통계 ✓디자인 ✓도구(소프트웨어) ✓컨텍스트 데이터 시각화 4
  • 26. • 중요한 것과 중요하지 않은 것을 구분 • 정량적 분석으로 답할 수 있는지 확인 ✓열심히 공부하는 학생이 성공하는가? • 보여줄 수 있는 질문의 분류 ✓분포(distribution) ✓순서/정렬/순위(order/sort/rank) ✓구성(composition) ✓추세(growth/trend) ✓관계(relation) ✓프로파일링(profiling) 데이터 시각화 시작하기 5 1. 질문하기 2. 데이터의 선택과 수집 3. 패턴 파악하기 4. 우선순위 설정 5. 결과 리포트
  • 27. 1. 출처를 확인한다. • 신뢰할 만한 출처인가? • 실제로 파악 가능한가? 2. 조사 방법을 확인한다. • 어떤 방식으로 수집되었는가? • 신뢰할 만한 표본인가? • 언제 수집되었는가? 3. 데이터의 품질을 확인한다. • 목적에 부합하는가? • 데이터 클리닝이 필요한가? 데이터 시각화 시작하기 5 1. 질문하기 2. 데이터의 선택과 수집 3. 패턴 파악하기 4. 우선순위 설정 5. 결과 리포트
  • 28. • 다양한 방법, 관점으로 탐색하기 데이터 시각화 시작하기 5 1. 질문하기 2. 데이터의 선택과 수집 3. 패턴 파악하기 4. 우선순위 설정 5. 결과 리포트
  • 29. • 너무 많은 것을 말하려고 하면 아무것도 말할 수 없다. • 커뮤니케이션의 목적에 집중 ✓무슨 질문에서 시작하였는가? ✓데이터의 어떤 특성을 강조하고 싶은가? ✓가장 흥미로운 부분은 무엇이었는가? ✓시각화가 타인에게 어떤 영향을 미치기를 바라는가? 데이터 시각화 시작하기 5 1. 질문하기 2. 데이터의 선택과 수집 3. 패턴 파악하기 4. 우선순위 설정 5. 결과 리포트
  • 30. • 스토리텔링의 영역: 대상, 주제, 방법 • 대상 ✓여름 시범 학습 프로그램의 지속적인 운영을 위한 재정을 집 행하는 예산 위원회 • 주제 ✓과학 관련 여름 시범 학습 프로그램은 성공적이었다. 따라서 추가 예산을 배정해 달라. • 방법 ✓시범 프로그램의 전과 후를 조사한 결과 데이터에 근거해 성 공을 입증한다. 데이터 시각화 시작하기 5 1. 질문하기 2. 데이터의 선택과 수집 3. 패턴 파악하기 4. 우선순위 설정 5. 결과 리포트 폴 누스바우머 내플릭 (2015). 데이터 스토리텔링. 정사범 옮김, 에이콘출판사
  • 31. End of document 유 은 eunyu1031@gmail.com