Week5 data vis(2)

Data Visualization (2)
유 은

• 2차 자료의 출처, 조사방법, 표본의 구성
데이터 수집
0
원시
데이터
수집
데이터
처리
데이터
클리닝
탐색적
데이터
분석
통계분석
기계학습
알고리즘
데이터
상품개발
커뮤니케이션
시각화
결과보고
<데이터 과학의 과정> Cathy O’Neil & Rachel Schutt (2013), Doing Data Science, O’REILLY.

1. 척도와 측정
2. 변수
3. 기술통계
4. 데이터 시각화
5. 데이터 시각화 시작하기
목차
0

데이터 (data)
• 정보를 나타내는 수치로, 가공되지 않고 아직 의미를 가지지 않은 상태의 개체
• 수집/측정/분석되어 새로운 가치를 창출
- 질적자료/정성적 데이터(qualitative data)
• 숫자가 아닌 형태의 자료 (예: 직업, 성별 등)
- 양적자료/정량적 데이터(quantitative data)
• 숫자로 전환시키는 규칙, 즉 척도(scale)를 이용하여 변환된 데이터
• 정형 데이터 (structured data): 전통적인 행-열 데이터베이스(relational database) 방식
으로 저장된 데이터
척도와 측정
1
질적자료 척도 선택 자료의 측정 양적자료
이훈영 (2012), 연구조사방법론, 도서출판 청람.

척도 (scale)
• 관찰대상의 속성을 측정하여 그 값을 숫자로 나타내는 일종의 규칙
• 질적자료를 척도로 측정하여 양적자료로 전환할 수 있음
측정(measure)
• 관찰대상의 속성을 계량화하기 위해 척도에 따라 수치를 부여하고 변수로 표현하는 과정
• 측정도구들은 나름대로의 규칙이나 측정 단위를 정하여 사용함
척도와 측정
1
• 질적자료: 성별, 키, 팔 길이, 허리 둘레, 몸무게
• 척도: 남=1/여=0, 센티미터(centimeter), 인치(inch), 킬로그
램(kilogram)
• 측정도구: 줄자, 체중계

척도 (scale)와 측정(measure): 예시
• 예1) 줄자로 어린이의 키를 재서 cm로 기록한다.
✓관찰 대상: 어린이
✓속성: 키
✓측정도구: 줄자
✓척도(일정한 규칙): cm
✓변수: cm로 표현한 키
• 예2)토익으로 학생의 영어능력을 계량화하여 점수로 기록한다.
✓관찰 대상: 학생
✓속성: 영어능력
✓측정도구: 토익시험문제
✓척도(일정한 규칙): 배점
✓변수: 토익점수
척도와 측정
1

척도 (scale)와 측정(measure): 예시
• 예3) 콘텐츠 시청 여부를 판단한다.
✓관찰 대상: 시청자
✓속성: 특정 영상을 시청하였는지
✓측정도구: 서버의 시청시작-종료 로그
✓척도(일정한 규칙): 70%이상 시청하였는가 → 2분 이상 시청하였는가
✓변수: 시청 여부
척도와 측정
1
https://www.marketwatch.com/story/netflix-changes-its-view-on-views-which-will-boost-its-numbers-by-35-2020-01-21

• 척도의 종류
척도와 측정
1
양적척도
명목척도
(Nominal scale)
서열척도
(Ordinal scale)
등간척도
(Interval scale)
비율척도
(Ratio scale)
• 관찰대상의 관심속성을 측정하여 그 값을 범주로 나타냄
• 숫자는 숫자로서의 양적 의미는 없고, 관찰대상을 서로 구별하기 위해
서 사용한 기호
• 모든 연산 불가능
• 예)성인/청소년, 영화의 장르(로맨스, 공포, 액션), …
질적척도

척도와 측정
1
양적척도
명목척도
(Nominal scale)
서열척도
(Ordinal scale)
등간척도
(Interval scale)
비율척도
(Ratio scale)
• 관찰대상의 관심속성을 측정하여 그 값을 순위로 나타냄
• 명목척도처럼 대상을 서로 구분할 수 있으며, 속성의 크기에 따라 대상
의 순서를 정할 수 있음
• 하지만 상대적인 순위만 구분할 뿐 서열 간의 차이 정도, 즉 간격을 측
정하지 않음
• 모든 연산 불가능
• 예) 등수(1등/2등/3등), 빈도 조사 등
질적척도

척도와 측정
1
양적척도
명목척도
(Nominal scale)
서열척도
(Ordinal scale)
등간척도
(Interval scale)
비율척도
(Ratio scale)
• 관찰대상의 속성값을 상대적 크기로 나타내며, 대상 간에 비교가 가능
• 속성 크기에 따른 관찰대상의 서열뿐 아니라 대상들 간에 어느 정도 차
이가 있는가에 관한 정보도 포함
• 하지만 속성의 절대적 크기를 측정할 수 없으므로 사칙연산 중 가감(+,
-)만 가능하고 승제(÷, ×)는 불가능
• 0이 의미를 가지지 않음
• 예) 섭씨 온도
0°C은 물이 어는 기준점이지 온도가 없는 게 아님
20°C는 10°C보다 2배 덥지 않음
질적척도

척도와 측정
1
양적척도
명목척도
(Nominal scale)
서열척도
(Ordinal scale)
등간척도
(Interval scale)
비율척도
(Ratio scale)
• 속성의 상대적인 크기는 물론 절대적인 크기까지 측정할 수 있다.
• 순서, 상대적인 크기 등 서로 다른 상황에서 독립적으로 측정된 값들 간
에도 절대적인 기준으로 크기를 비교할 수 있음
• 절대적 기준인 영점(zero)이 존재하고 모든 사칙연산(+, -, ÷, ×)이 가
능함
• 예) 키, 몸무게, 가격 등
2kg은 1kg보다 두 배 무거움
0 meter = 0 feet
만원은 천원의 10배 가치를 가짐 1,000 * 10 = 10,000
질적척도

척도와 측정
1
양적척도
명목척도
(Nominal scale)
서열척도
(Ordinal scale)
등간척도
(Interval scale)
비율척도
(Ratio scale)
질적척도
범주
범주
범주
범주
순위
순위
순위
등간
등간
절대
영점
• 정보량 증가
• 측정에 필요한 비용 증가
• 예) 월소득 (명목:100만원기준)
비율
척도
서열
척도
명목
척도
20 6 0
100 2 1
45 5 0
60 4 0
150 1 1
78 3 0

• 척도로 측정된 결과인 양적자료(quantitative data)는 변수와 상수로 구성
• 상수(constant): 관찰대상에서 모든 경우에 변하지 않으며 하나의 값만 가짐
• 변수(variable): 관찰대상들이 2개 이상의 서로 다른 값을 가짐
✓산술적인 사칙연산이 의미가 없는 질적변수(qualitative variable)와, 사칙연산의 일부 혹은
모두가 의미 있는 양적변수(quantitative variable)로 나뉨
✓질적자료는 수치로 표현되지 않은 자료이고 양적자료는 수치로 표현된 자료이기 때문에, 질
적변수와 양적변수는 모두 정량적 데이터에 속함
변수
2
자료 척도 변수
양적자료 질적척도 명목척도 질적변수
(연산불가능)
서열척도
양적척도 등간척도 양적변수
(연산가능)
비율척도
질적자료 계량화 안됨

• 변수(variable)란 척도를 이용하여 관심대상이 되는 개체의 속성을 측정한 값을
대표하여 말함
✓프로그래밍에서의 변수와 정의가 다르므로 주의할 것
• 같은 개체의 속성을 측정했어도 척도에 따라 다양한 변수를 만들 수 있음
✓예) 월소득 (명목:100만원기준)
변수
2
비율척도 서열척도 명목척도
양적변수 질적변수 질적변수
숫자형 순서형 이진형
20 6 0
100 2 1
45 5 0
60 4 0
150 1 1
78 3 0

• 척도에 따라 변수와 변수의 타입이 정해짐
• 범주가 2개인 변수를 이진형(binary)a, 범주가 서열이 있는 변수를 순서형
(ordinal)b 변수라고 한다.
변수
2
자료 척도 변수 타입 예시
양적자료 질적척도 명목척도 질적변수
(연산불가능)
범주형
(categorical)
0(탈퇴)/1(가입)a
1(사과)/2(배)/3(귤)
1(상)/2(중)/3(하)b
서열척도
양적척도 등간척도 양적변수
(연산가능)
숫자형
(numerical)
-10, -2, 3.33, 4.9, 8,
100000…
비율척도
질적자료 계량화 안됨

기술통계(descriptive statistics)
• 수로 측정된 현상을 설명 및 요약
• 데이터를 이해하기 위한 첫 번째 과정인 탐색적 데이터 분석(exploratory data analysis)에
속하며, 데이터의 특징 및 여러 데이터 간의 관계를 살펴보게 됨
기술통계
3
<Experimental Design and Analysis> Seltman (2018). http://www.stat.cmu.edu/~hseltman/309/Book/Book.pdf

• 설명 - 빈도/도수(frequency) 분석
기술통계
3

• 요약 – 중심경향치(central tendency)
✓ 최빈값 (mode): 주어진 데이터 중에서 가장 자주 나오는 값
✓ 중앙값 (median): 주어진 데이터를 크기 순으로 정렬했을 때 중앙에 있는 값
✓ 평균 (mean): 주어진 데이터를 모두 더해 데이터의 개수로 나눈 값
✓ 최빈값과 중앙값은 매우 크거나 아주 작은 이상치(outlier)에 영향을 덜 받음
✓ 범주형은 연산이 의미가 없으므로 최빈값을, 숫자형은 평균/중앙값을 보게 됨
기술통계
3

• 요약 – 중심경향치(central tendency)
✓ 최빈값 (mode): 주어진 데이터 중에서 가장 자주 나오는 값
✓ 중앙값 (median): 주어진 데이터를 크기 순으로 정렬했을 때 중앙에 있는 값
✓ 평균 (mean): 주어진 데이터를 모두 더해 데이터의 개수로 나눈 값
✓ 최빈값과 중앙값은 매우 크거나 아주 작은 이상치(outlier)에 영향을 덜 받음
✓ 범주형은 연산이 의미가 없으므로 최빈값을, 숫자형은 평균/중앙값을 보게 됨
• 분포 – 분산(variance), 표준편차(standard deviation) 등
• 이 외에 사분위수(quartile) 등을 활용
기술통계
3

• 시각화로 데이터의 분포/사분위수 빠르게 파악하기: 박스 플롯(box plot)
• Q1: 제1사분위수(25%)
• Q2(Median): 제 2사분위수(50%)이며 중앙값
• Q3: 제3사분위수(75%)
• IQR(interquartile range): Q3-Q1
• Upper whisker end: Q3+1.5IQR
• Lower whisker end: Q1-1.5IQR
• Outlier: whisker end 범위 밖의 이상치
통계적인 정의는 없으며 맥락과 목적 고려
기술통계
3

데이터 시각화(data visualization)
• 정의: 추상적인 수량 데이터에 인지적 메커니즘을 적용하여 데이터의 관련된 형
태나 순서, 또는 예외사항을 나타낸 것으로, 원 데이터(raw data)를 바탕으로
직접적인 관점을 제공하며 정보를 효과적으로 전달하기 위한 방법이다.
• 목적: 커뮤니케이션
✓인포그래픽
✓대시보드
✓프로파일링
데이터 시각화
4
조르즈 카몽이스(2017). 데이터 시각화 원리. 에이콘출판사
https://news.nnlm.gov/sea/2019/07/24/florence-nightingale-and-the-
data-visualization-society/

데이터 시각화(data visualization)
• 필요한 것: Data visualization literacy
✓인지
✓데이터
✓통계
✓디자인
✓도구(소프트웨어)
✓컨텍스트
데이터 시각화
4

• 중요한 것과 중요하지 않은 것을 구분
• 정량적 분석으로 답할 수 있는지 확인
✓열심히 공부하는 학생이 성공하는가?
• 보여줄 수 있는 질문의 분류
✓분포(distribution)
✓순서/정렬/순위(order/sort/rank)
✓구성(composition)
✓추세(growth/trend)
✓관계(relation)
✓프로파일링(profiling)
데이터 시각화 시작하기
5
1. 질문하기
2. 데이터의 선택과 수집
3. 패턴 파악하기
4. 우선순위 설정
5. 결과 리포트

1. 출처를 확인한다.
• 신뢰할 만한 출처인가?
• 실제로 파악 가능한가?
2. 조사 방법을 확인한다.
• 어떤 방식으로 수집되었는가?
• 신뢰할 만한 표본인가?
• 언제 수집되었는가?
3. 데이터의 품질을 확인한다.
• 목적에 부합하는가?
• 데이터 클리닝이 필요한가?
5
1. 질문하기
5. 결과 리포트

• 다양한 방법, 관점으로 탐색하기
5
1. 질문하기
5. 결과 리포트

• 너무 많은 것을 말하려고 하면 아무것도 말할 수 없다.
• 커뮤니케이션의 목적에 집중
✓무슨 질문에서 시작하였는가?
✓데이터의 어떤 특성을 강조하고 싶은가?
✓가장 흥미로운 부분은 무엇이었는가?
✓시각화가 타인에게 어떤 영향을 미치기를 바라는가?
5
1. 질문하기
5. 결과 리포트

• 스토리텔링의 영역: 대상, 주제, 방법
• 대상
✓여름 시범 학습 프로그램의 지속적인 운영을 위한 재정을 집
행하는 예산 위원회
• 주제
✓과학 관련 여름 시범 학습 프로그램은 성공적이었다. 따라서
추가 예산을 배정해 달라.
• 방법
✓시범 프로그램의 전과 후를 조사한 결과 데이터에 근거해 성
공을 입증한다.
5
1. 질문하기
5. 결과 리포트
폴 누스바우머 내플릭 (2015). 데이터 스토리텔링. 정사범 옮김, 에이콘출판사

End of document
유 은
eunyu1031@gmail.com

Week5 data vis(2)

Recommended

Recommended

More Related Content

Similar to Week5 data vis(2)

Similar to Week5 data vis(2) (20)

More from Eun Yu

More from Eun Yu (7)

Week5 data vis(2)