2. • 2차 자료의 출처, 조사방법, 표본의 구성
데이터 수집
0
원시
데이터
수집
데이터
처리
데이터
클리닝
탐색적
데이터
분석
통계분석
기계학습
알고리즘
데이터
상품개발
커뮤니케이션
시각화
결과보고
<데이터 과학의 과정> Cathy O’Neil & Rachel Schutt (2013), Doing Data Science, O’REILLY.
3. 1. 척도와 측정
2. 변수
3. 기술통계
4. 데이터 시각화
5. 데이터 시각화 시작하기
목차
0
4. 데이터 (data)
• 정보를 나타내는 수치로, 가공되지 않고 아직 의미를 가지지 않은 상태의 개체
• 수집/측정/분석되어 새로운 가치를 창출
- 질적자료/정성적 데이터(qualitative data)
• 숫자가 아닌 형태의 자료 (예: 직업, 성별 등)
- 양적자료/정량적 데이터(quantitative data)
• 숫자로 전환시키는 규칙, 즉 척도(scale)를 이용하여 변환된 데이터
• 정형 데이터 (structured data): 전통적인 행-열 데이터베이스(relational database) 방식
으로 저장된 데이터
척도와 측정
1
질적자료 척도 선택 자료의 측정 양적자료
이훈영 (2012), 연구조사방법론, 도서출판 청람.
5. 척도 (scale)
• 관찰대상의 속성을 측정하여 그 값을 숫자로 나타내는 일종의 규칙
• 질적자료를 척도로 측정하여 양적자료로 전환할 수 있음
측정(measure)
• 관찰대상의 속성을 계량화하기 위해 척도에 따라 수치를 부여하고 변수로 표현하는 과정
• 측정도구들은 나름대로의 규칙이나 측정 단위를 정하여 사용함
척도와 측정
1
• 질적자료: 성별, 키, 팔 길이, 허리 둘레, 몸무게
• 척도: 남=1/여=0, 센티미터(centimeter), 인치(inch), 킬로그
램(kilogram)
• 측정도구: 줄자, 체중계
6. 척도 (scale)와 측정(measure): 예시
• 예1) 줄자로 어린이의 키를 재서 cm로 기록한다.
✓관찰 대상: 어린이
✓속성: 키
✓측정도구: 줄자
✓척도(일정한 규칙): cm
✓변수: cm로 표현한 키
• 예2)토익으로 학생의 영어능력을 계량화하여 점수로 기록한다.
✓관찰 대상: 학생
✓속성: 영어능력
✓측정도구: 토익시험문제
✓척도(일정한 규칙): 배점
✓변수: 토익점수
척도와 측정
1
7. 척도 (scale)와 측정(measure): 예시
• 예3) 콘텐츠 시청 여부를 판단한다.
✓관찰 대상: 시청자
✓속성: 특정 영상을 시청하였는지
✓측정도구: 서버의 시청시작-종료 로그
✓척도(일정한 규칙): 70%이상 시청하였는가 → 2분 이상 시청하였는가
✓변수: 시청 여부
척도와 측정
1
https://www.marketwatch.com/story/netflix-changes-its-view-on-views-which-will-boost-its-numbers-by-35-2020-01-21
8. • 척도의 종류
척도와 측정
1
양적척도
명목척도
(Nominal scale)
서열척도
(Ordinal scale)
등간척도
(Interval scale)
비율척도
(Ratio scale)
• 관찰대상의 관심속성을 측정하여 그 값을 범주로 나타냄
• 숫자는 숫자로서의 양적 의미는 없고, 관찰대상을 서로 구별하기 위해
서 사용한 기호
• 모든 연산 불가능
• 예)성인/청소년, 영화의 장르(로맨스, 공포, 액션), …
질적척도
9. • 척도의 종류
척도와 측정
1
양적척도
명목척도
(Nominal scale)
서열척도
(Ordinal scale)
등간척도
(Interval scale)
비율척도
(Ratio scale)
• 관찰대상의 관심속성을 측정하여 그 값을 순위로 나타냄
• 명목척도처럼 대상을 서로 구분할 수 있으며, 속성의 크기에 따라 대상
의 순서를 정할 수 있음
• 하지만 상대적인 순위만 구분할 뿐 서열 간의 차이 정도, 즉 간격을 측
정하지 않음
• 모든 연산 불가능
• 예) 등수(1등/2등/3등), 빈도 조사 등
질적척도
10. • 척도의 종류
척도와 측정
1
양적척도
명목척도
(Nominal scale)
서열척도
(Ordinal scale)
등간척도
(Interval scale)
비율척도
(Ratio scale)
• 관찰대상의 속성값을 상대적 크기로 나타내며, 대상 간에 비교가 가능
• 속성 크기에 따른 관찰대상의 서열뿐 아니라 대상들 간에 어느 정도 차
이가 있는가에 관한 정보도 포함
• 하지만 속성의 절대적 크기를 측정할 수 없으므로 사칙연산 중 가감(+,
-)만 가능하고 승제(÷, ×)는 불가능
• 0이 의미를 가지지 않음
• 예) 섭씨 온도
0°C은 물이 어는 기준점이지 온도가 없는 게 아님
20°C는 10°C보다 2배 덥지 않음
질적척도
11. • 척도의 종류
척도와 측정
1
양적척도
명목척도
(Nominal scale)
서열척도
(Ordinal scale)
등간척도
(Interval scale)
비율척도
(Ratio scale)
• 속성의 상대적인 크기는 물론 절대적인 크기까지 측정할 수 있다.
• 순서, 상대적인 크기 등 서로 다른 상황에서 독립적으로 측정된 값들 간
에도 절대적인 기준으로 크기를 비교할 수 있음
• 절대적 기준인 영점(zero)이 존재하고 모든 사칙연산(+, -, ÷, ×)이 가
능함
• 예) 키, 몸무게, 가격 등
2kg은 1kg보다 두 배 무거움
0 meter = 0 feet
만원은 천원의 10배 가치를 가짐 1,000 * 10 = 10,000
질적척도
12. • 척도의 종류
척도와 측정
1
양적척도
명목척도
(Nominal scale)
서열척도
(Ordinal scale)
등간척도
(Interval scale)
비율척도
(Ratio scale)
질적척도
범주
범주
범주
범주
순위
순위
순위
등간
등간
절대
영점
• 정보량 증가
• 측정에 필요한 비용 증가
• 예) 월소득 (명목:100만원기준)
비율
척도
서열
척도
명목
척도
20 6 0
100 2 1
45 5 0
60 4 0
150 1 1
78 3 0
13. • 척도로 측정된 결과인 양적자료(quantitative data)는 변수와 상수로 구성
• 상수(constant): 관찰대상에서 모든 경우에 변하지 않으며 하나의 값만 가짐
• 변수(variable): 관찰대상들이 2개 이상의 서로 다른 값을 가짐
✓산술적인 사칙연산이 의미가 없는 질적변수(qualitative variable)와, 사칙연산의 일부 혹은
모두가 의미 있는 양적변수(quantitative variable)로 나뉨
✓질적자료는 수치로 표현되지 않은 자료이고 양적자료는 수치로 표현된 자료이기 때문에, 질
적변수와 양적변수는 모두 정량적 데이터에 속함
변수
2
자료 척도 변수
양적자료 질적척도 명목척도 질적변수
(연산불가능)
서열척도
양적척도 등간척도 양적변수
(연산가능)
비율척도
질적자료 계량화 안됨
14. • 변수(variable)란 척도를 이용하여 관심대상이 되는 개체의 속성을 측정한 값을
대표하여 말함
✓프로그래밍에서의 변수와 정의가 다르므로 주의할 것
• 같은 개체의 속성을 측정했어도 척도에 따라 다양한 변수를 만들 수 있음
✓예) 월소득 (명목:100만원기준)
변수
2
비율척도 서열척도 명목척도
양적변수 질적변수 질적변수
숫자형 순서형 이진형
20 6 0
100 2 1
45 5 0
60 4 0
150 1 1
78 3 0
15. • 척도에 따라 변수와 변수의 타입이 정해짐
• 범주가 2개인 변수를 이진형(binary)a, 범주가 서열이 있는 변수를 순서형
(ordinal)b 변수라고 한다.
변수
2
자료 척도 변수 타입 예시
양적자료 질적척도 명목척도 질적변수
(연산불가능)
범주형
(categorical)
0(탈퇴)/1(가입)a
1(사과)/2(배)/3(귤)
1(상)/2(중)/3(하)b
서열척도
양적척도 등간척도 양적변수
(연산가능)
숫자형
(numerical)
-10, -2, 3.33, 4.9, 8,
100000…
비율척도
질적자료 계량화 안됨
16. 기술통계(descriptive statistics)
• 수로 측정된 현상을 설명 및 요약
• 데이터를 이해하기 위한 첫 번째 과정인 탐색적 데이터 분석(exploratory data analysis)에
속하며, 데이터의 특징 및 여러 데이터 간의 관계를 살펴보게 됨
기술통계
3
<Experimental Design and Analysis> Seltman (2018). http://www.stat.cmu.edu/~hseltman/309/Book/Book.pdf
18. 기술통계(descriptive statistics)
• 설명 - 빈도/도수(frequency) 분석
• 요약 – 중심경향치(central tendency)
✓ 최빈값 (mode): 주어진 데이터 중에서 가장 자주 나오는 값
✓ 중앙값 (median): 주어진 데이터를 크기 순으로 정렬했을 때 중앙에 있는 값
✓ 평균 (mean): 주어진 데이터를 모두 더해 데이터의 개수로 나눈 값
✓ 최빈값과 중앙값은 매우 크거나 아주 작은 이상치(outlier)에 영향을 덜 받음
✓ 범주형은 연산이 의미가 없으므로 최빈값을, 숫자형은 평균/중앙값을 보게 됨
기술통계
3
19. 기술통계(descriptive statistics)
• 설명 - 빈도/도수(frequency) 분석
• 요약 – 중심경향치(central tendency)
✓ 최빈값 (mode): 주어진 데이터 중에서 가장 자주 나오는 값
✓ 중앙값 (median): 주어진 데이터를 크기 순으로 정렬했을 때 중앙에 있는 값
✓ 평균 (mean): 주어진 데이터를 모두 더해 데이터의 개수로 나눈 값
✓ 최빈값과 중앙값은 매우 크거나 아주 작은 이상치(outlier)에 영향을 덜 받음
✓ 범주형은 연산이 의미가 없으므로 최빈값을, 숫자형은 평균/중앙값을 보게 됨
• 분포 – 분산(variance), 표준편차(standard deviation) 등
• 이 외에 사분위수(quartile) 등을 활용
기술통계
3
20. 기술통계(descriptive statistics)
• 시각화로 데이터의 분포/사분위수 빠르게 파악하기: 박스 플롯(box plot)
• Q1: 제1사분위수(25%)
• Q2(Median): 제 2사분위수(50%)이며 중앙값
• Q3: 제3사분위수(75%)
• IQR(interquartile range): Q3-Q1
• Upper whisker end: Q3+1.5IQR
• Lower whisker end: Q1-1.5IQR
• Outlier: whisker end 범위 밖의 이상치
통계적인 정의는 없으며 맥락과 목적 고려
기술통계
3
21. 데이터 시각화(data visualization)
• 정의: 추상적인 수량 데이터에 인지적 메커니즘을 적용하여 데이터의 관련된 형
태나 순서, 또는 예외사항을 나타낸 것으로, 원 데이터(raw data)를 바탕으로
직접적인 관점을 제공하며 정보를 효과적으로 전달하기 위한 방법이다.
• 목적: 커뮤니케이션
✓인포그래픽
✓대시보드
✓프로파일링
데이터 시각화
4
조르즈 카몽이스(2017). 데이터 시각화 원리. 에이콘출판사
https://news.nnlm.gov/sea/2019/07/24/florence-nightingale-and-the-
data-visualization-society/
26. • 중요한 것과 중요하지 않은 것을 구분
• 정량적 분석으로 답할 수 있는지 확인
✓열심히 공부하는 학생이 성공하는가?
• 보여줄 수 있는 질문의 분류
✓분포(distribution)
✓순서/정렬/순위(order/sort/rank)
✓구성(composition)
✓추세(growth/trend)
✓관계(relation)
✓프로파일링(profiling)
데이터 시각화 시작하기
5
1. 질문하기
2. 데이터의 선택과 수집
3. 패턴 파악하기
4. 우선순위 설정
5. 결과 리포트
27. 1. 출처를 확인한다.
• 신뢰할 만한 출처인가?
• 실제로 파악 가능한가?
2. 조사 방법을 확인한다.
• 어떤 방식으로 수집되었는가?
• 신뢰할 만한 표본인가?
• 언제 수집되었는가?
3. 데이터의 품질을 확인한다.
• 목적에 부합하는가?
• 데이터 클리닝이 필요한가?
데이터 시각화 시작하기
5
1. 질문하기
2. 데이터의 선택과 수집
3. 패턴 파악하기
4. 우선순위 설정
5. 결과 리포트
28. • 다양한 방법, 관점으로 탐색하기
데이터 시각화 시작하기
5
1. 질문하기
2. 데이터의 선택과 수집
3. 패턴 파악하기
4. 우선순위 설정
5. 결과 리포트
29. • 너무 많은 것을 말하려고 하면 아무것도 말할 수 없다.
• 커뮤니케이션의 목적에 집중
✓무슨 질문에서 시작하였는가?
✓데이터의 어떤 특성을 강조하고 싶은가?
✓가장 흥미로운 부분은 무엇이었는가?
✓시각화가 타인에게 어떤 영향을 미치기를 바라는가?
데이터 시각화 시작하기
5
1. 질문하기
2. 데이터의 선택과 수집
3. 패턴 파악하기
4. 우선순위 설정
5. 결과 리포트
30. • 스토리텔링의 영역: 대상, 주제, 방법
• 대상
✓여름 시범 학습 프로그램의 지속적인 운영을 위한 재정을 집
행하는 예산 위원회
• 주제
✓과학 관련 여름 시범 학습 프로그램은 성공적이었다. 따라서
추가 예산을 배정해 달라.
• 방법
✓시범 프로그램의 전과 후를 조사한 결과 데이터에 근거해 성
공을 입증한다.
데이터 시각화 시작하기
5
1. 질문하기
2. 데이터의 선택과 수집
3. 패턴 파악하기
4. 우선순위 설정
5. 결과 리포트
폴 누스바우머 내플릭 (2015). 데이터 스토리텔링. 정사범 옮김, 에이콘출판사