SlideShare uma empresa Scribd logo
1 de 67
뉴스 빅데이터 분석
PARK,Daemin
Korea Press Foundation
Senior Researcher
빅데이터의 특징
Table of Contents
News Big Data Analytics
분석 시스템
뉴스 자연어처리
뉴스 빅데이터의 필요성
뉴스 정보원연결망
분석 사례
빅데이터의 시대?
빅데이터의 시대?
빅데이터 시대
4
빅데이터란?
5
Big data is like teenage sex:
everyone talks about it, nobody really knows how to do it,
everyone thinks everyone else is doing it, so everyone
claims they are doing it...
- Dan Ariely, Duke University Professor
빅데이터 시대는 끝났다?
6
또는 빅브라더?
7
3V, 4V, … Value!
8
빅데이터의 가치는?
9
모바일 사용자 빅데이터
10
빅데이터의 발전
11
딥러닝
12
타겟팅
13
Moonshot Thinking
14
DT & CDO
15
빅데이터의 특징
어떻게?
17
카오스
18
패턴
19
binary
20
작은 세상
21
중심
A) Betweenness centrality, B) Closeness centrality, C) Eigenvector centrality,
D) Degree centrality, E) Harmonic centrality and F) Katz centrality of the
same graph.
22
멱함수
23
긴 꼬리
24
폭발성
25
스며들기 군집
26
영향력
27
상전이, 수렴
28
29
성장
Dynamics
30
뉴스 빅데이터의 필요성
32
기술+저널리즘=콘텐츠
큐레이션 저널리즘
33
로봇 저널리즘 (알고리즘 저널리즘)
[로봇저널리즘] 코스피 2.30포인트 하락, 1969.97포인트 거래 마감 본문듣기
기사입력 2016.03.15 오후 3:17
오늘 코스피가 전 거래일 대비 2.30포인트, -0.12% 내린 1969.97에 마감했다.
기관이 1297억 원 순매도 했으나 개인과 외국인이 각각 104억 원, 608억 원을 매수 우위로 시장을
받쳤다.
시가총액 상위 종목 중에는 내린 종목이 더 많았는데, 삼성물산(0.34%), 아모레퍼시픽(2.45%)이 상
승한 반면, 삼성전자(-0.16%) 등은 하락세를 보였다.
업종별로는 음식료업이 0.2%, 섬유의복이 0.03%, 화학이 0.47% 상승했으며, 종이목재가 -0.11%, 의
약품이 -0.42%, 비금속광물이 -0.2% 하락했다.
코스닥은 2.29포인트(0.33%) 상승한 693.34포인트를 기록했다.
이날 개인과 외국인이 각각 353억 원, 112억 원어치 주식을 사들였으며, 기관만 나홀로 ‘팔자’에 나
서며 399억 원어치 매도 우위를 기록했다.
시가총액 상위 10개 종목 가운데 셀트리온, 카카오가 각각 -0.38%, -1.07%의 하락폭을 보였고, 그
외에 코데즈컴바인(29.92%), 코미팜(0.47%) 등은 상승했다.
업종별로는 운송이 2.15%, 금융이 0.15%, 음식료담배가 0.22% 상승했으며, 건설이 -0.28%, 유통이
-0.18%, 통신/방송이 -0.42% 하락했다.
한편 서울 외환시장에서 원ㆍ달러 환율은 1187.7원에 마감했다.
"이 기사는 파이낸셜뉴스와 협업으로 서울대학교 이준환/서봉원 교수 연구팀이 개발한 기사 작성
알고리즘 로봇이 실시간으로 작성했습니다."
robot@fnnews.com IamFNBOT
34
데이터저널리즘 vs. 스트럭처 저널리즘
35
스트럭처 저널리즘
36
뉴스 빅데이터 (자연어처리)
37
뉴스 빅데이터 (의미연결망)
38
뉴스 정보원연결망
40
News Source Network
21
1
2 3
1
4 5
2 3
1
4 5
박대민(2013). 뉴스 기사의 빅데이터 분석 방법으로서 뉴스정보원연결망분석. <한국언론학보>, 57권 6호, 233-261.
41
News Source Network
박대민(2013). 뉴스 기사의 빅데이터 분석 방법으로서 뉴스정보원연결망분석. <한국언론학보>, 57권 6호, 233-261.
42
Adjacent Matrix & Attribute Matrix
43
Ranking
44
Biases by Bursts in Topics
연결정도(x축)에 따른 연결정도지수(y축)의 추이연결정도(x축)와 정보원 수(y축) 간의 관계
박대민(2014). 뉴스 정보원 인용에서의 폭발성과 언론의 편향성. <커뮤니케이션 이론>, 10권 1호, 295-324.
45
Biases by Bursts in Media
연결정도(x축)에 따른 연결정도지수(y축)의 추이연결정도(x축)와 정보원 수(y축) 간의 관계
박대민(2014). 뉴스 정보원 인용에서의 폭발성과 언론의 편향성. <커뮤니케이션 이론>, 10권 1호, 295-324.
News Source Network
Park, D.M., Kim, G.N., & On, B.W.(under review). Understanding the network fundamentals of the news sources associated with a specific topic. Information
Sciences..
46
39 Barack Obama
22 Jay Carney
15 Ban Kimoon
13 John Kerry
12 Victoria Nuland
10 Kim Hyunwook
10 Susan Rice
분석 사례
워드 클라우드: 청년담론
48
뉴스 정보원 연결망: 망언
49
뉴스 정보원 연결망 매체 비교: 4대강
한겨레동아
50
51
뉴스 기관 연결망: 청년담론
52
뉴스 주제 자아 연결망: 청년실업 유관 단어 비교
뉴스 정보원-주제 연결망: 망언
53
뉴스 기관-주제 연결망: 청년담론
54
뉴스 문장연결망: 분단
55
검색어: ‘분단’
분석매체: 경향, 국민, 문화, 서울,
세계, 한겨레, 한국, 동아
분석기간: 2011년 1년치
인용문 수: 인용문 949개
(중복 포함, 기사 405건)
main component
박대민(2016). 토론기계를 향하여: 유사도와 공동출현에 기초한 뉴스 문장 연결망 분석 알고리즘 제안. 한국HCI학회 학술대회. 하이원리조트 컨벤션센터, 정선.
뉴스 매체 연결망: 4대강
Originality = 1 – (Σ(Cosine Similarity-1)) / (number of media-1)
56
컴퓨터 보조 담론분석: 뉴타운
57
사설 분석
58
CAQDAS을 이용한 뉴스 분석
59
분석 시스템
뉴스소스 베타
61
차세대융합기술원(2013.12.). <빅데이터 기술 활용 스마트 뉴스 제공 모바일 앱 개발>.
박대민, 김기남, 강남용, 서봉원, 하효지, 온병원(2014). 저널리즘 가치에 기초한 알고리즘을 이용한 뉴스의 시각화. <한국HCI
학회 논문지>, 9권 2호, 5-12.
Architecture
62
Download
63
Further Study
읽어보기
65
프로그램
66
67

Mais conteúdo relacionado

Mais procurados

데이터에 포함된 동적 패턴의 탐색과 해석을 위한 협업적 탐험 플랫폼 -최진혁
데이터에 포함된 동적 패턴의 탐색과 해석을 위한 협업적 탐험 플랫폼 -최진혁데이터에 포함된 동적 패턴의 탐색과 해석을 위한 협업적 탐험 플랫폼 -최진혁
데이터에 포함된 동적 패턴의 탐색과 해석을 위한 협업적 탐험 플랫폼 -최진혁datasciencekorea
 
농업 빅데이터를 활용한 병해충 발생 예측 모형
농업 빅데이터를 활용한 병해충 발생 예측 모형농업 빅데이터를 활용한 병해충 발생 예측 모형
농업 빅데이터를 활용한 병해충 발생 예측 모형datasciencekorea
 
Process for Big Data Analysis
Process for Big Data AnalysisProcess for Big Data Analysis
Process for Big Data AnalysisMyunggoon Choi
 
Automated discourse analysis with BigKinds and Semantic Network Analyzer
Automated discourse analysis with BigKinds and Semantic Network AnalyzerAutomated discourse analysis with BigKinds and Semantic Network Analyzer
Automated discourse analysis with BigKinds and Semantic Network AnalyzerDaemin Park
 
뉴스젤리 - 데이터저널리즘 이해하기 1
뉴스젤리 - 데이터저널리즘 이해하기 1뉴스젤리 - 데이터저널리즘 이해하기 1
뉴스젤리 - 데이터저널리즘 이해하기 1Newsjelly
 
집단지성 프로그래밍 01-데이터마이닝 개요
집단지성 프로그래밍 01-데이터마이닝 개요집단지성 프로그래밍 01-데이터마이닝 개요
집단지성 프로그래밍 01-데이터마이닝 개요Kwang Woo NAM
 
[LLG_Module 1] 데이터 저널리즘
[LLG_Module 1] 데이터 저널리즘[LLG_Module 1] 데이터 저널리즘
[LLG_Module 1] 데이터 저널리즘Newsjelly
 
빅데이터 이용 사례 분석 2
빅데이터 이용 사례 분석 2빅데이터 이용 사례 분석 2
빅데이터 이용 사례 분석 2ko donghwi
 
뉴스젤리 - 데이터 저널리즘 비즈니스 모델
뉴스젤리 - 데이터 저널리즘 비즈니스 모델뉴스젤리 - 데이터 저널리즘 비즈니스 모델
뉴스젤리 - 데이터 저널리즘 비즈니스 모델Newsjelly
 
빅데이터미래전략세미나발표자료 빅데이터기술현황및전망-황승구-20120410
빅데이터미래전략세미나발표자료 빅데이터기술현황및전망-황승구-20120410빅데이터미래전략세미나발표자료 빅데이터기술현황및전망-황승구-20120410
빅데이터미래전략세미나발표자료 빅데이터기술현황및전망-황승구-20120410Peter Woo
 
빅데이터 솔루션 소개서(2013년 05월)
빅데이터 솔루션 소개서(2013년 05월)빅데이터 솔루션 소개서(2013년 05월)
빅데이터 솔루션 소개서(2013년 05월)동학 노
 
Big Data 대충 알아보기
Big Data 대충 알아보기Big Data 대충 알아보기
Big Data 대충 알아보기iron han
 
빅데이터 이용 사례 분석
빅데이터 이용 사례 분석빅데이터 이용 사례 분석
빅데이터 이용 사례 분석ko donghwi
 
2015-4 혁신기술로서의 빅데이터 국내 기술수용 초기 특성연구- 김정선
2015-4 혁신기술로서의 빅데이터 국내 기술수용 초기 특성연구- 김정선2015-4 혁신기술로서의 빅데이터 국내 기술수용 초기 특성연구- 김정선
2015-4 혁신기술로서의 빅데이터 국내 기술수용 초기 특성연구- 김정선datasciencekorea
 
빅데이터의 이해
빅데이터의 이해빅데이터의 이해
빅데이터의 이해수보 김
 
빅데이터미래전략세미나 빅데이터 기반 선진국정운영의 비전과 전략 한국정보화진흥원김현곤센터장
빅데이터미래전략세미나 빅데이터 기반 선진국정운영의 비전과 전략 한국정보화진흥원김현곤센터장빅데이터미래전략세미나 빅데이터 기반 선진국정운영의 비전과 전략 한국정보화진흥원김현곤센터장
빅데이터미래전략세미나 빅데이터 기반 선진국정운영의 비전과 전략 한국정보화진흥원김현곤센터장Seungyeob Yang
 
빅데이터 시대 새로운 신기술과 활용방향
빅데이터 시대 새로운 신기술과 활용방향빅데이터 시대 새로운 신기술과 활용방향
빅데이터 시대 새로운 신기술과 활용방향Webometrics Class
 
데이터시장의 트렌드와 예측 - 이영환
데이터시장의 트렌드와 예측 - 이영환 데이터시장의 트렌드와 예측 - 이영환
데이터시장의 트렌드와 예측 - 이영환 datasciencekorea
 
빅데이터의 개념과 이해 그리고 활용사례 (Introduction to big data and use cases)
빅데이터의 개념과 이해 그리고 활용사례 (Introduction to big data and use cases)빅데이터의 개념과 이해 그리고 활용사례 (Introduction to big data and use cases)
빅데이터의 개념과 이해 그리고 활용사례 (Introduction to big data and use cases)Wonjin Lee
 

Mais procurados (20)

데이터에 포함된 동적 패턴의 탐색과 해석을 위한 협업적 탐험 플랫폼 -최진혁
데이터에 포함된 동적 패턴의 탐색과 해석을 위한 협업적 탐험 플랫폼 -최진혁데이터에 포함된 동적 패턴의 탐색과 해석을 위한 협업적 탐험 플랫폼 -최진혁
데이터에 포함된 동적 패턴의 탐색과 해석을 위한 협업적 탐험 플랫폼 -최진혁
 
농업 빅데이터를 활용한 병해충 발생 예측 모형
농업 빅데이터를 활용한 병해충 발생 예측 모형농업 빅데이터를 활용한 병해충 발생 예측 모형
농업 빅데이터를 활용한 병해충 발생 예측 모형
 
Process for Big Data Analysis
Process for Big Data AnalysisProcess for Big Data Analysis
Process for Big Data Analysis
 
Automated discourse analysis with BigKinds and Semantic Network Analyzer
Automated discourse analysis with BigKinds and Semantic Network AnalyzerAutomated discourse analysis with BigKinds and Semantic Network Analyzer
Automated discourse analysis with BigKinds and Semantic Network Analyzer
 
뉴스젤리 - 데이터저널리즘 이해하기 1
뉴스젤리 - 데이터저널리즘 이해하기 1뉴스젤리 - 데이터저널리즘 이해하기 1
뉴스젤리 - 데이터저널리즘 이해하기 1
 
빅데이터
빅데이터빅데이터
빅데이터
 
집단지성 프로그래밍 01-데이터마이닝 개요
집단지성 프로그래밍 01-데이터마이닝 개요집단지성 프로그래밍 01-데이터마이닝 개요
집단지성 프로그래밍 01-데이터마이닝 개요
 
[LLG_Module 1] 데이터 저널리즘
[LLG_Module 1] 데이터 저널리즘[LLG_Module 1] 데이터 저널리즘
[LLG_Module 1] 데이터 저널리즘
 
빅데이터 이용 사례 분석 2
빅데이터 이용 사례 분석 2빅데이터 이용 사례 분석 2
빅데이터 이용 사례 분석 2
 
뉴스젤리 - 데이터 저널리즘 비즈니스 모델
뉴스젤리 - 데이터 저널리즘 비즈니스 모델뉴스젤리 - 데이터 저널리즘 비즈니스 모델
뉴스젤리 - 데이터 저널리즘 비즈니스 모델
 
빅데이터미래전략세미나발표자료 빅데이터기술현황및전망-황승구-20120410
빅데이터미래전략세미나발표자료 빅데이터기술현황및전망-황승구-20120410빅데이터미래전략세미나발표자료 빅데이터기술현황및전망-황승구-20120410
빅데이터미래전략세미나발표자료 빅데이터기술현황및전망-황승구-20120410
 
빅데이터 솔루션 소개서(2013년 05월)
빅데이터 솔루션 소개서(2013년 05월)빅데이터 솔루션 소개서(2013년 05월)
빅데이터 솔루션 소개서(2013년 05월)
 
Big Data 대충 알아보기
Big Data 대충 알아보기Big Data 대충 알아보기
Big Data 대충 알아보기
 
빅데이터 이용 사례 분석
빅데이터 이용 사례 분석빅데이터 이용 사례 분석
빅데이터 이용 사례 분석
 
2015-4 혁신기술로서의 빅데이터 국내 기술수용 초기 특성연구- 김정선
2015-4 혁신기술로서의 빅데이터 국내 기술수용 초기 특성연구- 김정선2015-4 혁신기술로서의 빅데이터 국내 기술수용 초기 특성연구- 김정선
2015-4 혁신기술로서의 빅데이터 국내 기술수용 초기 특성연구- 김정선
 
빅데이터의 이해
빅데이터의 이해빅데이터의 이해
빅데이터의 이해
 
빅데이터미래전략세미나 빅데이터 기반 선진국정운영의 비전과 전략 한국정보화진흥원김현곤센터장
빅데이터미래전략세미나 빅데이터 기반 선진국정운영의 비전과 전략 한국정보화진흥원김현곤센터장빅데이터미래전략세미나 빅데이터 기반 선진국정운영의 비전과 전략 한국정보화진흥원김현곤센터장
빅데이터미래전략세미나 빅데이터 기반 선진국정운영의 비전과 전략 한국정보화진흥원김현곤센터장
 
빅데이터 시대 새로운 신기술과 활용방향
빅데이터 시대 새로운 신기술과 활용방향빅데이터 시대 새로운 신기술과 활용방향
빅데이터 시대 새로운 신기술과 활용방향
 
데이터시장의 트렌드와 예측 - 이영환
데이터시장의 트렌드와 예측 - 이영환 데이터시장의 트렌드와 예측 - 이영환
데이터시장의 트렌드와 예측 - 이영환
 
빅데이터의 개념과 이해 그리고 활용사례 (Introduction to big data and use cases)
빅데이터의 개념과 이해 그리고 활용사례 (Introduction to big data and use cases)빅데이터의 개념과 이해 그리고 활용사례 (Introduction to big data and use cases)
빅데이터의 개념과 이해 그리고 활용사례 (Introduction to big data and use cases)
 

Destaque

Toward a debating machine: A news sentence network analysis algorithm based o...
Toward a debating machine: A news sentence network analysis algorithm based o...Toward a debating machine: A news sentence network analysis algorithm based o...
Toward a debating machine: A news sentence network analysis algorithm based o...Daemin Park
 
Toward a news data science
Toward a news data scienceToward a news data science
Toward a news data scienceDaemin Park
 
News Semantic Network Analysis of Named Entities
News Semantic Network Analysis of Named EntitiesNews Semantic Network Analysis of Named Entities
News Semantic Network Analysis of Named EntitiesDaemin Park
 
Debating Machine: Rule Based News Sentence Network Analysis
Debating Machine: Rule Based News Sentence Network AnalysisDebating Machine: Rule Based News Sentence Network Analysis
Debating Machine: Rule Based News Sentence Network AnalysisDaemin Park
 
Natural language processing of news
Natural language processing of newsNatural language processing of news
Natural language processing of newsDaemin Park
 
Natural language processing of News (intermediate): rule based model
Natural language processing of News (intermediate): rule based modelNatural language processing of News (intermediate): rule based model
Natural language processing of News (intermediate): rule based modelDaemin Park
 
HCI task anaysis : ASIMO
HCI task anaysis : ASIMOHCI task anaysis : ASIMO
HCI task anaysis : ASIMONammin Lee
 
Taste Picker 개발경험기
Taste Picker 개발경험기Taste Picker 개발경험기
Taste Picker 개발경험기Jae Woo Woo
 
검색엔진 과거, 현재 그리고 미래
검색엔진 과거, 현재 그리고 미래검색엔진 과거, 현재 그리고 미래
검색엔진 과거, 현재 그리고 미래LINE Plus Corp
 
Media kit k_cubeventures_미디어용1610
Media kit k_cubeventures_미디어용1610Media kit k_cubeventures_미디어용1610
Media kit k_cubeventures_미디어용1610K Cube Ventures
 
[우리가 데이터를 쓰는 법] 온라인 서비스 개선을 위한 데이터 활용법 - 마이크로소프트 김진영 데이터과학자
[우리가 데이터를 쓰는 법] 온라인 서비스 개선을 위한 데이터 활용법 - 마이크로소프트 김진영 데이터과학자[우리가 데이터를 쓰는 법] 온라인 서비스 개선을 위한 데이터 활용법 - 마이크로소프트 김진영 데이터과학자
[우리가 데이터를 쓰는 법] 온라인 서비스 개선을 위한 데이터 활용법 - 마이크로소프트 김진영 데이터과학자Dylan Ko
 
연관도 분석을 이용한 데이터마이닝
연관도 분석을 이용한 데이터마이닝연관도 분석을 이용한 데이터마이닝
연관도 분석을 이용한 데이터마이닝Keunhyun Oh
 
빅데이터 처리에 있어서 이미지 비디오 데이터의 분석
빅데이터 처리에 있어서 이미지 비디오 데이터의 분석빅데이터 처리에 있어서 이미지 비디오 데이터의 분석
빅데이터 처리에 있어서 이미지 비디오 데이터의 분석JeongHeon Lee
 
Alipay 이용 방법
Alipay 이용 방법Alipay 이용 방법
Alipay 이용 방법PayGate
 
빅데이터란?
빅데이터란?빅데이터란?
빅데이터란?Yoseop Shin
 
진화하는 소셜 큐레이션 서비스와 관련 기술
진화하는 소셜 큐레이션 서비스와 관련 기술진화하는 소셜 큐레이션 서비스와 관련 기술
진화하는 소셜 큐레이션 서비스와 관련 기술Taegon Kim
 
음악게임연구소 사업계획서
음악게임연구소 사업계획서음악게임연구소 사업계획서
음악게임연구소 사업계획서Seokkyu Kim
 
[코세나, kosena] 빅데이터 구축 및 제안 가이드
[코세나, kosena] 빅데이터 구축 및 제안 가이드[코세나, kosena] 빅데이터 구축 및 제안 가이드
[코세나, kosena] 빅데이터 구축 및 제안 가이드kosena
 

Destaque (19)

Toward a debating machine: A news sentence network analysis algorithm based o...
Toward a debating machine: A news sentence network analysis algorithm based o...Toward a debating machine: A news sentence network analysis algorithm based o...
Toward a debating machine: A news sentence network analysis algorithm based o...
 
Toward a news data science
Toward a news data scienceToward a news data science
Toward a news data science
 
News Semantic Network Analysis of Named Entities
News Semantic Network Analysis of Named EntitiesNews Semantic Network Analysis of Named Entities
News Semantic Network Analysis of Named Entities
 
Debating Machine: Rule Based News Sentence Network Analysis
Debating Machine: Rule Based News Sentence Network AnalysisDebating Machine: Rule Based News Sentence Network Analysis
Debating Machine: Rule Based News Sentence Network Analysis
 
Natural language processing of news
Natural language processing of newsNatural language processing of news
Natural language processing of news
 
Natural language processing of News (intermediate): rule based model
Natural language processing of News (intermediate): rule based modelNatural language processing of News (intermediate): rule based model
Natural language processing of News (intermediate): rule based model
 
HCI task anaysis : ASIMO
HCI task anaysis : ASIMOHCI task anaysis : ASIMO
HCI task anaysis : ASIMO
 
Taste Picker 개발경험기
Taste Picker 개발경험기Taste Picker 개발경험기
Taste Picker 개발경험기
 
검색엔진 과거, 현재 그리고 미래
검색엔진 과거, 현재 그리고 미래검색엔진 과거, 현재 그리고 미래
검색엔진 과거, 현재 그리고 미래
 
Media kit k_cubeventures_미디어용1610
Media kit k_cubeventures_미디어용1610Media kit k_cubeventures_미디어용1610
Media kit k_cubeventures_미디어용1610
 
[우리가 데이터를 쓰는 법] 온라인 서비스 개선을 위한 데이터 활용법 - 마이크로소프트 김진영 데이터과학자
[우리가 데이터를 쓰는 법] 온라인 서비스 개선을 위한 데이터 활용법 - 마이크로소프트 김진영 데이터과학자[우리가 데이터를 쓰는 법] 온라인 서비스 개선을 위한 데이터 활용법 - 마이크로소프트 김진영 데이터과학자
[우리가 데이터를 쓰는 법] 온라인 서비스 개선을 위한 데이터 활용법 - 마이크로소프트 김진영 데이터과학자
 
연관도 분석을 이용한 데이터마이닝
연관도 분석을 이용한 데이터마이닝연관도 분석을 이용한 데이터마이닝
연관도 분석을 이용한 데이터마이닝
 
빅데이터 처리에 있어서 이미지 비디오 데이터의 분석
빅데이터 처리에 있어서 이미지 비디오 데이터의 분석빅데이터 처리에 있어서 이미지 비디오 데이터의 분석
빅데이터 처리에 있어서 이미지 비디오 데이터의 분석
 
Alipay 이용 방법
Alipay 이용 방법Alipay 이용 방법
Alipay 이용 방법
 
빅데이터란?
빅데이터란?빅데이터란?
빅데이터란?
 
진화하는 소셜 큐레이션 서비스와 관련 기술
진화하는 소셜 큐레이션 서비스와 관련 기술진화하는 소셜 큐레이션 서비스와 관련 기술
진화하는 소셜 큐레이션 서비스와 관련 기술
 
음악게임연구소 사업계획서
음악게임연구소 사업계획서음악게임연구소 사업계획서
음악게임연구소 사업계획서
 
[코세나, kosena] 빅데이터 구축 및 제안 가이드
[코세나, kosena] 빅데이터 구축 및 제안 가이드[코세나, kosena] 빅데이터 구축 및 제안 가이드
[코세나, kosena] 빅데이터 구축 및 제안 가이드
 
Hadoop 기반 빅데이터 이해
Hadoop 기반 빅데이터 이해Hadoop 기반 빅데이터 이해
Hadoop 기반 빅데이터 이해
 

Semelhante a News Big Data Analytics 101

빅데이터, 가치창출구조와 가능성
빅데이터, 가치창출구조와 가능성빅데이터, 가치창출구조와 가능성
빅데이터, 가치창출구조와 가능성Jeong-Soo KANG
 
LLG Data Journalism Module1 Review
LLG Data Journalism Module1 ReviewLLG Data Journalism Module1 Review
LLG Data Journalism Module1 Reviewneuroassociates
 
13주차 뉴스 빅데이터 기반 저널리즘 연구
13주차 뉴스 빅데이터 기반 저널리즘 연구13주차 뉴스 빅데이터 기반 저널리즘 연구
13주차 뉴스 빅데이터 기반 저널리즘 연구Daemin Park
 
웹보메트릭스와 계량정보학01 2
웹보메트릭스와 계량정보학01 2웹보메트릭스와 계량정보학01 2
웹보메트릭스와 계량정보학01 2Han Woo PARK
 
웹보메트릭스01 2
웹보메트릭스01 2웹보메트릭스01 2
웹보메트릭스01 2Inho Cho
 
빅데이터전문가교육 2학기
빅데이터전문가교육 2학기빅데이터전문가교육 2학기
빅데이터전문가교육 2학기Kangwook Lee
 
빅 데이터, 새로운 통찰력
빅 데이터, 새로운 통찰력빅 데이터, 새로운 통찰력
빅 데이터, 새로운 통찰력현주 유
 
의료용 디지털트윈의 정의, 주요 동향(정책, 기술)과 바이오헬스 분야 응용.pptx
의료용 디지털트윈의 정의, 주요 동향(정책, 기술)과 바이오헬스 분야 응용.pptx의료용 디지털트윈의 정의, 주요 동향(정책, 기술)과 바이오헬스 분야 응용.pptx
의료용 디지털트윈의 정의, 주요 동향(정책, 기술)과 바이오헬스 분야 응용.pptxNamkug Kim
 
빅데이터와 타겟 마케팅 Ver 1 0
빅데이터와 타겟 마케팅 Ver 1 0빅데이터와 타겟 마케팅 Ver 1 0
빅데이터와 타겟 마케팅 Ver 1 0Konkuk University
 
20120924134035 빅데이터시대,ai의새로운의미와가치
20120924134035 빅데이터시대,ai의새로운의미와가치20120924134035 빅데이터시대,ai의새로운의미와가치
20120924134035 빅데이터시대,ai의새로운의미와가치Webometrics Class
 
디지털인문학교육 초안 김바로
디지털인문학교육 초안 김바로디지털인문학교육 초안 김바로
디지털인문학교육 초안 김바로Baro Kim
 
오픈사이언스와 연구데이터
오픈사이언스와 연구데이터오픈사이언스와 연구데이터
오픈사이언스와 연구데이터Suntae Kim
 
공공 데이터와 인포그래픽스를 활용한 문화관광기획
공공 데이터와 인포그래픽스를 활용한 문화관광기획공공 데이터와 인포그래픽스를 활용한 문화관광기획
공공 데이터와 인포그래픽스를 활용한 문화관광기획Han Woo PARK
 
연구업적 데이터베이스를 활용한 빅데이터 분석시스템 (16 sep2014)
연구업적 데이터베이스를 활용한 빅데이터 분석시스템 (16 sep2014)연구업적 데이터베이스를 활용한 빅데이터 분석시스템 (16 sep2014)
연구업적 데이터베이스를 활용한 빅데이터 분석시스템 (16 sep2014)Han Woo PARK
 
데이터저널리즘과 선거 웹보메트릭스연구사례(24 oc2011)
데이터저널리즘과 선거 웹보메트릭스연구사례(24 oc2011)데이터저널리즘과 선거 웹보메트릭스연구사례(24 oc2011)
데이터저널리즘과 선거 웹보메트릭스연구사례(24 oc2011)Han Woo PARK
 
데이터 노마디즘_4차 산업혁명 시대 인문학을 위한 다언어 다문화 데이터 아카이브 플랫폼 구상_20201101_new_수정완료.pdf
데이터 노마디즘_4차 산업혁명 시대 인문학을 위한 다언어 다문화 데이터 아카이브 플랫폼 구상_20201101_new_수정완료.pdf데이터 노마디즘_4차 산업혁명 시대 인문학을 위한 다언어 다문화 데이터 아카이브 플랫폼 구상_20201101_new_수정완료.pdf
데이터 노마디즘_4차 산업혁명 시대 인문학을 위한 다언어 다문화 데이터 아카이브 플랫폼 구상_20201101_new_수정완료.pdfAlexanderPark28
 
디지털트윈, 스마트시티, 메타버스
디지털트윈, 스마트시티, 메타버스디지털트윈, 스마트시티, 메타버스
디지털트윈, 스마트시티, 메타버스SANGHEE SHIN
 
[FAST CAMPUS] 1강 data science overview
[FAST CAMPUS] 1강 data science overview [FAST CAMPUS] 1강 data science overview
[FAST CAMPUS] 1강 data science overview chanyoonkim
 
4차산업시대와 의료환경
4차산업시대와 의료환경 4차산업시대와 의료환경
4차산업시대와 의료환경 Namkug Kim
 

Semelhante a News Big Data Analytics 101 (20)

빅데이터, 가치창출구조와 가능성
빅데이터, 가치창출구조와 가능성빅데이터, 가치창출구조와 가능성
빅데이터, 가치창출구조와 가능성
 
LLG Data Journalism Module1 Review
LLG Data Journalism Module1 ReviewLLG Data Journalism Module1 Review
LLG Data Journalism Module1 Review
 
13주차 뉴스 빅데이터 기반 저널리즘 연구
13주차 뉴스 빅데이터 기반 저널리즘 연구13주차 뉴스 빅데이터 기반 저널리즘 연구
13주차 뉴스 빅데이터 기반 저널리즘 연구
 
웹보메트릭스와 계량정보학01 2
웹보메트릭스와 계량정보학01 2웹보메트릭스와 계량정보학01 2
웹보메트릭스와 계량정보학01 2
 
웹보메트릭스01 2
웹보메트릭스01 2웹보메트릭스01 2
웹보메트릭스01 2
 
빅데이터전문가교육 2학기
빅데이터전문가교육 2학기빅데이터전문가교육 2학기
빅데이터전문가교육 2학기
 
빅 데이터, 새로운 통찰력
빅 데이터, 새로운 통찰력빅 데이터, 새로운 통찰력
빅 데이터, 새로운 통찰력
 
의료용 디지털트윈의 정의, 주요 동향(정책, 기술)과 바이오헬스 분야 응용.pptx
의료용 디지털트윈의 정의, 주요 동향(정책, 기술)과 바이오헬스 분야 응용.pptx의료용 디지털트윈의 정의, 주요 동향(정책, 기술)과 바이오헬스 분야 응용.pptx
의료용 디지털트윈의 정의, 주요 동향(정책, 기술)과 바이오헬스 분야 응용.pptx
 
빅데이터와 타겟 마케팅 Ver 1 0
빅데이터와 타겟 마케팅 Ver 1 0빅데이터와 타겟 마케팅 Ver 1 0
빅데이터와 타겟 마케팅 Ver 1 0
 
20120924134035 빅데이터시대,ai의새로운의미와가치
20120924134035 빅데이터시대,ai의새로운의미와가치20120924134035 빅데이터시대,ai의새로운의미와가치
20120924134035 빅데이터시대,ai의새로운의미와가치
 
디지털인문학교육 초안 김바로
디지털인문학교육 초안 김바로디지털인문학교육 초안 김바로
디지털인문학교육 초안 김바로
 
오픈사이언스와 연구데이터
오픈사이언스와 연구데이터오픈사이언스와 연구데이터
오픈사이언스와 연구데이터
 
공공 데이터와 인포그래픽스를 활용한 문화관광기획
공공 데이터와 인포그래픽스를 활용한 문화관광기획공공 데이터와 인포그래픽스를 활용한 문화관광기획
공공 데이터와 인포그래픽스를 활용한 문화관광기획
 
연구업적 데이터베이스를 활용한 빅데이터 분석시스템 (16 sep2014)
연구업적 데이터베이스를 활용한 빅데이터 분석시스템 (16 sep2014)연구업적 데이터베이스를 활용한 빅데이터 분석시스템 (16 sep2014)
연구업적 데이터베이스를 활용한 빅데이터 분석시스템 (16 sep2014)
 
데이터저널리즘과 선거 웹보메트릭스연구사례(24 oc2011)
데이터저널리즘과 선거 웹보메트릭스연구사례(24 oc2011)데이터저널리즘과 선거 웹보메트릭스연구사례(24 oc2011)
데이터저널리즘과 선거 웹보메트릭스연구사례(24 oc2011)
 
공공기관의 빅데이터 구현 전략
공공기관의 빅데이터 구현 전략공공기관의 빅데이터 구현 전략
공공기관의 빅데이터 구현 전략
 
데이터 노마디즘_4차 산업혁명 시대 인문학을 위한 다언어 다문화 데이터 아카이브 플랫폼 구상_20201101_new_수정완료.pdf
데이터 노마디즘_4차 산업혁명 시대 인문학을 위한 다언어 다문화 데이터 아카이브 플랫폼 구상_20201101_new_수정완료.pdf데이터 노마디즘_4차 산업혁명 시대 인문학을 위한 다언어 다문화 데이터 아카이브 플랫폼 구상_20201101_new_수정완료.pdf
데이터 노마디즘_4차 산업혁명 시대 인문학을 위한 다언어 다문화 데이터 아카이브 플랫폼 구상_20201101_new_수정완료.pdf
 
디지털트윈, 스마트시티, 메타버스
디지털트윈, 스마트시티, 메타버스디지털트윈, 스마트시티, 메타버스
디지털트윈, 스마트시티, 메타버스
 
[FAST CAMPUS] 1강 data science overview
[FAST CAMPUS] 1강 data science overview [FAST CAMPUS] 1강 data science overview
[FAST CAMPUS] 1강 data science overview
 
4차산업시대와 의료환경
4차산업시대와 의료환경 4차산업시대와 의료환경
4차산업시대와 의료환경
 

Mais de Daemin Park

박대민(2019) 미디어 스타트업 투자 연결망 분석
박대민(2019) 미디어 스타트업 투자 연결망 분석박대민(2019) 미디어 스타트업 투자 연결망 분석
박대민(2019) 미디어 스타트업 투자 연결망 분석Daemin Park
 
8 week: Technology of Platformless Media Blockchain
8 week: Technology of Platformless Media Blockchain8 week: Technology of Platformless Media Blockchain
8 week: Technology of Platformless Media BlockchainDaemin Park
 
7주차: 플랫폼리스 미디어 블록체인 모형
7주차: 플랫폼리스 미디어 블록체인 모형7주차: 플랫폼리스 미디어 블록체인 모형
7주차: 플랫폼리스 미디어 블록체인 모형Daemin Park
 
Steemit and Governance for Creators (2019-S: Media Blockchain)
Steemit and Governance for Creators (2019-S: Media Blockchain)Steemit and Governance for Creators (2019-S: Media Blockchain)
Steemit and Governance for Creators (2019-S: Media Blockchain)Daemin Park
 
6 week: Cryptoeconomics over the mechanism design (2019-S: Media Blockchain)
6 week: Cryptoeconomics over the mechanism design (2019-S: Media Blockchain)6 week: Cryptoeconomics over the mechanism design (2019-S: Media Blockchain)
6 week: Cryptoeconomics over the mechanism design (2019-S: Media Blockchain)Daemin Park
 
4주차: 플랫폼리스 미디어 블록체인
4주차: 플랫폼리스 미디어 블록체인4주차: 플랫폼리스 미디어 블록체인
4주차: 플랫폼리스 미디어 블록체인Daemin Park
 
Platformless Mediablockchain (2019-S: Media Blockchain)
Platformless Mediablockchain (2019-S: Media Blockchain) Platformless Mediablockchain (2019-S: Media Blockchain)
Platformless Mediablockchain (2019-S: Media Blockchain) Daemin Park
 
Media Innovation Ecosystem (2019-S: Media Blockchain)
Media Innovation Ecosystem (2019-S: Media Blockchain) Media Innovation Ecosystem (2019-S: Media Blockchain)
Media Innovation Ecosystem (2019-S: Media Blockchain) Daemin Park
 
세션 3-2: 도시에도 OS가 필요하다 (홍주석)
세션 3-2: 도시에도 OS가 필요하다 (홍주석)세션 3-2: 도시에도 OS가 필요하다 (홍주석)
세션 3-2: 도시에도 OS가 필요하다 (홍주석)Daemin Park
 
세션 3-3 로컬 크리에이터, 힙스터인가 혁신가인가 (김혁주)
세션 3-3 로컬 크리에이터, 힙스터인가 혁신가인가 (김혁주)세션 3-3 로컬 크리에이터, 힙스터인가 혁신가인가 (김혁주)
세션 3-3 로컬 크리에이터, 힙스터인가 혁신가인가 (김혁주)Daemin Park
 
세션 3-1: 지역방송의 크로스미디어 전략 (하현제)
세션 3-1: 지역방송의 크로스미디어 전략 (하현제)세션 3-1: 지역방송의 크로스미디어 전략 (하현제)
세션 3-1: 지역방송의 크로스미디어 전략 (하현제)Daemin Park
 
세션 2-2: 블록체인 기반 미디어 유통을 위한 메타데이터 표준의 중요성 (박춘원)
세션 2-2: 블록체인 기반 미디어 유통을 위한 메타데이터 표준의 중요성 (박춘원)세션 2-2: 블록체인 기반 미디어 유통을 위한 메타데이터 표준의 중요성 (박춘원)
세션 2-2: 블록체인 기반 미디어 유통을 위한 메타데이터 표준의 중요성 (박춘원)Daemin Park
 
세션 2-3: 블록체인이 콘텐츠 딜리버리 시스템에 미치는 영향과 그 변화에 관하여 (남현우)
세션 2-3: 블록체인이 콘텐츠 딜리버리 시스템에 미치는 영향과 그 변화에 관하여 (남현우)세션 2-3: 블록체인이 콘텐츠 딜리버리 시스템에 미치는 영향과 그 변화에 관하여 (남현우)
세션 2-3: 블록체인이 콘텐츠 딜리버리 시스템에 미치는 영향과 그 변화에 관하여 (남현우)Daemin Park
 
세션 2-4: 자유 없는 블록체인은 디스토피아의 BIG (BR)Other (유성훈)
세션 2-4: 자유 없는 블록체인은 디스토피아의 BIG (BR)Other (유성훈)세션 2-4: 자유 없는 블록체인은 디스토피아의 BIG (BR)Other (유성훈)
세션 2-4: 자유 없는 블록체인은 디스토피아의 BIG (BR)Other (유성훈)Daemin Park
 
세션 1-1: 블록체인 환경에서 미디어의 미래전략연구(김상호)
세션 1-1: 블록체인 환경에서 미디어의 미래전략연구(김상호)세션 1-1: 블록체인 환경에서 미디어의 미래전략연구(김상호)
세션 1-1: 블록체인 환경에서 미디어의 미래전략연구(김상호)Daemin Park
 
11주차 뉴스 중심어 연결망 분석
11주차 뉴스 중심어 연결망 분석11주차 뉴스 중심어 연결망 분석
11주차 뉴스 중심어 연결망 분석Daemin Park
 
10주차 뉴스 정보원-주제 연결망 분석
10주차 뉴스 정보원-주제 연결망 분석10주차 뉴스 정보원-주제 연결망 분석
10주차 뉴스 정보원-주제 연결망 분석Daemin Park
 
9주차 뉴스 주제 연결망 분석
9주차 뉴스 주제 연결망 분석9주차 뉴스 주제 연결망 분석
9주차 뉴스 주제 연결망 분석Daemin Park
 
7주차 뉴스 정보원 연결망 분석
7주차 뉴스 정보원 연결망 분석7주차 뉴스 정보원 연결망 분석
7주차 뉴스 정보원 연결망 분석Daemin Park
 
6주차 의미 연결망 분석 이론
6주차 의미 연결망 분석 이론6주차 의미 연결망 분석 이론
6주차 의미 연결망 분석 이론Daemin Park
 

Mais de Daemin Park (20)

박대민(2019) 미디어 스타트업 투자 연결망 분석
박대민(2019) 미디어 스타트업 투자 연결망 분석박대민(2019) 미디어 스타트업 투자 연결망 분석
박대민(2019) 미디어 스타트업 투자 연결망 분석
 
8 week: Technology of Platformless Media Blockchain
8 week: Technology of Platformless Media Blockchain8 week: Technology of Platformless Media Blockchain
8 week: Technology of Platformless Media Blockchain
 
7주차: 플랫폼리스 미디어 블록체인 모형
7주차: 플랫폼리스 미디어 블록체인 모형7주차: 플랫폼리스 미디어 블록체인 모형
7주차: 플랫폼리스 미디어 블록체인 모형
 
Steemit and Governance for Creators (2019-S: Media Blockchain)
Steemit and Governance for Creators (2019-S: Media Blockchain)Steemit and Governance for Creators (2019-S: Media Blockchain)
Steemit and Governance for Creators (2019-S: Media Blockchain)
 
6 week: Cryptoeconomics over the mechanism design (2019-S: Media Blockchain)
6 week: Cryptoeconomics over the mechanism design (2019-S: Media Blockchain)6 week: Cryptoeconomics over the mechanism design (2019-S: Media Blockchain)
6 week: Cryptoeconomics over the mechanism design (2019-S: Media Blockchain)
 
4주차: 플랫폼리스 미디어 블록체인
4주차: 플랫폼리스 미디어 블록체인4주차: 플랫폼리스 미디어 블록체인
4주차: 플랫폼리스 미디어 블록체인
 
Platformless Mediablockchain (2019-S: Media Blockchain)
Platformless Mediablockchain (2019-S: Media Blockchain) Platformless Mediablockchain (2019-S: Media Blockchain)
Platformless Mediablockchain (2019-S: Media Blockchain)
 
Media Innovation Ecosystem (2019-S: Media Blockchain)
Media Innovation Ecosystem (2019-S: Media Blockchain) Media Innovation Ecosystem (2019-S: Media Blockchain)
Media Innovation Ecosystem (2019-S: Media Blockchain)
 
세션 3-2: 도시에도 OS가 필요하다 (홍주석)
세션 3-2: 도시에도 OS가 필요하다 (홍주석)세션 3-2: 도시에도 OS가 필요하다 (홍주석)
세션 3-2: 도시에도 OS가 필요하다 (홍주석)
 
세션 3-3 로컬 크리에이터, 힙스터인가 혁신가인가 (김혁주)
세션 3-3 로컬 크리에이터, 힙스터인가 혁신가인가 (김혁주)세션 3-3 로컬 크리에이터, 힙스터인가 혁신가인가 (김혁주)
세션 3-3 로컬 크리에이터, 힙스터인가 혁신가인가 (김혁주)
 
세션 3-1: 지역방송의 크로스미디어 전략 (하현제)
세션 3-1: 지역방송의 크로스미디어 전략 (하현제)세션 3-1: 지역방송의 크로스미디어 전략 (하현제)
세션 3-1: 지역방송의 크로스미디어 전략 (하현제)
 
세션 2-2: 블록체인 기반 미디어 유통을 위한 메타데이터 표준의 중요성 (박춘원)
세션 2-2: 블록체인 기반 미디어 유통을 위한 메타데이터 표준의 중요성 (박춘원)세션 2-2: 블록체인 기반 미디어 유통을 위한 메타데이터 표준의 중요성 (박춘원)
세션 2-2: 블록체인 기반 미디어 유통을 위한 메타데이터 표준의 중요성 (박춘원)
 
세션 2-3: 블록체인이 콘텐츠 딜리버리 시스템에 미치는 영향과 그 변화에 관하여 (남현우)
세션 2-3: 블록체인이 콘텐츠 딜리버리 시스템에 미치는 영향과 그 변화에 관하여 (남현우)세션 2-3: 블록체인이 콘텐츠 딜리버리 시스템에 미치는 영향과 그 변화에 관하여 (남현우)
세션 2-3: 블록체인이 콘텐츠 딜리버리 시스템에 미치는 영향과 그 변화에 관하여 (남현우)
 
세션 2-4: 자유 없는 블록체인은 디스토피아의 BIG (BR)Other (유성훈)
세션 2-4: 자유 없는 블록체인은 디스토피아의 BIG (BR)Other (유성훈)세션 2-4: 자유 없는 블록체인은 디스토피아의 BIG (BR)Other (유성훈)
세션 2-4: 자유 없는 블록체인은 디스토피아의 BIG (BR)Other (유성훈)
 
세션 1-1: 블록체인 환경에서 미디어의 미래전략연구(김상호)
세션 1-1: 블록체인 환경에서 미디어의 미래전략연구(김상호)세션 1-1: 블록체인 환경에서 미디어의 미래전략연구(김상호)
세션 1-1: 블록체인 환경에서 미디어의 미래전략연구(김상호)
 
11주차 뉴스 중심어 연결망 분석
11주차 뉴스 중심어 연결망 분석11주차 뉴스 중심어 연결망 분석
11주차 뉴스 중심어 연결망 분석
 
10주차 뉴스 정보원-주제 연결망 분석
10주차 뉴스 정보원-주제 연결망 분석10주차 뉴스 정보원-주제 연결망 분석
10주차 뉴스 정보원-주제 연결망 분석
 
9주차 뉴스 주제 연결망 분석
9주차 뉴스 주제 연결망 분석9주차 뉴스 주제 연결망 분석
9주차 뉴스 주제 연결망 분석
 
7주차 뉴스 정보원 연결망 분석
7주차 뉴스 정보원 연결망 분석7주차 뉴스 정보원 연결망 분석
7주차 뉴스 정보원 연결망 분석
 
6주차 의미 연결망 분석 이론
6주차 의미 연결망 분석 이론6주차 의미 연결망 분석 이론
6주차 의미 연결망 분석 이론
 

News Big Data Analytics 101

Notas do Editor

  1. DC는 세계에서 생성되는 데이터 양이 2013년 4제타바이트(ZB)에서 2020년 44ZB로 10배 이상 늘어날 것으로 예상했다. 1ZB는 약 1조1000억GB다. 3MB 안팎의 MP3 곡을 281조5000억개 저장할 수 있는 용량이다. 페이스북 사용자들이 매일 업로드하는 이미지가 3억5000만장 이상이다. 유튜브에는 1분마다 300시간 이상 분량의 영상이 올라온다. 비정형데이터가 전체 데이터에서 차지하는 비중은 50%를 넘어섰다. 2020년엔 80% 이상을 차지할 것이란 관측이 나온다. http://www.hankyung.com/news/app/newsview.php?aid=2016020966901#AA.11247356.1
  2. 1936년 The Literary Digest의 전화번호부나 자동차등록부 기준 1000만통 엽서(240만 답장) vs. Gallup 5만명(무작위 표집, 가계소득 비율 할당 표집): 루즈벨트 60.8%, 랜던 36.54% 미국 미네아폴리스에 사는 Charles Duhigg 이 Target 백화점에 왜 자기들은 필요도 없는 임신용품 쿠폰을 보내냐고 항의하니 결국 딸이 집안 캄퓨터를 사용해 임신에 대해 알아본 것을 분석해 보낸 것으로 들어나 거의 마술사(socerey) 같은 족집게 마케팅이었다는 The New York Times (2012)의 기사도 사실 부풀려진 것이다.이렇게 한 사람의 성공을 위해 일반적으로 무수하게 많은 DM 쿠폰, 카탈로그를 보낸다. Google은 2009년 Nature 지에 “Detecting influenza epidemic using search engine query data(457, 1012-1017, 19. Feb. 2009)를 게재. 구글 쿼리에 독감 관련 키워드를 입력하는 양과 지역적 특성을 고려해 독감의 발생지역과 전파 경로를 미국 공중위생국(CDC)보다 더 빠르게 그리고 정확하게 알려주었다… 그러나 2012년 겨울에 미국 동부지역에서 독감 확산 공포에 대한 사람들의 반응은 건강한 사람들에게도 독감 관련 키워드를 구글에 입력해 서치하게 해 인위적으로 쿼리 수가 부풀려졌다
  3. http://www.truthdig.com/cartoon/item/big_data_is_watching_out_for_you_20130618 FBI, NSA: 권력, 범죄예방도 할 수 있지만 감시할 수도 BIG BROTHER 구글이나 페이스북: 맞춤형 서비스도 제공할 수 있지만 잊혀질 권리, 프라이버시 문제
  4. http://www.slideshare.net/AndersQuitzauIbm/big-data-analyticsin-energy-utilities
  5. CAGR: compound annual growth rate 53% 복리로 성장
  6. 가트너 hype cycle 2015 시민 데이터과학 기계학습 데이터분석
  7. 바둑은 우주 전체의 원자 수보다 많은 10의 170제곱이나 되는 경우의 수가 있음 프로 바둑기사들의 대국 기보 3,000만 건을 입력 무작위로 말을 대입해보며 예상 확률을 알아낸 뒤 가장 가능성이 높은 수를 선택하는 컴퓨터 기법인 ‘몬테카를로 트리탐색’  ‘정책망’은 상대방의 다음 움직임을 미리 예측해 이길 가능성이 높은 수만 고려하도록 해주고, ‘가치망’은 바둑돌의 위치 별로 승자가 누가 될지 예측 알파고가 1,000년에 해당하는 시간 만큼 바둑을 학습 강화학습 자신과의 대국 일 3만, 한달 100만 >정책망의 예측 성공률을 57%까지 높암 https://www.youtube.com/watch?v=Yr_nRnqeDp0
  8. 한국정보통신연구원에서 발간한 ‘넷플릭스의 빅 데이터(Big Data), 인문학적 상상력과의 접점’이라는 동향 분석 보고서의 일부다. “그렇게 이용자들의 선호도를 분석해서 원하는 드라마와 원 하는 배우와 감독, 원하는 스토리를 찾아냈다. 결론은 1990년에 방영된 영국 BBC의‘하우스 오브 카드’를 리메이크하는 것이었다.‘하우스 오브 카드’는 넷플릭스가 빅데이터를 분석해서 반영한 첫 번째 제작물이자, 역사상 최초다. 일단 BBC가 제작한 드라마가 정해지면, 거기서 BBC 드라마를 좋아하는 이용자들이 좋아하는 주인공이 밝혀지고, 좋아하는 스타일의 감독이 드러난다. 겹치는 부분이 많아지면 많아질수록 성공 확률은 높아지고, 여기에 기초해서 시즌 1과 2를 제작하는데 1 억 달러를 투자했다” 2006년 '넷플릭스 프라이즈(Netflix Prize)'로 불리는 시네매치 알고리즘 향상 공모전 미국 애틀랜틱 2014년 넷플릭스 분석 결과 총 7만6천897개 장르 구분 있음 Region + Adjectives + Noun Genre + Based On... + Set In... + Fromthe... + About... + For Age X to Y  지역(Region)은 미국, 유럽 등등으로 세분화. 형용사(adjectives)는 영화 성격을 분류. 이를테면 슬픈 영화인지, 감동적인 영화인지 등.  바탕(based on)은 실화를 토대로 한 것인지, 아니면 소설 원작인지 등등. 타깃 연령대(For Age X to Y). 이를테면 18세부터 24세까지가 볼만한 영화라든가, 이건 35세~40세 여성 관객들이 좋아하는 영화라는 등으로. 넷플릭스가 보유하고 있는 콘텐츠는 7천100건 남짓. 가입자는 7천만 명. 아마존 프라임은 보유 영화건수가 9만 건. 미디어라이트캐피탈(MRC)의 드라마제작 총괄 조 힙스 부사장이 방한해 ‘DICON 2014 국제 콘텐츠 컨퍼런스’에서 강연 ‘하우스 오브 카드’의 캐스팅이나 줄거리에 넷플릭스의 데이터 분석이 영향을 미쳤다는 것은 사실이 아니라고  BBC 드라마를 리메이크 하기로 결정한 것이나 감독과 배우 선정 등의 과정에 넷플릭스는 참여하지 않았다. 제작과 관련된 전반적 의사결정은 미디어라이트캐피탈가 한 것, 원래는 다른 방송국과 배급 계약을 맺으려고 했는데, 넷플릭스가 더 비싸게 불러서 넷플릭스와 계약을 맺었다 영상제작산업의 성공을 위해서는 창작자들의 재능이 가장 중요 가입자의 인적상황, 시청 패턴 등을 분석한 넷플릭스의 역량이 하우스 오브 카드의 성공의 배경이 됐다 편성Netflix제작진연출 데이빗 핀처출연케빈 스페이시
  9. 구글 매출 745억 달러 구글 영업이익 234억달러 기타 부분 매출 4.48억달러 기타 부분 영업이익 -36.67억달러
  10. 마윈(馬雲·51) 알리바바그룹 회장은 19일 아시안리더십콘퍼런스 기조연설에서 "이제 20년간 지속돼온 IT(Infor mation Technology·정보 기술)의 시대가 저물고 앞으로 30년간 DT(Data Technology·데이터 기술) 혁명에 기반한 새로운 인터넷 시장이 열릴 것” "이제는 방대한 고객 데이터(data)를 활용해 개별 고객의 요구에 부응할 줄 아는 기업이 성공하는 'DT 시대'"라며 "이 같은 흐름은 대기업이 아닌, 아이디어가 풍부하고 혁신에 익숙한 중소기업이 주도하게 될 것“ http://news.chosun.com/site/data/html_dir/2015/05/20/2015052000208.html?Dep0=twitter&d=2015052000208 가트너는 최근 대기업의 90%가 2019년까지 CDO를 신설될 것으로 전망한다. 지난해 8월 포레스터는 세계적 기업의 45%가 이미 CDO를 두고 있고, 16%는 내년까지 선임할 것이라는 조사결과를 내놓기도 했다. CDO는 회사의 데이터 관리 전략을 책임진다. 파리아는 CDO의 업무 범위로 정보 품질, 정보 관리, 정보 전략, 취득과 관련된 모든 것이라고 규정한다. 디지털 혁신과 최종 결과에 대한 회사의 노력에 초점을 맞추는 최고 디지털 책임자(Chief Digital Officer)와는 다르다. 수학 모델을 회사 데이터에 적용해 비즈니스 통찰을 얻는 데 초점을 맞추는 최고 애널리틱스 책임자(Chief Analytics Officer)와도 차별화된다. 1. 회사가 규정을 준수하거나 위험을 더 잘 관리할 필요가 있다. 2. 회사가 자체 데이터 자산이 더 큰 효율성을 이끌 수 있을 것으로 기대한다. 3. 회사가 데이터 애널리틱스에서 추가 가치나 추가 매출을 기대한다. 가트너의 파리아도 여기에 데이터와 알고리듬의 결합이 더 중요하다는 견해다. "시간이 지날수록 CDO는 현재 데이터에 덜 집중하고 그에서 가치를 얻어내는 데 사용되는 알고리즘에 더 집중하게 될 것"이라며 "알고리즘 없이 데이터를 가지는 것은 기름 없이 자동차만 있는 꼴” http://www.ciokorea.com/news/28529#csidx3455770c8b1602e8b02856dca7dc42b 
  11. 빅데이터가 무질서하다면 어떻게 한단 말인가
  12. Lorenz attractor  https://en.wikipedia.org/wiki/Chaos_theory Predictability: does the flap of a butterfly's wing in Brazil set off a tornado in Texas? E Lorenz (1972)
  13. http://platum.kr/archives/56039
  14. 6에서 3.57로 3.57 degree of seperation
  15. Scale free network
  16. 크리스 앤더슨(2006) 롱테일 경제학
  17. Barabasi, A. L. (2005). The origin of bursts and heavy tails in human dynamics. Nature, 435(7039), 207-211. 폭발성이란 사건이 장기간의 휴지기를 거쳤다가 갑작스럽게 폭발적으로 나타나는 현상을 의미한다. 예컨대 사람들은 이메일을 쓰지 않다가 특정 시간대에 한꺼번에 몰아서 사용한다. 즉 작업 간의 대기시간(waiting time) 또는 사건 사이 시간(interevent time)이 멱함수 분포를 따른다. 이러한 인간 행동의 폭발성은 우선순위(priority)를 고려하는 경우 발생한다(Barabási, 2005; Vazquez, 2005). 이러한 폭발성은 도서관 방문 시기, 온라인 뉴스 기사 접속자수, 휴대전화 통화, 인간의 이동 궤적 등 수많은 인간 행동에서 나타난다(Vázquez et al., 2006; Dezsö et al., 2006; Candia et al., 2008; Rhee et al. 2011). a. Poisson process, which assumes that in any moment an event takes place with probability q. b. The absence of long delays is visible on the plot showing the delay times t for 1,000 consecutive events, the size of each vertical line corresponding to the gaps seen in a. c. The succession of events for a heavy-tailed distribution. d. The waiting time t of 1,000 consecutive events, where the mean event time was chosen to coincide with the mean event time of the Poisson process shown in a–c. Note the large spikes in the plot, corresponding to very long delay times. b and e have the same vertical scale, allowing the comparison of the regularity of a Poisson process with the intermittent nature of the heavy-tailed process.
  18. Percolation cluster
  19. Nicholas A. Christakis and James H. Fowler in 2007. Three Degrees of Influence http://www.slideshare.net/jbradfo4/topic-4-social-networks John Bradford, Assistant Professor of Sociology at Mississippi Valley State University
  20. Opinion Dynamics
  21. 2013년 6월 1일 1주-2주-4주 창조경제
  22. https://www.sg.ethz.ch/projects/snsf-rd-network-life-cycles/ This project is related to our research line: R&D networks. Duration 30 months (May 2010 - October 2012) Funding source Swiss National Science Foundation The Rise and Fall of R&D Networks [2013]Tomasello, Mario Vincenzo; Napoletano, Mauro; Garas, Antonios; Schweitzer, Frank arXiv:1304.3623 pages: 33
  23. 인터랙티브 뉴스, structured jorunalism, VR 저널리즘, WP의 오픈CMS, 로봇저널리즘, 오픈소스, 새로운 저널리즘의 가치, 센서저널리즘(아두이노 키트), 드론저널리즘
  24. 뉴스의 콘텐츠화를 이끄는 것 큐레이션과 알고리즘 뉴스를 콘텐츠로 재구성할 때 인력과 기술을 활용 점점
  25. http://www.theguardian.com/media/shortcuts/2014/mar/16/could-robots-be-journalist-of-future 알고리즘 저널리즘의 범위는 다양 데이터저널리즘. 로봇 기사 작성에서, 규칙 기반 또는 통계 기반 자연어처리, 의미연결망분석, 순위화 등 다양 알고리즘 저널리즘 비평이 필요
  26. https://docs.google.com/presentation/d/1rJ1xfELWBfmoZkKFKBgN2a3B-slOjgEf8rKbgxiHL8A/edit#slide=id.g3368db5e8_115 뉴스 빅데이터의 활용은 흔히 데이터 저널리즘의 하나처럼 여겨진다. 하지만 둘은 완전히 다른데다가 뉴스 빅데이터 활용이 훨씬 더 큰 개념이다. 우선 데이터저널리즘은 방대한 데이터를 뉴스로 만드는 작업이다. 반면 뉴스 빅데이터 분석은 뉴스에서 가치 있는 데이터를 추출한다. 즉 데이터 저널리즘의 산출물은 뉴스인 반면, 뉴스 빅데이터 분석의 산출물은 데이터이다.
  27. ‘Facts & data → Story’는 전통적인 뉴스 기사다. 기자가 취재를 통해 수집 한 사실과 정보를 이야기로 풀어낸 것이 뉴스 기사다. 기사를 다시 정형화되고 구조화된 데이터(Story → Structured data)로 변환 ‘Structured data → New products’로 이어지는 재맥락화, 한 맥락 속에 있는 텍스트를 다른 맥락에 위치시키는 것 http://www.slideshare.net/poderomedia/the-power-of-structured-journalism-hacker-culturein-npr 뉴스 빅데이터는 그 자체로 완성된 콘텐츠가 아니다. 데이터를 콘텐츠로 재가공하는 과정이 필요하다. 이 과정에서 뉴스 빅데이터를 공공데이터나 민간이 자체 보유하고 있는 데이터와 결합하면 가치가 더 높아질 수 있다. 언론사가 뉴스 빅데이터를 통해 다시 뉴스를 생산한다면, 그것은 데이터저널리즘의 하나가 된다.
  28. 뉴스는 빅데이터화되고 있다. 빅데이터의 특징으로는 흔히 4V, 즉 양, 다양성(variety), 속도(velocity), 가치를 꼽는다. 뉴스 데이터는 파일 용량 자체는 크지 않다. 그러나 건수는 매우 많다. 예컨대 카카오에 따르면 다음 뉴스 기준으로 일 평균 2만7천 건이 매일 쏟아진다. 하나의 기사는 텍스트파일, 그림파일, 동영상파일, NewsML 파일 등 다양한 형식의 파일이 함께 저장된다. 또한 뉴스 텍스트는 정치, 경제, 사회, 문화 등 사회 전반의 이슈에 대해 풍부한 사실과 의견을 담고 있어, 그 내용이 중요한 비정형 데이터이다. 이는 뉴스 데이터의 가치를 극대화하기 위해서는 뉴스 기사 본문 안에서 인물, 기관, 장소, 수치, 직함, 상품명 등 다양한 개체명과 각종 문장 등을 추출해 다중 분류하고 순위화하는 과정, 즉 자연어처리와 의미연결망분석을 통한 정형화 과정이 필요하다는 것을 시사한다. 앞으로는 뉴스 음성이나 영상에 대해서도 유용한 데이터를 추출하는 과정이 필요할 것이다. 더 나아가 추출된 데이터를 수많은 사용자들에게 실시간 검색으로 제공하려면 빅데이터 DBMS(database management system)이 필요하다. <2014년 한국언론연감>에 따르면 2013년 기준 매체 수는 일간지 177개, 주간신문 1,136개, 방송 53개, 인터넷신문1,176개 등 총 3,156개에 달한다(한국언론진흥재단, 2014, 113쪽). 문화체육관광부와 한국언론진흥재단의 2015년 인터넷신문, 인터넷뉴스서비스 실태점검 결과에 따르면, 2015년 4월 기준 등록 인터넷신문은 5,877개, 인터넷뉴스 서비스는 249개에 달한다. 2015년 7월 31일 기준으로 1년 간 1건 이상 기사를 게재 또는 서비스한 인터넷신문과 인터넷뉴스서비스는 각각 3,305개와 184개다. 인터넷신문 중 명칭, 등록번호, 등록연원일, 제 호, 발행인, 편집인, 발행소, 발행연월일 등 필요적 게재사항을 준수하는 것은 639개다. 또 인터넷뉴스서비스 중 기사배열 기본방침 및 기사배열 책임자 공개의무를 준수하는 것은 15개다. 기사는 비정형데이터로 자료의 수집과 관리 및 분석이 까다롭다.
  29. 양 <2014년 한국언론연감>에 따르면 2013년 기준 매체 수는 일간지 177개, 주간신문 1,136개, 방송 53개, 인터넷신문1,176개 등 총 3,156개에 달한다(한국언론진흥재단, 2014, 113쪽). 문화체육관광부와 한국언론진흥재단의 2015년 인터넷신문, 인터넷뉴스서비스 실태점검 결과에 따르면, 2015년 4월 기준 등록 인터넷신문은 5,877개, 인터넷뉴스 서비스는 249개에 달한다. 2015년 7월 31일 기준으로 1년 간 1건 이상 기사를 게재 또는 서비스한 인터넷신문과 인터넷뉴스서비스는 각각 3,305개와 184개다. 인터넷신문 중 명칭, 등록번호, 등록연원일, 제 호, 발행인, 편집인, 발행소, 발행연월일 등 필요적 게재사항을 준수하는 것은 639개다. 또 인터넷뉴스서비스 중 기사배열 기본방침 및 기사배열 책임자 공개의무를 준수하는 것은 15개다. 기사는 비정형데이터로 자료의 수집과 관리 및 분석이 까다롭다.
  30. 절대적 연결정도 중앙성(number of neighbors)에 따른 순위 멱함수 구조임
  31. 멱함수 공식 Pd(k)~k-γ (γ는 연결정도지수) 1.4<γ<1.7 두꺼운 꼬리 분포함수의 예 Pd(k)~(k+k0)-γ (k0은 표본에 의존하는 상수) 연결정도지수는 많은 연결을 지닌 결점이 적은 연결을 지닌 결점에 비해 얼마나 많은지를 보여준다. 결점수가 많으면, 연결정도가 큰 범위에서 특정 상수 값으로 수렴한다. 한 결점 i의 연결선 수를 뜻하는 연결정도(degree)를 ki라고 하자. 연결정도 ki의 분포함수를 연결정도분포함수를 Pd(k)라고 하고, 이를 연결정도가 k인 결점 수를 총 결점 수 N으로 나눈 양으로 정의하자. 이 때 척도 없는 연결망에서 Pd(k)는 k가 클 때 멱함수(power law)인 k-γ에 근사한다
  32. 다음은 뉴스 정보원 연결망의 예시입니다. 제가 그 동안에는 주로 국문 뉴스를 분석했는데 영문 뉴스를 대상으로 한 정보원 연결망 분석도 가능했습니다. 보시면 전체적으로 scale free network의 형태를 띄고 있고요, north korea에 대한 기사에서 가장 중요한 정보원은 오바마 대통령으로 나왔습니다. 이어 Jay Carney는 백악관 대변인, 반기문 유엔 사무총장, 그리고 John Kerry 국무자관, Nuland 국무부 대변인 등이 중요한 인물로 나왔습니다. ******************** 39 Barack Obama 22 Jay Carney /White House Press Secretary (백악관 대변인) 15 Ban Kimoon /Secretary-General of the United Nations (UN 사무총장) 13 John Kerry /Chairman of the Senate Foreign Relations Committee (전 국회 상원외교위 위원장, 국무장관) 12 Victoria Nuland /Spokesperson for the United States Department of State (국무부 대변인) 10 Kim Hyunwook (국립외교원 교수) 10 Susan Rice (UN 대사, 국무장관 지명, 현 미국 백악관 국가안보 보좌관) 스탠포드대학에서 제공하는 자연어처리 도구를 활용하고 제가 제안한 규칙을 통해 인용문의 정보원을 추려서 그렸습니다. IMPACT FACTOR 4.04
  33. 검색어: 청년, 대학생, 청소년, 청춘 매체: 한국일보, 서울신문, 동아일보, 문화일보, 한겨레, 국민일보, 세계일보, 경향신문 기간: 200501-12 기사 수 797개, 인용문수: 872개 순위화: 주제 의미 연결망의 연결정도 중앙성
  34. 청년담론 2014년 7월-2015년 6월 8대 중앙지, 2대 경제지, 3대 지상파
  35. 2005년 vs 2015년
  36. Generalist vs. specialist
  37. 2015년 사회 분야 기관-주제
  38. 다음으로 뉴스 문장연결망 분석을 소개해드리겠습니다. 뉴스 문장연결망분석은 연결을 정의할 때 규칙 기반과 통계 기반 방식이 있습니다. 보시는 연결망 그래프는 분단 관련 1년치 뉴스 기사의 문장연결망을 통계 기반 방식으로 그린 것이고요 왼쪽 작은 그림은 주구성집단을 시각화한 것입니다. 문장 연결망 분석에서는 특히 의미거리와 의미경로가 정의되어야 합니다. 우선 두 문장의 의미거리가 가까울수록 더 관련된 문장이어야 합니다. 다음으로 연결망 분석 결과 제시된 의미경로가 자연스러운 순서로 문장을 배열하고 있어야 합니다. 예컨대 토론할 때 문장 배열이 abcd가 자연스럽다고 하면, acbd는 어색할 수 있는데요, 문장연결망 분석이 abcd 순으로 의미경로를 제시해야 한다는 것을 의미합니다. ******************** 이는 컴퓨터가 질의어를 넣으면 일종의 토론기계처럼 결과를 제시해준다는 것을 의미하는데요 쉽게 말해 토론기계는 때로는 혼자서 논의를 깊이 있게 이어가고, 때로는 핵심만을 짧게 얘기하고, 때로는 다른 논의로 넘어가야 하고, 때로는 대화를 주고 받을 줄 알아야 합니다. 즉 어떤 문장의 연쇄로 이루어지는 다양한 유형의 의미경로(semantic path)에 따라 답변해야 합니다. (다음으로 선후 문장이 선문답보다 더 밀접하게 관련된 문장을 제시해야 한다. 즉 한 문장이 선택됐을 때, 이 문장에 이어질 수 있는 의미경로가 선문답보다 적다.) (35개 문장으로 구성, 지름(diameter)은 5입니다.) (참고로 통계 기반은 기사공동출현과 유사도에 따라, 규칙 기반은 기사공동출현과 인접기간 동일정보원 발언으로 연결을 정의합니다.) 이 때 의미거리는 관련도의 역수라고 할 수 있습니다.
  39. 두꺼운 선이 서로 관련된 것 Originality는 속성행렬로 부여 한겨레는 경향과 그나마 유사 세계는 우라까이의 흔적
  40. 일반적인 담론분석과 마찬가지로 뉴스를 통해 사회현상을 깊이 있게 이해해볼 수도 있을 것입니다. 참고로 보여드리는 그림은 제가 실제로 CAQDAS를 통해 뉴스 빅데이터를 담론분석한 논문이나 보고서들입니다. **************************** 컴퓨터 보조 질적 데이터 분석 소프트웨어를 활용해 담론분석을 하는 것으로 뉴스소스 베타를 담론분석에 활용. 실제로 박사논문과 저널논문, 짧은 보고서 등을 작성하고, 논문 작성 조언도 해줌 뉴타운, 양적위기 담론, 4대강// 일본 망언, 청년담론 > // 총선, 금융위기 기타 중국어과에서 동북공정 한중 비교, 박사 논문 조세정책 분석기간이 일반적인 내용분석이나 담론분석보다 훨씬 짧아졌습니다. 인력이나 비용도 훨씬 적게 투입됩니다.
  41. ① 정보원(성+이름, 소속, 직함), 문장, 기사를 식별하여 사실 중심으로 중복을 제거해 요약 ② 정보원, 문장, 기사 검색 결과를 의미연결망분석을 통해 산출된 가중치에 따라 제시 ③ 질의에 대한 검색 결과를 정보원과 인용문 중심으로 주제별로 대조 ④ 연구자를 위해 시계열 뉴스정보원 연결망의 시각화와 정형화 자료 다운로드 제공
  42. ① 정보원(성+이름, 소속, 직함), 문장, 기사를 식별하여 사실 중심으로 중복을 제거해 요약 ② 정보원, 문장, 기사 검색 결과를 의미연결망분석을 통해 산출된 가중치에 따라 제시 ③ 질의에 대한 검색 결과를 정보원과 인용문 중심으로 주제별로 대조 ④ 연구자를 위해 시계열 뉴스정보원 연결망의 시각화와 정형화 자료 다운로드 제공
  43. 엑셀 자연어처리 도구 연결망분석 도구 프로그래밍 언어 비주얼다이브 Finger Press · Chart Dive · CartoDB · GEO codeEX