- Big data is like teenage sex
- Structures of Big data
- News big data
- Natural language processing
- News source network
- Examples
- News big data anaysis software
- Further studies
5. 빅데이터란?
5
Big data is like teenage sex:
everyone talks about it, nobody really knows how to do it,
everyone thinks everyone else is doing it, so everyone
claims they are doing it...
- Dan Ariely, Duke University Professor
22. 중심
A) Betweenness centrality, B) Closeness centrality, C) Eigenvector centrality,
D) Degree centrality, E) Harmonic centrality and F) Katz centrality of the
same graph.
22
34. 로봇 저널리즘 (알고리즘 저널리즘)
[로봇저널리즘] 코스피 2.30포인트 하락, 1969.97포인트 거래 마감 본문듣기
기사입력 2016.03.15 오후 3:17
오늘 코스피가 전 거래일 대비 2.30포인트, -0.12% 내린 1969.97에 마감했다.
기관이 1297억 원 순매도 했으나 개인과 외국인이 각각 104억 원, 608억 원을 매수 우위로 시장을
받쳤다.
시가총액 상위 종목 중에는 내린 종목이 더 많았는데, 삼성물산(0.34%), 아모레퍼시픽(2.45%)이 상
승한 반면, 삼성전자(-0.16%) 등은 하락세를 보였다.
업종별로는 음식료업이 0.2%, 섬유의복이 0.03%, 화학이 0.47% 상승했으며, 종이목재가 -0.11%, 의
약품이 -0.42%, 비금속광물이 -0.2% 하락했다.
코스닥은 2.29포인트(0.33%) 상승한 693.34포인트를 기록했다.
이날 개인과 외국인이 각각 353억 원, 112억 원어치 주식을 사들였으며, 기관만 나홀로 ‘팔자’에 나
서며 399억 원어치 매도 우위를 기록했다.
시가총액 상위 10개 종목 가운데 셀트리온, 카카오가 각각 -0.38%, -1.07%의 하락폭을 보였고, 그
외에 코데즈컴바인(29.92%), 코미팜(0.47%) 등은 상승했다.
업종별로는 운송이 2.15%, 금융이 0.15%, 음식료담배가 0.22% 상승했으며, 건설이 -0.28%, 유통이
-0.18%, 통신/방송이 -0.42% 하락했다.
한편 서울 외환시장에서 원ㆍ달러 환율은 1187.7원에 마감했다.
"이 기사는 파이낸셜뉴스와 협업으로 서울대학교 이준환/서봉원 교수 연구팀이 개발한 기사 작성
알고리즘 로봇이 실시간으로 작성했습니다."
robot@fnnews.com IamFNBOT
34
44. 44
Biases by Bursts in Topics
연결정도(x축)에 따른 연결정도지수(y축)의 추이연결정도(x축)와 정보원 수(y축) 간의 관계
박대민(2014). 뉴스 정보원 인용에서의 폭발성과 언론의 편향성. <커뮤니케이션 이론>, 10권 1호, 295-324.
45. 45
Biases by Bursts in Media
연결정도(x축)에 따른 연결정도지수(y축)의 추이연결정도(x축)와 정보원 수(y축) 간의 관계
박대민(2014). 뉴스 정보원 인용에서의 폭발성과 언론의 편향성. <커뮤니케이션 이론>, 10권 1호, 295-324.
46. News Source Network
Park, D.M., Kim, G.N., & On, B.W.(under review). Understanding the network fundamentals of the news sources associated with a specific topic. Information
Sciences..
46
39 Barack Obama
22 Jay Carney
15 Ban Kimoon
13 John Kerry
12 Victoria Nuland
10 Kim Hyunwook
10 Susan Rice
55. 뉴스 문장연결망: 분단
55
검색어: ‘분단’
분석매체: 경향, 국민, 문화, 서울,
세계, 한겨레, 한국, 동아
분석기간: 2011년 1년치
인용문 수: 인용문 949개
(중복 포함, 기사 405건)
main component
박대민(2016). 토론기계를 향하여: 유사도와 공동출현에 기초한 뉴스 문장 연결망 분석 알고리즘 제안. 한국HCI학회 학술대회. 하이원리조트 컨벤션센터, 정선.
56. 뉴스 매체 연결망: 4대강
Originality = 1 – (Σ(Cosine Similarity-1)) / (number of media-1)
56
61. 뉴스소스 베타
61
차세대융합기술원(2013.12.). <빅데이터 기술 활용 스마트 뉴스 제공 모바일 앱 개발>.
박대민, 김기남, 강남용, 서봉원, 하효지, 온병원(2014). 저널리즘 가치에 기초한 알고리즘을 이용한 뉴스의 시각화. <한국HCI
학회 논문지>, 9권 2호, 5-12.
DC는 세계에서 생성되는 데이터 양이 2013년 4제타바이트(ZB)에서 2020년 44ZB로 10배 이상 늘어날 것으로 예상했다.
1ZB는 약 1조1000억GB다. 3MB 안팎의 MP3 곡을 281조5000억개 저장할 수 있는 용량이다.
페이스북 사용자들이 매일 업로드하는 이미지가 3억5000만장 이상이다.
유튜브에는 1분마다 300시간 이상 분량의 영상이 올라온다.
비정형데이터가 전체 데이터에서 차지하는 비중은 50%를 넘어섰다. 2020년엔 80% 이상을 차지할 것이란 관측이 나온다.
http://www.hankyung.com/news/app/newsview.php?aid=2016020966901#AA.11247356.1
1936년 The Literary Digest의 전화번호부나 자동차등록부 기준 1000만통 엽서(240만 답장) vs. Gallup 5만명(무작위 표집, 가계소득 비율 할당 표집): 루즈벨트 60.8%, 랜던 36.54%
미국 미네아폴리스에 사는 Charles Duhigg 이 Target 백화점에 왜 자기들은 필요도 없는 임신용품 쿠폰을 보내냐고 항의하니 결국 딸이 집안 캄퓨터를 사용해 임신에 대해 알아본 것을 분석해 보낸 것으로 들어나 거의 마술사(socerey) 같은 족집게 마케팅이었다는 The New York Times (2012)의 기사도 사실 부풀려진 것이다.이렇게 한 사람의 성공을 위해 일반적으로 무수하게 많은 DM 쿠폰, 카탈로그를 보낸다.
Google은 2009년 Nature 지에 “Detecting influenza epidemic using search engine query data(457, 1012-1017, 19. Feb. 2009)를 게재. 구글 쿼리에 독감 관련 키워드를 입력하는 양과 지역적 특성을 고려해 독감의 발생지역과 전파 경로를 미국 공중위생국(CDC)보다 더 빠르게 그리고 정확하게 알려주었다…
그러나 2012년 겨울에 미국 동부지역에서 독감 확산 공포에 대한 사람들의 반응은 건강한 사람들에게도 독감 관련 키워드를 구글에 입력해 서치하게 해 인위적으로 쿼리 수가 부풀려졌다
http://www.truthdig.com/cartoon/item/big_data_is_watching_out_for_you_20130618
FBI, NSA: 권력, 범죄예방도 할 수 있지만 감시할 수도 BIG BROTHER
구글이나 페이스북: 맞춤형 서비스도 제공할 수 있지만 잊혀질 권리, 프라이버시 문제
바둑은 우주 전체의 원자 수보다 많은 10의 170제곱이나 되는 경우의 수가 있음
프로 바둑기사들의 대국 기보 3,000만 건을 입력
무작위로 말을 대입해보며 예상 확률을 알아낸 뒤 가장 가능성이 높은 수를 선택하는 컴퓨터 기법인 ‘몬테카를로 트리탐색’
‘정책망’은 상대방의 다음 움직임을 미리 예측해 이길 가능성이 높은 수만 고려하도록 해주고, ‘가치망’은 바둑돌의 위치 별로 승자가 누가 될지 예측
알파고가 1,000년에 해당하는 시간 만큼 바둑을 학습
강화학습 자신과의 대국 일 3만, 한달 100만
>정책망의 예측 성공률을 57%까지 높암
https://www.youtube.com/watch?v=Yr_nRnqeDp0
한국정보통신연구원에서 발간한 ‘넷플릭스의 빅 데이터(Big Data), 인문학적 상상력과의 접점’이라는 동향 분석 보고서의 일부다.
“그렇게 이용자들의 선호도를 분석해서 원하는 드라마와 원 하는 배우와 감독, 원하는 스토리를 찾아냈다. 결론은 1990년에 방영된 영국 BBC의‘하우스 오브 카드’를 리메이크하는 것이었다.‘하우스 오브 카드’는 넷플릭스가 빅데이터를 분석해서 반영한 첫 번째 제작물이자, 역사상 최초다. 일단 BBC가 제작한 드라마가 정해지면, 거기서 BBC 드라마를 좋아하는 이용자들이 좋아하는 주인공이 밝혀지고, 좋아하는 스타일의 감독이 드러난다. 겹치는 부분이 많아지면 많아질수록 성공 확률은 높아지고, 여기에 기초해서 시즌 1과 2를 제작하는데 1 억 달러를 투자했다”
2006년 '넷플릭스 프라이즈(Netflix Prize)'로 불리는 시네매치 알고리즘 향상 공모전
미국 애틀랜틱 2014년 넷플릭스 분석 결과 총 7만6천897개 장르 구분 있음
Region + Adjectives + Noun Genre + Based On... + Set In... + Fromthe... + About... + For Age X to Y 지역(Region)은 미국, 유럽 등등으로 세분화. 형용사(adjectives)는 영화 성격을 분류. 이를테면 슬픈 영화인지, 감동적인 영화인지 등. 바탕(based on)은 실화를 토대로 한 것인지, 아니면 소설 원작인지 등등. 타깃 연령대(For Age X to Y). 이를테면 18세부터 24세까지가 볼만한 영화라든가, 이건 35세~40세 여성 관객들이 좋아하는 영화라는 등으로.넷플릭스가 보유하고 있는 콘텐츠는 7천100건 남짓. 가입자는 7천만 명. 아마존 프라임은 보유 영화건수가 9만 건.
미디어라이트캐피탈(MRC)의 드라마제작 총괄 조 힙스 부사장이 방한해 ‘DICON 2014 국제 콘텐츠 컨퍼런스’에서 강연
‘하우스 오브 카드’의 캐스팅이나 줄거리에 넷플릭스의 데이터 분석이 영향을 미쳤다는 것은 사실이 아니라고
BBC 드라마를 리메이크 하기로 결정한 것이나 감독과 배우 선정 등의 과정에 넷플릭스는 참여하지 않았다. 제작과 관련된 전반적 의사결정은 미디어라이트캐피탈가 한 것, 원래는 다른 방송국과 배급 계약을 맺으려고 했는데, 넷플릭스가 더 비싸게 불러서 넷플릭스와 계약을 맺었다
영상제작산업의 성공을 위해서는 창작자들의 재능이 가장 중요
가입자의 인적상황, 시청 패턴 등을 분석한 넷플릭스의 역량이 하우스 오브 카드의 성공의 배경이 됐다
편성Netflix제작진연출 데이빗 핀처출연케빈 스페이시
구글 매출 745억 달러
구글 영업이익 234억달러
기타 부분 매출 4.48억달러
기타 부분 영업이익 -36.67억달러
마윈(馬雲·51) 알리바바그룹 회장은 19일 아시안리더십콘퍼런스 기조연설에서 "이제 20년간 지속돼온 IT(Infor mation Technology·정보 기술)의 시대가 저물고 앞으로 30년간 DT(Data Technology·데이터 기술) 혁명에 기반한 새로운 인터넷 시장이 열릴 것”
"이제는 방대한 고객 데이터(data)를 활용해 개별 고객의 요구에 부응할 줄 아는 기업이 성공하는 'DT 시대'"라며 "이 같은 흐름은 대기업이 아닌, 아이디어가 풍부하고 혁신에 익숙한 중소기업이 주도하게 될 것“http://news.chosun.com/site/data/html_dir/2015/05/20/2015052000208.html?Dep0=twitter&d=2015052000208
가트너는 최근 대기업의 90%가 2019년까지 CDO를 신설될 것으로 전망한다. 지난해 8월 포레스터는 세계적 기업의 45%가 이미 CDO를 두고 있고, 16%는 내년까지 선임할 것이라는 조사결과를 내놓기도 했다.CDO는 회사의 데이터 관리 전략을 책임진다. 파리아는 CDO의 업무 범위로 정보 품질, 정보 관리, 정보 전략, 취득과 관련된 모든 것이라고 규정한다.
디지털 혁신과 최종 결과에 대한 회사의 노력에 초점을 맞추는 최고 디지털 책임자(Chief Digital Officer)와는 다르다. 수학 모델을 회사 데이터에 적용해 비즈니스 통찰을 얻는 데 초점을 맞추는 최고 애널리틱스 책임자(Chief Analytics Officer)와도 차별화된다.
1. 회사가 규정을 준수하거나 위험을 더 잘 관리할 필요가 있다.2. 회사가 자체 데이터 자산이 더 큰 효율성을 이끌 수 있을 것으로 기대한다.3. 회사가 데이터 애널리틱스에서 추가 가치나 추가 매출을 기대한다.
가트너의 파리아도 여기에 데이터와 알고리듬의 결합이 더 중요하다는 견해다.
"시간이 지날수록 CDO는 현재 데이터에 덜 집중하고 그에서 가치를 얻어내는 데 사용되는 알고리즘에 더 집중하게 될 것"이라며 "알고리즘 없이 데이터를 가지는 것은 기름 없이 자동차만 있는 꼴” http://www.ciokorea.com/news/28529#csidx3455770c8b1602e8b02856dca7dc42b
빅데이터가 무질서하다면 어떻게 한단 말인가
Lorenz attractor
https://en.wikipedia.org/wiki/Chaos_theory
Predictability: does the flap of a butterfly's wing in Brazil set off a tornado in Texas?
E Lorenz (1972)
http://platum.kr/archives/56039
6에서 3.57로
3.57 degree of seperation
Scale free network
크리스 앤더슨(2006) 롱테일 경제학
Barabasi, A. L. (2005). The origin of bursts and heavy tails in human dynamics. Nature, 435(7039), 207-211.
폭발성이란 사건이 장기간의 휴지기를 거쳤다가 갑작스럽게 폭발적으로 나타나는 현상을 의미한다. 예컨대 사람들은 이메일을 쓰지 않다가 특정 시간대에 한꺼번에 몰아서 사용한다. 즉 작업 간의 대기시간(waiting time) 또는 사건 사이 시간(interevent time)이 멱함수 분포를 따른다. 이러한 인간 행동의 폭발성은 우선순위(priority)를 고려하는 경우 발생한다(Barabási, 2005; Vazquez, 2005). 이러한 폭발성은 도서관 방문 시기, 온라인 뉴스 기사 접속자수, 휴대전화 통화, 인간의 이동 궤적 등 수많은 인간 행동에서 나타난다(Vázquez et al., 2006; Dezsö et al., 2006; Candia et al., 2008; Rhee et al. 2011).
a. Poisson process, which assumes that in any moment an event takes place with probability q.
b. The absence of long delays is visible on the plot showing the delay times t for 1,000 consecutive events, the size of each vertical line corresponding to the gaps seen in a.
c. The succession of events for a heavy-tailed distribution.
d. The waiting time t of 1,000 consecutive events, where the mean event time was chosen to coincide with the mean event time of the Poisson process shown in a–c. Note the large spikes in the plot, corresponding to very long delay times. b and e have the same vertical scale, allowing the comparison of the regularity of a Poisson process with the intermittent nature of the heavy-tailed process.
Percolation cluster
Nicholas A. Christakis and James H. Fowler in 2007.
Three Degrees of Influence
http://www.slideshare.net/jbradfo4/topic-4-social-networks
John Bradford, Assistant Professor of Sociology at Mississippi Valley State University
Opinion Dynamics
2013년 6월 1일
1주-2주-4주
창조경제
https://www.sg.ethz.ch/projects/snsf-rd-network-life-cycles/
This project is related to our research line: R&D networks.
Duration 30 months (May 2010 - October 2012)
Funding source Swiss National Science Foundation
The Rise and Fall of R&D Networks
[2013]Tomasello, Mario Vincenzo; Napoletano, Mauro; Garas, Antonios; Schweitzer, Frank
arXiv:1304.3623 pages: 33
뉴스의 콘텐츠화를 이끄는 것
큐레이션과 알고리즘
뉴스를 콘텐츠로 재구성할 때 인력과 기술을 활용
점점
http://www.theguardian.com/media/shortcuts/2014/mar/16/could-robots-be-journalist-of-future
알고리즘 저널리즘의 범위는 다양
데이터저널리즘. 로봇 기사 작성에서, 규칙 기반 또는 통계 기반 자연어처리, 의미연결망분석, 순위화 등 다양
알고리즘 저널리즘 비평이 필요
https://docs.google.com/presentation/d/1rJ1xfELWBfmoZkKFKBgN2a3B-slOjgEf8rKbgxiHL8A/edit#slide=id.g3368db5e8_115
뉴스 빅데이터의 활용은 흔히 데이터 저널리즘의 하나처럼 여겨진다. 하지만 둘은 완전히 다른데다가 뉴스 빅데이터 활용이 훨씬 더 큰 개념이다. 우선 데이터저널리즘은 방대한 데이터를 뉴스로 만드는 작업이다. 반면 뉴스 빅데이터 분석은 뉴스에서 가치 있는 데이터를 추출한다. 즉 데이터 저널리즘의 산출물은 뉴스인 반면, 뉴스 빅데이터 분석의 산출물은 데이터이다.
‘Facts & data → Story’는 전통적인 뉴스 기사다. 기자가 취재를 통해 수집 한 사실과 정보를 이야기로 풀어낸 것이 뉴스 기사다.
기사를 다시 정형화되고 구조화된 데이터(Story → Structured data)로 변환
‘Structured data → New products’로 이어지는 재맥락화, 한 맥락 속에 있는 텍스트를 다른 맥락에 위치시키는 것
http://www.slideshare.net/poderomedia/the-power-of-structured-journalism-hacker-culturein-npr
뉴스 빅데이터는 그 자체로 완성된 콘텐츠가 아니다. 데이터를 콘텐츠로 재가공하는 과정이 필요하다. 이 과정에서 뉴스 빅데이터를 공공데이터나 민간이 자체 보유하고 있는 데이터와 결합하면 가치가 더 높아질 수 있다. 언론사가 뉴스 빅데이터를 통해 다시 뉴스를 생산한다면, 그것은 데이터저널리즘의 하나가 된다.
뉴스는 빅데이터화되고 있다. 빅데이터의 특징으로는 흔히 4V, 즉 양, 다양성(variety), 속도(velocity), 가치를 꼽는다. 뉴스 데이터는 파일 용량 자체는 크지 않다. 그러나 건수는 매우 많다. 예컨대 카카오에 따르면 다음 뉴스 기준으로 일 평균 2만7천 건이 매일 쏟아진다. 하나의 기사는 텍스트파일, 그림파일, 동영상파일, NewsML 파일 등 다양한 형식의 파일이 함께 저장된다. 또한 뉴스 텍스트는 정치, 경제, 사회, 문화 등 사회 전반의 이슈에 대해 풍부한 사실과 의견을 담고 있어, 그 내용이 중요한 비정형 데이터이다. 이는 뉴스 데이터의 가치를 극대화하기 위해서는 뉴스 기사 본문 안에서 인물, 기관, 장소, 수치, 직함, 상품명 등 다양한 개체명과 각종 문장 등을 추출해 다중 분류하고 순위화하는 과정, 즉 자연어처리와 의미연결망분석을 통한 정형화 과정이 필요하다는 것을 시사한다. 앞으로는 뉴스 음성이나 영상에 대해서도 유용한 데이터를 추출하는 과정이 필요할 것이다. 더 나아가 추출된 데이터를 수많은 사용자들에게 실시간 검색으로 제공하려면 빅데이터 DBMS(database management system)이 필요하다.
<2014년 한국언론연감>에 따르면 2013년 기준 매체 수는 일간지 177개, 주간신문 1,136개, 방송 53개, 인터넷신문1,176개 등 총 3,156개에 달한다(한국언론진흥재단, 2014, 113쪽).
문화체육관광부와 한국언론진흥재단의 2015년 인터넷신문, 인터넷뉴스서비스 실태점검 결과에 따르면, 2015년 4월 기준 등록 인터넷신문은 5,877개, 인터넷뉴스 서비스는 249개에 달한다.
2015년 7월 31일 기준으로 1년 간 1건 이상 기사를 게재 또는 서비스한 인터넷신문과 인터넷뉴스서비스는 각각 3,305개와 184개다. 인터넷신문 중 명칭, 등록번호, 등록연원일, 제
호, 발행인, 편집인, 발행소, 발행연월일 등 필요적 게재사항을 준수하는 것은 639개다. 또 인터넷뉴스서비스 중 기사배열 기본방침 및 기사배열 책임자 공개의무를 준수하는 것은 15개다.
기사는 비정형데이터로 자료의 수집과 관리 및 분석이 까다롭다.
양
<2014년 한국언론연감>에 따르면 2013년 기준 매체 수는 일간지 177개, 주간신문 1,136개, 방송 53개, 인터넷신문1,176개 등 총 3,156개에 달한다(한국언론진흥재단, 2014, 113쪽).
문화체육관광부와 한국언론진흥재단의 2015년 인터넷신문, 인터넷뉴스서비스 실태점검 결과에 따르면, 2015년 4월 기준 등록 인터넷신문은 5,877개, 인터넷뉴스 서비스는 249개에 달한다.
2015년 7월 31일 기준으로 1년 간 1건 이상 기사를 게재 또는 서비스한 인터넷신문과 인터넷뉴스서비스는 각각 3,305개와 184개다. 인터넷신문 중 명칭, 등록번호, 등록연원일, 제
호, 발행인, 편집인, 발행소, 발행연월일 등 필요적 게재사항을 준수하는 것은 639개다. 또 인터넷뉴스서비스 중 기사배열 기본방침 및 기사배열 책임자 공개의무를 준수하는 것은 15개다.
기사는 비정형데이터로 자료의 수집과 관리 및 분석이 까다롭다.
절대적 연결정도 중앙성(number of neighbors)에 따른 순위
멱함수 구조임
멱함수 공식
Pd(k)~k-γ
(γ는 연결정도지수)
1.4<γ<1.7
두꺼운 꼬리 분포함수의 예
Pd(k)~(k+k0)-γ
(k0은 표본에 의존하는 상수)
연결정도지수는 많은 연결을 지닌 결점이 적은 연결을 지닌 결점에 비해 얼마나 많은지를 보여준다. 결점수가 많으면, 연결정도가 큰 범위에서 특정 상수 값으로 수렴한다.
한 결점 i의 연결선 수를 뜻하는 연결정도(degree)를 ki라고 하자. 연결정도 ki의 분포함수를 연결정도분포함수를 Pd(k)라고 하고, 이를 연결정도가 k인 결점 수를 총 결점 수 N으로 나눈 양으로 정의하자. 이 때 척도 없는 연결망에서 Pd(k)는 k가 클 때 멱함수(power law)인 k-γ에 근사한다
다음은 뉴스 정보원 연결망의 예시입니다.
제가 그 동안에는 주로 국문 뉴스를 분석했는데 영문 뉴스를 대상으로 한 정보원 연결망 분석도 가능했습니다.
보시면 전체적으로 scale free network의 형태를 띄고 있고요,
north korea에 대한 기사에서 가장 중요한 정보원은 오바마 대통령으로 나왔습니다.
이어 Jay Carney는 백악관 대변인, 반기문 유엔 사무총장, 그리고 John Kerry 국무자관, Nuland 국무부 대변인 등이 중요한 인물로 나왔습니다.
********************
39 Barack Obama
22 Jay Carney /White House Press Secretary (백악관 대변인)
15 Ban Kimoon /Secretary-General of the United Nations (UN 사무총장)
13 John Kerry /Chairman of the Senate Foreign Relations Committee (전 국회 상원외교위 위원장, 국무장관)
12 Victoria Nuland /Spokesperson for the United States Department of State (국무부 대변인)
10 Kim Hyunwook (국립외교원 교수)
10 Susan Rice (UN 대사, 국무장관 지명, 현 미국 백악관 국가안보 보좌관)
스탠포드대학에서 제공하는 자연어처리 도구를 활용하고 제가 제안한 규칙을 통해 인용문의 정보원을 추려서 그렸습니다.
IMPACT FACTOR 4.04
검색어: 청년, 대학생, 청소년, 청춘
매체: 한국일보, 서울신문, 동아일보, 문화일보, 한겨레, 국민일보, 세계일보, 경향신문
기간: 200501-12
기사 수 797개, 인용문수: 872개
순위화: 주제 의미 연결망의 연결정도 중앙성
청년담론
2014년 7월-2015년 6월
8대 중앙지, 2대 경제지, 3대 지상파
2005년 vs 2015년
Generalist vs. specialist
2015년 사회 분야 기관-주제
다음으로 뉴스 문장연결망 분석을 소개해드리겠습니다.
뉴스 문장연결망분석은 연결을 정의할 때 규칙 기반과 통계 기반 방식이 있습니다.
보시는 연결망 그래프는 분단 관련 1년치 뉴스 기사의 문장연결망을 통계 기반 방식으로 그린 것이고요
왼쪽 작은 그림은 주구성집단을 시각화한 것입니다.
문장 연결망 분석에서는 특히 의미거리와 의미경로가 정의되어야 합니다.
우선 두 문장의 의미거리가 가까울수록 더 관련된 문장이어야 합니다.
다음으로 연결망 분석 결과 제시된 의미경로가 자연스러운 순서로 문장을 배열하고 있어야 합니다.
예컨대 토론할 때 문장 배열이 abcd가 자연스럽다고 하면, acbd는 어색할 수 있는데요,
문장연결망 분석이 abcd 순으로 의미경로를 제시해야 한다는 것을 의미합니다.
********************
이는 컴퓨터가 질의어를 넣으면 일종의 토론기계처럼 결과를 제시해준다는 것을 의미하는데요
쉽게 말해 토론기계는 때로는 혼자서 논의를 깊이 있게 이어가고, 때로는 핵심만을 짧게 얘기하고, 때로는 다른 논의로 넘어가야 하고, 때로는 대화를 주고 받을 줄 알아야 합니다. 즉 어떤 문장의 연쇄로 이루어지는 다양한 유형의 의미경로(semantic path)에 따라 답변해야 합니다.
(다음으로 선후 문장이 선문답보다 더 밀접하게 관련된 문장을 제시해야 한다. 즉 한 문장이 선택됐을 때, 이 문장에 이어질 수 있는 의미경로가 선문답보다 적다.)
(35개 문장으로 구성, 지름(diameter)은 5입니다.)
(참고로 통계 기반은 기사공동출현과 유사도에 따라, 규칙 기반은 기사공동출현과 인접기간 동일정보원 발언으로 연결을 정의합니다.)
이 때 의미거리는 관련도의 역수라고 할 수 있습니다.
두꺼운 선이 서로 관련된 것
Originality는 속성행렬로 부여
한겨레는 경향과 그나마 유사
세계는 우라까이의 흔적
일반적인 담론분석과 마찬가지로 뉴스를 통해 사회현상을 깊이 있게 이해해볼 수도 있을 것입니다.
참고로 보여드리는 그림은 제가 실제로 CAQDAS를 통해 뉴스 빅데이터를 담론분석한 논문이나 보고서들입니다.
****************************
컴퓨터 보조 질적 데이터 분석 소프트웨어를 활용해 담론분석을 하는 것으로
뉴스소스 베타를 담론분석에 활용.
실제로 박사논문과 저널논문, 짧은 보고서 등을 작성하고, 논문 작성 조언도 해줌
뉴타운, 양적위기 담론, 4대강// 일본 망언, 청년담론 > // 총선, 금융위기
기타 중국어과에서 동북공정 한중 비교, 박사 논문 조세정책
분석기간이 일반적인 내용분석이나 담론분석보다 훨씬 짧아졌습니다. 인력이나 비용도 훨씬 적게 투입됩니다.
① 정보원(성+이름, 소속, 직함), 문장, 기사를 식별하여 사실 중심으로 중복을 제거해 요약
② 정보원, 문장, 기사 검색 결과를 의미연결망분석을 통해 산출된 가중치에 따라 제시
③ 질의에 대한 검색 결과를 정보원과 인용문 중심으로 주제별로 대조
④ 연구자를 위해 시계열 뉴스정보원 연결망의 시각화와 정형화 자료 다운로드 제공
① 정보원(성+이름, 소속, 직함), 문장, 기사를 식별하여 사실 중심으로 중복을 제거해 요약
② 정보원, 문장, 기사 검색 결과를 의미연결망분석을 통해 산출된 가중치에 따라 제시
③ 질의에 대한 검색 결과를 정보원과 인용문 중심으로 주제별로 대조
④ 연구자를 위해 시계열 뉴스정보원 연결망의 시각화와 정형화 자료 다운로드 제공
엑셀
자연어처리 도구
연결망분석 도구
프로그래밍 언어
비주얼다이브 Finger Press · Chart Dive · CartoDB · GEO codeEX