SlideShare uma empresa Scribd logo
1 de 68
Baixar para ler offline
資料科學與媒體報導關聯性分析
—以太陽花學運為例
清華統計所博⼠士後研究員 謝宗震 (Johnson)!
May 15th 2014
About Me
學歷!
• 清華統計所博⼠士 (2009-2013)
現職!
• 清華統計所博⼠士後研究員
• TW.R group Officer
• Data Science Program 講師
擅⻑⾧長!
• Statistics, biodiversity,
community ecology, population
genetic, R programing
Blog
• 讀數⼀一格 http://readata.org
我因為⼀一張圖⽽而來到這裡
http://readata.org/datasci/ecfa-and-data-science/
回到今天的第⼀一個主題
資料科學
什麼是資料科學?
資料科學可以解決什麼問題?
就我的觀察,
資料科學⾄至少可以解決幾種問題...
解決考卷上的問題
http://www.ics.uci.edu/~jutts/8/FinalExamAKey.pdf
解決發paper的問題
http://www.iscramlive.org/ISCRAM2011/proceedings/papers/119.pdf
解決⽣生活上的問題
http://www.sonypictures.com/movies/21/
http://archive.indianexpress.com/news/review-the-wolf-of-wall-street/1215087/
事實上,應該問的是
怎麼⽤用資料科學解決問題?
為了回答這個問題
先要了解資料科學的基本流程
資料科學的基本流程
產品導向的分析流程
資料科學的基本流程
http://columbiadatascience.com/2013/09/16/introduction-to-data-science-version-2-0/
資料導向的分析流程
真實流程遠⽐比以下複雜多了
學習路徑圖
http://nirvacana.com/thoughts/becoming-a-data-scientist/
http://www.dataists.com/2010/09/the-data-science-venn-diagram/
The Data Science Venn Diagram
資料科學家好⽐比⼀一隻軍隊
現實⽣生活中 你需要的可能是
⼀一隻資料科學團隊
http://media.edge-online.com/wp-content/uploads/edgeonline/2013/02/ArmyOfTwo2.jpg
http://www.themovieblog.com/archives/iron-man-post.jpg
可以講媒體關聯性分析了
終於
?
Question?
⾝身為⼀一位⽣生態統計學家
怎麼會牽扯到媒體關聯性?
故事從這裡說起...
http://juan.tw/?p=2269
http://g0v.today
⽂文播組沒說完的話:
我們是⼀一群對程式幾乎⼀一無所知的⼈人,想做些事情,只是沒
有平台、也不會這些技術。我們不曉得這個夢會不會太⼤大,
但只是想整合資源,⽽而不想讓資料隨⾵風飄,然後就消失了......
還有就是想要把這個屬於台灣⼈人⾃自⼰己的歷史完完整整記錄下
來,最完整的歷史記錄,留下後讓後⼈人⾃自⼰己來評論。
https://g0v.hackpad.com/ep/pad/static/07KBjTxWEFS
我問⾃自⼰己⼀一個問題
現場⽂文播資料可以怎麼⽤用?
現場情況 V.S. 現場⽂文播
現場⽂文播 V.S. 新聞報導
有沒有辦法量化 新聞媒體報導的真實性?
基本上 沒有 完美的辦法
不過 媒體的關聯性應該有辦法
怎麼量化關聯性?
先設想 你需要什麼 / 有什麼資料
怎麼獲取媒體報導資料?
除了堅毅不拔的複製 / 貼上之外...
你還會什麼?
特別感謝
Ronny Wang and NewsDiff
我收到了三萬多筆學運相關報導的原始資料
怎麼量化關聯性?
接著問 這些資料可以怎麼⽤用?
使⽤用關鍵字頻作為基本量化元素
http://johnsonhsieh.github.io/study-area-statR/#49
這個過程⽤用了以下技術
Quick references
• Statistics with R (Johnson)
• slide: http://johnsonhsieh.github.io/study-area-statR/#49
• vod : https://www.youtube.com/watch?v=XbNx-I9fLWQ
• Text Mining with R (Glen)
• slide : https://docs.google.com/presentation/d/
1IP5vFmBlGPBp32bWDqSpGYLox5QVmenFAfPwcOseQh
Q/edit#slide=id.p
• vod : https://www.youtube.com/watch?v=ALZaXnzXPg8
怎麼計算關聯性?
Pearson correlation coefficient
最廣為⼈人知的相關性指標
但是本案例中完全⽤用不上
觀察資料的結構
該怎麼計算關聯性?
Ref: Chao, A., Jost, L., Chiang, S. C. Jiang Y.- H. and Chazdon, R. (2008). A Two-stage
probabilistic approach to multiple-community similarity indices.Biometrics 64, 1178-1186. (pdf file)
這個過程⽤用了以下技術
最後得到所謂的媒體關係圖
http://readata.org/datasci/ecfa-and-data-science/
Question?
– ⺩王中佾、戚宇賢、林秉儒
在進⾏行社群媒體上的內容分析時,需要列出「關鍵字」
以進⾏行資料撈取,然⽽而,研究者該如何界定哪些是關鍵
字、那些不是關鍵字?
idea: frequencies and weight
– 吳⾟辛夷、廖苡涵、謝佳佑
蒐集新聞資料時應以什麼樣的時間⻑⾧長度作為⼀一個單位?
!
由於現在各家媒體轉載、合作⽅方式多,如何區分各家媒體
的資訊來源?
idea: published time, hyperlink, similarity
– 蕭奕凱、李欣穎、任喆鸝
想請教您有關「相似度指標」的細節。因為我們課 堂報告的題⺫⽬目是「區
分⼤大量留⾔言的⽴立場」,需要將留⾔言辨別為「正⾯面的」、「負⾯面的」或「中
⽴立持平的」。然後就⾯面臨了留⾔言的相似度與⽴立場辨別之間的問題。
!
如果將您繪製的網絡再加上時間變數,隨著事件的發展與沉寂,網絡會漸
漸變得越來越不⼀一樣嗎?
!
在得知蘋果⽇日報是服貿議題的新聞 散播中⼼心之後(根據您的發現:蘋果
⽇日報與所有報導來源都有⾼高度的關聯性),運⽤用何種研究⽅方法可以釐清新
聞後續的散播路徑與⽅方向?
idea: machine learning, time-varying covariate
Examples:
服貿東⻄西軍: http://ecfa.speaking.tw/imho.php
News Nexus: https://www.facebook.com/387816094628136/posts/604071486335928
– 莊漢菱、沈威志、陳宣耀
在⺫⽬目前的服貿事件X資料科學中可以看到各種媒體與現場
情況之間的關聯性,也知道蘋果⽇日報與所有報導來源都有
相當⾼高度關聯,然⽽而不知道是否有任何研究⽅方式可以得知
各個媒體或是報導來源的先後順序?也就是哪家媒體可能
跟另⼀一個媒體互為資料上下游的關係?
idea: published time, time-varying covariate
– 林⾔言翰、韓凡霖、陳毓屏、彭 湘
以Hot Topic的概念來看,這次的太陽花學運的形成與之前的學
運有什麼型態上的不⼀一樣?有哪些特徵值是需要特別注意的
嗎? ⼜又,太陽花學運的興起是否與社群網路的興盛有關?
!
⺫⽬目前市⾯面上的分析⼯工具眾多,以R為分析⼯工具,與SPSS或者
SAS等⼯工具相⽐比有什麼利基特⾊色或者使⽤用族群上的市場區隔
呢?
idea: how to quantify?
Ref:
SAS, SPSS末路?: http://r4stats.com/2013/05/14/beginning-of-the-end-v2/
R for SAS and SPSS Users: http://r4stats.com/books/r4sas-spss/
如果沒⼈人想繼續提問 ⼜又還有時間
我想再說⼀一個故事...
其實 web crawling & text mining 的技術
我只學了半天...
當時是在 pixnet hackathon (2014-03-22)
http://pixnethackathon2014.events.pixnet.net/
痞客邦 美⻝⾷食分類前1000名
部落格⽂文章標題分析
http://programmermagazine.github.io/201402/htm/article6.html
Ref: ⽤用 R 進⾏行中⽂文 text Mining (作者:陳嘉葳@Taiwan R User Group)
Data Science 相關資源
Data Science Program
http://datasci.co/
t
MLDM monday
Taiwan R User Group
Free R Online Tutorials is coming !!!!
Meetup: http://www.meetup.com/Taiwan-R/
YouTube: https://www.youtube.com/user/TWuseRGroup
台灣資料科學愛好者年會 2014
2014/8/30 (Sat) - 2014/8/31 (Sun) 中研院⼈人⽂文社會科學館國際會議廳
http://twconf.data-sci.org/
Follow my slideshare account
http://www.slideshare.net/euler96
Thanks for listening
http://3.bp.blogspot.com/-wYuLfk1NGbY/UXaxv0-9prI/AAAAAAAAAaw/G8kQpHiA2No/s1600/ironman3_3.jpg

Mais conteúdo relacionado

Mais procurados

一名女科技人的反思
一名女科技人的反思一名女科技人的反思
一名女科技人的反思Yi-Shin Chen
 
從人工智慧反思教育現場
從人工智慧反思教育現場從人工智慧反思教育現場
從人工智慧反思教育現場Yi-Shin Chen
 
【D4SG】新竹縣環保局-便利資訊看板(雛形)
【D4SG】新竹縣環保局-便利資訊看板(雛形)【D4SG】新竹縣環保局-便利資訊看板(雛形)
【D4SG】新竹縣環保局-便利資訊看板(雛形)Mickey Lai
 
How to develop big data
How to develop big dataHow to develop big data
How to develop big dataPhoenix Su
 
20150504 建構整合異質性數位典藏之開放原始碼資源探索系統先導研究
20150504 建構整合異質性數位典藏之開放原始碼資源探索系統先導研究20150504 建構整合異質性數位典藏之開放原始碼資源探索系統先導研究
20150504 建構整合異質性數位典藏之開放原始碼資源探索系統先導研究Yung-Ting Chen
 
採購開竅 - OK Tasigle
採購開竅 - OK Tasigle採購開竅 - OK Tasigle
採購開竅 - OK TasigleDSP智庫驅動
 

Mais procurados (6)

一名女科技人的反思
一名女科技人的反思一名女科技人的反思
一名女科技人的反思
 
從人工智慧反思教育現場
從人工智慧反思教育現場從人工智慧反思教育現場
從人工智慧反思教育現場
 
【D4SG】新竹縣環保局-便利資訊看板(雛形)
【D4SG】新竹縣環保局-便利資訊看板(雛形)【D4SG】新竹縣環保局-便利資訊看板(雛形)
【D4SG】新竹縣環保局-便利資訊看板(雛形)
 
How to develop big data
How to develop big dataHow to develop big data
How to develop big data
 
20150504 建構整合異質性數位典藏之開放原始碼資源探索系統先導研究
20150504 建構整合異質性數位典藏之開放原始碼資源探索系統先導研究20150504 建構整合異質性數位典藏之開放原始碼資源探索系統先導研究
20150504 建構整合異質性數位典藏之開放原始碼資源探索系統先導研究
 
採購開竅 - OK Tasigle
採購開竅 - OK Tasigle採購開竅 - OK Tasigle
採購開竅 - OK Tasigle
 

Destaque

媒體報導關聯性分析:以太陽花學運為例
媒體報導關聯性分析:以太陽花學運為例媒體報導關聯性分析:以太陽花學運為例
媒體報導關聯性分析:以太陽花學運為例Johnson Hsieh
 
電腦不只會幫你選土豆,還會幫你選新聞
電腦不只會幫你選土豆,還會幫你選新聞電腦不只會幫你選土豆,還會幫你選新聞
電腦不只會幫你選土豆,還會幫你選新聞Andy Dai
 
資料原力,改變社會
資料原力,改變社會資料原力,改變社會
資料原力,改變社會Johnson Hsieh
 
《簡報化妝術》公開班課程介紹
《簡報化妝術》公開班課程介紹《簡報化妝術》公開班課程介紹
《簡報化妝術》公開班課程介紹林 稚蓉
 
有效的教學簡報技巧
有效的教學簡報技巧有效的教學簡報技巧
有效的教學簡報技巧林 稚蓉
 
導演您的教學簡報
導演您的教學簡報導演您的教學簡報
導演您的教學簡報林 稚蓉
 
Slide share 全世界最大簡報知識共享平台
Slide share 全世界最大簡報知識共享平台Slide share 全世界最大簡報知識共享平台
Slide share 全世界最大簡報知識共享平台bunny4776
 

Destaque (7)

媒體報導關聯性分析:以太陽花學運為例
媒體報導關聯性分析:以太陽花學運為例媒體報導關聯性分析:以太陽花學運為例
媒體報導關聯性分析:以太陽花學運為例
 
電腦不只會幫你選土豆,還會幫你選新聞
電腦不只會幫你選土豆,還會幫你選新聞電腦不只會幫你選土豆,還會幫你選新聞
電腦不只會幫你選土豆,還會幫你選新聞
 
資料原力,改變社會
資料原力,改變社會資料原力,改變社會
資料原力,改變社會
 
《簡報化妝術》公開班課程介紹
《簡報化妝術》公開班課程介紹《簡報化妝術》公開班課程介紹
《簡報化妝術》公開班課程介紹
 
有效的教學簡報技巧
有效的教學簡報技巧有效的教學簡報技巧
有效的教學簡報技巧
 
導演您的教學簡報
導演您的教學簡報導演您的教學簡報
導演您的教學簡報
 
Slide share 全世界最大簡報知識共享平台
Slide share 全世界最大簡報知識共享平台Slide share 全世界最大簡報知識共享平台
Slide share 全世界最大簡報知識共享平台
 

Semelhante a Data science and ECFA media analysis

媒體 與 社群的資料分析
媒體 與 社群的資料分析媒體 與 社群的資料分析
媒體 與 社群的資料分析Gene Hong
 
20151216 從資訊行為到數位學習 談數位閱讀之研究 - 發佈版
20151216 從資訊行為到數位學習   談數位閱讀之研究 - 發佈版20151216 從資訊行為到數位學習   談數位閱讀之研究 - 發佈版
20151216 從資訊行為到數位學習 談數位閱讀之研究 - 發佈版Yung-Ting Chen
 
现代学生与信息素质教育
现代学生与信息素质教育现代学生与信息素质教育
现代学生与信息素质教育zhangdr
 
2016台灣資料科學年會開場投影片
2016台灣資料科學年會開場投影片2016台灣資料科學年會開場投影片
2016台灣資料科學年會開場投影片台灣資料科學年會
 
20160315 ntpu im-speech
20160315 ntpu im-speech20160315 ntpu im-speech
20160315 ntpu im-speechHui-Ting Hsu
 
葉家宏 基於深度學習之政治人物聲望分析
葉家宏 基於深度學習之政治人物聲望分析葉家宏 基於深度學習之政治人物聲望分析
葉家宏 基於深度學習之政治人物聲望分析明倫 吳
 
2013調查報導工作坊 - 資料搜尋與處理
2013調查報導工作坊 - 資料搜尋與處理2013調查報導工作坊 - 資料搜尋與處理
2013調查報導工作坊 - 資料搜尋與處理whisky CHANG
 
社群媒體安全-由資料驅動之實務研究
社群媒體安全-由資料驅動之實務研究社群媒體安全-由資料驅動之實務研究
社群媒體安全-由資料驅動之實務研究Ming-Hung Wang
 
數位科技與公民參與 - 科技與社會跨領域教學計畫
數位科技與公民參與 - 科技與社會跨領域教學計畫數位科技與公民參與 - 科技與社會跨領域教學計畫
數位科技與公民參與 - 科技與社會跨領域教學計畫maolins
 
數位科技與公民參與 - 科技與社會跨領域教學計畫
數位科技與公民參與 - 科技與社會跨領域教學計畫數位科技與公民參與 - 科技與社會跨領域教學計畫
數位科技與公民參與 - 科技與社會跨領域教學計畫maolins
 
2015 台灣資料科學愛好者年會-開場
2015 台灣資料科學愛好者年會-開場2015 台灣資料科學愛好者年會-開場
2015 台灣資料科學愛好者年會-開場台灣資料科學年會
 
Hpx campus 2
Hpx campus 2Hpx campus 2
Hpx campus 2Nor chen
 
小郑教师 信息课程课件
小郑教师 信息课程课件小郑教师 信息课程课件
小郑教师 信息课程课件coven
 

Semelhante a Data science and ECFA media analysis (19)

媒體 與 社群的資料分析
媒體 與 社群的資料分析媒體 與 社群的資料分析
媒體 與 社群的資料分析
 
20151216 從資訊行為到數位學習 談數位閱讀之研究 - 發佈版
20151216 從資訊行為到數位學習   談數位閱讀之研究 - 發佈版20151216 從資訊行為到數位學習   談數位閱讀之研究 - 發佈版
20151216 從資訊行為到數位學習 談數位閱讀之研究 - 發佈版
 
现代学生与信息素质教育
现代学生与信息素质教育现代学生与信息素质教育
现代学生与信息素质教育
 
2016台灣資料科學年會開場投影片
2016台灣資料科學年會開場投影片2016台灣資料科學年會開場投影片
2016台灣資料科學年會開場投影片
 
20160315 ntpu im-speech
20160315 ntpu im-speech20160315 ntpu im-speech
20160315 ntpu im-speech
 
0315 Speech-NTPU
0315 Speech-NTPU0315 Speech-NTPU
0315 Speech-NTPU
 
Unfalsifiability in Statistical Methods
Unfalsifiability in Statistical MethodsUnfalsifiability in Statistical Methods
Unfalsifiability in Statistical Methods
 
葉家宏 基於深度學習之政治人物聲望分析
葉家宏 基於深度學習之政治人物聲望分析葉家宏 基於深度學習之政治人物聲望分析
葉家宏 基於深度學習之政治人物聲望分析
 
ckhung
ckhungckhung
ckhung
 
2013調查報導工作坊 - 資料搜尋與處理
2013調查報導工作坊 - 資料搜尋與處理2013調查報導工作坊 - 資料搜尋與處理
2013調查報導工作坊 - 資料搜尋與處理
 
社群媒體安全-由資料驅動之實務研究
社群媒體安全-由資料驅動之實務研究社群媒體安全-由資料驅動之實務研究
社群媒體安全-由資料驅動之實務研究
 
數位科技與公民參與 - 科技與社會跨領域教學計畫
數位科技與公民參與 - 科技與社會跨領域教學計畫數位科技與公民參與 - 科技與社會跨領域教學計畫
數位科技與公民參與 - 科技與社會跨領域教學計畫
 
數位科技與公民參與 - 科技與社會跨領域教學計畫
數位科技與公民參與 - 科技與社會跨領域教學計畫數位科技與公民參與 - 科技與社會跨領域教學計畫
數位科技與公民參與 - 科技與社會跨領域教學計畫
 
使用者經驗演講簡報2013 07-19 - 複製
使用者經驗演講簡報2013 07-19 - 複製使用者經驗演講簡報2013 07-19 - 複製
使用者經驗演講簡報2013 07-19 - 複製
 
fjusts
fjustsfjusts
fjusts
 
fjusts
fjustsfjusts
fjusts
 
2015 台灣資料科學愛好者年會-開場
2015 台灣資料科學愛好者年會-開場2015 台灣資料科學愛好者年會-開場
2015 台灣資料科學愛好者年會-開場
 
Hpx campus 2
Hpx campus 2Hpx campus 2
Hpx campus 2
 
小郑教师 信息课程课件
小郑教师 信息课程课件小郑教师 信息课程课件
小郑教师 信息课程课件
 

Mais de Johnson Hsieh

[網二] 打擊家暴的資料英雄--- NPO如何憑藉數據來解決社會問題?
[網二] 打擊家暴的資料英雄--- NPO如何憑藉數據來解決社會問題?[網二] 打擊家暴的資料英雄--- NPO如何憑藉數據來解決社會問題?
[網二] 打擊家暴的資料英雄--- NPO如何憑藉數據來解決社會問題?Johnson Hsieh
 
[網二] 『資料力,做公益』- 開創公共服務的新契機
[網二] 『資料力,做公益』- 開創公共服務的新契機 [網二] 『資料力,做公益』- 開創公共服務的新契機
[網二] 『資料力,做公益』- 開創公共服務的新契機 Johnson Hsieh
 
資料視覺化的力量
資料視覺化的力量資料視覺化的力量
資料視覺化的力量Johnson Hsieh
 
iNEXT: An R package for interpolation and extrapolation in measuring species ...
iNEXT: An R package for interpolation and extrapolation in measuring species ...iNEXT: An R package for interpolation and extrapolation in measuring species ...
iNEXT: An R package for interpolation and extrapolation in measuring species ...Johnson Hsieh
 
iNEXT: an r package for interpolation and extrapolation species diversity
iNEXT: an r package for interpolation and extrapolation species diversityiNEXT: an r package for interpolation and extrapolation species diversity
iNEXT: an r package for interpolation and extrapolation species diversityJohnson Hsieh
 
Intro shiny coscup2013
Intro shiny coscup2013Intro shiny coscup2013
Intro shiny coscup2013Johnson Hsieh
 

Mais de Johnson Hsieh (8)

[網二] 打擊家暴的資料英雄--- NPO如何憑藉數據來解決社會問題?
[網二] 打擊家暴的資料英雄--- NPO如何憑藉數據來解決社會問題?[網二] 打擊家暴的資料英雄--- NPO如何憑藉數據來解決社會問題?
[網二] 打擊家暴的資料英雄--- NPO如何憑藉數據來解決社會問題?
 
[網二] 『資料力,做公益』- 開創公共服務的新契機
[網二] 『資料力,做公益』- 開創公共服務的新契機 [網二] 『資料力,做公益』- 開創公共服務的新契機
[網二] 『資料力,做公益』- 開創公共服務的新契機
 
資料視覺化的力量
資料視覺化的力量資料視覺化的力量
資料視覺化的力量
 
iNEXT: An R package for interpolation and extrapolation in measuring species ...
iNEXT: An R package for interpolation and extrapolation in measuring species ...iNEXT: An R package for interpolation and extrapolation in measuring species ...
iNEXT: An R package for interpolation and extrapolation in measuring species ...
 
Statistics with R
Statistics with RStatistics with R
Statistics with R
 
iNEXT: an r package for interpolation and extrapolation species diversity
iNEXT: an r package for interpolation and extrapolation species diversityiNEXT: an r package for interpolation and extrapolation species diversity
iNEXT: an r package for interpolation and extrapolation species diversity
 
Intro shiny coscup2013
Intro shiny coscup2013Intro shiny coscup2013
Intro shiny coscup2013
 
Paper Summary
Paper SummaryPaper Summary
Paper Summary
 

Data science and ECFA media analysis