O slideshow foi denunciado.
Seu SlideShare está sendo baixado. ×

2013調查報導工作坊 - 資料搜尋與處理

Anúncio
Anúncio
Anúncio
Anúncio
Anúncio
Anúncio
Anúncio
Anúncio
Anúncio
Anúncio
Anúncio
Anúncio
Carregando em…3
×

Confira estes a seguir

1 de 61 Anúncio

Mais Conteúdo rRelacionado

Semelhante a 2013調查報導工作坊 - 資料搜尋與處理 (20)

Mais de whisky CHANG (20)

Anúncio

Mais recentes (20)

2013調查報導工作坊 - 資料搜尋與處理

  1. 1. 資料新聞學 資料搜尋&處理 青平台基金會 / 張維志 – 2013/07/21
  2. 2. 青平台 / 張維志 Contact me : • http://fb.me/opendata.tw • http://www.opendata.tw • http://www.opencampus.tw • http://fb.me/groups/Open.Campus/ • whisky@ystaiwan.org • Twitter : @opentaiwan
  3. 3. 重點摘要 • 資料新聞學 – 先談一下 • 資料新聞學 – 工作流程 • 資料收集 • 資料清理 • 資料解讀 • 資料整合 • 說出故事 • 團隊與角色 – 找出你的定位
  4. 4. 資料新聞學 是什麼? 與,為什麼?
  5. 5. 資料新聞學 – 是什麼 Data + Journalism 資料 + 新聞(學)?
  6. 6. 資料新聞學 – 是什麼 Data Driven Journalism 從資料中找出故事,用 資料來說故事 #DDJ
  7. 7. 資料新聞學 – 為什麼 為什麼忽然 (2009) 大家都在談 資料新聞學?
  8. 8. 資料新聞學 – 為什麼
  9. 9. 資料新聞學 – 為什麼 因為,這是一個 「數位時代」, 「資訊時代」!
  10. 10. 資料新聞學 – 為什麼 生活越來越仰賴 資訊的流通與解讀 資料來源更多 資料產量更大 工具與技術能力更強
  11. 11. 資料新聞學 如何做?
  12. 12. 資料新聞學 – 如何做
  13. 13. 資料新聞學 – 如何做 這是新聞報導… 不是論文寫作…
  14. 14. 資料新聞學 – 工作流程 目的 – 當然是寫出一篇新聞(報導) XD 一切都從這開始: 我有個問題,想找答案 我有組資料集 (dataset) 我想看 看能「挖掘」出什麼
  15. 15. 資料新聞學 – 工作流程 我們要的是: 從資料下載 - Html / CSV / SQL / KML… • 2010.07.25 • 91,731 份文件 到… http://mirror.wikileaks.info/wiki/Afghan_War _Diary,_2004-2010/
  16. 16. 資料新聞學 – 工作流程 到… 一篇報導
  17. 17. 資料新聞學 – 工作流程
  18. 18. 資料新聞學 – 工作流程 Simon ROGERS “Before a dataset results in a data journalism story, there’s a whole process of sifting and finessing and generally sorting the data out. The split is roughly 70% tidying up the data, 30% doing the fun stuff of visualising and presenting it.”
  19. 19. 資料新聞學 – 工作流程 • 資料匯整 • 資料清理 • 資料解讀 • 資料整合 • 說出故事
  20. 20. 資料新聞學 – 工作流程
  21. 21. 資料新聞學 – 工作流程 資料匯整 – 把資料找出來 • 網路搜尋 • 政府部門與政府資訊公開法 • 開放資料與網路資料庫 • NPO / NGO 與倡議組織 • 鄉民 (SNS) 與駭客
  22. 22. 資料新聞學 – 工作流程 資料匯整 – 網路搜尋 網路搜尋 = Use Google?
  23. 23. 資料新聞學 – 工作流程 資料匯整 – 網路搜尋 • Google 以外的選擇 (為什麼?) • MS Bing • Yandex (俄羅斯) • DuckDuckGo – 尊重個人隱私 • Blippex – 其他的搜尋計算公式 • Wolfram Alpha – 人工智慧的表現 • Pipl – 找人(但是應該沒台灣人,不支援中文搜尋) http://www.bbc.co.uk/news/technology-23318889
  24. 24. 資料新聞學 – 工作流程 資料匯整 – 網路搜尋 成為 Google 搜尋的 power user! • 使用進階功能 http://mashable.com/2011/11/24/google- search-infographic/ • Site: • Author: • Filetype: • Related“: http://www.googleguide.com/advanced_operators.html
  25. 25. 資料新聞學 – 工作流程 資料匯整 – 網路搜尋 成為 Google 搜尋的 power user! • 關鍵字的運用 • 越詳細找到的東西越符合我們的期待 • 不知道要期待什麼,就打簡單的幾個字,加上 “~” = related • 從搜尋結果中再篩選 • 搭配搜尋指令使用
  26. 26. 資料新聞學 – 工作流程 資料匯整 – 政府部門與政府資訊公開法 政府資訊公開法 – 人民有知的權利 12 類需主動公開的資料: • 五、施政計畫、業務統計及研究報告。 • 六、(一)公務-預算及決算書。 • 八、書面之公共工程及採購契約。
  27. 27. 資料新聞學 – 工作流程 資料匯整 – 政府部門與政府資訊公開法 但是… 政府一般不太情願把資料丟出來。 那怎麼辦? • 寫信去所屬機關跟他們要 • 還是不給,找很多人一起去要! • 就是不給,打行政訴訟!
  28. 28. 資料新聞學 – 工作流程 資料匯整 – 政府部門與政府資訊公開法 http://www.kickstarter.com/projects/cir/foia-machine
  29. 29. 資料新聞學 – 工作流程 資料匯整 – 政府部門與政府資訊公開法 不過,請先找對機關, 問清楚對口單位 XDD (這沒有想像中簡單啊..)
  30. 30. 資料新聞學 – 工作流程 資料匯整 – 開放資料與網路資料庫 開放資料 : 資料可被自由使用,不限制使用資格,使用方法,使用 範圍。(授權,技術格式,最低收費) 開放資料運動帶來更大量資料的釋出: • 世界銀行 - http://data.worldbank.org/ • 各國政府開放資料平台 – http://data.gov.tw/ • 搜尋 : open data portal / open data catalog
  31. 31. 資料新聞學 – 工作流程 資料匯整 – 開放資料與網路資料庫
  32. 32. 資料新聞學 – 工作流程 資料匯整 – NPO / NGO 與其他倡議組織 不管大大小小議題,其實都有人在關心… 所以,或許可以先把他們找出來.. 問題是,這些 NGO/NPO 一般都對資料很無感 XDDD
  33. 33. 資料新聞學 – 工作流程 資料匯整 – 鄉民 (SNS) 與駭客 這不是鄉民的正義…. • 鄉民 : Crowdsourcing 群眾外包 • 駭客 : 有能力寫程式幫你處理問題
  34. 34. 資料新聞學 – 工作流程 資料匯整 – 鄉民 + Crowdsourcing
  35. 35. 資料新聞學 – 工作流程 資料匯整 – 鄉民 + SNS
  36. 36. 資料新聞學 – 工作流程 資料匯整 – 駭客 / 強大的能量!
  37. 37. 資料新聞學 – 工作流程 資料匯整 – 駭客 / 強大的能量! 不過這些人,用的語言不太一樣 學會跟他們溝通 學會瞭解駭客的文化,技術 學會參與 有個組織叫做 g0v
  38. 38. 資料新聞學 – 工作流程 資料清理 – 資料集的格式與內容 • 將資料轉為程式(電腦)可讀可運算格式 • 將資料中遺漏,缺失,重複,錯誤格式等找 出並修復
  39. 39. 資料新聞學 – 工作流程 資料清理 – 程式可讀可運算的資料集 資料不是只是拿來給人看與閱讀 資料是要拿來用程式跑過與處理
  40. 40. 資料新聞學 – 工作流程 資料清理 – 程式可讀可運算的資料集 開放資料格式的五星等級 PDF  OCR  試算表
  41. 41. 資料新聞學 – 工作流程 資料清理 – 程式集的清洗 資料集 : dataset,指的是一組彼此有關連的資料。 清洗的幾種方法 • 移除重複的資料 • 將欄位重新合併或是切割 • 確定欄位內容格式是否一致 • 去除多餘的空白字元,縮寫是否一致 • 檢查時間,數字,文字等格式設定
  42. 42. 資料新聞學 – 工作流程 資料清理 – 程式集的清洗 使用工具: • Google OpenRefine / http://openrefine.org/ • Data Wrangler / http://vis.stanford.edu/wrangler/ • 或是直接使用試算表程式 (excel, calc…)
  43. 43. 資料新聞學 – 工作流程 資料解讀 – 定義出資料的含意與可信度 • 資料存在的原因 • 資料內容與單位
  44. 44. 資料新聞學 – 工作流程 資料解讀 –資料存在的原因 • 資料的存在有他的原因 • 回應的需求 • 資料取得的方法 • 何時,適用期限 不要對資料過度解讀!
  45. 45. 資料新聞學 – 工作流程 資料解讀 –資料內容與單位 資料使用的單位 是最大的陷阱
  46. 46. 資料新聞學 – 工作流程 資料解讀 –資料內容與單位 檢驗取得的資料內容 與要回答的問題之間的關係
  47. 47. 資料新聞學 – 工作流程 資料整合 – 整理出一個回答問題的資料集 • 原始資料集的重新排序,切割,合併,簡化 • 與其他資料集的混搭 – Mashup • 從空間,時間,連結關係上開始
  48. 48. 資料新聞學 – 工作流程 資料整合 – 整理出一個回答問題的資料集 • 原始資料集的重新排序,切割,合併, 簡化 • 只使用資料備份版本 • 定出問題與資料範圍 • 只保留有用的資料
  49. 49. 資料新聞學 – 工作流程 資料整合 – 整理出一個回答問題的資料集 • 與其他資料集的混搭 – Mashup • 資料跟自己比較是沒有多大意義 • 找出其他可能相關資料集 • 建立資料集間的關係(共同 key)
  50. 50. 資料新聞學 – 工作流程 資料整合 – 整理出一個回答問題的資料集 • 從空間,時間,連結關係上開始 • 從不同變數(空間,時間)開始建立 基礎模型與呈現 • 將不同資料彙整在同一資料集內
  51. 51. 資料新聞學 – 工作流程 資料整合 – 整理出一個回答問題的資料集
  52. 52. 資料新聞學 – 工作流程 接下來? 問題有得到答案嗎? 需要更多資料? 那就重新再跑一次吧
  53. 53. 資料新聞學 – 工作流程 說出故事…
  54. 54. 資料新聞學 – 團隊與角色 Want to build a data journalism team? You’ll need these three people
  55. 55. 資料新聞學 – 團隊與角色 Computer Assisted Reporter – 電腦輔助報導人 News Applications developer – 新聞應用程式開發者 Data visualization specialist – 資料視覺化呈現專家
  56. 56. 資料新聞學 – 團隊與角色 你該學會的新把戲 1. 基礎技能 (Fundamentals) 2. 統計(Statistics) 3. 程式設計 (Programming) 4. 機器學習(Machine Learning) 5. 文字採礦/自然語言處理 (Text Mining / Natural Language Processing) 6. 資料視覺化(Data Visualization) 你該學會的新把戲 2 7. 大量資料(Big Data) 8. Data Ingestion 9. Data Wrangling 10. 工具(Toolbox)
  57. 57. 資料新聞學 – 團隊與角色 不過至尐… 對資料,統計,程式語言和網路工具… 想辦法多學一點
  58. 58. 資料新聞學 – 團隊與角色 資料新聞學, 依然是新聞的一種 但這也是我們學習如何「發現」, 「閱讀」,「述說」 世界的一種方法
  59. 59. 重點摘要 • 資料新聞學 – 先談一下 • 資料新聞學 – 工作流程 • 資料收集 • 資料清理 • 資料解讀 • 資料整合 • 說出故事 • 團隊與角色 – 找出你的定位
  60. 60. 青平台 / 張維志 Contact me : • http://fb.me/opendata.tw • http://www.opendata.tw • http://www.opencampus.tw • http://fb.me/groups/Open.Campus/ • whisky@ystaiwan.org • Twitter : @opentaiwan

×