Mais conteúdo relacionado
Semelhante a 從 2013 社群網絡活動看台灣社會發展趨勢 (14)
從 2013 社群網絡活動看台灣社會發展趨勢
- 3. 經驗和思考架構
電信/安全/商業/金融/遙感遙測/勘探/生物醫藥……
社會科學方法的應用(如統計的相關,效用,…;
各種相關學門的理論) 價值釐清層資料科學家
30
領域應用/服務需求和計算模型
行業應用系統開發
社群網路,排名與推薦,商業智慧,自然語言處理,生物
資訊媒體分析檢索, Web挖掘與檢索, 3D與視覺化計
算…
平行化機器學習與資料採擷演算法
MapReduce, BSP, MPI, CUDA, OpenMP,定制式,
混合式(如MapReduce+CUDA, MapReduce+MPI)
巨量資料查詢(SQL, NoSQL,即時查詢,線下分析)
巨量資料存儲(DFS, HBase, MemDB, RDB)
巨量數據預處理
集群,多核, GPU,混合式構架(如集群+多核,集群+GPU),
雲計算資源與支撐平臺
應用/服務層
應用開發層
應用演算法層
基礎演算法層
平行程式設計模
型與計算框架層
巨量資料存儲
管理層
平行構架和資
源平臺層
user
領域專家
應用開發者
資料科學家
/計算技術
學者/
開發者
應用層
演算法層
系統層
平臺層
資料的處理,測試與選擇資料層資料處理層資料科學家
- 4. 經驗和思考架構
電信/安全/商業/金融/遙感遙測/勘探/生物醫藥……
社會科學方法的應用(如統計的相關,效用,…;
各種相關學門的理論) 價值釐清層資料科學家
大多數人談的
30
領域應用/服務需求和計算模型
行業應用系統開發
社群網路,排名與推薦,商業智慧,自然語言處理,生物
資訊媒體分析檢索, Web挖掘與檢索, 3維建模與視覺
化計算…
平行化機器學習與資料採擷演算法
MapReduce, BSP, MPI, CUDA, OpenMP,定制式,
混合式(如MapReduce+CUDA, MapReduce+MPI)
巨量資料查詢(SQL, NoSQL,即時查詢,線下分析)
巨量資料存儲(DFS, HBase, MemDB, RDB)
巨量數據預處理
集群,多核, GPU,混合式構架(如集群+多核,集群+GPU),
雲計算資源與支撐平臺
應用/服務層
應用開發層
應用演算法層
基礎演算法層
平行程式設計模
型與計算框架層
巨量資料存儲
管理層
平行構架和資
源平臺層
行業用戶
領域專家
應用開發者
計算技術
研究和
開發者
應用層
演算法層
系統層
平臺層
資料的處理,測試與選擇資料層資料處理層資料科學家
- 5. 經驗和思考架構
電信/安全/商業/金融/遙感遙測/勘探/生物醫藥……
我認為對顧客最有價值的部分
社會科學方法的應用(如統計的相關,效用,…;
各種相關學門的理論) 價值釐清層資料科學家
大多數人談的
30
領域應用/服務需求和計算模型
行業應用系統開發
社群網路,排名與推薦,商業智慧,自然語言處理,生物
資訊媒體分析檢索, Web挖掘與檢索, 3維建模與視覺
化計算…
平行化機器學習與資料採擷演算法
MapReduce, BSP, MPI, CUDA, OpenMP,定制式,
混合式(如MapReduce+CUDA, MapReduce+MPI)
巨量資料查詢(SQL, NoSQL,即時查詢,線下分析)
巨量資料存儲(DFS, HBase, MemDB, RDB)
巨量數據預處理
集群,多核, GPU,混合式構架(如集群+多核,集群+GPU),
雲計算資源與支撐平臺
應用/服務層
應用開發層
應用演算法層
基礎演算法層
平行程式設計模
型與計算框架層
巨量資料存儲
管理層
平行構架和資
源平臺層
行業用戶
領域專家
應用開發者
計算技術
研究和
開發者
應用層
演算法層
系統層
平臺層
資料的處理,測試與選擇資料層資料處理層資料科學家
- 6. 經驗和思考架構
電信/安全/商業/金融/遙感遙測/勘探/生物醫藥……
我認為對顧客最有價值的部分
社會科學方法的應用(如統計的相關,效用,…;
各種相關學門的理論) 價值釐清層資料科學家
大多數人談的
30
領域應用/服務需求和計算模型
行業應用系統開發
社群網路,排名與推薦,商業智慧,自然語言處理,生物
資訊媒體分析檢索, Web挖掘與檢索, 3維建模與視覺
化計算…
平行化機器學習與資料採擷演算法
MapReduce, BSP, MPI, CUDA, OpenMP,定制式,
混合式(如MapReduce+CUDA, MapReduce+MPI)
巨量資料查詢(SQL, NoSQL,即時查詢,線下分析)
巨量資料存儲(DFS, HBase, MemDB, RDB)
巨量數據預處理
集群,多核, GPU,混合式構架(如集群+多核,集群+GPU),
雲計算資源與支撐平臺
應用/服務層
應用開發層
應用演算法層
基礎演算法層
平行程式設計模
型與計算框架層
巨量資料存儲
管理層
平行構架和資
源平臺層
行業用戶
領域專家
應用開發者
計算技術
研究和
開發者
應用層
演算法層
系統層
平臺層
少人談,最辛苦的(今天主要主軸)
資料的處理,測試與選擇資料層資料處理層資料科學家
- 7. 任何資料,都存在多個面向(1)
當環保統計與都市發展資料結合
分區累積案件數
101Y 102Y
中山區8118 8770
中正區4839 5123
信義區6067 6556
內湖區4417 4980
北投區4394 4962
南港區2637 2193
士林區6057 6484
大同區3067 3254
大安區9566 9673
文山區4572 4594
松山區4475 4700
萬華區4093 5191
臺北市6 2
62308 66482
環保署表示,自整合
全國公害陳情報案系
統以來,公害陳情案
件量自民國87年8萬
5,768件逐年上升,至
101年為止已連續兩
年突破20萬件,……..。
至於各鄉鎮總案件量
前三名,依序為臺北
市大安區、臺北市中
山區及新北市板橋區。
所以大安區的人
愛抱怨?
http://ivy5.epa.gov.tw/enews/fact_Newsdetail.asp?InputTime=1020305154408
- 8. 任何資料,都存在多個面向(2)
分區累積案件數
101Y 102Y
中山區8118 8770
中正區4839 5123
信義區6067 6556
內湖區4417 4980
北投區4394 4962
南港區2637 2193
士林區6057 6484
大同區3067 3254
大安區9566 9673
文山區4572 4594
松山區4475 4700
萬華區4093 5191
臺北市6 2
當除以每年人口當再除以土地面積?
62308 66482
環保署表示,自整合
全國公害陳情報案系
統以來,公害陳情案
件量自民國87年8萬
5,768件逐年上升,至
101年為止已連續兩
年突破20萬件,……..。
至於各鄉鎮總案件量
前三名,依序為臺北
市大安區、臺北市中
山區及新北市板橋區。
分區平均每千人報案數
101Y 102Y
中山區3.62 3.83
中正區2.99 3.14
信義區2.68 2.87
內湖區1.60 1.76
北投區1.74 1.94
南港區2.27 1.83
士林區2.11 2.24
大同區2.42 2.51
大安區3.05 3.09
文山區1.71 1.69
松山區2.13 2.23
萬華區2.14 2.68
http://ivy5.epa.gov.tw/enews/fact_Newsdetail.asp?InputTime=1020305154408
- 11. 從問題來想資料/分析?
• 問題的三種層級
– 問題明確,相對可掌握/預測的環境
– 問題不明確,未來有多種可能和選擇
– 完全不知道問題為何
• 歸納出一些方法
– 用現象來描述
– 搜集資料
– 尋找模式
– 建構可能影響因子
– 反覆測試
– 提出關鍵洞見
現象背後,一定有問題嗎?
是否有哪些可以切割資料找出
來的?
是否有哪些資料可以產生不同
維度?
是否可以重複操作?
並得到類似的結果?
- 14. 食安事件一直是一波未平一波又起
1,200
1,000
800
600
400
200
0
總發文數
網民目光因清淨農場、汐止山坡地開發
與日月光非法排污事件而移轉
1月1日2月1日3月1日4月1日5月1日6月1日7月1日8月1日9月1日10月1日11月1日12月1日
觀測區間:2013/1/1-12/16
800
600
400
200
0
總發文數七日移動平均趨勢
1月1日2月1日3月1日4月1日5月1日6月1日7月1日8月1日9月1日10月1日11月1日12月1日
- 15. 媒體類粉絲頁發文趨勢
140
120
100
80
60
40
20
0
毒澱粉事件胖達人事件混油事件
媒體總發文數
牛奶
駭人
4月1日5月1日6月1日7月1日8月1日9月1日10月1日11月1日12月1日
1. 社會的討論趨勢被媒體引導
2. 媒體往往針對特定事件炒作
那我們生活裡的食安還有甚麼事?
- 16. 非媒體類粉絲頁發文趨勢
1,200
1,000
800
600
400
200
0
毒澱粉事件胖達人事件混油事件
非媒體總發文
雞塊不是真的雞!
4月1日5月1日6月1日7月1日8月1日9月1日10月1日11月1日12月1日
80%的病死豬
變成你我的早餐!
踢爆餵實驗白鼠
恐佈土虱銷全台
美牛驚爆瘦肉精
虛擬牧場
外國劣質米充台貨
牛奶
駭人
林杰樑醫師過世
然而,從觀測裡可以看出,
食品安全議題一直不斷地發生!
- 17. 去年下半年來危機事件趨勢
7000
6000
5000
4000
3000
2000
1000
0
2013/7/1 2013/8/1 2013/9/1 2013/10/1 2013/11/1 2013/12/1
胖達人香精事件
日月光廢水事件
味全大統油事件
菁茵荋禁藥事件
山水米混米事件
李珍妮生女事件
佳麗寶白斑事件
• 多數事件生命週期約7至10日,時間較長則可延燒2至3周。
• 話題高峰皆出現在事件爆發初期,多數事件僅有1至2次口碑高峰。
• 危機爆發前的潛伏與上升期極短,在相關話題產生一周內便會引爆,並迅速爬升至
口碑高峰。
- 19. 19
特定議題之跨平台數據比對-毒澱粉事件
單位:篇、次
單位:篇
0
500
1,000
1,500
2,000
5月13日
5月15日
5月17日
5月19日
5月21日
5月23日
5月25日
5月27日
5月29日
5月31日
6月2日
6月4日
6月6日
6月8日
6月10日
6月12日
6月14日
6月16日
6月18日
6月20日
6月22日
6月24日
6月26日
6月28日
6月30日
0
0
20,000
50
40,000
60,000
80,000
150
100,000
100
120,000
200
Facebook
公開性粉絲頁
140,000
5月13日
5月15日
5月17日
5月19日
5月21日
5月23日
5月25日
5月27日
5月29日
5月31日
6月2日
6月4日
6月6日
6月8日
6月10日
6月12日
6月14日
6月16日
6月18日
6月20日
6月22日
6月24日
6月26日
6月28日
6月30日
0
20
40
60
80
100
5月13日
5月15日
5月17日
5月19日
5月21日
5月23日
5月25日
5月27日
5月29日
5月31日
6月2日
6月4日
6月6日
6月8日
6月10日
6月12日
6月14日
6月16日
6月18日
6月20日
6月22日
6月24日
6月26日
6月28日
6月30日
Google Trends 單位:%
新聞網站
媒體揭露階段
(5/13-5/17)
自5月13日部分媒體揭露此重大食品安全
事件後,隨後數日即有大量的新聞露出
但Google Trends數據卻顯示此數日內
僅有增加相對少數的搜尋量
可知當時雖有引起關注,但卻並未有多
數網民嘗試利用搜尋來更深入了解此一
事件
目前和政大的一些新聞學者在
嘗試,如何設計一些平台/方
法,可以讓一些被忽略的資訊
也可以被注意到或持續被追
蹤,也歡迎各位一起加入!
- 22. 社會運動中,衝突事件往往帶起關注高峰!
22
發文與回應逐日趨勢(3/17-4/15 23時)
註:「3月16日止」指1/1-3/16間曾提及服貿議題
8,000
7,908
10,000
9,396
6,000
5,184
5,518,455
6,428,836
5,595,880
0
0
2,000
2,000,000
4,000,000
6,000,000
4,000
公投盟遭驅離
與中正一分局
聚眾事件
8,000,000
3月16日止
3月17日
3月18日
3月19日
3月20日
3月21日
3月22日
3月23日
3月24日
3月25日
3月26日
3月27日
3月28日
3月29日
3月30日
3月31日
4月1日
4月2日
4月3日
4月4日
4月5日
4月6日
4月7日
4月8日
4月9日
4月10日
4月11日
4月12日
4月13日
4月14日
4月15日
行政院發文數總回應量
驅離衝突
330
凱道集結
411
- 23. 23
(不重複)發文粉絲頁數逐日趨勢(3/17-4/15 23時)
註:「3月16日止」指1/1-3/16間曾提及服貿議題
1000
961 989
924 902
0
200
400
600
800
3月16日止
3月17日
3月18日
3月19日
3月20日
3月21日
3月22日
3月23日
3月24日
3月25日
3月26日
3月27日
3月28日
3月29日
3月30日
3月31日
4月1日
4月2日
4月3日
4月4日
4月5日
4月6日
4月7日
4月8日
4月9日
4月10日
4月11日
4月12日
4月13日
4月14日
4月15日
佔領立院後
行政院發文粉絲頁
驅離衝突
330
凱道集結
學運前三日為發文粉絲頁數高峰
- 24. 24
1,129,305
1,166,137
1,500,000
1,354,869
1,405,571
0
500,000
1,000,000
3月16日止
3月17日
3月18日
3月19日
3月20日
3月21日
3月22日
3月23日
3月24日
3月25日
3月26日
3月27日
3月28日
3月29日
3月30日
3月31日
4月1日
4月2日
4月3日
4月4日
4月5日
4月6日
4月7日
4月8日
4月9日
4月10日
4月11日
4月12日
4月13日
4月14日
4月15日
行政院
驅離衝突
關注人數
註1:「3月16日止」指1/1-3/16間曾提及服貿議題註2:「關注人數」指曾進行發文/回應之註冊ID數
(不重複)關注人數逐日趨勢(3/17-4/15 23時)
330
凱道集結
衝突事件與民眾集結為關注人數最高峰
- 25. 後續行動似仍有基本盤關注
1,235,595
(不重複)關注人數逐日趨勢(3/17-4/9 12時)
673,146
543,704 499,435
450,460
386,796 389,195 430,117 438,142
389,753
23,427
1,500,000
1,000,000
500,000
0
3月30日
3月31日
4月1日
4月2日
4月3日
4月4日
4月5日
4月6日
4月7日
4月8日
4月9日
關注人數
330
凱道集結
僅至4/9 12時止,
數據更新後仍會上加
25
330凱道集結後關注人數驟減,但4/5後
(未更新完備)關注人數卻開始增加,原
因除學運退場外,主要在於後續行動(如
割闌尾、監督條例審查時之監督)與對媒
體報導(中天新聞龍捲風節目)之批判。
- 26. 關注者與前日重疊比例逐日趨勢(3/17-4/15 23時)
330
凱道集結
26
佔領立院後
57.39%
78.43%
行政院
驅離衝突
60.81%
65.52%
57.83%
51.82%
100%
80%
60%
40%
20%
0%
3月17日
3月19日
3月21日
3月23日
3月25日
3月27日
3月29日
3月31日
4月2日
4月4日
4月6日
4月8日
4月10日
4月12日
4月14日
關注者與前日重疊比例
註1:「3月16日止」指1/1-3/16間曾提及服貿議題註2:「關注人數」指曾進行發文/回應之註冊ID數
410
學生退場
411公投盟遭驅離與
中正一分局聚眾事件
顯著的持續關注現象
- 27. 27
單位︓% 歸納(1)
1000%
800%
600%
400%
200%
0%
-200%
3月17日
3月19日
3月21日
3月23日
3月25日
3月27日
3月29日
3月31日
4月2日
4月4日
4月6日
4月8日
4月10日
4月12日
4月14日
發文數成長率總回應量成長率發文粉絲頁成長率關注人數成長率
特定事件發生
(行政院驅離衝突)
迅速引發關注
(佔領立法院後)
特定事件發生
(330凱道集結)
事件結束
(學生退場)
關注趨緩
1. 事件起始後2-3日必須馬上引發高度關注
2. 明確的聚集地點
3. 當受關注程度趨緩時,偶發/特定(衝突)事件發生,再次引發關注
- 28. 28
單位︓回應次數歸納(2)
1,500,000 1,000,000
3月500,000
0
16日止
3月17日
3月18日
3月19日
3月20日
3月21日
3月22日
3月23日
3月24日
3月25日
3月26日
3月27日
3月28日
3月29日
3月30日
3月31日
4月1日
4月2日
4月3日
4月4日
4月5日
4月6日
4月7日
4月8日
4月9日
4月10日
4月11日
4月12日
4月13日
4月14日
4月15日
關注人數鄭秀玲林飛帆陳為廷黃國昌魏揚
主要人物確立
(林飛帆)
特定事件
聚焦主要人物
(魏揚)
特定事件
聚焦主要人物
(林飛帆、
陳為廷)
4. 事件起始後一週內主要角色/人物確立
5. 偶發/特定事件發生,角色/人物受關注程度鮮明
- 29. 29
單位︓回應次數
1,500,000 1,000,000
3月500,000
0
16日止
3月17日
3月18日
3月19日
3月20日
3月21日
3月22日
3月23日
3月24日
3月25日
3月26日
3月27日
3月28日
3月29日
3月30日
3月31日
4月1日
4月2日
4月3日
4月4日
4月5日
4月6日
4月7日
4月8日
4月9日
4月10日
4月11日
4月12日
4月13日
4月14日
4月15日
關注人數晚安台灣島嶼天光太陽花
出現圖像/符號
(太陽花)
出現音樂/歌曲
(島嶼天光)
歸納(3)
6. 事件起始後一週內出現明確的圖像/符號
7. 接續出現呼應主軸/訴求的音樂/歌曲
- 31. 社會運動的比對
Occupy Wall Street
太陽花學運
比對兩個由網路到實體的社運事
件,可以發現共同的
1.過去網路話題的累積(話題需要
慢慢發酵,累積能量)
2.話題的認同與快速響應(斜率超
過一定幅度)衝突事件
3.議題的凝聚性/主軸的認同 會
從固定管道得到訊息
4.快速地吸引人氣(3天)衝突
點的產生
5.意見領袖的產生與反應
6.實體活動地點從虛擬到實體
7.實體命名與歌曲
8.政府的錯誤判斷
9.實體活動的結合 虛實整合
10.…
- 32. 不過
• 還是有很多類似G0V,我是第一名的
反服貿網路族群
15-24歲佔48%
25-34歲佔40%
35-44歲佔9%
45-54歲佔2%
55歲以上佔1%
0%
48%
0%
2% 1% 0%
40%
9%
0%
0% 年齡分佈
0~14歲
15~24歲
25~34歲
35~44歲
45~54歲
55~64歲
65~74歲
75~84歲
85~94歲
95歲以上
如,青年學子對社會的關心
註: 以facebook 上,關心反黑箱服貿的有公開年齡的2,250,761 人進行統計
- 36. 資料科學的協同合作進行方式
給定領域,
Keywords
Others
Social
Medi
a
News
過濾
處理
Keywords/
Issues
Groups/Org.
Events
People/
Influencer
初步
產出
專家
篩選與
建議
(領域專家) (領域專家)
(重新擷
取與過
濾)
Keywords/
issues
Persona
Analytics
Predictio
n Model
Diffusion
Model
Others
各式
分析與
產出
專家
解讀
決策
支援
警示
周知
Others
Social
Medi
a
News
修正/
調整
設定目標,來源
(領域專家)
(媒體公關專家)
資料科學家
領域專家
資訊系統
流程建議在電子化政府治理
中心研究報告中
- 39. 39
基本資料蒐集
具地理資訊照片
1. 移動資料蒐集
2. 旅遊足跡分析
a. 資料前處理
b. 旅遊路徑探勘
打卡資訊
3. 相關條件查詢
具討論資訊
1. 討論資料蒐集
2. 產品相關意見分析
(關鍵議題分析)
- 40. UserId 上傳相片者id 17665813@N00
Title 使用者定義標題鵝鑾鼻日落
Tags 使用者定義標籤Canon,taiwan,墾丁,500d
DateTaken 照相時間2011-08-17 19:07:00
Longitude 照相經度120.853166
Latitude 照相緯度21.901666
40
地理資訊照片蒐集
• 利用相關提供的API蒐集有地理資訊的照片
– 主要資料欄位包括
– 目前已蒐集近2年資料
• 其中包含GPS資料計,855,182筆資料
• 平均每人蒐集到65張照片
- 41. 打卡地理資訊蒐集
每日更新的打卡資訊(以台灣地區為立)
41
id 景點在facebook 中的對應編碼
name 景點名稱
picture 景點照片
Link 景點在Facebook中的鍊結
Likes 景點有多少人按過likes
category 景點分類
is_published 是否公開
website 景點的網站位置
location_street 景點的揭到位置
location_city 景點所在城市
location_country 景點所在國家
location_latitude 緯度
location_longitude 經度
phone 電話
checkins 打卡數
目前已蒐集近2年資料
每天以80萬筆資料在更新
- 44. 人流路徑分析(2)
• 展示(距離門檻值100m) -查詢所在位置最近Bigram-based
44
旅遊路徑,以清境農場為例
2. 目前所在位置最近的
Bigram-based旅遊路徑
3. 10條出發點最近的
Bigram-based旅遊路徑
1. 目前所在位置
- 46. 46
人流路徑分析(4)
• 展示(距離門檻值400m)-查詢Longest旅遊路徑,以合
歡山為例
2. 在地圖上秀出以關鍵字為
出發點的最長旅遊路徑
3. 地圖上方秀出最近旅遊路徑
1. 在goSpot輸入查詢關鍵字
- 48. 常見選址篩選條件
商業活動特性所需之店址條件
競合關係商圈內同性質的商店
48
商圈內同性質且為競爭對手之商店
商圈內互補性質商店家數
商圈內大型設施家數
基地性質營業面積
可能擴充店面坪數
土地使用分區
周圍環境是否便於裝貨、卸貨
可及性與大型設施之距離
店址與公車、客運、火車站之距離
與角地(三角窗)之距離
交通動線道路寬度
公車客運路線數
車站(公車,鐵路,捷運)距離
每日人潮動線
固定成本店面租金
裝演費用
預估總銷售額(因變數)
商業活動特性所需之店址條件
人口特質人口總數
人口密度
人口成長
預估消費者年齡
預估消費者偏好
平均消費額度
競爭對手每天的消費者數
競爭對手每天的消費者年齡
可見性基地可見性
招牌可見程度
商品陳列種類
店內購物動線
經營管理因素是否為直營店
專職比例
營業時間
- 60. 民生社區地標類型排名
地標數量排名類型打卡均值類型數量
1 各國美食133 1070
2 地方小吃149 196
3 診所148 117
4 學校366 99
5 傳統市場373 96
6 旅遊景點231 74
7 中式美食272 65
8 咖啡館355 62
9 建築裝潢42 49
10 重要交通地理指標236 49
11 火鍋340 49
- 61. 民生社區消費者資訊來源偏好排名
排名粉絲頁ID 粉絲頁名稱
1 109249609124014 Yahoo!奇摩新聞
2 232633627068 蘋果日報
3 385553101472522 好事多俱樂部
4 147753419266 86小舖商城
5 226668807442181 情海
6 179298588865429 蔡康永哲理語錄
7 313144222099119 芒果新聞台
8 107305345968232 小三魔法棒(小三美日輸入)
9 277087628996195 Just 分享
1 0 111515882197852 食尚玩家