SlideShare uma empresa Scribd logo
1 de 29
輕鬆研究的秘密
時下最夯Big Data
第二屆資訊邏輯與思考講座
2015/1/211 第二屆資訊邏輯與思考講座
Agenda
2015/1/212
什麼是Big Data?
Big Data的應用與主要功能
Big Data 相關領域
Big Data的研究議題
如果想朝Big Data議題研究的同
學,能夠如何準備
第二屆資訊邏輯與思考講座
什麼是Big Data?
2015/1/21第二屆資訊邏輯與思考講座3
Big Data?
2015/1/214
A revolution that will transform
how we live, work, and think
-- by Mayer-Schӧnberger and
Kenneth Cukier
第二屆資訊邏輯與思考講座
Big Data? 2/2
2015/1/215
 我們每天建立 2.5 百萬兆位元組的資料
 過去兩年所建立的資料就佔現今世界資料總量的
90%
 資料來源廣泛
 用於搜集氣候資訊的感應器
 社交媒體網站的貼文
 數位圖片與影像
 採購交易記錄
 行動電話 GPS 訊號等
第二屆資訊邏輯與思考講座
Big Data的四個特質—4V 1/2
2015/1/216
 巨量 (volume) – 巨量資料的特色就是資料龐大
 人類活動所產生的資料量,每年以增加 50%以上的
指數性成長,導致過去所使用的方法已無法消化這
麼多的資料
 快速 (velocity) – 就是資料產生與處理的速度
 以往我們分析如「大賣場顧客的採購行為」等資料
時,可以用幾個星期甚至更長的時間來分析過去所
累積的資料,然後據以做進貨及促銷等決定
 現在有太多的資料不斷的產生(例如網際網路),必
須被即時的處理與即時的回應
 例如要偵測 Facebook的熱門議題時,由於 Facebook的訊息
隨時不斷地產生,也就需要即時的處理
第二屆資訊邏輯與思考講座
Big Data的四個特質—4V 2/2
2015/1/217
 多樣化( Variety) – 資料的多樣性
 以前的分析資料多為有結構的資料,像存在資料庫
系統或 Excel 的資料等都是,但其實世界上大部分
的資料都沒有結構性;例如是一本書的內容、一個
YouTube 多媒體資料、Facebook 上的一則消息
 我們面對的資料,95%都是屬於非結構性的資料
 可信度(Veracity) – 資料的可信程度
 以往資料來源一致,正確性高;但現在的資料來源
複雜,正確性和可信度都降低,例如:在網路上搜
尋某產品的評價時,無法得到單一意見,而是正反
兼具,甚至可能含有許多非真實、惡意的評論,如
何分辨何者為真正有價值的資訊?
第二屆資訊邏輯與思考講座
Big Data台灣的現況
2015/1/218
 IDC 依照企業對新科技的應用成熟度與創造的商
業價值區分五個階段:
 試驗(Ad Hoc)
 專案(Opportunistic)
 可重複(Repeatable)
 可管理(Managed)
 最佳化(Optimized)
 在巨量資料分析成熟度方面,有 80.5% 的企業已
進入「專案階段」,較亞洲國家平均僅 49.6% 企
業進入專案階段為高
 其中,又以金融服務產業尤甚如此,這與金融服務
企業對於客戶資料分析的需求較其他產業為高有關
第二屆資訊邏輯與思考講座
Big Data的威力—範例1/2
2015/1/219
 美國第二大零售商Target「比父親還更早知道女兒懷孕」
 「假使顧客不願告知她已懷孕,零售業者如何知道?」
 其實就在於習慣,因習慣是很難改變的,萬一真的出現
變化,通常是基於某些重大事件所驅動而成
 女性顧客懷孕初期,旁人不易察覺,但是在她懷孕之後,
有些消費習慣會改變
 零售業者的資料分析團隊,利用過往大量懷孕顧客的消
費數據,建立相關預測模型,發現乳液、無味香皂、洗
手液、浴巾、凡士林、棉花球、鈣片、鋅或鎂營養補充
品等20餘項商品的採購動機,與懷孕癥候具有莫大關聯
 假使有女性顧客,以往鮮少購買這些商品,但從某個時
間點開始,逐步採購相關品項,且購買的頻率、數量也
漸次提高,則零售業者即可根據其分析模型,推導出該
顧客已經懷孕,甚可一併推敲預產期
第二屆資訊邏輯與思考講座
Big Data的威力—範例2/2
2015/1/2110
 當然,零售業者費盡心思建構這個懷孕預測模型,最
終目的仍在於創造商機;比方說,多數女性顧客在懷
孕六個月時,通常會開始採買諸如孕婦裝、孕婦用維
他命等新商品
 零售商若能適時提供精心設計的促銷廣告暨若干優惠
兌換券,即有機會擄獲顧客的芳心,進而成為該零售
商的忠實客戶,日後除了懷孕用品外,舉凡家電、日
用品、食品、衛浴用品,甚至是寵物飼料等需求,都
傾向透過該零售商一次購足
 有研究機構提出報告,美國零售業者一旦善用巨量資
料分析技術,將可望提升60%以上的毛利,另對於每
年生產力的提升,也可望產生0.5%~1%貢獻度
第二屆資訊邏輯與思考講座
Big Data 的解決方法
2015/1/2111
資料探勘 (data mining)
 從大量資料中發現有用的知識;將
隱含的、先前並不知道的、潛在有
用的資訊從巨量資料中粹取出來的
過程
第二屆資訊邏輯與思考講座
Big Data的應用與主要功能
2015/1/21第二屆資訊邏輯與思考講座12
2015/1/21
Big Data的應用領域 1/2
 資料分析與決策支援
 透過對交易資料、信用卡資料、抱怨電話、客戶生活
型態分析
 將顧客依照興趣、收入、消費習慣分群,進行目標行
銷
 分析客戶購物型態,進行交叉行銷:啤酒與紙尿布
 風險分析與管理
 找出影響客戶忠誠度的因素,進行客戶維持
 進行品質管控
 競爭分析
13 第二屆資訊邏輯與思考講座
Big Data的應用領域 2/2
2015/1/2114
 犯罪偵測與管理
 偵測使用保險詐欺
 洗錢防治(US Treasury's Financial Crimes Enforcement
Network)
 偵測醫療詐欺(健保)
 文字探勘(Text mining)
 對新聞、電子郵件、文件進行主題式探勘
 對PPT進行社會輿論分析
 網頁探勘(Web analysis)
 分析購物者瀏覽行為、進行關聯分析、交叉行銷
 網頁結構分析:權威網站、集中型網站
 網頁使用者行為分析
第二屆資訊邏輯與思考講座
2015/1/21
Big Data & Data Mining 主要的功能 (1/3)
 關聯規則分析(Association rule analysis )
 關聯規則分析在發現交易中,哪些產品會同時出現(被
購買)的規則
 關聯規則 A => B
 可信度(confidence)為: 在A出現之條件下出現B之機率
 例子: 資料庫中的交易紀錄如下:
t1: (…,麵包,…,牛奶,…)
t2: (…,麵包,…………..)
t3: (…,麵包,…,牛奶,…)
t4: (……………………)
 麵包 => 牛奶 之可信度為多少?
15 第二屆資訊邏輯與思考講座
Big Data & Data Mining 主要的功能 (2/3)
 分類與預測(Classification and Prediction)
 顧客分類 (Classification)
 例如: 保險公司利用Data Mining發現
 30歲以下,未婚,為高風險客戶
 30歲以上,已婚,為低風險客戶
 保險公司便可利用這些資訊訂定策略與保費
 常用決策樹表達(下頁天氣範例)
2015/1/2116 第二屆資訊邏輯與思考講座
天氣預測的決策表
Decision Factors Result
TEMPERATURE WIND SKY BAROMETER PREDICTION
Above freezing West Cloudy Falling Rain
Below freezing * Cloudy Steady Snow
Above freezing East Cloudy Rising Shine
Above freezing * Partly Steady Shine
* * Clear Steady Shine
Above freezing South Clear Falling Rain
Freezing North Partly Steady Snow
2015/1/21第二屆資訊邏輯與思考講座17
2015/1/2118 第二屆資訊邏輯與思考講座
Big Data & Data Mining 主要的功能 (3/3)
2015/1/2119
 群集分析(Cluster analysis)
 依照資料本身的特性,將資料分類成群 ;使得群組內的資料相
似度最高,群組間的資料相似度最低
 依照身高、體重,將資料分成兒童、少年和成年三群組
 異常值分析(Outlier analysis)
 各種犯罪偵測
 趨勢分析(Trend and evolution analysis)
第二屆資訊邏輯與思考講座
Big Data & Data Mining相關領域
2015/1/21第二屆資訊邏輯與思考講座20
2015/1/21
Big Data & Data Mining相關領域
Big Data &
Data Mining
Database
Technology
Statistics
Other
Disciplines
Information
Science
Machine
Learning
Visualization
21 第二屆資訊邏輯與思考講座
Big Data的研究議題
2015/1/21第二屆資訊邏輯與思考講座22
2015/1/21
Major Issues in Data Mining 1/2
 探勘方法論、與線上使用者互動
 探勘不同領域的知識、整合跨領域知識
 資料探勘查詢語言、隨意查詢
 視覺化呈現結果
 處理雜訊與不完整資料
 型態評估
 效率與處理大量資料的能力
 改善演算法
 採用平行處理、分散式處理
23 第二屆資訊邏輯與思考講座
2015/1/21
Major Issues in Data Mining 2/2
 處理不同資料型態
 處理文字、文件、語音、多媒體等資料
 處理異質資料庫、WWW全球資訊系統
 在NoSQL下的探勘演算法
 在雲端運算下的探勘演算法
24 第二屆資訊邏輯與思考講座
相關研究題目
如果想朝Big Data議題研究的同學,
能夠如何準備
• 選修資料倉儲與資料探勘專題:紮實基礎
• 認真聽課
• 實際動手操作軟體
• 參加資料探勘比賽:累積實務經驗
• 以此領域作為論文方向
2015/1/21第二屆資訊邏輯與思考講座25
碩士論文—輕鬆研究的秘密
 有計畫的進行論文寫作
 尋找適合的指導教授
 尋找、確定研究方向、研究題目
 收集、研讀、整理相關期刊
 進行相關文獻探討
 確定資料分析方法(定性、定量)
 撰寫計劃書、口試
 資料收集與分析
 完成碩士論文、口試
26 2015/1/21第二屆資訊邏輯與思考講座
2015/1/2127
Q & A
第二屆資訊邏輯與思考講座
2015/1/2128
太陽花革命真正的幕後主導者是
誰?
第二屆資訊邏輯與思考講座
2015/1/2129 第二屆資訊邏輯與思考講座

Mais conteúdo relacionado

Semelhante a 20150117 輕鬆研究的秘密 時下最夯Big Data / 李永山 老師

Way to big date 資策會李進寶所長 20120620
Way to big date 資策會李進寶所長 20120620Way to big date 資策會李進寶所長 20120620
Way to big date 資策會李進寶所長 20120620Lawrence Huang
 
Bigdata bizoppor
Bigdata bizopporBigdata bizoppor
Bigdata bizopporAccenture
 
大數據與資料科學人才現況與趨勢
大數據與資料科學人才現況與趨勢大數據與資料科學人才現況與趨勢
大數據與資料科學人才現況與趨勢Anna Yen
 
5. Apache Kylin的金融大数据应用场景 - Apache Kylin Meetup @Shanghai
5. Apache Kylin的金融大数据应用场景 - Apache Kylin Meetup @Shanghai5. Apache Kylin的金融大数据应用场景 - Apache Kylin Meetup @Shanghai
5. Apache Kylin的金融大数据应用场景 - Apache Kylin Meetup @ShanghaiLuke Han
 
WM Express Weekly-0423.pdf
WM Express Weekly-0423.pdfWM Express Weekly-0423.pdf
WM Express Weekly-0423.pdfWavemaker Taiwan
 
大数据驱动在线用户行为分析与营销 20151210 v1.1(正式版)
大数据驱动在线用户行为分析与营销 20151210 v1.1(正式版)大数据驱动在线用户行为分析与营销 20151210 v1.1(正式版)
大数据驱动在线用户行为分析与营销 20151210 v1.1(正式版)Yu Zhang
 
20160802企業大數據應用心法與技法—撿、找、人算、神算
20160802企業大數據應用心法與技法—撿、找、人算、神算20160802企業大數據應用心法與技法—撿、找、人算、神算
20160802企業大數據應用心法與技法—撿、找、人算、神算張大明 Ta-Ming Chang
 
數位落差與發展策略(黃勝雄老師)
數位落差與發展策略(黃勝雄老師)數位落差與發展策略(黃勝雄老師)
數位落差與發展策略(黃勝雄老師)tahr1984
 
談已發展與發展中國家數位落差
談已發展與發展中國家數位落差談已發展與發展中國家數位落差
談已發展與發展中國家數位落差Kenny Huang Ph.D.
 
歡迎回來:全面圖譜,金融 3.0 顧客行銷新視界
歡迎回來:全面圖譜,金融 3.0 顧客行銷新視界歡迎回來:全面圖譜,金融 3.0 顧客行銷新視界
歡迎回來:全面圖譜,金融 3.0 顧客行銷新視界Etu Solution
 
資料價值 — 一位資料產品經理的視野
資料價值 — 一位資料產品經理的視野資料價值 — 一位資料產品經理的視野
資料價值 — 一位資料產品經理的視野Fred Chiang
 
Postmortem of 'Person of Interest' - Big data rc sharing
Postmortem of 'Person of Interest' - Big data rc sharingPostmortem of 'Person of Interest' - Big data rc sharing
Postmortem of 'Person of Interest' - Big data rc sharingGandalf Huang
 
家外媒體版位檢索與地理環境分析工具
家外媒體版位檢索與地理環境分析工具家外媒體版位檢索與地理環境分析工具
家外媒體版位檢索與地理環境分析工具MediaCom
 
從社群資料來看 工人(群眾)智慧與人工智慧 的結合
從社群資料來看 工人(群眾)智慧與人工智慧 的結合從社群資料來看 工人(群眾)智慧與人工智慧 的結合
從社群資料來看 工人(群眾)智慧與人工智慧 的結合Gene Hong
 
從電商到媒體,從商品推薦到客戶行為分析 - Udn 的 big data 價值實踐之路
從電商到媒體,從商品推薦到客戶行為分析 - Udn 的 big data 價值實踐之路從電商到媒體,從商品推薦到客戶行為分析 - Udn 的 big data 價值實踐之路
從電商到媒體,從商品推薦到客戶行為分析 - Udn 的 big data 價值實踐之路Etu Solution
 
【數位膠囊】專題:[數位媒體 關鍵對談]系列五 2013.12 no.7
【數位膠囊】專題:[數位媒體 關鍵對談]系列五 2013.12 no.7【數位膠囊】專題:[數位媒體 關鍵對談]系列五 2013.12 no.7
【數位膠囊】專題:[數位媒體 關鍵對談]系列五 2013.12 no.7數位膠囊
 
Data without Boundaries - 圍繞第一方數據,找到商業驅動力
Data without Boundaries - 圍繞第一方數據,找到商業驅動力Data without Boundaries - 圍繞第一方數據,找到商業驅動力
Data without Boundaries - 圍繞第一方數據,找到商業驅動力Etu Solution
 
Hybrid IT managed service
Hybrid IT managed serviceHybrid IT managed service
Hybrid IT managed serviceKevin Kao
 
魏凯:大数据商业利用的政策管制问题
魏凯:大数据商业利用的政策管制问题魏凯:大数据商业利用的政策管制问题
魏凯:大数据商业利用的政策管制问题hdhappy001
 
嚐識數據庫簡介
嚐識數據庫簡介嚐識數據庫簡介
嚐識數據庫簡介Tastes Lab
 

Semelhante a 20150117 輕鬆研究的秘密 時下最夯Big Data / 李永山 老師 (20)

Way to big date 資策會李進寶所長 20120620
Way to big date 資策會李進寶所長 20120620Way to big date 資策會李進寶所長 20120620
Way to big date 資策會李進寶所長 20120620
 
Bigdata bizoppor
Bigdata bizopporBigdata bizoppor
Bigdata bizoppor
 
大數據與資料科學人才現況與趨勢
大數據與資料科學人才現況與趨勢大數據與資料科學人才現況與趨勢
大數據與資料科學人才現況與趨勢
 
5. Apache Kylin的金融大数据应用场景 - Apache Kylin Meetup @Shanghai
5. Apache Kylin的金融大数据应用场景 - Apache Kylin Meetup @Shanghai5. Apache Kylin的金融大数据应用场景 - Apache Kylin Meetup @Shanghai
5. Apache Kylin的金融大数据应用场景 - Apache Kylin Meetup @Shanghai
 
WM Express Weekly-0423.pdf
WM Express Weekly-0423.pdfWM Express Weekly-0423.pdf
WM Express Weekly-0423.pdf
 
大数据驱动在线用户行为分析与营销 20151210 v1.1(正式版)
大数据驱动在线用户行为分析与营销 20151210 v1.1(正式版)大数据驱动在线用户行为分析与营销 20151210 v1.1(正式版)
大数据驱动在线用户行为分析与营销 20151210 v1.1(正式版)
 
20160802企業大數據應用心法與技法—撿、找、人算、神算
20160802企業大數據應用心法與技法—撿、找、人算、神算20160802企業大數據應用心法與技法—撿、找、人算、神算
20160802企業大數據應用心法與技法—撿、找、人算、神算
 
數位落差與發展策略(黃勝雄老師)
數位落差與發展策略(黃勝雄老師)數位落差與發展策略(黃勝雄老師)
數位落差與發展策略(黃勝雄老師)
 
談已發展與發展中國家數位落差
談已發展與發展中國家數位落差談已發展與發展中國家數位落差
談已發展與發展中國家數位落差
 
歡迎回來:全面圖譜,金融 3.0 顧客行銷新視界
歡迎回來:全面圖譜,金融 3.0 顧客行銷新視界歡迎回來:全面圖譜,金融 3.0 顧客行銷新視界
歡迎回來:全面圖譜,金融 3.0 顧客行銷新視界
 
資料價值 — 一位資料產品經理的視野
資料價值 — 一位資料產品經理的視野資料價值 — 一位資料產品經理的視野
資料價值 — 一位資料產品經理的視野
 
Postmortem of 'Person of Interest' - Big data rc sharing
Postmortem of 'Person of Interest' - Big data rc sharingPostmortem of 'Person of Interest' - Big data rc sharing
Postmortem of 'Person of Interest' - Big data rc sharing
 
家外媒體版位檢索與地理環境分析工具
家外媒體版位檢索與地理環境分析工具家外媒體版位檢索與地理環境分析工具
家外媒體版位檢索與地理環境分析工具
 
從社群資料來看 工人(群眾)智慧與人工智慧 的結合
從社群資料來看 工人(群眾)智慧與人工智慧 的結合從社群資料來看 工人(群眾)智慧與人工智慧 的結合
從社群資料來看 工人(群眾)智慧與人工智慧 的結合
 
從電商到媒體,從商品推薦到客戶行為分析 - Udn 的 big data 價值實踐之路
從電商到媒體,從商品推薦到客戶行為分析 - Udn 的 big data 價值實踐之路從電商到媒體,從商品推薦到客戶行為分析 - Udn 的 big data 價值實踐之路
從電商到媒體,從商品推薦到客戶行為分析 - Udn 的 big data 價值實踐之路
 
【數位膠囊】專題:[數位媒體 關鍵對談]系列五 2013.12 no.7
【數位膠囊】專題:[數位媒體 關鍵對談]系列五 2013.12 no.7【數位膠囊】專題:[數位媒體 關鍵對談]系列五 2013.12 no.7
【數位膠囊】專題:[數位媒體 關鍵對談]系列五 2013.12 no.7
 
Data without Boundaries - 圍繞第一方數據,找到商業驅動力
Data without Boundaries - 圍繞第一方數據,找到商業驅動力Data without Boundaries - 圍繞第一方數據,找到商業驅動力
Data without Boundaries - 圍繞第一方數據,找到商業驅動力
 
Hybrid IT managed service
Hybrid IT managed serviceHybrid IT managed service
Hybrid IT managed service
 
魏凯:大数据商业利用的政策管制问题
魏凯:大数据商业利用的政策管制问题魏凯:大数据商业利用的政策管制问题
魏凯:大数据商业利用的政策管制问题
 
嚐識數據庫簡介
嚐識數據庫簡介嚐識數據庫簡介
嚐識數據庫簡介
 

Último

EDUC6506_ClassPresentation_TC330277 (1).pptx
EDUC6506_ClassPresentation_TC330277 (1).pptxEDUC6506_ClassPresentation_TC330277 (1).pptx
EDUC6506_ClassPresentation_TC330277 (1).pptxmekosin001123
 
哪里可以购买日本筑波学院大学学位记/做个假的文凭可认证吗/仿制日本大学毕业证/意大利语CELI证书定制
哪里可以购买日本筑波学院大学学位记/做个假的文凭可认证吗/仿制日本大学毕业证/意大利语CELI证书定制哪里可以购买日本筑波学院大学学位记/做个假的文凭可认证吗/仿制日本大学毕业证/意大利语CELI证书定制
哪里可以购买日本筑波学院大学学位记/做个假的文凭可认证吗/仿制日本大学毕业证/意大利语CELI证书定制jakepaige317
 
1.🎉“入侵大学入学考试中心修改成绩”来袭!ALEVEL替考大揭秘,轻松搞定考试成绩! 💥你还在为无法进入大学招生系统而烦恼吗?想知道如何通过技术手段更改...
1.🎉“入侵大学入学考试中心修改成绩”来袭!ALEVEL替考大揭秘,轻松搞定考试成绩! 💥你还在为无法进入大学招生系统而烦恼吗?想知道如何通过技术手段更改...1.🎉“入侵大学入学考试中心修改成绩”来袭!ALEVEL替考大揭秘,轻松搞定考试成绩! 💥你还在为无法进入大学招生系统而烦恼吗?想知道如何通过技术手段更改...
1.🎉“入侵大学入学考试中心修改成绩”来袭!ALEVEL替考大揭秘,轻松搞定考试成绩! 💥你还在为无法进入大学招生系统而烦恼吗?想知道如何通过技术手段更改...黑客 接单【TG/微信qoqoqdqd】
 
EDUC6506(001)_ClassPresentation_2_TC330277 (1).pptx
EDUC6506(001)_ClassPresentation_2_TC330277 (1).pptxEDUC6506(001)_ClassPresentation_2_TC330277 (1).pptx
EDUC6506(001)_ClassPresentation_2_TC330277 (1).pptxmekosin001123
 
泽兰应用科学大学毕业证制作/定制国外大学录取通知书/购买一个假的建国科技大学硕士学位证书
泽兰应用科学大学毕业证制作/定制国外大学录取通知书/购买一个假的建国科技大学硕士学位证书泽兰应用科学大学毕业证制作/定制国外大学录取通知书/购买一个假的建国科技大学硕士学位证书
泽兰应用科学大学毕业证制作/定制国外大学录取通知书/购买一个假的建国科技大学硕士学位证书jakepaige317
 
educ6506presentationtc3302771-240427173057-06a46de5.pptx
educ6506presentationtc3302771-240427173057-06a46de5.pptxeduc6506presentationtc3302771-240427173057-06a46de5.pptx
educ6506presentationtc3302771-240427173057-06a46de5.pptxmekosin001123
 

Último (6)

EDUC6506_ClassPresentation_TC330277 (1).pptx
EDUC6506_ClassPresentation_TC330277 (1).pptxEDUC6506_ClassPresentation_TC330277 (1).pptx
EDUC6506_ClassPresentation_TC330277 (1).pptx
 
哪里可以购买日本筑波学院大学学位记/做个假的文凭可认证吗/仿制日本大学毕业证/意大利语CELI证书定制
哪里可以购买日本筑波学院大学学位记/做个假的文凭可认证吗/仿制日本大学毕业证/意大利语CELI证书定制哪里可以购买日本筑波学院大学学位记/做个假的文凭可认证吗/仿制日本大学毕业证/意大利语CELI证书定制
哪里可以购买日本筑波学院大学学位记/做个假的文凭可认证吗/仿制日本大学毕业证/意大利语CELI证书定制
 
1.🎉“入侵大学入学考试中心修改成绩”来袭!ALEVEL替考大揭秘,轻松搞定考试成绩! 💥你还在为无法进入大学招生系统而烦恼吗?想知道如何通过技术手段更改...
1.🎉“入侵大学入学考试中心修改成绩”来袭!ALEVEL替考大揭秘,轻松搞定考试成绩! 💥你还在为无法进入大学招生系统而烦恼吗?想知道如何通过技术手段更改...1.🎉“入侵大学入学考试中心修改成绩”来袭!ALEVEL替考大揭秘,轻松搞定考试成绩! 💥你还在为无法进入大学招生系统而烦恼吗?想知道如何通过技术手段更改...
1.🎉“入侵大学入学考试中心修改成绩”来袭!ALEVEL替考大揭秘,轻松搞定考试成绩! 💥你还在为无法进入大学招生系统而烦恼吗?想知道如何通过技术手段更改...
 
EDUC6506(001)_ClassPresentation_2_TC330277 (1).pptx
EDUC6506(001)_ClassPresentation_2_TC330277 (1).pptxEDUC6506(001)_ClassPresentation_2_TC330277 (1).pptx
EDUC6506(001)_ClassPresentation_2_TC330277 (1).pptx
 
泽兰应用科学大学毕业证制作/定制国外大学录取通知书/购买一个假的建国科技大学硕士学位证书
泽兰应用科学大学毕业证制作/定制国外大学录取通知书/购买一个假的建国科技大学硕士学位证书泽兰应用科学大学毕业证制作/定制国外大学录取通知书/购买一个假的建国科技大学硕士学位证书
泽兰应用科学大学毕业证制作/定制国外大学录取通知书/购买一个假的建国科技大学硕士学位证书
 
educ6506presentationtc3302771-240427173057-06a46de5.pptx
educ6506presentationtc3302771-240427173057-06a46de5.pptxeduc6506presentationtc3302771-240427173057-06a46de5.pptx
educ6506presentationtc3302771-240427173057-06a46de5.pptx
 

20150117 輕鬆研究的秘密 時下最夯Big Data / 李永山 老師

  • 2. Agenda 2015/1/212 什麼是Big Data? Big Data的應用與主要功能 Big Data 相關領域 Big Data的研究議題 如果想朝Big Data議題研究的同 學,能夠如何準備 第二屆資訊邏輯與思考講座
  • 4. Big Data? 2015/1/214 A revolution that will transform how we live, work, and think -- by Mayer-Schӧnberger and Kenneth Cukier 第二屆資訊邏輯與思考講座
  • 5. Big Data? 2/2 2015/1/215  我們每天建立 2.5 百萬兆位元組的資料  過去兩年所建立的資料就佔現今世界資料總量的 90%  資料來源廣泛  用於搜集氣候資訊的感應器  社交媒體網站的貼文  數位圖片與影像  採購交易記錄  行動電話 GPS 訊號等 第二屆資訊邏輯與思考講座
  • 6. Big Data的四個特質—4V 1/2 2015/1/216  巨量 (volume) – 巨量資料的特色就是資料龐大  人類活動所產生的資料量,每年以增加 50%以上的 指數性成長,導致過去所使用的方法已無法消化這 麼多的資料  快速 (velocity) – 就是資料產生與處理的速度  以往我們分析如「大賣場顧客的採購行為」等資料 時,可以用幾個星期甚至更長的時間來分析過去所 累積的資料,然後據以做進貨及促銷等決定  現在有太多的資料不斷的產生(例如網際網路),必 須被即時的處理與即時的回應  例如要偵測 Facebook的熱門議題時,由於 Facebook的訊息 隨時不斷地產生,也就需要即時的處理 第二屆資訊邏輯與思考講座
  • 7. Big Data的四個特質—4V 2/2 2015/1/217  多樣化( Variety) – 資料的多樣性  以前的分析資料多為有結構的資料,像存在資料庫 系統或 Excel 的資料等都是,但其實世界上大部分 的資料都沒有結構性;例如是一本書的內容、一個 YouTube 多媒體資料、Facebook 上的一則消息  我們面對的資料,95%都是屬於非結構性的資料  可信度(Veracity) – 資料的可信程度  以往資料來源一致,正確性高;但現在的資料來源 複雜,正確性和可信度都降低,例如:在網路上搜 尋某產品的評價時,無法得到單一意見,而是正反 兼具,甚至可能含有許多非真實、惡意的評論,如 何分辨何者為真正有價值的資訊? 第二屆資訊邏輯與思考講座
  • 8. Big Data台灣的現況 2015/1/218  IDC 依照企業對新科技的應用成熟度與創造的商 業價值區分五個階段:  試驗(Ad Hoc)  專案(Opportunistic)  可重複(Repeatable)  可管理(Managed)  最佳化(Optimized)  在巨量資料分析成熟度方面,有 80.5% 的企業已 進入「專案階段」,較亞洲國家平均僅 49.6% 企 業進入專案階段為高  其中,又以金融服務產業尤甚如此,這與金融服務 企業對於客戶資料分析的需求較其他產業為高有關 第二屆資訊邏輯與思考講座
  • 9. Big Data的威力—範例1/2 2015/1/219  美國第二大零售商Target「比父親還更早知道女兒懷孕」  「假使顧客不願告知她已懷孕,零售業者如何知道?」  其實就在於習慣,因習慣是很難改變的,萬一真的出現 變化,通常是基於某些重大事件所驅動而成  女性顧客懷孕初期,旁人不易察覺,但是在她懷孕之後, 有些消費習慣會改變  零售業者的資料分析團隊,利用過往大量懷孕顧客的消 費數據,建立相關預測模型,發現乳液、無味香皂、洗 手液、浴巾、凡士林、棉花球、鈣片、鋅或鎂營養補充 品等20餘項商品的採購動機,與懷孕癥候具有莫大關聯  假使有女性顧客,以往鮮少購買這些商品,但從某個時 間點開始,逐步採購相關品項,且購買的頻率、數量也 漸次提高,則零售業者即可根據其分析模型,推導出該 顧客已經懷孕,甚可一併推敲預產期 第二屆資訊邏輯與思考講座
  • 10. Big Data的威力—範例2/2 2015/1/2110  當然,零售業者費盡心思建構這個懷孕預測模型,最 終目的仍在於創造商機;比方說,多數女性顧客在懷 孕六個月時,通常會開始採買諸如孕婦裝、孕婦用維 他命等新商品  零售商若能適時提供精心設計的促銷廣告暨若干優惠 兌換券,即有機會擄獲顧客的芳心,進而成為該零售 商的忠實客戶,日後除了懷孕用品外,舉凡家電、日 用品、食品、衛浴用品,甚至是寵物飼料等需求,都 傾向透過該零售商一次購足  有研究機構提出報告,美國零售業者一旦善用巨量資 料分析技術,將可望提升60%以上的毛利,另對於每 年生產力的提升,也可望產生0.5%~1%貢獻度 第二屆資訊邏輯與思考講座
  • 11. Big Data 的解決方法 2015/1/2111 資料探勘 (data mining)  從大量資料中發現有用的知識;將 隱含的、先前並不知道的、潛在有 用的資訊從巨量資料中粹取出來的 過程 第二屆資訊邏輯與思考講座
  • 13. 2015/1/21 Big Data的應用領域 1/2  資料分析與決策支援  透過對交易資料、信用卡資料、抱怨電話、客戶生活 型態分析  將顧客依照興趣、收入、消費習慣分群,進行目標行 銷  分析客戶購物型態,進行交叉行銷:啤酒與紙尿布  風險分析與管理  找出影響客戶忠誠度的因素,進行客戶維持  進行品質管控  競爭分析 13 第二屆資訊邏輯與思考講座
  • 14. Big Data的應用領域 2/2 2015/1/2114  犯罪偵測與管理  偵測使用保險詐欺  洗錢防治(US Treasury's Financial Crimes Enforcement Network)  偵測醫療詐欺(健保)  文字探勘(Text mining)  對新聞、電子郵件、文件進行主題式探勘  對PPT進行社會輿論分析  網頁探勘(Web analysis)  分析購物者瀏覽行為、進行關聯分析、交叉行銷  網頁結構分析:權威網站、集中型網站  網頁使用者行為分析 第二屆資訊邏輯與思考講座
  • 15. 2015/1/21 Big Data & Data Mining 主要的功能 (1/3)  關聯規則分析(Association rule analysis )  關聯規則分析在發現交易中,哪些產品會同時出現(被 購買)的規則  關聯規則 A => B  可信度(confidence)為: 在A出現之條件下出現B之機率  例子: 資料庫中的交易紀錄如下: t1: (…,麵包,…,牛奶,…) t2: (…,麵包,…………..) t3: (…,麵包,…,牛奶,…) t4: (……………………)  麵包 => 牛奶 之可信度為多少? 15 第二屆資訊邏輯與思考講座
  • 16. Big Data & Data Mining 主要的功能 (2/3)  分類與預測(Classification and Prediction)  顧客分類 (Classification)  例如: 保險公司利用Data Mining發現  30歲以下,未婚,為高風險客戶  30歲以上,已婚,為低風險客戶  保險公司便可利用這些資訊訂定策略與保費  常用決策樹表達(下頁天氣範例) 2015/1/2116 第二屆資訊邏輯與思考講座
  • 17. 天氣預測的決策表 Decision Factors Result TEMPERATURE WIND SKY BAROMETER PREDICTION Above freezing West Cloudy Falling Rain Below freezing * Cloudy Steady Snow Above freezing East Cloudy Rising Shine Above freezing * Partly Steady Shine * * Clear Steady Shine Above freezing South Clear Falling Rain Freezing North Partly Steady Snow 2015/1/21第二屆資訊邏輯與思考講座17
  • 19. Big Data & Data Mining 主要的功能 (3/3) 2015/1/2119  群集分析(Cluster analysis)  依照資料本身的特性,將資料分類成群 ;使得群組內的資料相 似度最高,群組間的資料相似度最低  依照身高、體重,將資料分成兒童、少年和成年三群組  異常值分析(Outlier analysis)  各種犯罪偵測  趨勢分析(Trend and evolution analysis) 第二屆資訊邏輯與思考講座
  • 20. Big Data & Data Mining相關領域 2015/1/21第二屆資訊邏輯與思考講座20
  • 21. 2015/1/21 Big Data & Data Mining相關領域 Big Data & Data Mining Database Technology Statistics Other Disciplines Information Science Machine Learning Visualization 21 第二屆資訊邏輯與思考講座
  • 23. 2015/1/21 Major Issues in Data Mining 1/2  探勘方法論、與線上使用者互動  探勘不同領域的知識、整合跨領域知識  資料探勘查詢語言、隨意查詢  視覺化呈現結果  處理雜訊與不完整資料  型態評估  效率與處理大量資料的能力  改善演算法  採用平行處理、分散式處理 23 第二屆資訊邏輯與思考講座
  • 24. 2015/1/21 Major Issues in Data Mining 2/2  處理不同資料型態  處理文字、文件、語音、多媒體等資料  處理異質資料庫、WWW全球資訊系統  在NoSQL下的探勘演算法  在雲端運算下的探勘演算法 24 第二屆資訊邏輯與思考講座 相關研究題目
  • 25. 如果想朝Big Data議題研究的同學, 能夠如何準備 • 選修資料倉儲與資料探勘專題:紮實基礎 • 認真聽課 • 實際動手操作軟體 • 參加資料探勘比賽:累積實務經驗 • 以此領域作為論文方向 2015/1/21第二屆資訊邏輯與思考講座25
  • 26. 碩士論文—輕鬆研究的秘密  有計畫的進行論文寫作  尋找適合的指導教授  尋找、確定研究方向、研究題目  收集、研讀、整理相關期刊  進行相關文獻探討  確定資料分析方法(定性、定量)  撰寫計劃書、口試  資料收集與分析  完成碩士論文、口試 26 2015/1/21第二屆資訊邏輯與思考講座