SlideShare uma empresa Scribd logo
1 de 16
資料倉儲、資料探勘與巨
量資料分析系統
資料倉儲、資料探勘與巨量資料分析系統
Big Data
Analytic
資料市集 DATA MART
資料倉儲 Data Warehouse, DW
• 定義:藉由建立一個集中的資訊倉庫,並配合有效的資料分析工具
與快速的決策支援軟體之開發,使得這些資料可以被該企業的決策
者適時適量存取和使用,以支援其決策的制定。
• 目的:改善傳統資料庫缺點
即時支援使用者的企業管理決策
• 主要架構:多維度的資料結構
提供多角度資訊,快速分析資料,供決策使用
資料倉儲 DW - 主題導向的資料組織
資料倉儲 DW – 資料的整合性
• 結合了整個企業內外的資料來源
包括:
• 不同資料庫
• 各種應用程式
• 不同時間的資料
資料倉儲 DW – 資料的時間差異性
• DW 通常存放
5 – 10 年不同時期的資
料
作為趨勢分析、預測
、
比較之用。
資料倉儲 DW – 資料的不變動性
• 為了做趨勢分析
資料一旦存入資料倉儲中,即被保存不再更動。
資料分析 - 線上即時資料分析 OLAP
• 採用多維度之資料結構 (Cube) 將資料載入,以進行多
項不同維度整合的分析,快速得到報表。
資料分析 – 資料探勘 Data Mining, DM
• 定義:
利用統計、人工智慧 (AI)
或其他的分析技術,在企業
之大型資料庫內尋找與發掘
事前未知、有效且可付諸行
動的資料彼此之間所隱藏的
關係與規則。
• 主要分析類型:如右圖。
資料探勘 DM - 主要分析類型
鏈結分析
Association Rule
Analysis
指出變數與變數之間的連結關係。
例:顧客會一起買那些商品 ? 據某特性的顧客會買怎樣的產品 ?
分類分析
Classification
藉由學習過去已知的分類,推論出一套最有效的分類規則來識別未來
新輸入群體的類型。
例:輸入過去 10000 個忠誠度高與忠誠度低的客戶樣本,找出特別屬
性來預測未來顧客的忠誠度。
群集分析
Clustering Analysis
對樣本的分類特性不清楚時,為了要了解有那些不同特性的消費族群
,而利用一些不同的特性來對樣本作群體分類。
例:網路使用者族群區隔分析。 ( 課本 P.211)
次序相關分析
Sequential Pattern
Analysis
由一群有次去的交易中,找出經常次序出現的交易項目組合,進而了
解顧客的長期購買行為。
預測分析
Forecasting Analysis
以歷史資料來預測未來走向
巨量資料 Big Data – 基本定義
• 巨量資料:
由各種量大、流動快地異質資料來源所匯集而來,數量極為巨
大,目前的資料處理技術所無法蒐集、紀錄、儲存、分析的大
量資料謂之。
• 例子:
•全球 10 億上網人口的網路搜尋紀錄。
•2013 年 facebook 上的 400 億張照片分享紀錄。
•信用卡防盜偵測系統:處理 21 億的客戶帳號。
巨量資料 Big Data – 產生背景
具量資料產生的三大動能
資料量 Volume
資料流動速度 Velocity
資料的不同來源 Varirty
巨量資料分析 Big Data Analysis
• 利用強大新型的資訊科技
有效的蒐集、傳送、儲存
、處理、分析判讀巨量資
料所呈現的各種訊息,包
括資料間的關聯性、因果
關係、類型辨識、趨勢觀
測等。
巨量資料分析 – 科技技術
巨量資料分析 – 困難與問題

Mais conteúdo relacionado

Mais procurados

え、毎月手作業でレポートを作ってるの?Power BI を使えば自動化できますよ!
え、毎月手作業でレポートを作ってるの?Power BI を使えば自動化できますよ!え、毎月手作業でレポートを作ってるの?Power BI を使えば自動化できますよ!
え、毎月手作業でレポートを作ってるの?Power BI を使えば自動化できますよ!Yugo Shimizu
 
DartPad+CodePenで、Flutterを体験してみよう
DartPad+CodePenで、Flutterを体験してみようDartPad+CodePenで、Flutterを体験してみよう
DartPad+CodePenで、Flutterを体験してみようcch-robo
 
Apache Impalaパフォーマンスチューニング #dbts2018
Apache Impalaパフォーマンスチューニング #dbts2018Apache Impalaパフォーマンスチューニング #dbts2018
Apache Impalaパフォーマンスチューニング #dbts2018Cloudera Japan
 
Kinesis Analyticsの適用できない用途と、Kinesis Firehoseの苦労話
Kinesis Analyticsの適用できない用途と、Kinesis Firehoseの苦労話Kinesis Analyticsの適用できない用途と、Kinesis Firehoseの苦労話
Kinesis Analyticsの適用できない用途と、Kinesis Firehoseの苦労話Sotaro Kimura
 
Delta Lake with Synapse dataflow
Delta Lake with Synapse dataflowDelta Lake with Synapse dataflow
Delta Lake with Synapse dataflowRyoma Nagata
 
Hadoop -NameNode HAの仕組み-
Hadoop -NameNode HAの仕組み-Hadoop -NameNode HAの仕組み-
Hadoop -NameNode HAの仕組み-Yuki Gonda
 
クラウドDWHにおける観点とAzure Synapse Analyticsの対応
クラウドDWHにおける観点とAzure Synapse Analyticsの対応クラウドDWHにおける観点とAzure Synapse Analyticsの対応
クラウドDWHにおける観点とAzure Synapse Analyticsの対応Ryoma Nagata
 
はじめてのDynamoDBスキーマ設計
はじめてのDynamoDBスキーマ設計はじめてのDynamoDBスキーマ設計
はじめてのDynamoDBスキーマ設計Yoichi Toyota
 
【istyle Data Talk #01】失敗から学ぶ!@cosmeを変えるデータ基盤のめざしどころ
【istyle Data Talk #01】失敗から学ぶ!@cosmeを変えるデータ基盤のめざしどころ【istyle Data Talk #01】失敗から学ぶ!@cosmeを変えるデータ基盤のめざしどころ
【istyle Data Talk #01】失敗から学ぶ!@cosmeを変えるデータ基盤のめざしどころHitomi Kakizaki
 
Apache Cassandra Lesson: Data Modelling and CQL3
Apache Cassandra Lesson: Data Modelling and CQL3Apache Cassandra Lesson: Data Modelling and CQL3
Apache Cassandra Lesson: Data Modelling and CQL3Markus Klems
 
Using the right data model in a data mart
Using the right data model in a data martUsing the right data model in a data mart
Using the right data model in a data martDavid Walker
 
大量のデータ処理や分析に使えるOSS Apache Spark入門(Open Source Conference 2021 Online/Kyoto 発表資料)
大量のデータ処理や分析に使えるOSS Apache Spark入門(Open Source Conference 2021 Online/Kyoto 発表資料)大量のデータ処理や分析に使えるOSS Apache Spark入門(Open Source Conference 2021 Online/Kyoto 発表資料)
大量のデータ処理や分析に使えるOSS Apache Spark入門(Open Source Conference 2021 Online/Kyoto 発表資料)NTT DATA Technology & Innovation
 
Azure SecOps! Azure Key Vaultを用いたクラウドのキー管理
Azure SecOps! Azure Key Vaultを用いたクラウドのキー管理Azure SecOps! Azure Key Vaultを用いたクラウドのキー管理
Azure SecOps! Azure Key Vaultを用いたクラウドのキー管理Yuki Hattori
 
データ分析を支える技術 データ分析基盤再入門
データ分析を支える技術 データ分析基盤再入門データ分析を支える技術 データ分析基盤再入門
データ分析を支える技術 データ分析基盤再入門Satoru Ishikawa
 
Azure Databricks is Easier Than You Think
Azure Databricks is Easier Than You ThinkAzure Databricks is Easier Than You Think
Azure Databricks is Easier Than You ThinkIke Ellis
 
IDaaS を正しく活用するための認証基盤設計
IDaaS を正しく活用するための認証基盤設計IDaaS を正しく活用するための認証基盤設計
IDaaS を正しく活用するための認証基盤設計Trainocate Japan, Ltd.
 
Cloudera Data Science WorkbenchとPySparkで 好きなPythonライブラリを 分散で使う #cadeda
Cloudera Data Science WorkbenchとPySparkで 好きなPythonライブラリを 分散で使う #cadedaCloudera Data Science WorkbenchとPySparkで 好きなPythonライブラリを 分散で使う #cadeda
Cloudera Data Science WorkbenchとPySparkで 好きなPythonライブラリを 分散で使う #cadedaCloudera Japan
 
Presto on YARNの導入・運用
Presto on YARNの導入・運用Presto on YARNの導入・運用
Presto on YARNの導入・運用cyberagent
 

Mais procurados (20)

え、毎月手作業でレポートを作ってるの?Power BI を使えば自動化できますよ!
え、毎月手作業でレポートを作ってるの?Power BI を使えば自動化できますよ!え、毎月手作業でレポートを作ってるの?Power BI を使えば自動化できますよ!
え、毎月手作業でレポートを作ってるの?Power BI を使えば自動化できますよ!
 
DartPad+CodePenで、Flutterを体験してみよう
DartPad+CodePenで、Flutterを体験してみようDartPad+CodePenで、Flutterを体験してみよう
DartPad+CodePenで、Flutterを体験してみよう
 
Apache Impalaパフォーマンスチューニング #dbts2018
Apache Impalaパフォーマンスチューニング #dbts2018Apache Impalaパフォーマンスチューニング #dbts2018
Apache Impalaパフォーマンスチューニング #dbts2018
 
Kinesis Analyticsの適用できない用途と、Kinesis Firehoseの苦労話
Kinesis Analyticsの適用できない用途と、Kinesis Firehoseの苦労話Kinesis Analyticsの適用できない用途と、Kinesis Firehoseの苦労話
Kinesis Analyticsの適用できない用途と、Kinesis Firehoseの苦労話
 
Delta Lake with Synapse dataflow
Delta Lake with Synapse dataflowDelta Lake with Synapse dataflow
Delta Lake with Synapse dataflow
 
Hadoop -NameNode HAの仕組み-
Hadoop -NameNode HAの仕組み-Hadoop -NameNode HAの仕組み-
Hadoop -NameNode HAの仕組み-
 
クラウドDWHにおける観点とAzure Synapse Analyticsの対応
クラウドDWHにおける観点とAzure Synapse Analyticsの対応クラウドDWHにおける観点とAzure Synapse Analyticsの対応
クラウドDWHにおける観点とAzure Synapse Analyticsの対応
 
はじめてのDynamoDBスキーマ設計
はじめてのDynamoDBスキーマ設計はじめてのDynamoDBスキーマ設計
はじめてのDynamoDBスキーマ設計
 
【istyle Data Talk #01】失敗から学ぶ!@cosmeを変えるデータ基盤のめざしどころ
【istyle Data Talk #01】失敗から学ぶ!@cosmeを変えるデータ基盤のめざしどころ【istyle Data Talk #01】失敗から学ぶ!@cosmeを変えるデータ基盤のめざしどころ
【istyle Data Talk #01】失敗から学ぶ!@cosmeを変えるデータ基盤のめざしどころ
 
Apache Cassandra Lesson: Data Modelling and CQL3
Apache Cassandra Lesson: Data Modelling and CQL3Apache Cassandra Lesson: Data Modelling and CQL3
Apache Cassandra Lesson: Data Modelling and CQL3
 
Using the right data model in a data mart
Using the right data model in a data martUsing the right data model in a data mart
Using the right data model in a data mart
 
大量のデータ処理や分析に使えるOSS Apache Spark入門(Open Source Conference 2021 Online/Kyoto 発表資料)
大量のデータ処理や分析に使えるOSS Apache Spark入門(Open Source Conference 2021 Online/Kyoto 発表資料)大量のデータ処理や分析に使えるOSS Apache Spark入門(Open Source Conference 2021 Online/Kyoto 発表資料)
大量のデータ処理や分析に使えるOSS Apache Spark入門(Open Source Conference 2021 Online/Kyoto 発表資料)
 
Azure SecOps! Azure Key Vaultを用いたクラウドのキー管理
Azure SecOps! Azure Key Vaultを用いたクラウドのキー管理Azure SecOps! Azure Key Vaultを用いたクラウドのキー管理
Azure SecOps! Azure Key Vaultを用いたクラウドのキー管理
 
Hiveを高速化するLLAP
Hiveを高速化するLLAPHiveを高速化するLLAP
Hiveを高速化するLLAP
 
データ分析を支える技術 データ分析基盤再入門
データ分析を支える技術 データ分析基盤再入門データ分析を支える技術 データ分析基盤再入門
データ分析を支える技術 データ分析基盤再入門
 
Azure Databricks is Easier Than You Think
Azure Databricks is Easier Than You ThinkAzure Databricks is Easier Than You Think
Azure Databricks is Easier Than You Think
 
IDaaS を正しく活用するための認証基盤設計
IDaaS を正しく活用するための認証基盤設計IDaaS を正しく活用するための認証基盤設計
IDaaS を正しく活用するための認証基盤設計
 
Cloudera Data Science WorkbenchとPySparkで 好きなPythonライブラリを 分散で使う #cadeda
Cloudera Data Science WorkbenchとPySparkで 好きなPythonライブラリを 分散で使う #cadedaCloudera Data Science WorkbenchとPySparkで 好きなPythonライブラリを 分散で使う #cadeda
Cloudera Data Science WorkbenchとPySparkで 好きなPythonライブラリを 分散で使う #cadeda
 
Presto on YARNの導入・運用
Presto on YARNの導入・運用Presto on YARNの導入・運用
Presto on YARNの導入・運用
 
NetflixにおけるPresto/Spark活用事例
NetflixにおけるPresto/Spark活用事例NetflixにおけるPresto/Spark活用事例
NetflixにおけるPresto/Spark活用事例
 

Destaque

終歸:分群消費者x多元商機的實現
終歸:分群消費者x多元商機的實現終歸:分群消費者x多元商機的實現
終歸:分群消費者x多元商機的實現Etu Solution
 
MLDM Monday -- Optimization Series Talk
MLDM Monday -- Optimization Series TalkMLDM Monday -- Optimization Series Talk
MLDM Monday -- Optimization Series TalkJerry Wu
 
活用您的 Big Data,實現線上服務行銷的精準推薦
活用您的 Big Data,實現線上服務行銷的精準推薦活用您的 Big Data,實現線上服務行銷的精準推薦
活用您的 Big Data,實現線上服務行銷的精準推薦Etu Solution
 
20150117 輕鬆研究的秘密 時下最夯Big Data / 李永山 老師
20150117 輕鬆研究的秘密時下最夯Big Data / 李永山 老師20150117 輕鬆研究的秘密時下最夯Big Data / 李永山 老師
20150117 輕鬆研究的秘密 時下最夯Big Data / 李永山 老師Iim Mcu
 
淺談大數據概念與應用
淺談大數據概念與應用淺談大數據概念與應用
淺談大數據概念與應用Jerry Tseng
 
Big data應用人力資源
Big data應用人力資源Big data應用人力資源
Big data應用人力資源brian401777
 
投客所好:互聯內外,啟動投信藍海數據戰
投客所好:互聯內外,啟動投信藍海數據戰投客所好:互聯內外,啟動投信藍海數據戰
投客所好:互聯內外,啟動投信藍海數據戰Etu Solution
 
Java SE 7 技術手冊投影片第 12 章 - 通用API
Java SE 7 技術手冊投影片第 12 章  - 通用APIJava SE 7 技術手冊投影片第 12 章  - 通用API
Java SE 7 技術手冊投影片第 12 章 - 通用APIJustin Lin
 
從專家到專家講師─財團法人中小企業聯輔中心財務管理顧問師北區聯誼會
從專家到專家講師─財團法人中小企業聯輔中心財務管理顧問師北區聯誼會從專家到專家講師─財團法人中小企業聯輔中心財務管理顧問師北區聯誼會
從專家到專家講師─財團法人中小企業聯輔中心財務管理顧問師北區聯誼會張大明 Ta-Ming Chang
 
連淡水阿嬤都聽得懂的 機器學習入門 scikit-learn
連淡水阿嬤都聽得懂的機器學習入門 scikit-learn 連淡水阿嬤都聽得懂的機器學習入門 scikit-learn
連淡水阿嬤都聽得懂的 機器學習入門 scikit-learn Cicilia Lee
 
機器學習簡報 / 机器学习简报 Machine Learning
機器學習簡報 / 机器学习简报 Machine Learning 機器學習簡報 / 机器学习简报 Machine Learning
機器學習簡報 / 机器学习简报 Machine Learning Will Kuan 官大鈞
 

Destaque (18)

終歸:分群消費者x多元商機的實現
終歸:分群消費者x多元商機的實現終歸:分群消費者x多元商機的實現
終歸:分群消費者x多元商機的實現
 
資料倉儲
資料倉儲資料倉儲
資料倉儲
 
MLDM Monday -- Optimization Series Talk
MLDM Monday -- Optimization Series TalkMLDM Monday -- Optimization Series Talk
MLDM Monday -- Optimization Series Talk
 
1030502
10305021030502
1030502
 
活用您的 Big Data,實現線上服務行銷的精準推薦
活用您的 Big Data,實現線上服務行銷的精準推薦活用您的 Big Data,實現線上服務行銷的精準推薦
活用您的 Big Data,實現線上服務行銷的精準推薦
 
20150117 輕鬆研究的秘密 時下最夯Big Data / 李永山 老師
20150117 輕鬆研究的秘密時下最夯Big Data / 李永山 老師20150117 輕鬆研究的秘密時下最夯Big Data / 李永山 老師
20150117 輕鬆研究的秘密 時下最夯Big Data / 李永山 老師
 
大數據
大數據大數據
大數據
 
淺談大數據概念與應用
淺談大數據概念與應用淺談大數據概念與應用
淺談大數據概念與應用
 
Big data應用人力資源
Big data應用人力資源Big data應用人力資源
Big data應用人力資源
 
投客所好:互聯內外,啟動投信藍海數據戰
投客所好:互聯內外,啟動投信藍海數據戰投客所好:互聯內外,啟動投信藍海數據戰
投客所好:互聯內外,啟動投信藍海數據戰
 
i 聯網系列之5:大數據
i 聯網系列之5:大數據i 聯網系列之5:大數據
i 聯網系列之5:大數據
 
Jerry直播筆記20170111
Jerry直播筆記20170111Jerry直播筆記20170111
Jerry直播筆記20170111
 
Java SE 7 技術手冊投影片第 12 章 - 通用API
Java SE 7 技術手冊投影片第 12 章  - 通用APIJava SE 7 技術手冊投影片第 12 章  - 通用API
Java SE 7 技術手冊投影片第 12 章 - 通用API
 
從專家到專家講師─財團法人中小企業聯輔中心財務管理顧問師北區聯誼會
從專家到專家講師─財團法人中小企業聯輔中心財務管理顧問師北區聯誼會從專家到專家講師─財團法人中小企業聯輔中心財務管理顧問師北區聯誼會
從專家到專家講師─財團法人中小企業聯輔中心財務管理顧問師北區聯誼會
 
連淡水阿嬤都聽得懂的 機器學習入門 scikit-learn
連淡水阿嬤都聽得懂的機器學習入門 scikit-learn 連淡水阿嬤都聽得懂的機器學習入門 scikit-learn
連淡水阿嬤都聽得懂的 機器學習入門 scikit-learn
 
機器學習簡報 / 机器学习简报 Machine Learning
機器學習簡報 / 机器学习简报 Machine Learning 機器學習簡報 / 机器学习简报 Machine Learning
機器學習簡報 / 机器学习简报 Machine Learning
 
直播筆記20170104
直播筆記20170104直播筆記20170104
直播筆記20170104
 
i 聯網系列之6:從中國角度看互聯網金融fintech簡報
i 聯網系列之6:從中國角度看互聯網金融fintech簡報i 聯網系列之6:從中國角度看互聯網金融fintech簡報
i 聯網系列之6:從中國角度看互聯網金融fintech簡報
 

Semelhante a 資訊管理 CH6 資料倉儲、資料探勘與巨量資料分析系統 (Data Warehouse、Data Mining、Big Data Analytic system)

IT445_Week_11.pdf
IT445_Week_11.pdfIT445_Week_11.pdf
IT445_Week_11.pdfAiondBdkpt
 
Business intelligent 概論 棅易
Business intelligent 概論 棅易Business intelligent 概論 棅易
Business intelligent 概論 棅易Lawrence Huang
 
當資料科學家不須花大量時間蒐集/清洗數據-2015 R Taiwan研討會分享
當資料科學家不須花大量時間蒐集/清洗數據-2015 R Taiwan研討會分享當資料科學家不須花大量時間蒐集/清洗數據-2015 R Taiwan研討會分享
當資料科學家不須花大量時間蒐集/清洗數據-2015 R Taiwan研討會分享Liang-Chuan Huang
 
Can data virtualization uphold performance with complex queries? (Chinese)
Can data virtualization uphold performance with complex queries? (Chinese)Can data virtualization uphold performance with complex queries? (Chinese)
Can data virtualization uphold performance with complex queries? (Chinese)Denodo
 
博晓通企业介绍和典型客户201504 (完整版)
博晓通企业介绍和典型客户201504 (完整版)博晓通企业介绍和典型客户201504 (完整版)
博晓通企业介绍和典型客户201504 (完整版)Yu Zhang
 
決策支援系統及商業智慧
決策支援系統及商業智慧決策支援系統及商業智慧
決策支援系統及商業智慧耀昇 詹
 
如何快速实现数据编织架构
如何快速实现数据编织架构如何快速实现数据编织架构
如何快速实现数据编织架构Denodo
 
Realtime analytics with Flink and Druid
Realtime analytics with Flink and DruidRealtime analytics with Flink and Druid
Realtime analytics with Flink and DruidErhwen Kuo
 
逻辑数据编织 – 构建先进的现代企业数据架构
逻辑数据编织 – 构建先进的现代企业数据架构逻辑数据编织 – 构建先进的现代企业数据架构
逻辑数据编织 – 构建先进的现代企业数据架构Denodo
 
How to build data warehouse
How to build data warehouseHow to build data warehouse
How to build data warehousejasonfuoo
 
罗旭祥 基于数据挖掘的产品设计
罗旭祥 基于数据挖掘的产品设计罗旭祥 基于数据挖掘的产品设计
罗旭祥 基于数据挖掘的产品设计PMCamp
 
Big data, big challenge- splunk 幫你解決 big data 議題帶來的挑戰
Big data, big challenge- splunk 幫你解決 big data 議題帶來的挑戰Big data, big challenge- splunk 幫你解決 big data 議題帶來的挑戰
Big data, big challenge- splunk 幫你解決 big data 議題帶來的挑戰Ching-Lin Tao
 
database
databasedatabase
databases06283
 
管理資訊系統
管理資訊系統管理資訊系統
管理資訊系統brian401777
 
Greenplum技术
Greenplum技术Greenplum技术
Greenplum技术锐 张
 
Introduction of libraries' big data in China
Introduction of libraries' big data in ChinaIntroduction of libraries' big data in China
Introduction of libraries' big data in Chinayuanxinz
 
ActWeis Technology Inc. 艾格亞士科技 簡介產品及服務 (20121026)
ActWeis Technology Inc. 艾格亞士科技 簡介產品及服務 (20121026)ActWeis Technology Inc. 艾格亞士科技 簡介產品及服務 (20121026)
ActWeis Technology Inc. 艾格亞士科技 簡介產品及服務 (20121026)ActWeis Technology Inc.
 

Semelhante a 資訊管理 CH6 資料倉儲、資料探勘與巨量資料分析系統 (Data Warehouse、Data Mining、Big Data Analytic system) (20)

IT445_Week_11.pdf
IT445_Week_11.pdfIT445_Week_11.pdf
IT445_Week_11.pdf
 
Business intelligent 概論 棅易
Business intelligent 概論 棅易Business intelligent 概論 棅易
Business intelligent 概論 棅易
 
當資料科學家不須花大量時間蒐集/清洗數據-2015 R Taiwan研討會分享
當資料科學家不須花大量時間蒐集/清洗數據-2015 R Taiwan研討會分享當資料科學家不須花大量時間蒐集/清洗數據-2015 R Taiwan研討會分享
當資料科學家不須花大量時間蒐集/清洗數據-2015 R Taiwan研討會分享
 
Can data virtualization uphold performance with complex queries? (Chinese)
Can data virtualization uphold performance with complex queries? (Chinese)Can data virtualization uphold performance with complex queries? (Chinese)
Can data virtualization uphold performance with complex queries? (Chinese)
 
博晓通企业介绍和典型客户201504 (完整版)
博晓通企业介绍和典型客户201504 (完整版)博晓通企业介绍和典型客户201504 (完整版)
博晓通企业介绍和典型客户201504 (完整版)
 
決策支援系統及商業智慧
決策支援系統及商業智慧決策支援系統及商業智慧
決策支援系統及商業智慧
 
如何快速实现数据编织架构
如何快速实现数据编织架构如何快速实现数据编织架构
如何快速实现数据编织架构
 
Realtime analytics with Flink and Druid
Realtime analytics with Flink and DruidRealtime analytics with Flink and Druid
Realtime analytics with Flink and Druid
 
逻辑数据编织 – 构建先进的现代企业数据架构
逻辑数据编织 – 构建先进的现代企业数据架构逻辑数据编织 – 构建先进的现代企业数据架构
逻辑数据编织 – 构建先进的现代企业数据架构
 
How to build data warehouse
How to build data warehouseHow to build data warehouse
How to build data warehouse
 
罗旭祥 基于数据挖掘的产品设计
罗旭祥 基于数据挖掘的产品设计罗旭祥 基于数据挖掘的产品设计
罗旭祥 基于数据挖掘的产品设计
 
Big data, big challenge- splunk 幫你解決 big data 議題帶來的挑戰
Big data, big challenge- splunk 幫你解決 big data 議題帶來的挑戰Big data, big challenge- splunk 幫你解決 big data 議題帶來的挑戰
Big data, big challenge- splunk 幫你解決 big data 議題帶來的挑戰
 
database
databasedatabase
database
 
商業智慧
商業智慧商業智慧
商業智慧
 
管理資訊系統
管理資訊系統管理資訊系統
管理資訊系統
 
Greenplum技术
Greenplum技术Greenplum技术
Greenplum技术
 
Introduction of libraries' big data in China
Introduction of libraries' big data in ChinaIntroduction of libraries' big data in China
Introduction of libraries' big data in China
 
数据仓库
数据仓库数据仓库
数据仓库
 
ActWeis Technology Inc. 艾格亞士科技 簡介產品及服務 (20121026)
ActWeis Technology Inc. 艾格亞士科技 簡介產品及服務 (20121026)ActWeis Technology Inc. 艾格亞士科技 簡介產品及服務 (20121026)
ActWeis Technology Inc. 艾格亞士科技 簡介產品及服務 (20121026)
 
传媒梦工场分享
传媒梦工场分享传媒梦工场分享
传媒梦工场分享
 

資訊管理 CH6 資料倉儲、資料探勘與巨量資料分析系統 (Data Warehouse、Data Mining、Big Data Analytic system)

  • 4. 資料倉儲 Data Warehouse, DW • 定義:藉由建立一個集中的資訊倉庫,並配合有效的資料分析工具 與快速的決策支援軟體之開發,使得這些資料可以被該企業的決策 者適時適量存取和使用,以支援其決策的制定。 • 目的:改善傳統資料庫缺點 即時支援使用者的企業管理決策 • 主要架構:多維度的資料結構 提供多角度資訊,快速分析資料,供決策使用
  • 5. 資料倉儲 DW - 主題導向的資料組織
  • 6. 資料倉儲 DW – 資料的整合性 • 結合了整個企業內外的資料來源 包括: • 不同資料庫 • 各種應用程式 • 不同時間的資料
  • 7. 資料倉儲 DW – 資料的時間差異性 • DW 通常存放 5 – 10 年不同時期的資 料 作為趨勢分析、預測 、 比較之用。
  • 8. 資料倉儲 DW – 資料的不變動性 • 為了做趨勢分析 資料一旦存入資料倉儲中,即被保存不再更動。
  • 9. 資料分析 - 線上即時資料分析 OLAP • 採用多維度之資料結構 (Cube) 將資料載入,以進行多 項不同維度整合的分析,快速得到報表。
  • 10. 資料分析 – 資料探勘 Data Mining, DM • 定義: 利用統計、人工智慧 (AI) 或其他的分析技術,在企業 之大型資料庫內尋找與發掘 事前未知、有效且可付諸行 動的資料彼此之間所隱藏的 關係與規則。 • 主要分析類型:如右圖。
  • 11. 資料探勘 DM - 主要分析類型 鏈結分析 Association Rule Analysis 指出變數與變數之間的連結關係。 例:顧客會一起買那些商品 ? 據某特性的顧客會買怎樣的產品 ? 分類分析 Classification 藉由學習過去已知的分類,推論出一套最有效的分類規則來識別未來 新輸入群體的類型。 例:輸入過去 10000 個忠誠度高與忠誠度低的客戶樣本,找出特別屬 性來預測未來顧客的忠誠度。 群集分析 Clustering Analysis 對樣本的分類特性不清楚時,為了要了解有那些不同特性的消費族群 ,而利用一些不同的特性來對樣本作群體分類。 例:網路使用者族群區隔分析。 ( 課本 P.211) 次序相關分析 Sequential Pattern Analysis 由一群有次去的交易中,找出經常次序出現的交易項目組合,進而了 解顧客的長期購買行為。 預測分析 Forecasting Analysis 以歷史資料來預測未來走向
  • 12. 巨量資料 Big Data – 基本定義 • 巨量資料: 由各種量大、流動快地異質資料來源所匯集而來,數量極為巨 大,目前的資料處理技術所無法蒐集、紀錄、儲存、分析的大 量資料謂之。 • 例子: •全球 10 億上網人口的網路搜尋紀錄。 •2013 年 facebook 上的 400 億張照片分享紀錄。 •信用卡防盜偵測系統:處理 21 億的客戶帳號。
  • 13. 巨量資料 Big Data – 產生背景 具量資料產生的三大動能 資料量 Volume 資料流動速度 Velocity 資料的不同來源 Varirty
  • 14. 巨量資料分析 Big Data Analysis • 利用強大新型的資訊科技 有效的蒐集、傳送、儲存 、處理、分析判讀巨量資 料所呈現的各種訊息,包 括資料間的關聯性、因果 關係、類型辨識、趨勢觀 測等。

Notas do Editor

  1. 資料倉儲B=DW、資料探勘DM是企業智慧BI的核心基礎。 巨量資料分析Big data analytic是這些基礎未來的發展趨勢 因此接下來將介紹這3大系統。
  2. DATA MART(資料市集) 儲存資料,是資料庫(Database)最基本的功能,但隨網際網路興起與企業資訊管理軟體的普及化,加速了「資料庫」技術的應用。企業透過資料庫技術可提升企業的資訊應用能力及反應速度,對網路世紀的企業競爭力有深遠的影響。 資料庫根據處理技術與資料來源的複雜程度,可分為資料市集( Data Mart)、資料採擷(Data Mining)與資料倉儲(Data Warehous ing)三個層次。 所謂的DATA MART(資料市集),是資料庫運 用技術的第一層,通常是單一領域的資料運用,例如人事、行政、進貨 、銷售、存貨等單領域資料的運用與分析。 第二層便是資料採擷,根據特定需要,彙整與 擷取來自各個不同來源的資料,以供進一步分析之用。  資料庫技術運用的最上層便是資料倉儲,運用複雜的邏輯與推理,不 但彙整來自各方的資料,並且有人工智慧等功能,可作複雜的統計與分 析,針對決策者企業經營需求,提供所需的數據分析。
  3. 定義:具有以下特性的管理性資料庫。 主題導向(Subject-Oriented):決策主題導向 整合性(Integrated) 一致性(Consistency) 時間差異性(Time-Variant) 不變動性(Nonvolatile) 目的:快速支援使用者的管理決策 目的:傳統DB以紀錄交易為目的,因此決策相關的資訊散佈在不同資料庫裡,常常產生資料不一致、不相容、無法整合等問題,因此為了即時支援重要的企業決策,DW應運而生。
  4. DW: 那些特性的顧客喜歡買甚麼產品組合 (男性30-50歲-尿布+啤酒) 那些特性的客戶容易有壞帳? 那些地區的顧客購買能力較強? 這時DW會蒐集相關資料,並整合於以顧客銷售為主題的DW中。
  5. OLTP 線上交易系統 批次作業系統 辦公室自動化資料 多個部門的資料庫
  6. Online Analytical Processing P.208 209
  7. 鏈結分析 Association Rule Analysis
  8. 鏈結分析 經典案例1990年代,美國Walmart超市於資料庫中分析出啤酒與嬰兒尿布於週末傍晚的強烈關聯性,進而找出原因是年輕父親常被妻子交待週末下班買尿布回家而順便帶啤酒,因此調整商品陳列方式—將較高價尿布陳列於啤酒旁邊, 結果提昇了銷售量。
  9. 資料的不同來源