大數據

挑戰大數據
書籍介紹與分享
黃柏翰

書名:挑戰大數據
• 作者: 陸嘉恒
• 陸嘉恆，中國人民大學教授
• 研究方向：
– XML數據管理，數據挖掘，大數據處理技術，雲計算技術等
• 2001年獲上海交通大學計算機專業碩士學位
• 2002至2006年在新加坡國立大學攻讀博士學位
• 已在SIGMOD，VLDB，ICDE等國際一流的數據庫會
議和期刊上發表了三十餘篇論文

書大綱
• 概論
• 資料一致性理論
• 資料儲存模型
• 資料分區與放置
• 巨量資料處理方法
• 資料複製與容錯技術
• 資料壓縮技術
• 快取技術
• 各資料庫介紹
• 分散式快取系統
• 企業應用

簡報大綱
1.大數據基本介紹
2.資料一致性
3.資料儲存
4.NoSQL資料庫介紹與比較
5.企業應用(Facebook)
6.附件
-資料分區放置
-資料複製
-資料壓縮
-快取技術

Big Data是什麼?
• Big Data是高容量、高成長量、高變化性的資訊
資產，能提高資訊用途，以協助我們進行決策

Volume、Velocity、Variety
1.Volume：數據量，大量資料的產生、處理、保存
2.Velocity：處理的時效
3.Variety：多變性，指的是資料的形態，包含文字、
影音、網頁、串流等等結構性、非結構性的資料

Big Data不只談資料的分析
• 訂出需求
• 取得這些數據
• 資料儲存、備份的問題
• 資料的處理問題

可能的應用情境
1.海量的定義是隨著需求而定義的
2.在一定的時間內對大量的資料做處理時
電子商務購物車的應用情境

• 博客來還會告訴你以下資訊：
「買了這本書之後你還可以看哪些書」
「買了這本書的人還買了哪些書」
「瀏覽了這本書的人還瀏覽了哪些書」
或者進一步：
「有新書推出，這本書您應該會喜歡」
「你的朋友買了這幾本」
• 一個很明顯可以運用海量技術的情境，因
為它滿足了大量資料與時效兩個要求。

影響Big Data的發展因素
• 過去的作法多仰賴建置資料倉儲，透過抽取－轉換－載入（Extract－Transform－Load，
ETL）工具，讓資料經過整理後存到資料庫裡，才能進行分析。
– 這麼大量的資料要做分析，要建置一套價格不斐的倉儲平台，效益不高。
• 以往的做法是全部匯入關聯式資料庫用統一模式做，資料庫有固定模式、資料型態，
且資料已經過整理，所以只要用標準SQL語言，就可以做各種形式的處理
• 於是轉向尋求另一種實作方式，也就是NoSQL，把商業智慧要做的分析演算，
直接在檔案存放的位置執行，不必再透過倉儲系統與ETL工具，且可以達到
分散式的處理，再把結果送回資料庫。
• 反觀，NoSQL要把運算行為在資料庫外部執行，表示要先知道檔案格
式的規則，及其儲存的方法，才有能力去撰寫資料分析的程式，在各
個儲存點做分散式運算處理後取回，效能雖好，門檻相對也較高。

CAP 理論
1.C: Consistency 一致性
2.A: Availability 可用性
3.P: Partition Tolerance分區容錯性
• 一個分布式系統不可能同時很好的滿足一
致性，可用性和分區容錯性這三個需求，
最多只能同時較好的滿足兩個
• 目前眾多的分布式數據系統通過降低一致
性來換取可用性。

ACID
• 原子性、一致性、獨立性、持久性
• ACID特性對於大型的分佈式系統來說，適
合高性能不兼容的
• 你在網上書店買書，任何一個人買書這個過程都會鎖住數據庫直到買書行為
徹底完成（否則書本庫存數可能不一致），買書完成的那一瞬間，世界上所
有的人都可以看到熟的庫存減少了一本（這也意味著兩個人不能同時買書）。
這在小的網上書城也許可以運行的很好，可是對Amazon這種網上書城卻並不
是很好。

BASE
• 強調可用性的同時，引入了最終一致性這
個概念
• 而對於Amazon這種系統，他也許會用cache系統，剩餘的庫存數也許是之前
幾秒甚至幾個小時前的快照，而不是實時的庫存數，這就捨棄了一致性。並
且，Amazon可能也捨棄了獨立性，當只剩下最後一本書時，也許它會允許兩
個人同時下單，寧願最後給那個下單成功卻沒貨的人道歉，而不是整個系統
性能的下降。
ACID BASE
強一致性弱一致性
隔離性可用性優先
採用悲觀保守方法採用樂觀方法
難以變化適應能力強

NoSQL資料庫
• 關聯式資料庫（如：Oracle、MS-SQL、MySQL..）對於
每日需應付增加的社群網站大量資料存取早就不敷需求
• 任何大數據的web系統，都非常忌諱多個大表的關聯查詢，
以及復雜的數據分析類型的複雜SQL報表查詢。
• NoSQL 基本上拋棄了傳統的 SQL 思想，轉而靠往 CAP
定理
• 由於採用最終一致性，因此大幅改進了可用性與延展性。
此一典範通常稱之為 BASE理論
• Google的BigTable，Amazon的Dynamo，開放原始碼計
畫上則有HBase，Apache的Cassandra ， Facebook為例，
使用自行開發的 Cassandra 資料庫

NoSQL五項觀念
1.NoSQL是Not Only SQL
2.增加機器就能自動擴充資料庫容量
3.打破Schema欄位架構的限制
4.資料遲早會一致
5.成熟度不足，版本升級風險高

目前NoSQL系統概況
資料來源:Gartner公司

NoSQL資料庫儲存模型
1.鍵值儲存
– 優點
• 模型簡單易於實現
• 單筆資料進行查詢修改
• 高平行讀寫效能
– 缺點
• 批次資料操作效能差
• 資料無結構化
應用場景：
1.內容快取，處理大量資料的高負載
2.紀錄檔系統
KEY VALUE
Name:101 Bill
Name:102 Steve
Message:201 “Microsoft is great!”
Message:202 “U mean the
beautiful”
Name-Message:1 101:201
Redis、Dynamo

2.列式儲存
• 儲存資料時回繞著列，而非行
• 相似的列放一起組成列簇，加速列的儲存與查詢
– 優點
• 查詢迅速、可擴充性強，更容易進行分散式擴充
– 缺點
• 功能相對有限
應用場景：
1.分散式檔案系統
Id Name Company Birthday email
101 Bill Microsoft 1955-10-28 bill@micosoft.com
102 Steve Apple 1955-2-24 steve@apple.com
Bigtable、
Hbase、
Cassandra

3.文件儲存
• 鍵值資料庫升級版，允許在儲存的值中在巢狀結構鍵值
• 可對值建立索引，方便上層運用
• 資料主要以JASON格式儲存
• 優點
– 資料要求不嚴格，不需要先定義結構
• 缺點
– 查詢效能不高，缺乏統一查詢法
應用場景：
1.WEB應用
CouchDB、MongoDB

4.圖形儲存
• 包含節點、關係、節點與關係上面的屬性
• 使用者為節點，屬性附著於所屬的節點
• 關係(邊)為訊息發送，以向量表示方向，屬性附著於所屬的關係(邊)
• 優點
– 利用圖結構演算法提高效能
• 缺點
– 功能相對有限，不方便進行分散式叢集解決方案
應用場景：
1.社交網路
2.推薦系統
3.關係圖譜
Name:Bill
Company:microsoft
Name:Steve
Company:Apple
Msg:Windows’ Great
Msg:U mean the Blue Screen?
Neo4j

NoSQL,NewSQL
擷取自<挑戰大數據> 1-12

CouchDB Redis MongoDB Riak Membase
開發
語言
Erlang C/C++ C++ Erlang，C，Javascript Erlang，C
優點數據一致性,
易用
運行非常快保留了SQL一些的
特性（查詢，索引）
具備容錯能力兼容Memcache，
兼具持久化和支
持集群
適用
場景
積累性的、
較少改變的
數據
數據變化快
數據庫大小
可遇見（內
存容量）的
應用程序
動態查詢; 索引比
map/reduce方式更
合適時; 跟
CouchDB一樣,但數
據變動更多.
多站點複製
單個站點的擴展性
可用性及出錯處理有要
求的情況
適用於需要低延
遲數據訪問，高
並發支持以及高
可用性
舉例 CRM、CMS 股票價格、
數據分析、
實時數據蒐
集、
實時通訊
Mysql/PostgreSQL
場合，但是無法使
用預先定義好所有
列的時候
銷售數據蒐集、
工廠控制系統
低延遲數據訪問
比如以廣告為目
標的應用、
web 應用比如網
絡遊戲
NoSQL資料庫

NoSQL資料庫
Cassandra Hbase
開發
語言
Java Java
優點對大型表格
支持得最好
支持數十億
的列
適用
場景
寫操作多過
讀操作,實時
數據分析
適用於偏好
BigTable，
需要對大數
據進行隨機、
實時訪問的
場合
舉例銀行業
金融業
Facebook

企業應用(Facebook)
Facebook作為最大的社群網站，目前流量排名世界第二
• 龐大資料量
– Facebook估計擁有超過六萬台伺服器。
– 所有Memcached的執行程式所儲存的資料總量達300TB。
– Hadoop跟Hive叢集是由三千台伺服器組成。每台都是八核心，
32GB記憶體，12TB硬碟。結果是24000核心，96TB記憶體與
36PB的儲存空間。
– 每天有一千億次的點擊，光log也有130TB。
Facebook主要使用了哪些技術來架構這個系統?

雲端運算平臺Hadoop
• Hadoop是以java寫成
• 提供大量資料的分散式運算環境
• Hadoop的架構是由Google發表的BigTable及Google File
System等文章提出的概念製成
Hadoop組成元件

HBase
• Hbase為Hadoop所使用的資料庫
• 一種分散式儲存系統
– region server
– master server
• 備高可用性、高效能，以及容易擴充容量及效能的特性
• 以Hadoop分散式檔案系統(HDFS)為基礎
• 提供類似Bigtable的功能，HBase同時也提供了MapReduce程式設計
的能力
• 每一筆資料都有一個時間戳記 (timestamp)

MapReduce
• 定義:
– Hadoop Map/Reduce是一個易於使用的軟體平台，以MapReduce為基礎的應用程
序，能夠運作在由上千台PC所組成的大型叢集上，並以一種可靠容錯的方式平行
處理上P級別
• Hadoop適用於大規模資料集、可拆解的運算、批次處理、預先運算
• Map映射、Reduce化簡
• 流程圖解:

Hadoop Distributed File System
(HDFS)
• Hadoop系統中大量的資料和運算時產生的暫存檔案，都是存放在這
個分散式的檔案系統上
• 分散式的儲存環境，提供單一的目錄系統 (Single Namespace)，一
個典型的超大型分散式檔案系統
• 具容錯能力、高效率且超大容量的儲存環境
• Write Once Read Many存取模式
• HDFS概念：
– 是認為移動運算到資料端通常
比移動資料到運算端來的成本低

為何採用Apache Hadoop和HBase
1.靈活性
2.寫入處理量高
3.高效、低延遲的強一致性資料中心
4.高效隨機讀取操作
5.容錯性
6.範圍掃描
7.高可用性

資料分區
• 將大表和索引分成可方便管理的小區塊，避免直接將每一
個表坐為一個大的物件進行管理，為大量資料提供可伸縮
的效能。
• 分而治之
1.加強資料的可管理性、可用性、效能
2.使得查詢操作不用在整個資料庫進行
3.維護範圍可針對分區進行，效率提升
• 範圍分區、列表分區、雜湊分區

範圍分區
• 最早最經典的分區演算法
• 根據值的範圍進行資料的劃分
優點：
– 在時間週期資料儲存時顯得特別出色
• 資料以星期分區為例：
CREATE TABLE sales
(
acct_no NUMBER(5),
person VARCHAR(50),
sales_amount NUMBER(8),
week_no NUMBER(2)
);
PARTITION BY RANGE (week_no)
(
PARTITION p1 VALUES LESS THAN (4) TABLESPACE data0,
);
…

列表分區
• 當資料為離散數值時，且要求資料重複率高
• 分區之間沒有連結關係，不均勻
• 適合於對資料的離散值進行控制
• 指支援單一欄位
• 優點：
– 可透過分區來很方便尋找對應的資料
CREATE TABLE sales_list
(
Salesman_id NUMBER(5),
Salesman_name VARCHAR(30),
Salesman_state VARCHAR(20),,
Sales_date Date
);
PARTITION BY LIST (Salesman_state)
(
PARTITION sales_west VALUES (‘Chengdu’),
PARTITION sales_west VALUES (‘Shanghai’,’Dalian’,’Qingdao’),
);

雜湊分區
• 要求資料重複率低
• 追求資料在分區上均勻分布的特性
• 給定分區數量、雜湊函數，資料庫會自動完成對應的工作
SQL>create table hashtest partition by hash(object_id) partition 4 as
Select * from dba_objects;

資料放置(一致性雜湊演算法)

資料放置(一致性雜湊演算法)
虛擬節點:

資料備份
• 目的:
– 資料遭到破壞，能夠及時從備份資料庫中恢復
– 資料複製，可增加進行讀取時的效率，節約很
多時間
• 限制:
– 需要大量的時間與空間
– 複製資料的過程中，常常會發生差錯，需要進
行資料容錯與對應的故障處理

資料備份
• Dynamo的複寫原則
– key-value模式
– 儲存按照一致性雜湊
• 要儲存的資料先按照其鍵值K找到相對應的位置
• 每個資料會被複製到N個主機上
A
G
F
B
C
DE
K

巨量資料的故障發現與處理
• Dynamo的故障處理
A
G
F
B
C
DE

資料壓縮
• 資訊爆炸，如何管理這些巨量資料？
• 如何把這資料儲存起來？
• 資料壓縮定義：
– 在不遺失資訊的前提下，縮減資料量以減少儲存空間，加強其傳
輸、儲存、處理效率的一種技術，或按照一定的演算法對資料進
行重新組織，減少資料的容錯和儲存的空間
• 目標：
– 用最少的空間儲存最多的資訊
AAAAAAAAA……..AAAAAAAA
1,000,000 個 A

傳統的壓縮技術
• 一般可分為無失真壓縮與失真壓縮
1.無失真壓縮:
– 得到的壓縮資料與原來資料完全相同
– 霍夫曼演算法、LZ77壓縮演算法
2.失真壓縮:
– 得到的壓縮資料與原來資料有所不同
– 適用於不影響人對原始資料的理解
– 離散餘弦轉換、分形壓縮、小波壓縮、線性預測編碼等

霍夫曼編碼(Huffman)
Step1:找出字元出現的頻率 Step2:將出現的頻率由小到大來排列

Step3:將頻率最低的兩者相加
得出另一個頻率
Step4:持續將最低兩者的頻率相
加，直到剩下一個頻率為止

Step6:寫下各符號的霍夫曼碼

Oracle 混合列壓縮(HCC)
• Oracle採用行儲存的形式來儲存資料，並且採用混合列壓
縮技術
• HHC以區塊(block)的形式來組織資料，同時採用行儲存與
列儲存
• 列壓縮之所以能取得很高的壓縮率，是因為同一列的資料
形態和值常常都很接近，重複的內容也比較多，位壓縮提
供了很大的空間
• HCC對於倉庫壓縮和歸檔壓縮都是有效技術

分散式快取的產生
• 大幅提升系統查詢效能
• 提供一個緩衝層
• 可橫跨多個伺服器，能在大小和處理能力
上進行擴充
－記憶體價格愈來愈便宜
－網路卡速度愈來愈快
－對節點的伺服器要求不高

多個應用共用分散式快取

衡量可用性
• 能夠不在停止整個快取叢集的情況下移除快取伺服器嗎？
• 能夠不在停止整個快取叢集的情況下增加快取伺服器嗎？
• 能夠不在停止整個快取叢集的情況下增加新的用戶端嗎？
• 能夠不在停止整個快取叢集的情況下增加記憶體大小嗎？
停下來的因素愈少，說明快取可用性愈高

內部機制
• 真正需要快取的為動態資料
– 生命週期短
• 快取動態資料加強系統性能
• 生命期機制、一致性機制、換出機制

生命期機制
• 數據可以在快取中存在多長時間，然後將其自動移除
1.絕對時間
– 從現在開始10分鐘後過期
– 到晚上12點過期
– 更新無效資料
2.滑動時間(閒置時間)
– 閒置10分鐘無被讀或修改為過期
– 及時清理不用的資料

一致性機制
1.快取資料之間的一致性
2.快取資料與原始檔案的一致性
3.快取資料與資料庫的一致性

分散式快取拓撲結構
• 可擴充性
1.複製式拓撲
– 適用於讀頻繁的應用
2.分割式拓撲
– 將快取資料分成不同部分，每台伺服器儲存一部份資料
3.用戶端快取拓撲
– 適用於讀頻繁的應用

大數據

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to 大數據

Similar to 大數據 (20)

大數據