SlideShare uma empresa Scribd logo
1 de 41
Hadoop 與 SQL 的甜蜜連結
              精誠資訊 雲中心
          Etu 首席顧問 陳昭宇
摘要
您曾經聽說過 Hadoop 和 NoSQL 嗎 ? 您是否了解非結構化與結構化
資料 ? 它們之間是什麼樣的關係 ? 根據統計 , 企業內結構化的資料約
僅佔 15%, 另有 85% 的寶貴資訊是以非結構化的方式存在 , 例如網
頁 , 電子郵件 , 應用系統的日誌等等 . 如何處理並分析這些非結構化資
料 , 挖掘其中所蘊藏的商業價值 , 已成為企業 IT 必須面對的課題 .


關聯式資料庫及資料倉儲系統可說是今日企業資訊的核心 , 結構化查詢
語言 SQL 也幾乎是企業資訊從業人員必需具備的技能之一 . 然而面對
爆炸性成長的非結構化資訊 , 企業應該採用什麼樣的策略 ? 該如何讓
既有的關聯式資料庫與 Hadoop 整合 , 建立企業對於非結構化資訊的
管理能力 ? 精誠 Etu 團隊將協助您的企業 , 打開 SQL to Hadoop 之
路.
大綱
•   結構與非結構化資訊
•   什麼是 Hadoop ?
•   關聯式資料庫與 Hadoop 的差異
•   連結關聯式資料庫與 Hadoop
•   SQL 與 Hadoop 整合應用的策略
•   Etu Appliance 簡介
什麼是非結構化資訊 ?
    Unstructured Data refers to information that either does
    not have a pre-defined data model and/or does not fit
    well into relational tables. Unstructured information is
    typically text-heavy, but may contain data such as dates,
    numbers, and facts as well. This results in irregularities
    and ambiguities that make it difficult to understand using
    traditional computer programs as compared to data
    stored in fielded form in databases or annotated
    (semantically tagged) in documents

    -- from Wikipedia http://en.wikipedia.org/wiki/Unstructured_data


4
非結構化資訊的特性
•   無法事先定義資料模型
•   不適合存放於關聯式資料庫
•   通常含有大量無格式的文字訊息
•   可能含有非文字資訊 , 如圖片 , 影像 , 聲
    音
有哪些非結構化資訊
        Web        DOC / Media   Social Media   Machine / Sensor
    Clickstream




    Call Log/xDR     Apps

          Log




6
Hadoop 與大數據處理
         15%
結構化            關聯式資料庫 & DW


非結構化




         85%     異質資料處理平台
 7
Big Data 時代來臨 – 新量級、新處理模式、新企業智慧



       行動 / 網際網路
        Mobile/Internet

            物聯網
       Internet of Things
Big Data 新處理方式
                        Scale Out (TB to PB)



     關連式     查詢應用
                     NoSQL     NoSQL       NoSQL
     資料庫




  ETL 工具
             資料處理   平行運算     平行運算       平行運算
     或
    script




             原始數據   分散式檔案    分散式檔案      分散式檔案
   檔案系統              系統       系統         系統
什麼是 Hadoop ?
• 由 Doug Cutting 所發起的 Open Source
  分散式計算框架
• 參考 Google 的 GFS 與 Map Reduce
  架構
• 公有雲等級的資料儲存與處理能力
• 內建資料與任務的容錯機制 , 可以容忍硬
  體及網路故障
• 設計運行於商用伺服器 , 無需特殊之硬體
10
為什麼要用 Hadoop
•    儲存並處理海量結構與非結構資訊
•    執行資料分析程式於分散式系統上
•    簡化分散式系統的管理與資源調度
•    線性化的擴充能力
•    高可用性與容錯性




11
Hadoop 不只是 Hadoop
               Big Data Applications




                                   Pig!




SQL     HIVE

                                          Zoo
RAW                                       Keeper



 12
Hadoop 生態系統
 ZooKeeper – distributed coordination service
 HBase – distributed column-oriented database for random
  read/write
 HIVE – SQL like database on top of Hadoop
 Pig – high level scripting language for data processing
 Mahout – a scalable machine learning library for MapReduce
 Sqoop – SQL-to-Hadoop connector
 Flume – a distributed streaming data collection framework




13
關聯式資料庫 vs Hadoop

      關聯式資料庫      Hadoop
資料量   GB -> TB    TB -> PB
存取方式  互動式與批次      批次
資料更新  多次讀寫        一次寫 , 多次讀
資料結構  固定 schema   無 schema
資料一致性 高 (ACID)    低
擴充性   非線性         線性
Big Data Taiwan 2012 整合大全
聲音檔案
影片檔案
圖形檔案                                              Web, Mobile,
                                                  CRM, ERP, SCM,
                                                 …                       商務交易
文件檔案
文字資料                         回饋 / 歷史資料                                      與
XML 檔案                                                                    行為互動
Web Logs
點擊事件
                                                                                             NewSQ
                                                                           SQL     NoSQL
                                                                                               L
 社交網路
 關聯圖譜
                          Big Data                            
新聞 Feeds                 精煉處理場                                預處理
                                                                          EDW      MPP
                                                                                            NewSQ          a
  感應器       多結構資料                                                                             L
                                                                                                           傳統
 嵌入設備       儲存 / 彙整 / 轉換 / 運                                                                               ETL
RFID Tags   算
                                                                          商業智慧
地理資訊                                                                      與
GPS 點位                                    回饋 / 歷史資料
                                                                          線上分析
                                                  Dashboard,
  事件
                                                  Report,
  其他
                                                  Visualization, …

              Original source: http://hortonworks.com/blog/big-data-refinery-fuels-next-generation-data-
              architecture
連結關聯式資料庫與 Hadoop
• 匯入與匯出資料
 – Sqoop (by Cloudera)
• 查詢與整合
 – Hive JDBC Driver (Java)
 – Hive ODBC Driver (C++)
 – Hive Add-in for Excel (by Microsoft)
 – Thrift (C/C++, Python, Perl, PHP)
Hive 簡介
• 由 Facebook 開發
• 架構於 Hadoop 之上 , 設計用來管理結構化資料的中介
  軟體
   • 以 MapReduce 為執行環境
   • 資料儲存於 HDFS 上
   • Metadata 儲存於 RDMBS 中
• Hive 的設計原則
   • 採用類 SQL 語法
   • 擴充性 – Types, Functions, Formats, Scripts
   • 性能與平水擴展能力兼具
Hive 的架構
                                               •   Driver
                                   JDBC                • 將 SQL 語法編譯成
 Web UI              CLI
                                   ODBC
                                                          MapReduce 任務 , 進行最
                                                          佳化 , 發送到 Job Tracker
           Driver
 (compiler, optimizer, executor)   metastore              執行
                                               •   CLI/Web UI
                                                       • Ad-hoc 查詢
                                                       • Schema 查詢
                                                       • 管理介面
                                               •   JDBC/ODBC
                                                       • 標準介面與其他資料庫工
                                                          具及應用程式介接
Hive – SQL like Hadoop Database

                                     JDBC
   Web UI              CLI
                                     ODBC

             Driver
   (compiler, optimizer, executor)   metastore




        Create M/R Job                                  Hadoop Cluster

                                                 M/R      M/R    M/R     M/R


                                                 Data     Data   Data    Data
                                                 Node     Node   Node    Node
Sqoop – SQL to Hadoop


SQL                      JDB        JDB          JDB
                          C          C            C

      Create Map Tasks
                         Map        Map          Map




                               HDFS/HIVE/HBase
Sqoop 支援的 RDMBS
•   Oracle
•   Netezza
•   Teradata
•   SQL Server
•   Microsoft PDW
•   MySql
•   Postgre SQL
傳統的資料處理流程
            營運資訊      資料倉儲
      新用戶

      新訂單

      新產品




                   ETL 部份資料
使用者瀏覽日誌
                   大部份刪除
探索式的資料處理流程
                              資料倉儲
                營運資訊
          新用戶

          新訂單

          新產品


                       廣告效益分析 ?
                       促銷活動分析 ?
                       電子報效益分析
                       ?



使用者瀏覽日誌
企業的 Hadoop 應用策略

 PowerView             Excel with           Predictive         Embedded
                       PowerPivot            Analytics            BI
                            Familiar End User Tools

                                                         S
                                                         S
                           SSAS                          R
                                                         S
                                  BI Platform




                                  Connectors


                Hadoop


                          Web
 Sensors     Devices               Crawlers
                          Log                   ERP      CRM   LOB   APPs
           非結構化資料來源                                   結構化資料來源
第一招 : 參照 RDBMS 中的資料表




                       Customers


                        Products

          HDFS         RDBMS

WebLogs
第二招 : 離線數據分析




                Customers

                 Products
        HDFS
               Sales History

                RDBMS
第三招 : 歷史數據與線上數據交互運用
                     ODBC/JDBC




                                 Sales 2010

                                 Sales 2009

            Sales 2008           Sales 2008
     HDFS
                                 RDBMS
第四招 : 利用 Hadoop 進行數據
彙總




                       WebLog
                       Summary



          HDFS
                       RDBMS

WebLogs
第五招 : 利用 ODBC 連結 Excel & Hive

                                E xcel Hive A dd-in




       在線資料 : MS S QL S erver




       歷史資料 : Hive
Hadoop 平台競爭要素
 Hadoop Disruption Vectors

                                                        整合
                                                        部署
                                                        存取




                             Source: GigaOM Pro, 2012
Etu Appliance 簡介
Big Data End-to-End Solution in a Box

儲存與運算一體,簡化與最佳化的優勢機種:
•10 分鐘內可部署 100+ 節點
•資料擷取能力 1U 勝過 8U
•Big Data 運算處理最適化




 • 延展:公有雲等級的運算架構
 • 可靠:電信等級的系統品質
 • 效能:企業等級的創新績效
三種資料溫度的整合: Hot / Warm / Cold
 Hot Data
 在線結構化資料
 在線半 / 非結構化資
 料               OLTP        OLAP



 Warm Data
 在線半 / 非結構化資
 料                         Hadoop-based Solution



 Cold Data
 離線資料
               SAN / NAS / Scale-out NAS
Etu Appliance 主要功能

                  軟硬體整合

     管理維運功能

     全自動化部署
     不停機擴充
     軟硬體全面最佳化
     中央叢集系統管理
     中央叢集系統監控
     完整的高可用性設計




33
Etu Appliance 軟體架構
Application Layer                                       (by SYSTEX)

 Search API               Pig             Hive QL        Monitoring

Data Processing Layer
                                                           Log
                                                        Management
                             Data
  Katta/Lucene                             Mahout        Account
                        Processing Lib
                                                        Management
                    MapReduce
                                                        Configuration
                                                        Management
Data            Data Store Layer
Source                                                   Scheduler
 Sqoop                  Hive             HBase
                                                           High
  Flume                          HDFS                    Availability


                        Etu OS for Hadoop (by SYSTEX)
Etu Management Console
Etu Cluster Management
Etu Service Management
總結
• 關聯式資料庫與 Hadoop 的連結是企業導
  入 Hadoop 的重要關鍵
• Sqoop 及 Hive 提供企業延伸資訊管理能
  力及於非結構化資訊
• 關聯式資料庫與 Hadoop 皆為工具 , 更重
  要的是整體的解決方案
• 精誠 Etu 團隊是您整合 SQL 與 Hadoop
  的最佳夥伴
Demo
• Etu Appliance 自動佈署
• Sqoop 與 MS SQL 連結
• Excel 與 Hive 連結
One Service    Etu Consulting
     顧問服務         商業暨科技顧問

One Application   Etu Recommender
 分析應用系統           精準推薦應用

  One Platform    Etu Appliance
     處理平台         巨量資料處理解決方案
Follow Us: 歡迎加入 Etu Taiwan Facebook 粉絲專頁

                  http://www.facebook.com/etusolution

Mais conteúdo relacionado

Mais procurados

Amazon EMR과 SageMaker를 이용하여 데이터를 준비하고 머신러닝 모델 개발 하기
Amazon EMR과 SageMaker를 이용하여 데이터를 준비하고 머신러닝 모델 개발 하기Amazon EMR과 SageMaker를 이용하여 데이터를 준비하고 머신러닝 모델 개발 하기
Amazon EMR과 SageMaker를 이용하여 데이터를 준비하고 머신러닝 모델 개발 하기Amazon Web Services Korea
 
Building a Big Data & Analytics Platform using AWS
Building a Big Data & Analytics Platform using AWS Building a Big Data & Analytics Platform using AWS
Building a Big Data & Analytics Platform using AWS Amazon Web Services
 
Kappa vs Lambda Architectures and Technology Comparison
Kappa vs Lambda Architectures and Technology ComparisonKappa vs Lambda Architectures and Technology Comparison
Kappa vs Lambda Architectures and Technology ComparisonKai Wähner
 
Amazon SageMaker 모델 배포 방법 소개::김대근, AI/ML 스페셜리스트 솔루션즈 아키텍트, AWS::AWS AIML 스페셜 웨비나
Amazon SageMaker 모델 배포 방법 소개::김대근, AI/ML 스페셜리스트 솔루션즈 아키텍트, AWS::AWS AIML 스페셜 웨비나Amazon SageMaker 모델 배포 방법 소개::김대근, AI/ML 스페셜리스트 솔루션즈 아키텍트, AWS::AWS AIML 스페셜 웨비나
Amazon SageMaker 모델 배포 방법 소개::김대근, AI/ML 스페셜리스트 솔루션즈 아키텍트, AWS::AWS AIML 스페셜 웨비나Amazon Web Services Korea
 
Business Intelligence Presentation (1/2)
Business Intelligence Presentation (1/2)Business Intelligence Presentation (1/2)
Business Intelligence Presentation (1/2)Bernardo Najlis
 
Building a Real-Time Feature Store at iFood
Building a Real-Time Feature Store at iFoodBuilding a Real-Time Feature Store at iFood
Building a Real-Time Feature Store at iFoodDatabricks
 
Introduction to Microsoft Fabric.pdf
Introduction to Microsoft Fabric.pdfIntroduction to Microsoft Fabric.pdf
Introduction to Microsoft Fabric.pdfishaniuudeshika
 
Stream Processing with Kafka in Uber, Danny Yuan
Stream Processing with Kafka in Uber, Danny Yuan Stream Processing with Kafka in Uber, Danny Yuan
Stream Processing with Kafka in Uber, Danny Yuan confluent
 
BI 解決方案介紹
BI 解決方案介紹BI 解決方案介紹
BI 解決方案介紹tom0331
 
Oracle APEX, Low Code for Data Driving Apps
Oracle APEX, Low Code for Data Driving AppsOracle APEX, Low Code for Data Driving Apps
Oracle APEX, Low Code for Data Driving AppsFranco Ucci
 
Azure DataBricks for Data Engineering by Eugene Polonichko
Azure DataBricks for Data Engineering by Eugene PolonichkoAzure DataBricks for Data Engineering by Eugene Polonichko
Azure DataBricks for Data Engineering by Eugene PolonichkoDimko Zhluktenko
 
Cost Efficiency Strategies for Managed Apache Spark Service
Cost Efficiency Strategies for Managed Apache Spark ServiceCost Efficiency Strategies for Managed Apache Spark Service
Cost Efficiency Strategies for Managed Apache Spark ServiceDatabricks
 
Big Data and Data Warehousing Together with Azure Synapse Analytics (SQLBits ...
Big Data and Data Warehousing Together with Azure Synapse Analytics (SQLBits ...Big Data and Data Warehousing Together with Azure Synapse Analytics (SQLBits ...
Big Data and Data Warehousing Together with Azure Synapse Analytics (SQLBits ...Michael Rys
 
AWS re:Invent 특집(3) – Amazon 인공 지능(AI) 서비스 및 AWS 딥러닝 프레임웍 활용 (윤석찬)
AWS re:Invent 특집(3) – Amazon 인공 지능(AI) 서비스 및 AWS 딥러닝 프레임웍 활용 (윤석찬)AWS re:Invent 특집(3) – Amazon 인공 지능(AI) 서비스 및 AWS 딥러닝 프레임웍 활용 (윤석찬)
AWS re:Invent 특집(3) – Amazon 인공 지능(AI) 서비스 및 AWS 딥러닝 프레임웍 활용 (윤석찬)Amazon Web Services Korea
 
Large Scale Graph Analytics with JanusGraph
Large Scale Graph Analytics with JanusGraphLarge Scale Graph Analytics with JanusGraph
Large Scale Graph Analytics with JanusGraphP. Taylor Goetz
 
Power BI Architecture
Power BI ArchitecturePower BI Architecture
Power BI ArchitectureArthur Graus
 
Machine Learning and AI
Machine Learning and AIMachine Learning and AI
Machine Learning and AIJames Serra
 

Mais procurados (20)

Amazon EMR과 SageMaker를 이용하여 데이터를 준비하고 머신러닝 모델 개발 하기
Amazon EMR과 SageMaker를 이용하여 데이터를 준비하고 머신러닝 모델 개발 하기Amazon EMR과 SageMaker를 이용하여 데이터를 준비하고 머신러닝 모델 개발 하기
Amazon EMR과 SageMaker를 이용하여 데이터를 준비하고 머신러닝 모델 개발 하기
 
Building a Big Data & Analytics Platform using AWS
Building a Big Data & Analytics Platform using AWS Building a Big Data & Analytics Platform using AWS
Building a Big Data & Analytics Platform using AWS
 
Kappa vs Lambda Architectures and Technology Comparison
Kappa vs Lambda Architectures and Technology ComparisonKappa vs Lambda Architectures and Technology Comparison
Kappa vs Lambda Architectures and Technology Comparison
 
Amazon SageMaker 모델 배포 방법 소개::김대근, AI/ML 스페셜리스트 솔루션즈 아키텍트, AWS::AWS AIML 스페셜 웨비나
Amazon SageMaker 모델 배포 방법 소개::김대근, AI/ML 스페셜리스트 솔루션즈 아키텍트, AWS::AWS AIML 스페셜 웨비나Amazon SageMaker 모델 배포 방법 소개::김대근, AI/ML 스페셜리스트 솔루션즈 아키텍트, AWS::AWS AIML 스페셜 웨비나
Amazon SageMaker 모델 배포 방법 소개::김대근, AI/ML 스페셜리스트 솔루션즈 아키텍트, AWS::AWS AIML 스페셜 웨비나
 
Business Intelligence Presentation (1/2)
Business Intelligence Presentation (1/2)Business Intelligence Presentation (1/2)
Business Intelligence Presentation (1/2)
 
Building a Real-Time Feature Store at iFood
Building a Real-Time Feature Store at iFoodBuilding a Real-Time Feature Store at iFood
Building a Real-Time Feature Store at iFood
 
Introduction to Microsoft Fabric.pdf
Introduction to Microsoft Fabric.pdfIntroduction to Microsoft Fabric.pdf
Introduction to Microsoft Fabric.pdf
 
Introduction to Amazon Athena
Introduction to Amazon AthenaIntroduction to Amazon Athena
Introduction to Amazon Athena
 
Real time analytics
Real time analyticsReal time analytics
Real time analytics
 
Stream Processing with Kafka in Uber, Danny Yuan
Stream Processing with Kafka in Uber, Danny Yuan Stream Processing with Kafka in Uber, Danny Yuan
Stream Processing with Kafka in Uber, Danny Yuan
 
BI 解決方案介紹
BI 解決方案介紹BI 解決方案介紹
BI 解決方案介紹
 
Oracle APEX, Low Code for Data Driving Apps
Oracle APEX, Low Code for Data Driving AppsOracle APEX, Low Code for Data Driving Apps
Oracle APEX, Low Code for Data Driving Apps
 
Azure DataBricks for Data Engineering by Eugene Polonichko
Azure DataBricks for Data Engineering by Eugene PolonichkoAzure DataBricks for Data Engineering by Eugene Polonichko
Azure DataBricks for Data Engineering by Eugene Polonichko
 
Cost Efficiency Strategies for Managed Apache Spark Service
Cost Efficiency Strategies for Managed Apache Spark ServiceCost Efficiency Strategies for Managed Apache Spark Service
Cost Efficiency Strategies for Managed Apache Spark Service
 
Vertica-Database
Vertica-DatabaseVertica-Database
Vertica-Database
 
Big Data and Data Warehousing Together with Azure Synapse Analytics (SQLBits ...
Big Data and Data Warehousing Together with Azure Synapse Analytics (SQLBits ...Big Data and Data Warehousing Together with Azure Synapse Analytics (SQLBits ...
Big Data and Data Warehousing Together with Azure Synapse Analytics (SQLBits ...
 
AWS re:Invent 특집(3) – Amazon 인공 지능(AI) 서비스 및 AWS 딥러닝 프레임웍 활용 (윤석찬)
AWS re:Invent 특집(3) – Amazon 인공 지능(AI) 서비스 및 AWS 딥러닝 프레임웍 활용 (윤석찬)AWS re:Invent 특집(3) – Amazon 인공 지능(AI) 서비스 및 AWS 딥러닝 프레임웍 활용 (윤석찬)
AWS re:Invent 특집(3) – Amazon 인공 지능(AI) 서비스 및 AWS 딥러닝 프레임웍 활용 (윤석찬)
 
Large Scale Graph Analytics with JanusGraph
Large Scale Graph Analytics with JanusGraphLarge Scale Graph Analytics with JanusGraph
Large Scale Graph Analytics with JanusGraph
 
Power BI Architecture
Power BI ArchitecturePower BI Architecture
Power BI Architecture
 
Machine Learning and AI
Machine Learning and AIMachine Learning and AI
Machine Learning and AI
 

Semelhante a Hadoop 與 SQL 的甜蜜連結

Keynote: What Is the next Big Data?
Keynote: What Is the next Big Data?Keynote: What Is the next Big Data?
Keynote: What Is the next Big Data?Etu Solution
 
ESD 2012 Keynote: What Is the next Big Data?
ESD 2012 Keynote: What Is the next Big Data?ESD 2012 Keynote: What Is the next Big Data?
ESD 2012 Keynote: What Is the next Big Data?Fred Chiang
 
Big Data 102 - Crossovers 成長之旅導覽 (Keynote for Big Data Taiwan 2013)
Big Data 102 - Crossovers 成長之旅導覽 (Keynote for Big Data Taiwan 2013)Big Data 102 - Crossovers 成長之旅導覽 (Keynote for Big Data Taiwan 2013)
Big Data 102 - Crossovers 成長之旅導覽 (Keynote for Big Data Taiwan 2013)Fred Chiang
 
選擇正確的Solution 來建置現代化的雲端資料倉儲
選擇正確的Solution 來建置現代化的雲端資料倉儲選擇正確的Solution 來建置現代化的雲端資料倉儲
選擇正確的Solution 來建置現代化的雲端資料倉儲Herman Wu
 
Bdwf11 netezza james_zheng
Bdwf11 netezza james_zhengBdwf11 netezza james_zheng
Bdwf11 netezza james_zhengbigdatawf
 
Bigdata introduction
Bigdata introductionBigdata introduction
Bigdata introductionTechwiser
 
Etu DW Offload 解放資料倉儲的運算效能
Etu DW Offload 解放資料倉儲的運算效能Etu DW Offload 解放資料倉儲的運算效能
Etu DW Offload 解放資料倉儲的運算效能Etu Solution
 
Big Data 101 一 一個充滿意圖與關聯世界的具體實現
Big Data 101 一 一個充滿意圖與關聯世界的具體實現Big Data 101 一 一個充滿意圖與關聯世界的具體實現
Big Data 101 一 一個充滿意圖與關聯世界的具體實現Fred Chiang
 
Hadoop con 2015 hadoop enables enterprise data lake
Hadoop con 2015   hadoop enables enterprise data lakeHadoop con 2015   hadoop enables enterprise data lake
Hadoop con 2015 hadoop enables enterprise data lakeJames Chen
 
淘宝Hadoop数据分析实践
淘宝Hadoop数据分析实践淘宝Hadoop数据分析实践
淘宝Hadoop数据分析实践Min Zhou
 
Big Data Projet Management the Body of Knowledge (BDPMBOK)
Big Data Projet Management the Body of Knowledge (BDPMBOK)Big Data Projet Management the Body of Knowledge (BDPMBOK)
Big Data Projet Management the Body of Knowledge (BDPMBOK)Jazz Yao-Tsung Wang
 
Ibm solid db overview v6.3 20090320
Ibm solid db overview v6.3 20090320Ibm solid db overview v6.3 20090320
Ibm solid db overview v6.3 20090320小新 制造
 
Hadoop development in China Mobile Research Institute
Hadoop development in China Mobile Research InstituteHadoop development in China Mobile Research Institute
Hadoop development in China Mobile Research InstituteXu Wang
 
Big data, big deal ms it168文库
Big data, big deal ms it168文库Big data, big deal ms it168文库
Big data, big deal ms it168文库Accenture
 
Big data, big deal ms it168文库
Big data, big deal ms it168文库Big data, big deal ms it168文库
Big data, big deal ms it168文库Accenture
 
Greenplum: A Bigdata Platform
Greenplum: A Bigdata PlatformGreenplum: A Bigdata Platform
Greenplum: A Bigdata PlatformYandong Yao
 
分布式流数据实时计算平台 Iprocess
分布式流数据实时计算平台 Iprocess分布式流数据实时计算平台 Iprocess
分布式流数据实时计算平台 Iprocessbabel_qi
 
Azure Data Lake 簡介
Azure Data Lake 簡介Azure Data Lake 簡介
Azure Data Lake 簡介Herman Wu
 

Semelhante a Hadoop 與 SQL 的甜蜜連結 (20)

Keynote: What Is the next Big Data?
Keynote: What Is the next Big Data?Keynote: What Is the next Big Data?
Keynote: What Is the next Big Data?
 
ESD 2012 Keynote: What Is the next Big Data?
ESD 2012 Keynote: What Is the next Big Data?ESD 2012 Keynote: What Is the next Big Data?
ESD 2012 Keynote: What Is the next Big Data?
 
Big Data 102 - Crossovers 成長之旅導覽 (Keynote for Big Data Taiwan 2013)
Big Data 102 - Crossovers 成長之旅導覽 (Keynote for Big Data Taiwan 2013)Big Data 102 - Crossovers 成長之旅導覽 (Keynote for Big Data Taiwan 2013)
Big Data 102 - Crossovers 成長之旅導覽 (Keynote for Big Data Taiwan 2013)
 
選擇正確的Solution 來建置現代化的雲端資料倉儲
選擇正確的Solution 來建置現代化的雲端資料倉儲選擇正確的Solution 來建置現代化的雲端資料倉儲
選擇正確的Solution 來建置現代化的雲端資料倉儲
 
Hadoop 介紹 20141024
Hadoop 介紹 20141024Hadoop 介紹 20141024
Hadoop 介紹 20141024
 
Bdwf11 netezza james_zheng
Bdwf11 netezza james_zhengBdwf11 netezza james_zheng
Bdwf11 netezza james_zheng
 
Bigdata introduction
Bigdata introductionBigdata introduction
Bigdata introduction
 
Etu DW Offload 解放資料倉儲的運算效能
Etu DW Offload 解放資料倉儲的運算效能Etu DW Offload 解放資料倉儲的運算效能
Etu DW Offload 解放資料倉儲的運算效能
 
Big Data 101 一 一個充滿意圖與關聯世界的具體實現
Big Data 101 一 一個充滿意圖與關聯世界的具體實現Big Data 101 一 一個充滿意圖與關聯世界的具體實現
Big Data 101 一 一個充滿意圖與關聯世界的具體實現
 
Hadoop con 2015 hadoop enables enterprise data lake
Hadoop con 2015   hadoop enables enterprise data lakeHadoop con 2015   hadoop enables enterprise data lake
Hadoop con 2015 hadoop enables enterprise data lake
 
淘宝Hadoop数据分析实践
淘宝Hadoop数据分析实践淘宝Hadoop数据分析实践
淘宝Hadoop数据分析实践
 
Big Data Projet Management the Body of Knowledge (BDPMBOK)
Big Data Projet Management the Body of Knowledge (BDPMBOK)Big Data Projet Management the Body of Knowledge (BDPMBOK)
Big Data Projet Management the Body of Knowledge (BDPMBOK)
 
Ibm solid db overview v6.3 20090320
Ibm solid db overview v6.3 20090320Ibm solid db overview v6.3 20090320
Ibm solid db overview v6.3 20090320
 
Hadoop development in China Mobile Research Institute
Hadoop development in China Mobile Research InstituteHadoop development in China Mobile Research Institute
Hadoop development in China Mobile Research Institute
 
Big data, big deal ms it168文库
Big data, big deal ms it168文库Big data, big deal ms it168文库
Big data, big deal ms it168文库
 
Big data, big deal ms it168文库
Big data, big deal ms it168文库Big data, big deal ms it168文库
Big data, big deal ms it168文库
 
Greenplum: A Bigdata Platform
Greenplum: A Bigdata PlatformGreenplum: A Bigdata Platform
Greenplum: A Bigdata Platform
 
分布式流数据实时计算平台 Iprocess
分布式流数据实时计算平台 Iprocess分布式流数据实时计算平台 Iprocess
分布式流数据实时计算平台 Iprocess
 
大數據
大數據大數據
大數據
 
Azure Data Lake 簡介
Azure Data Lake 簡介Azure Data Lake 簡介
Azure Data Lake 簡介
 

Hadoop 與 SQL 的甜蜜連結

  • 1. Hadoop 與 SQL 的甜蜜連結 精誠資訊 雲中心 Etu 首席顧問 陳昭宇
  • 2. 摘要 您曾經聽說過 Hadoop 和 NoSQL 嗎 ? 您是否了解非結構化與結構化 資料 ? 它們之間是什麼樣的關係 ? 根據統計 , 企業內結構化的資料約 僅佔 15%, 另有 85% 的寶貴資訊是以非結構化的方式存在 , 例如網 頁 , 電子郵件 , 應用系統的日誌等等 . 如何處理並分析這些非結構化資 料 , 挖掘其中所蘊藏的商業價值 , 已成為企業 IT 必須面對的課題 . 關聯式資料庫及資料倉儲系統可說是今日企業資訊的核心 , 結構化查詢 語言 SQL 也幾乎是企業資訊從業人員必需具備的技能之一 . 然而面對 爆炸性成長的非結構化資訊 , 企業應該採用什麼樣的策略 ? 該如何讓 既有的關聯式資料庫與 Hadoop 整合 , 建立企業對於非結構化資訊的 管理能力 ? 精誠 Etu 團隊將協助您的企業 , 打開 SQL to Hadoop 之 路.
  • 3. 大綱 • 結構與非結構化資訊 • 什麼是 Hadoop ? • 關聯式資料庫與 Hadoop 的差異 • 連結關聯式資料庫與 Hadoop • SQL 與 Hadoop 整合應用的策略 • Etu Appliance 簡介
  • 4. 什麼是非結構化資訊 ? Unstructured Data refers to information that either does not have a pre-defined data model and/or does not fit well into relational tables. Unstructured information is typically text-heavy, but may contain data such as dates, numbers, and facts as well. This results in irregularities and ambiguities that make it difficult to understand using traditional computer programs as compared to data stored in fielded form in databases or annotated (semantically tagged) in documents -- from Wikipedia http://en.wikipedia.org/wiki/Unstructured_data 4
  • 5. 非結構化資訊的特性 • 無法事先定義資料模型 • 不適合存放於關聯式資料庫 • 通常含有大量無格式的文字訊息 • 可能含有非文字資訊 , 如圖片 , 影像 , 聲 音
  • 6. 有哪些非結構化資訊 Web DOC / Media Social Media Machine / Sensor Clickstream Call Log/xDR Apps Log 6
  • 7. Hadoop 與大數據處理 15% 結構化 關聯式資料庫 & DW 非結構化 85% 異質資料處理平台 7
  • 8. Big Data 時代來臨 – 新量級、新處理模式、新企業智慧 行動 / 網際網路 Mobile/Internet 物聯網 Internet of Things
  • 9. Big Data 新處理方式 Scale Out (TB to PB) 關連式 查詢應用 NoSQL NoSQL NoSQL 資料庫 ETL 工具 資料處理 平行運算 平行運算 平行運算 或 script 原始數據 分散式檔案 分散式檔案 分散式檔案 檔案系統 系統 系統 系統
  • 10. 什麼是 Hadoop ? • 由 Doug Cutting 所發起的 Open Source 分散式計算框架 • 參考 Google 的 GFS 與 Map Reduce 架構 • 公有雲等級的資料儲存與處理能力 • 內建資料與任務的容錯機制 , 可以容忍硬 體及網路故障 • 設計運行於商用伺服器 , 無需特殊之硬體 10
  • 11. 為什麼要用 Hadoop • 儲存並處理海量結構與非結構資訊 • 執行資料分析程式於分散式系統上 • 簡化分散式系統的管理與資源調度 • 線性化的擴充能力 • 高可用性與容錯性 11
  • 12. Hadoop 不只是 Hadoop Big Data Applications Pig! SQL HIVE Zoo RAW Keeper 12
  • 13. Hadoop 生態系統  ZooKeeper – distributed coordination service  HBase – distributed column-oriented database for random read/write  HIVE – SQL like database on top of Hadoop  Pig – high level scripting language for data processing  Mahout – a scalable machine learning library for MapReduce  Sqoop – SQL-to-Hadoop connector  Flume – a distributed streaming data collection framework 13
  • 14. 關聯式資料庫 vs Hadoop 關聯式資料庫 Hadoop 資料量 GB -> TB TB -> PB 存取方式 互動式與批次 批次 資料更新 多次讀寫 一次寫 , 多次讀 資料結構 固定 schema 無 schema 資料一致性 高 (ACID) 低 擴充性 非線性 線性
  • 15. Big Data Taiwan 2012 整合大全 聲音檔案 影片檔案 圖形檔案 Web, Mobile, CRM, ERP, SCM,  … 商務交易 文件檔案 文字資料 回饋 / 歷史資料 與 XML 檔案 行為互動 Web Logs 點擊事件 NewSQ SQL NoSQL L 社交網路 關聯圖譜 Big Data  新聞 Feeds 精煉處理場 預處理  EDW MPP NewSQ a 感應器 多結構資料 L 傳統 嵌入設備 儲存 / 彙整 / 轉換 / 運 ETL RFID Tags 算 商業智慧 地理資訊  與 GPS 點位 回饋 / 歷史資料 線上分析 Dashboard, 事件 Report, 其他 Visualization, … Original source: http://hortonworks.com/blog/big-data-refinery-fuels-next-generation-data- architecture
  • 16. 連結關聯式資料庫與 Hadoop • 匯入與匯出資料 – Sqoop (by Cloudera) • 查詢與整合 – Hive JDBC Driver (Java) – Hive ODBC Driver (C++) – Hive Add-in for Excel (by Microsoft) – Thrift (C/C++, Python, Perl, PHP)
  • 17. Hive 簡介 • 由 Facebook 開發 • 架構於 Hadoop 之上 , 設計用來管理結構化資料的中介 軟體 • 以 MapReduce 為執行環境 • 資料儲存於 HDFS 上 • Metadata 儲存於 RDMBS 中 • Hive 的設計原則 • 採用類 SQL 語法 • 擴充性 – Types, Functions, Formats, Scripts • 性能與平水擴展能力兼具
  • 18. Hive 的架構 • Driver JDBC • 將 SQL 語法編譯成 Web UI CLI ODBC MapReduce 任務 , 進行最 佳化 , 發送到 Job Tracker Driver (compiler, optimizer, executor) metastore 執行 • CLI/Web UI • Ad-hoc 查詢 • Schema 查詢 • 管理介面 • JDBC/ODBC • 標準介面與其他資料庫工 具及應用程式介接
  • 19. Hive – SQL like Hadoop Database JDBC Web UI CLI ODBC Driver (compiler, optimizer, executor) metastore Create M/R Job Hadoop Cluster M/R M/R M/R M/R Data Data Data Data Node Node Node Node
  • 20. Sqoop – SQL to Hadoop SQL JDB JDB JDB C C C Create Map Tasks Map Map Map HDFS/HIVE/HBase
  • 21. Sqoop 支援的 RDMBS • Oracle • Netezza • Teradata • SQL Server • Microsoft PDW • MySql • Postgre SQL
  • 22. 傳統的資料處理流程 營運資訊 資料倉儲 新用戶 新訂單 新產品 ETL 部份資料 使用者瀏覽日誌 大部份刪除
  • 23. 探索式的資料處理流程 資料倉儲 營運資訊 新用戶 新訂單 新產品 廣告效益分析 ? 促銷活動分析 ? 電子報效益分析 ? 使用者瀏覽日誌
  • 24. 企業的 Hadoop 應用策略 PowerView Excel with Predictive Embedded PowerPivot Analytics BI Familiar End User Tools S S SSAS R S BI Platform Connectors Hadoop Web Sensors Devices Crawlers Log ERP CRM LOB APPs 非結構化資料來源 結構化資料來源
  • 25. 第一招 : 參照 RDBMS 中的資料表 Customers Products HDFS RDBMS WebLogs
  • 26. 第二招 : 離線數據分析 Customers Products HDFS Sales History RDBMS
  • 27. 第三招 : 歷史數據與線上數據交互運用 ODBC/JDBC Sales 2010 Sales 2009 Sales 2008 Sales 2008 HDFS RDBMS
  • 28. 第四招 : 利用 Hadoop 進行數據 彙總 WebLog Summary HDFS RDBMS WebLogs
  • 29. 第五招 : 利用 ODBC 連結 Excel & Hive E xcel Hive A dd-in 在線資料 : MS S QL S erver 歷史資料 : Hive
  • 30. Hadoop 平台競爭要素 Hadoop Disruption Vectors 整合 部署 存取 Source: GigaOM Pro, 2012
  • 31. Etu Appliance 簡介 Big Data End-to-End Solution in a Box 儲存與運算一體,簡化與最佳化的優勢機種: •10 分鐘內可部署 100+ 節點 •資料擷取能力 1U 勝過 8U •Big Data 運算處理最適化 • 延展:公有雲等級的運算架構 • 可靠:電信等級的系統品質 • 效能:企業等級的創新績效
  • 32. 三種資料溫度的整合: Hot / Warm / Cold Hot Data 在線結構化資料 在線半 / 非結構化資 料 OLTP OLAP Warm Data 在線半 / 非結構化資 料 Hadoop-based Solution Cold Data 離線資料 SAN / NAS / Scale-out NAS
  • 33. Etu Appliance 主要功能 軟硬體整合 管理維運功能 全自動化部署 不停機擴充 軟硬體全面最佳化 中央叢集系統管理 中央叢集系統監控 完整的高可用性設計 33
  • 34. Etu Appliance 軟體架構 Application Layer (by SYSTEX) Search API Pig Hive QL Monitoring Data Processing Layer Log Management Data Katta/Lucene Mahout Account Processing Lib Management MapReduce Configuration Management Data Data Store Layer Source Scheduler Sqoop Hive HBase High Flume HDFS Availability Etu OS for Hadoop (by SYSTEX)
  • 38. 總結 • 關聯式資料庫與 Hadoop 的連結是企業導 入 Hadoop 的重要關鍵 • Sqoop 及 Hive 提供企業延伸資訊管理能 力及於非結構化資訊 • 關聯式資料庫與 Hadoop 皆為工具 , 更重 要的是整體的解決方案 • 精誠 Etu 團隊是您整合 SQL 與 Hadoop 的最佳夥伴
  • 39. Demo • Etu Appliance 自動佈署 • Sqoop 與 MS SQL 連結 • Excel 與 Hive 連結
  • 40. One Service Etu Consulting 顧問服務 商業暨科技顧問 One Application Etu Recommender 分析應用系統 精準推薦應用 One Platform Etu Appliance 處理平台 巨量資料處理解決方案
  • 41. Follow Us: 歡迎加入 Etu Taiwan Facebook 粉絲專頁 http://www.facebook.com/etusolution