Polybase est le front-end universel entre le monde relationnel et non relationnel.
Dans cette session nous verrons les capacités de la plateforme Analytics Platform System (APS) contenant une région HDInsight (Distribution Hadoop de Microsoft) et une région PDW (Parallel Data Warehouse, l’offre MPP de SQL Server).
Nous présenterons ensuite l’offre Polybase incluse dans SQL Server 2016 Public Preview. Sans oublier l’intérêt et les bénéfices du MPP, les cas d’usage de la Big Data en entreprise et le gain à utiliser en même temps ces deux technologies.
Nous analyserons ainsi des données non structurées et volumineuses et les exploiterons au sein d’un système décisionnel et relationnel avec un langage que nous connaissons tous : le T-SQL !
3. SQLSaturday Paris 2015
Speakers
Romain Casteres
Microsoft PFE Data Platform
@PulsWeb
www.PulsWeb.fr
Arnaud Voisin
Consultant BI Data Platform
@ArnaudVoisinSQL
www.arnaudvoisin.blogspot.fr
4. SQLSaturday Paris 2015
Agenda
Polybase
Big Picture
Apache SQOOP
Cas d’usages
Les outils & services autour de Polybase
HDInsight
Azure Blob Storage // HDFS
APS : Appliance MPP
Azure SQL DataWarehouse
Polybase dans SQL Server 2016 CTP 2.x
Démos : “ Analyse des comportements des automobilistes ”
Architecture, Installation, Configuration, Analyse
5. SQLSaturday Paris 2015
Les limites du DWH traditionnel
Data sources
ETL
Data warehouse
BI and analytics
Augmentation
du volume
de données
1
Real-time
Analysis
3
Non-relational data
De nouvelles sources
et types de données
2
Cloud data
4
8. SQLSaturday Paris 2015
Hybrid SQL & Hadoop solutions
(Microsoft PolyBase, Teradata
QueryGrid, IBM Big SQL etc.)
RDBMS HDFS
Les données proviennent des
deux mondes
Cheap and
scalable data
store
Cold Data
Load first,
schema later
Familiar SQL
interface
Decades of
research and
optimization
Hot Data
SQL Server
Polybase
SQL
Résultat
Pourquoi ?
Les réponses aux nouvelles questions
≠ Big Data
≠ Données relationnelles
9. SQLSaturday Paris 2015
Polybase vs SQOOP
SQOOP :
Transfert de données entre Hadoop et des SGBDR (SQL To Hadoop)
Génération de Jobs Map Reduce
Export
Import
12. SQLSaturday Paris 2015
HDInsight : Le stockage
Déconnexion des données et des
Compute Nodes
Les données sont persistées même
après désallocation du cluster
Plusieurs cluster Hadoop peuvent
utiliser le même set de données
HDFS WASB
Système de fichier distribué et
extensible (scalable)
Le stockage est attaché à son
Datanode
14. SQLSaturday Paris 2015
Polybase dans APS
Permet d’accéder à un
cluster Hadoop interne ou
externe, ou à un conteneur
WASB
Importer des données d’un
système EXTERNE grâce
au CTAS
Analytics
Platform
System
Hortonworks
(Windows, Linux),
Cloudera
Windows Azure
HDInsight
PolyBase
Microsoft
HDInsight
Select…
Result
set
15. SQLSaturday Paris 2015
SQL DataWarehouse
Base de données distribuée dans Azure
Scalable à la demande : Accroître, réduire ou interrompre les
ressources de calcul (DWU)
Traitement MPP en mode PaaS basé sur APS
Possibilité de connecter SQL DataWarehouse avec les système On-
Premise
HDINSIGHT
Stockage données
SQL Server
Exploitation &
Analyse
Azure DW
Traitement &
agrégation
16. SQLSaturday Paris 2015
Polybase dans SQL Server 2016ExternalTable
External Datasource
External File Format
Headnode
Azure Blob Storage (WASB)
Supportes différents format et compression :
• CSV
• ORC
• RC FILE
Azure Blob
Storage (WASB)
Ressource
Manager
Compute/D
ata Node
1
Compute/D
ata Node
Compute/D
ata Node
Cluster Hadoop
2
3
Moteur SQL 16
Jobs
map/reduce
Gestion de
rejets
19. SQLSaturday Paris 2015
Installation & Configuration
Prérequis :
• 64-bit SQL Server Evaluation edition
• Microsoft .NET Framework 4.0.
• Oracle Java SE RunTime Environment (JRE)
• Minimum memory: 4GB
• Minimum hard disk space: 2GB
Dans l’onglet de configuration du serveur, le
service Polybase Engine et Polybase Data
Movement doivent s’exécuter avec le même
compte.
A noter 3 bases sont installées :
DWConfiguration, DWDiagnostics, DWQueue
Fichier de configuration : C:Program FilesMicrosoft SQL ServerMSSQL13.MSSQLSERVERMSSQLBinnPolybase
21. SQLSaturday Paris 2015
Architecture 2 – Polybase & SQL DHW
Envoie toutes les
minutes des
évènements
Hadoop
Azure SQL Data
Warehouse
Power BI
WASB
PolyBase
Queries
24. SQLSaturday Paris 2015
Limites & Evolutions : CTP3, …
CTP2
CTP3
Export de données relationnelles vers Hadoop ou Wasbs à
des fins d’archivage
Architecture Scale-out : Configuration de cluster d’instance
pour attaquer une source Hadoop ou Azure Blob Storage.
De nouveaux formats pris en charge : Parquet, Avro ?