L'idée de la session est de démystifier les BigData et plus précisément HDInsight en montrant des exemples concrets d'utilisation. Cette session s’adresse aux consultants BI et aux désireux de connaitre la solution BigData de Microsoft ainsi qu'aux architectes SI. Au programme : présentation de l’offre BigData de Microsoft (HDInsight OnPremise ou dans Windows Azure), les outils du monde Hadoop (Hive, Pig, HBase), la place du Framework Hadoop dans nos systèmes d’informations, des cas d’utilisation et des démonstrations. V-Traffic viendra également nous présenter comment ils utilisent HDInsight !
Speakers : Benjamin Guinebertière (Microsoft), François Simoës (v-traffic), Romain Casteres (DCube (Microsoft Partner)), Yazid Moussaoui (DCube (Microsoft Partner))
2. La démystification
du Big Data
Benjamin Guinebertière
Technical Evangelist
Microsoft France
@benjguin
François Simoës
V-Traffic ( Mediamobile)
www.v-traffic.com
Romain Casteres
MVP SQL Server
Consultant BI
@PulsWeb
Sébastien Etcheverry
V-Traffic ( Mediamobile)
www.v-traffic.com
Architecture/Azure/Cloud
3. Donnez votre avis !
Depuis votre smartphone sur :
http://notes.mstechdays.fr
De nombreux lots à gagner toute les heures !!!
Claviers, souris et jeux Microsoft…
Merci de nous aider à améliorer les Techdays !
#mstechdays
Architecture/Azure/Cloud
4. Master Chief utilise
Big Data
Une analyse du jeu permet de
détecter les tricheurs et améliore
l'expérience pour tous
Permet des campagnes ciblées qui
améliorent la fidélisation des
clients
5. Big Data – tendances du marché
Grands volumes de données
Nombreux types de
données
Coûts du stockage et des
matériels
#mstechdays
Création des données en
temps réel
Attentes des
utilisateurs
Architecture/Azure/Cloud
6. Plateforme Big Data de Microsoft – vue d’ensemble
Volume x Variété x Vélocité x Visualisation = Valeur
Architecture/Azure/Cloud
MARKETPLACE
#mstechdays
SERVICES ET DONNEES
EXTERNES
Polybase
10. HDInsight
Nœud
de
sécurité
Nœud de
tête
Stockage Windows
Azure
Gérez des données de tous types
et toutes tailles
Sécurisez votre cluster Hadoop
avec un nœud de sécurité dans
HDInsight
Intégration étroite avec la
plateforme de données Microsoft
#mstechdays
Stockage
à long terme
redondé
localement
[et
géographiquement]
Nœuds de
traitement,
HDFS local
hdfs://
Architecture/Azure/Cloud
wasb://
15. SSIS HDInsight Tasks
BI & POWER BI
• Automatisation : SSIS & PowerShell
• Power Pivot, Power Query
• Power View, Power Q&A
#mstechdays
Architecture/Azure/Cloud
16. V-TRAFFIC
Notre Ambition : Offrir les informations les plus pertinentes et
fiables pour le confort des utilisateurs, sur n’importe quel support
#mstechdays
Architecture/Azure/Cloud
18. V-Traffic
Récolte des
données avec
plus de 100
sources
Publiques
Privées
FCD/FMD
TIC
Partenariats
#mstechdays
Spécialistes en solution d’aide à la mobilité depuis
1996
Analyse,
modélisation,
traitement et édition
Distribution par
des multiples
canaux
RDS TMC
DAB
GPRS/3G
WEB
Architecture/Azure/Cloud
19. Utilisations des véhicules traceurs (FCD) - Suivi de
véhicule
4. Suivi du véhicule : localisation sur le réseau
routier
3. Mediamobile collecte ces données
5. Détermination de la vitesse du véhicule sur le
réseau
Lat1,Long1,D1
1. Les taxis envoient leurs positions
lors de leurs déplacements via leur
GPS et un accès à internet mobile
Lat2,Long2,D2
2. Nos fournisseurs récoltent les
données de géo-localisation
#mstechdays
Architecture/Azure/Cloud
20. Cartographie du trafic routier avec FCD:
Exemple : une journée de conditions de circulation à Toulouse 7h-21h (25/05/2010)
Fusion
Capteurs statiques
Véhicules traceurs
Diffusion
#mstechdays
Architecture/Azure/Cloud
21. Cartographie du trafic routier avec FCD:
Exemple : une journée de conditions de circulation à Toulouse 7h-21h (25/05/2010)
Fusion
Capteurs statiques
Véhicules traceurs
Diffusion
#mstechdays
Architecture/Azure/Cloud
22. HDInsight pour V-Traffic
• Localisation de chaque position dans une des
36000 villes de France
• 1 job Hive qui réalise 3 tâches :
-Load des données dans des tables Hive
(external)
-Traitement Python ( PointInPolygon)
-GroupBy
• Le volume : 3777912 véhicules envoient 77 millions
de positions pour 30 j
• Outil d’aide à la décision( comparer les
fournisseurs )
#mstechdays
Architecture/Azure/Cloud
29. Testez dès maintenant Windows Azure !
MSDN:
Partenaires:
http://aka.ms/MSDN/Avantages/Abo
150€ de
ressources
http://aka.ms/Azure/Partner
Poursuivez la
discussion
sur le stand “au
coeur du SI”
http://aka.ms/free/trial
1 minute343 industries/Halo 4 : http://www.microsoft.com/casestudies/Case_Study_Detail.aspx?CaseStudyID=710000002102 Aide à améliorer l'expérience du jeu - nous avons fait des petites modifications sur le jeu à partir de données collectées sur les comportements des joueurs, données qui ont mis en évidence des tendances nous permettant de détecter les tricheurs.Cible : L'équipe de développements 343 Industries qui gère et héberge Halo 4Besoin : L'équipe a besoin d'analyses BI sur le jeu pour ses clients internes et externes.Solution : L'équipe a mis en place une solution qui utilise le service HDInsight Windows Azure, basé sur la cadre de traitement de données Hadoop Apache et sur les technologies BI de Microsoft.Avantages :Améliore l'expérience utilisateur par des temps de réponse plus rapides et une plus grande agilité. Connecte l'équipe Halo 4 directement aux clients via des mises à jour hebdomadaires. Analyse le jeu pour détecter les tricheurs. Simplifie des campagnes personnalisées pour fidéliser les joueurs. Suivre la session de Mike Flasko : « Master Chief Love Hive: Hadoop in the Cloud » de 16:25 à 17:05. Satisfaction pour le jeu en ligne si les cartes sont bonnes et pas d'avantages excessifs si les joueurs trichent.Dans les versions précédentes, ils ne comprenaient pas comment les cartes devaient être utilisées. Avec Hadoop, ils peuvent analyser les données et résoudre les problèmes.
Apache Hadoop n'est pas un substitut à une base de données, voici comment il peut s’incruster dans vos systèmes d’informations décisionnelles.De grosse volumétrie de données ou de gros calcul parallélisé sont effectuée dans HDInsight, il en ressort un output intégrable dans un Datawarehouse via un ETL Ou alimente un modèle de donnée comme un cube tabulaire ou multidimensionnelle ou l'output peut être aussi une source de données directe pour la création de rapport.Là où hier nous détruisions les données qui n’apportai aucune intelligence à l’instant T, aujourd’hui nous pouvons nous permettre de la sauvegarder et de les analyser plus tard. HDInsight peut le faire de façon optimale et nous verrons par la suite pk.
Je vais maintenant vous présenter un cas d'utilisation de HDInsight avec le projet APVX pour Aide à la Prévision des VentesLe client avait besoin de mesurer les répercussions de ces actions marketing sur les ventes grâce à l’analyse les réseaux sociauxDes crawler scrute les ces trois réseaux sociaux à la recherche de mot clés que les utilisateurs ont préalablement renseigné via une page internet.Nous scrutons principalement des consoles et des jeux vidéo dans le but de trouver une relation entre les ventes et Buzz constaté.
Un Crawler analyse les mots choisit par les utilisateurs (présent dans une base de données) sur les réseaux sociaux. Les résultats sont stockés dans un Blob Storage Azure. HDInsight traite les données et écrit le résultat dans le Blob Storage Azure. Un modèle de données Tabulaire consolide les informations et des rapports Power View affichent les résultats.
1-Mot clefs renseignés par les utilisateurs, Tweet2 - Création du cluster via le portail Azure3 - Hive Script : couche d’abstraction au modèle de programmation Map & Reduce permettant d’effectuer des requêtes dans un langage proche du SQL4 – Sqoop : SQL To HadoopHive a été développé par Facebook pour permettre aux développeur d’avoir un langage de Scripting au dessus de ces données distribuées.Pour environs 50 Keywords nous récupérons environ 2 GB/j soit 50000 t/h.
1 -SSIS, PowerShell2 - Cube Tabulaire3 -APVX V1.0 : Donnée quantitative4 -APVX V2.0 : Donnée qualitative5 -Ajout des données de détails dans le model6 -Power Q&A-- Power Map ?
1 à 2 mins --> résumer activité V-Traffic
1 à 2 mins --> résumer activité V-Traffic
->Introduction à la technologie FCD ( Floating Car Data )->méthode pour connaître le traficsur le réseau routierbasée sur la collecte de données de localisation, de vitesse, de sens du déplacement des véhicules roulants->2 types de FCD ( Cellulaire = basé sur des cellules, GPS = basé sur des positions WGS84 )
->Démo de complétion FCD->Principalement utile pour l'enrichissement des zones->avantage sur la concurrence
->Démo de complétion FCD->Principalement utile pour l'enrichissement des zones->avantage sur la concurrence
Comment le lancerComment ça tournejob tracker ou cela a tourné en tant de temps1-Montrer les données CMA dans le blob2-Powershell : montrer scripte creation cluster3-Powershell : montrer scripte JOBs -1job HSQL creation tables externalHive -2 job HQL qui lance le python + montrer Python
-Chez V-Traffic, notre exemple concret correspond bien au modèle exposé (chemin num.3 )-D’autres possibilités nous sont envisageables : analyse statistiques ( un bison « super » futé ), …etc
->Report SSRS , carte de France avec zones renseignées colorées
Grâce à HDInsight ( du Hadoop à la demande ), nous nous sommes permis d’explorer un peu ou tester le produit pour voir quelles perfs on pouvait obtenir…-Parler des perfs , des temps , de 2 tests, des questions qui se posent : reduire le temps ou le coût ?...etc
Grâce à HDInsight ( du Hadoop à la demande ), nous nous sommes permis de « délirer » un peu ou tester le produit pour voir quelles perfs on pouvait obtenir…-Parler des perfs , des temps , de 2 tests, des questions qui se posent : reduire le temps ou le coût ?...etc