Du Big Data à la Smart Information : quelle approche ?
- Linked Enterprise Data
Quels outils pour créer la Smart Information ?
- Web de données
- Machine Learning
Exemples variés
Présentation faite à l'IDRAC le 7 mars 2016 par Pierre Col
Avec AFS@Store, tirez profit des bonnes pratiques du searchandizing pour boos...
Du Big Data à la Smart Information : comment valoriser les actifs informationnels de votre entreprise ?
1. Du Big Data à la « Smart Information »
: comment valoriser les actifs
informationnels de votre entreprise ?
Pierre Col – Directeur Marketing pcol@antidot.net @PierreCol
3. 3
Antidot
● Éditeur de logiciels
● Moteurs de recherche| enrichissement des données
● Depuis 1999 | Paris, Lyon, Aix-en-Provence
● 48 collaborateurs, +200 clients
● Mission : délivrer à nos clients des solutions
hautement configurables et innovantes qui créent de
la valeur à partir de leurs données et augmentent
leur performance opérationnelle
5. 5
Agenda
● Du Big Data à la Smart Information : quelle
approche ?
● Linked Enterprise Data
● Quels outils pour créer la Smart Information ?
● Web de données
● Machine Learning
● Exemples variés
6. 6
Du Big Data à la
Smart Information :
quelle approche ?
7. 7
Qu’est ce que le Big Data ?
● Volume
● Vélocité
● Variété
● Valeur
Les 4 V portent les enjeux du Big Data
8. 8
Exploiter la variété - Créer la valeur
● Ne pas s’enfermer dans une approche
trop technologique liée à
● la volumétrie des données
● la vélocité de traitement
● Ne pas se focaliser uniquement sur les
données structurées numériques
11. 11
Exploiter la variété - Créer la valeur
● Il faut tirer profit de l’énorme gisement de
valeur des données non structurées :
● documents bureautiques, courriels
● GED – gestion électronique de documents
● CRM – gestion de la relation clients
● ERP – outils de gestion d’entreprise
● …
et de toute leur richesse sémantique
!
18. 18
Web de données - web sémantique
● Une fois de plus la solution vient du Web qui
apporte des standards reconnus
19. 19
Web de données – Web sémantique
● Nouvelle évolution du Web dans laquelle les
ordinateurs peuvent publier, capter et
échanger des données de façon automatique
et non ambiguë
● Le Linked Data consiste à lier ces données
et à transformer le Web en une gigantesque
base de connaissances distribuée
30. 30
Tim Berners-Lee verbatim
« The Semantic Web is a web of data,
in some ways like a global database »
« The Semantic Web is not a separate Web
but an extension of the current one,
in which information is given
well-defined meaning,
better enabling computers and people
to work in cooperation »
31. 31
« Raw data now ! » février 2009
http://www.ted.com/talks/tim_berners_lee_on_the_next_web?language=fr
33. 33
…pour partager la donnée structurée sur
un espace décentralisé : le web
Un Web de documents
● Documents reliés par des liens
● Pas de structuration sémantique
● Pas de requêtes structurées
34. 34
…pour partager la donnée structurée sur
un espace décentralisé: le web
Puis un Web d’applications
● Données exposées à travers des API
● API valables uniquement pour un silo
● Pas d’interopérabilité entre les silos
35. 35
…pour partager la donnée structurée sur
un espace décentralisé : le web
Et maintenant un Web de données
● Web de données = espace unifié
● Liens entre les données elles-mêmes
● APIs remplacées par des standards ouverts
39. 39
Un langage pour les machines
Une grammaire Le vocabulaire
Des règles
d’écriture
Des moyens
de communication
RDF
RDFS / OWL
Ontologie
RDF/XML
N3, Turtle
RDFa
HTTP
SPARQL
40. 40
Standards : le layer cake aujourd’hui
Déjà normalisé ou
en cours de normalisation
au W3C
43. 43
Le cœur du mashup
« Construire un site
agrégeant des
informations sur les
musées de France »
● Usages : une idée
générale de
l’usage à
développer
● Données : choix du
jeu de données
principal
57. 57
Qu’est ce que le Machine Learning ?
● Définition :
Faculté donnée à un ordinateur
d’apprendre un comportement
à partir d’exemples
● Fondement scientifique :
Intelligence Artificielle (IA)
59. 59
Re-re-renaissance de l’IA
● L’Intelligence Artificielle a été inventée…
dans les années 70
● Elle est de retour sur le devant de la scène
● Deux facteurs principaux :
● Le développement de la puissance de calcul
● La disponibilités accrues des données !
63. 63
Machine Learning : les principes
Dire si un logement se
trouve à New York ou
San Francisco
Altitude des logements
Concept d’attribut
Crédit : http://www.r2d3.us
64. 64
Machine Learning : les principes
Dire si un logement se
trouve à New York ou
San Francisco
Concept de modèle
d’entrainement
66. 66
Qu’est-ce que le Deep Learning ?
● Se base sur les algorithmes de type réseaux
de neurones
● Le système découvre lui-même les attributs et
construit seul le modèle d’entraînement
● Il n’est pas certain qu’un humain puisse
« comprendre » comment fonctionne
vraiment le modèle !
67. 67
Qu’est-ce que le Deep Learning ?
● Peut même aller jusqu’à s’affranchir d’une
base d’entrainement : pas de documents
étiquetés, apprentissage non supervisé
● Avènement rendu possible par la puissance
des GPU - Graphic Computing Units - très
adaptés à ce type de calcul
69. 69
Machine Learning : pour quoi faire ?
● Reconnaissance du texte - y compris
manuscrit - et de la voix humaine
● Traduction automatique
● Text Mining : extraction d’informations
signifiantes
● Aide à la recherche d’information
70. 70
Machine Learning : pour quoi faire ?
● Assistants personnels
● Assistance au diagnostic médical
● Smart cities
● Sécurité informatique
● Robotique
● …
71. 71
Machine Learning : pour quoi faire ?
Boston Dynamics a été racheté par Google en 2013…
72. 72
Le Machine Learning chez Antidot
Enrichir Trouver
Search
Semantic & ComplexMachine Learning
Graph &
Linked Data
Avant de nous présenter, une petite question : qui ici était né en 1978 ?
Peu de monde… et cela confirme ce que laisse penser ma barbe blanche : je suis devenu « un vieux con de l’informatique » :-)
En 1978, âgé de 15 ans, je codais mon premier programme en assembleur Z80 ensuite après une école d’ingénieurs en informatique et intelligence artificielle j’ai vu passer plusieurs vagues technologiques et pas des moindres : j’ai d’abord co-écrit un logiciel serveur pour le web 0.0, celui qu’on consultait sur un petit cube marron avec un écran N&B de 24 lignes par 40 caractères Puis j’ai vu les débuts du web il y a un peu plus de 20 ans et travaillé pour un des principaux hébergeurs français, Jet Multimédia, depuis vendu à SFR. J’ai ensuite accompagné le lancement de quelques startup lyonnaises avant de rejoindre l’éditeur de logiciels lyonnais Antidot. Je tiens aussi un blog chez ZDNet France où je parle d’infrastructures Internet. Si j’ai tenu à parler devant vous, c’est parce que je considère que la combinaison du web, du big data et de l’intelligence artificielle via le machine learning va apporter une accélération extraordinaire, non seulement de l’informatique mais de toute l’humanité.
Antidot est un éditeur de logiciels lyonnais, qui travailel depuis 15 ans à apporter des solutions logicielles pour que les entreprises valorisent mieux leurs informations et leurs données
Nous avons des clients dans tous les secteurs, principalement ceux-ci.
Voici de quoi je vais vous parler aujourd’hui.
Le Big Data se définit par la combinaison des 4 V… et vous allez voir pourquoi nous considérons que les 2 derniers, Variété et Valeur, sont étroitement liés.
Limiter le Big Data aux données structurées – ce qui peut rentrer dans un tableaux Excel, même gigantesque – c’est passer à côté d’énormément de valeur.
Cette étude de 2012 montre la sous-exploitation des données non structurées
Les données non structurées sont partout dans l’entreprise.
Toutes les applications produisent des données non structurées : comment en exploiter le sens ?
Quand on voit le siège social d’Oracle, principal éditeur de logiciels de bases de données, on comprend pourquoi la vieille logique des silos de données est si prégnante, encore aujourd’hui…
Les données sont le principal actif d’une entreprise. Des entreprises sont mortes d’avoir perdu leurs données.
En reliant des données et documents, on crée de la « smart information »
Le courriel envoyé par le client X de l’entreprise E au commercial Y de votre entreprise parle du projet P, qui implique les produits A et B, etc…
La « smart information » n’est pas générique, elle est produite dans un contexte métier.
Le W3C – http://w3c.org – est l’organisme international indépendant qui standardise le web.
Car le web sémantique est l’objet de nombreuses conférences et travaux de recherche depuis des années, mais c’est aussi déjà une réalité industrielle, notamment pour Google… avec le Knowledge Graph
Pour construire son "graphe de connnaissances", Google agrège des contenus structurés, issus notamment de Freebase (rachetée en 2010) du World Fact Book de la CIA et de plus en plus de Wikidata, la « base de données structurée » de Wikipedia.
Le Knowledge Graph, ce sont ces informations factuelles situées dans une boîte à droite des résultats de recherche… ici pour Antidot où nous travaillons…
Ici pour IDRAC, qui nous a fourni un alternant de bon niveau…
… remarquez que Google y partage une information qu’il détient, comme les « avis » ou les « recherches associées », ici avec d’autres écoles de management.
Le Knowledge Graph permet à Google de répondre directement à des questions, ici sur la population de la France, avec une synthèse d’informations fiables et pertinentes.
Le Knowledge Graph propose également de l’information culturelle, ici avec une frise donnant accès à une info synthétique sur les peintres impressionnistes…
… et là sur le chanteur Renaud…
… pour lequel sont donnés des éléments biographiques et aussi un accès direct à ses principales œuvres, même si à mes yeux il manque la chanson « Hexagone », victime de la censure giscardienne quand j’étais lycéen et codeur débutant, et que je vous invite à écouter ;-)
En cliquant sur l’album « Laisse béton », on a une information très complète sur son contenu et une frise de tous les autres albums, toujours sans quitter Google !
Ce que commence à faire Google avec le Knowledge Graph répond exactement à la vision de Tim Berners-Lee, qui a théorisé le web de données il y a près de 15 ans (une base de données globale pour favoriser la coopération hommes-machines)...
… avant de lancer le mouvement du Linked Open Data en 2009, dans une conférence TED demeurée célèbre et que je vous invite à revoir, en version sous-titrée.
Quand on voit le siège social d’Oracle, principal éditeur de logiciels de bases de données, on comprend pourquoi la vieille logique des silos de données est si prégnante, encore aujourd’hui…
Ca c’est le web des années 90, avec des hyperliens reliant des documents texte, sans vraie structure
Ca c’est le web des années 2000, avec des API permettant d’accéder aux données, chaque fournissseur de données apportant son API spécifique
Et ça c’est le web sémantique, qui a pris son essor dans les années 2010 : les liens se font au niveau le plus granulaire, entre les données elles-mêmes !Comment est-ce possible ?
Le web fonctionne selon un modèle en couches : HTTP standardise le transport des données…
XML simplifie l’échange direct des données, sans transcodage ou conversion de format…
Reste à mettre derrière les données une sémantique, indépendante de la langue que parlent les internautes… c’est le rôle des ontologies
Voici les standard du web sémantique, tels qu’ils sont validés par le W3C…
Ils forment un socle éprouvé pour des applications industrielles et pérennes… même s’il reste encore un peu de travail, notamment dans les couches supérieures, et particulièrement en ce qui concerne la « confiance » que l’on peut accorder aux données disponibles sur le web.
Voici le « Linked Open Data Cloud », le « nuage des données ouvertes liées » accessibles directement et librement sur le web.
Je laisse maintenant la parole à Julien, jeune Jedi du web sémantique, qui va vous montrer en quoi c’est un sabre laser aussi puissant que précis !
Loi de Moore.
Plus de données grâce au Big Data et aux objets connectés.
Loi de Moore.
Plus de données grâce au Big Data et aux objets connectés.
2011 : victoire d’IBM Watson sur les deux meilleurs champions de Jeopardy. À plate couture.
Evénéments précurseurs (source Wikipedia) : le 11 mai 1997, Deep Blue est devenu le premier système informatique de jeu d'échecs à battre le champion du monde en titre, Garry Kasparov134. En 2005, un robot de Stanford a remporté le DARPA Grand Challenge en conduisant de manière autonome pendant 131 milles sur une piste de désert sans avoir fait de reconnaissance préalable135. Deux ans plus tard, une équipe de Carnegie-Mellon remporte le DARPA Urban Challenge, cette fois en navigant en autonome pendant 55 milles dans un environnement urbain tout en respectant les conditions de trafic et le code de la route136. En février 2011, dans un match de démonstration du jeu télévisé Jeopardy!, les deux plus grands champions de Jeopardy!, Brad Rutter et Ken Jennings ont été battus avec une marge confortable par le système de questions-réponses conçu par IBM, au centre de recherche Watson137. https://fr.wikipedia.org/wiki/Histoire_de_l%27intelligence_artificielle
Si on y réfléchit à deux fois, 200 millions de pages ce n’est pas grand chose à l’échelle de l’information disponible sur le web.
Le système analyse la question et recherche les réponses potentielles en puisant dans un historique des questions/réponses Jeopardy et dans une base documentaire.
Mais la particularité du système réside dans la façon dont les réponses potentielles trouvées sont choisies. Les ingénieurs d’IBM n’ont pas développé un algorithme décisionnel classique pour parvenir à ce choix, ils ont laissé la machine apprendre quelles sont les bonnes réponses de sorte que nul ne peut définir aujourd’hui quel est l’agencement de paramètres réellement utilisé par Watson lorsqu’il fait ce choix.
Issu du site de notre client http://www.rechercheisidore.fr
Classification automatique de 4 millions de documents de recherche en sciences humaines et sociales selon plus de trente disciplines.
Issu du site de notre client http://www.rechercheisidore.fr
Classification automatique de 4 millions de documents de recherche en sciences humaines et sociales selon plus de trente disciplines.
Issu du site de notre client http://caij.qc.ca
Classification automatique de 1,5 millions de décisions de justice (ie jurisprudence) selon plus de 100 domaines de droit.
Portail d’information juridique, 5 millions de documents de toutes sortes
Suggestions de recherches sémantiques
Portail d’information juridique, 5 millions de documents de toutes sortes
Filtrage des informations selon des métadonnées métier.
Implémenté au journal Le Point pour assister à l’étiquetage des articles de la rédaction.
Meilleure qualité
Peu d’adhérence à la langue
Temps de traitement courts, temps de mise en œuvre court, maintenance très peu chronophage.