Du Big Data à la Smart Information : comment valoriser les actifs informationnels de votre entreprise ?

Du Big Data à la « Smart Information »
: comment valoriser les actifs
informationnels de votre entreprise ?
Pierre Col – Directeur Marketing pcol@antidot.net @PierreCol

2
Pierre Col @PierreCol
1978
1963
1983
1986
1996
2007
2010

3
Antidot
● Éditeur de logiciels
● Moteurs de recherche| enrichissement des données
● Depuis 1999 | Paris, Lyon, Aix-en-Provence
● 48 collaborateurs, +200 clients
● Mission : délivrer à nos clients des solutions
hautement configurables et innovantes qui créent de
la valeur à partir de leurs données et augmentent
leur performance opérationnelle

4
Parmi nos clients
● Production de contenus
● Industrie
● E-Commerce
● Santé

5
Agenda
● Du Big Data à la Smart Information : quelle
approche ?
● Linked Enterprise Data
● Quels outils pour créer la Smart Information ?
● Web de données
● Machine Learning
● Exemples variés

6
Du Big Data à la
Smart Information :
quelle approche ?

7
Qu’est ce que le Big Data ?
● Volume
● Vélocité
● Variété
● Valeur
Les 4 V portent les enjeux du Big Data

8
Exploiter la variété - Créer la valeur
● Ne pas s’enfermer dans une approche
trop technologique liée à
● la volumétrie des données
● la vélocité de traitement
● Ne pas se focaliser uniquement sur les
données structurées numériques

9

10

11
● Il faut tirer profit de l’énorme gisement de
valeur des données non structurées :
● documents bureautiques, courriels
● GED – gestion électronique de documents
● CRM – gestion de la relation clients
● ERP – outils de gestion d’entreprise
● …
et de toute leur richesse sémantique
!

12
http://www.flickr.com/photos/jimgris/281139738/
Changer de paradigme
Siège social d’Oracle, l’éditeur du SGBDR le
plus utilisé dans le monde, dans la Silicon
Valley

13
Changer de paradigme
● Ne plus considérer les applications mais
SEULEMENT LES DONNÉES

14
Relier les données
● Mettre les données de l’entreprise en
commun, les mailler au niveau le plus fin

15
Faire émerger l’implicite

16
Créer des objets informationnels « métier »

17
Quels outils ?
Le web de données

18
Web de données - web sémantique
● Une fois de plus la solution vient du Web qui
apporte des standards reconnus

19
Web de données – Web sémantique
● Nouvelle évolution du Web dans laquelle les
ordinateurs peuvent publier, capter et
échanger des données de façon automatique
et non ambiguë
● Le Linked Data consiste à lier ces données
et à transformer le Web en une gigantesque
base de connaissances distribuée

20
Le web sémantique, concrètement
Certains en parlent…
d’autres le font !

21

22
Knowledge
Graph

23
Knowledge
Graph

24
Knowledge Graph

25
Knowledge
Graph

26
Knowledge Graph

27
Knowledge
Graph

28
Knowledge Graph

29
Knowledge
Graph

30
Tim Berners-Lee verbatim
« The Semantic Web is a web of data,
in some ways like a global database »
« The Semantic Web is not a separate Web
but an extension of the current one,
in which information is given
well-defined meaning,
better enabling computers and people
to work in cooperation »

31
« Raw data now ! » février 2009
http://www.ted.com/talks/tim_berners_lee_on_the_next_web?language=fr

32
http://www.flickr.com/photos/jimgris/281139738/
L’idée : casser la vieille logique des silos
de données cloisonnées…
Siège social d’Oracle, l’éditeur du SGBDR le
plus utilisé dans le monde, dans la Silicon
Valley

33
…pour partager la donnée structurée sur
un espace décentralisé : le web
Un Web de documents
● Documents reliés par des liens
● Pas de structuration sémantique
● Pas de requêtes structurées

34
un espace décentralisé: le web
Puis un Web d’applications
● Données exposées à travers des API
● API valables uniquement pour un silo
● Pas d’interopérabilité entre les silos

35
un espace décentralisé : le web
Et maintenant un Web de données
● Web de données = espace unifié
● Liens entre les données elles-mêmes
● APIs remplacées par des standards ouverts

36
Une condition nécessaire : assurer
l’interopérabilité des données structurées
● Transport

37
● Syntaxe

38
● Sémantique

39
Un langage pour les machines
Une grammaire Le vocabulaire
Des règles
d’écriture
Des moyens
de communication
RDF
RDFS / OWL
Ontologie
RDF/XML
N3, Turtle
RDFa
HTTP
SPARQL

40
Standards : le layer cake aujourd’hui
Déjà normalisé ou
en cours de normalisation
au W3C

41
Le Linked Open Data Cloud - 2014

42
Exemple :
« Musées de France »

43
Le cœur du mashup
« Construire un site
agrégeant des
informations sur les
musées de France »
● Usages : une idée
générale de
l’usage à
développer
● Données : choix du
jeu de données
principal

44
Des jeux de données complémentaires

45
Modélisation des données
Musée
(data.gouv.fr)
Musée
(MCC)
Musée
(Wikidata)
Catégo Musée
(Commons)
Musée
(BnF)
Livre
(BnF)
Oeuvre
(Wikidata)
Artiste
(Wikidata)
POI
(OSM)
Identifiant
Museofile
Nom du musée
Coordonnées
géographiques

46
Objectifs fonctionnels
● Pour l’internaute :
une porte d’entrée
● Se projeter
immédiatement
dans la visite

47
Objectifs fonctionnels
● Pour les
professionnels : un
tableau de bord
● Centraliser
l’information pour
faciliter la curation
des données

48
Construire l’interface utilisateur
Une page Une page agrégeant
de recherche les données

49
Un onglet thématique par jeu de données :
Œuvres

50
Artistes

51
Bibliographie

52
Images
d’œuvres

53
Réseaux
sociaux

54
POI
alentour

55
Ce mashup / démo est en ligne
Les Musées en France :
http://bit.ly/MuseesFrance
Profitez-en pour vos week-ends !

56
Quels outils ?
Le Machine Learning

57
Qu’est ce que le Machine Learning ?
● Définition :
Faculté donnée à un ordinateur
d’apprendre un comportement
à partir d’exemples
● Fondement scientifique :
Intelligence Artificielle (IA)

58
L’Intelligence Artifi-quoi ?

59
Re-re-renaissance de l’IA
● L’Intelligence Artificielle a été inventée…
dans les années 70
● Elle est de retour sur le devant de la scène
● Deux facteurs principaux :
● Le développement de la puissance de calcul
● La disponibilités accrues des données !

60
L’événement qui change tout

61
● Puissance de calcul : 100 serveurs
● Données disponibles : 200 millions de pages

62

63
Machine Learning : les principes
Dire si un logement se
trouve à New York ou
San Francisco
Altitude des logements
Concept d’attribut
Crédit : http://www.r2d3.us

64
Dire si un logement se
San Francisco
Concept de modèle
d’entrainement

65
Données
d’entrainement
Données de test
Dire si une maison se
San Francisco
Concept de
surentraînement

66
Qu’est-ce que le Deep Learning ?
● Se base sur les algorithmes de type réseaux
de neurones
● Le système découvre lui-même les attributs et
construit seul le modèle d’entraînement
● Il n’est pas certain qu’un humain puisse
« comprendre » comment fonctionne
vraiment le modèle !

67
● Peut même aller jusqu’à s’affranchir d’une
base d’entrainement : pas de documents
étiquetés, apprentissage non supervisé
● Avènement rendu possible par la puissance
des GPU - Graphic Computing Units - très
adaptés à ce type de calcul

68

69
Machine Learning : pour quoi faire ?
● Reconnaissance du texte - y compris
manuscrit - et de la voix humaine
● Traduction automatique
● Text Mining : extraction d’informations
signifiantes
● Aide à la recherche d’information

70
● Assistants personnels
● Assistance au diagnostic médical
● Smart cities
● Sécurité informatique
● Robotique
● …

71
Boston Dynamics a été racheté par Google en 2013…

72
Le Machine Learning chez Antidot
Enrichir Trouver
Search
Semantic & ComplexMachine Learning
Graph &
Linked Data

79
Les avantages du ML pour le Text Mining

Merci de votre attention
Des questions ?

Du Big Data à la Smart Information : comment valoriser les actifs informationnels de votre entreprise ?

Recomendados

Recomendados

Mais conteúdo relacionado

Mais procurados

Mais procurados (12)

Semelhante a Du Big Data à la Smart Information : comment valoriser les actifs informationnels de votre entreprise ?

Semelhante a Du Big Data à la Smart Information : comment valoriser les actifs informationnels de votre entreprise ? (20)

Mais de Antidot

Mais de Antidot (20)

Du Big Data à la Smart Information : comment valoriser les actifs informationnels de votre entreprise ?

Notas do Editor