Mais conteúdo relacionado Mais de Claude Riousset (12) IBM Watson 1. Cercle Alumni IBM – 18 octobre 2011
Vers un ordinateur sachant raisonner….
….une Synthèse Créative
du meilleur état de l’art des Technologies.
Claude Riousset
Executive Architect
© 2011 IBM Corporation
2. Cercle Alumni IBM – 18 octobre 2011
En Février 2011,
14 ans après avoir battu Kasparov aux échecs,
un nouvel ordinateur IBM remportait une série de
3 parties qui l’opposait aux 2 champions de tous les
temps du jeu télévisé américain «Jeopardy».
© 2011 IBM Corporation
3. Cercle Alumni IBM – 18 octobre 2011
Agenda
Qu’est-ce que Watson ?
Principe du jeu « Jeopardy »
Les principes et technologies mises en œuvre pour Watson
Les applications possibles
Le futur
© 2011 IBM Corporation
4. Cercle Alumni IBM – 18 octobre 2011
Qu’est-ce que Watson?
Le 1er ordinateur candidat à un jeu télévisé (Jeopardy) qui a
battu les 2 meilleurs candidats de toute l’histoire du jeu
(depuis le 30 mars 1964).
Un ordinateur conçu par une équipe d’IBM Research
capable de rivaliser avec les humains en répondant à des
questions posées en langage naturel avec rapidité et
précision.
Un système capable de comprendre la signification et le
contexte du langage humain pour traiter l’information
rapidement et trouver des réponses précises à des
questions complexes.
© 2011 IBM Corporation
5. Cercle Alumni IBM – 18 octobre 2011
Du langage au projet Watson pour Jeopardy, le principe du jeu
Technologie Classique Grands Citations
TECHNOLOGIE Savoir Avant et 6 Catégories
Espaces de Dickens vivre Après
$200 $200 $200 $200 $200 $200
TOUS LES POLICIERS PEUVENT
$400 $400 REMERCIER STEPHANIE$400
$400 $400 $400
KWOLEK POUR L’INVENTION 5 degrés de
$600 $600 DE CETTE FIBRE POLYMERE, 5
$600 $600 $600 $600 Difficulté
FOIS PLUS RESISTANTE QUE
$800 $800 $800 $800 $800 $800
L’ACIER
$1000 $1000 $1000 $1000 $1000 $1000
Si la réponse est bonne
L’un des 3 joueurs choisit une
case Le joueur gagne le
montant de la case
L’animateur lit l’énigme à
voix haute
Qu’est-ce que le KEVLAR ? choisit une autre case
Et
Si la réponse est fausse
Le 1er joueur qui “buzz” peut Le joueur perd le montant
répondre de la case
2 manches par jeu + une Question finale les autres joueurs
peuvent “buzzer”
une règle de doublement des points
© 2011 IBM Corporation
5
6. Cercle Alumni IBM – 18 octobre 2011
Du jeu d’échec au langage…
Jeu d’échecs
– Un espace de solution fini et totalement structuré
– Un nombre limité de mouvement et d’états
– Des règles mathématiques qui s’appliquent à
des symboles finis
Langage humain
– Les mots n’ont pas de signification par eux-mêmes
– Ils sont associés à une expérience humaine
– Les mots véhiculent et transmettent un espace infini de significations possibles ou supposées.
– Les ordinateurs ne savent pas associer les mots à des expériences humaines pour en déduire une
signification
© 2011 IBM Corporation
6
7. Cercle Alumni IBM – 18 octobre 2011
Qu’est-ce qu’une question facile ?
ln((12,546,798 * π)) ^ 2 / 34,567.46 = 0.00885
Select Payment where Owner=“David Jones” and Type(Product)=“Laptop”,
Owner Serial Number
David Jones 45322190-AK
Invoice # Vendor Payment
INV10895 MyBuy $104.56
Serial Number Type Invoice #
45322190-AK LapTop INV10895
David Jones Dave Jones
David Jones = David Jones
≠
7 © 2011 IBM Corporation
7
8. Cercle Alumni IBM – 18 octobre 2011
Qu’est-ce qu’une question difficile ?
Les programmes informatiques sont nativement explicites, rapides et exigeants pour mener
des calculs sur des nombres et des symboles….alors que le Langage naturel est implicite,
très contextuel, ambigu et souvent imprécis.
Person Birth Place Structured
A. Einstein ULM
Unstructured
Where was X born?
One day, from among his city views of Ulm, Otto chose a water color to send
to Albert Einstein as a remembrance of Einstein´s birthplace.
Person Organization
J. Welch GE
X ran this?
If leadership is an art then surely Jack Welch has proved himself a master
painter during his tenure at GE.
© 2011 IBM Corporation
8
9. Cercle Alumni IBM – 18 octobre 2011
Apprentissage Automatique par la “Lecture”
Volumes of Text Syntactic Frames Semantic Frames
Inventors patent inventions (.8)
Officials Submit Resignations (.7)
People earn degrees at schools (0.9)
Fluid is a liquid (.6)
Liquid is a fluid (.5)
Vessels Sink (0.7)
People sink 8-balls (0.5) (in pool/0.8)
IBM Confidential
© 2011 IBM Corporation
10. Cercle Alumni IBM – 18 octobre 2011
La correspondance de mots-clés n’est pas suffisante
En Mai 1898 le Portugal a célébré En Mai, Georges est arrivé
le 400eme anniversaire de en Inde après avoir célébré
l’arrivée de cet explorateur en son anniversaire au
Inde. Portugal.
Est arrivé
A célébré Correspondance A célébré
En Mai Correspondance En Mai
1898
400eme Correspondance anniversaire
anniversaire
“Georges” est la Portugal Correspondance au Portugal
réponse évidente par
L’arrivée
correspondance des
mots-clés cependant
Correspondance
l’ordinateur ne doit Inde Inde
pas accorder une
grande confiance à
explorateur Georges
cette réponse. © 2011 IBM Corporation
10
11. Cercle Alumni IBM – 18 octobre 2011
Des éléments plus probables
En Mai 1898 le Portugal a célébré Le 27 Mai 1498, Vasco da Gama a
le 400eme anniversaire de débarqué à Kappad Beach
l’arrivée de cet explorateur en
Inde.
Recherche élargie
Explorer de nombreuses
hypothèses
A célébré
A
Peser les réponses
débarqué
Portugal
Différents algorithmes
400eme Raisonnement
Mai 1898 27 Mai 1498
anniversaire temporel
Date
Math
Paraphrase
L’arrivée
statistique
Para-
phrases
Inde
Raisonnement Kappad Beach
GeoSpatial
Un résultat Geo-
plus probable KB
explorateur Vasco da Gama
n’est pas
toujours simple
à obtenir Le résultat n’est toujours pas certain à
© 2011 IBM Corporation
100%. 11
12. 11
Cercle Alumni IBM – 18 octobre 2011
Le moteur d’analyse de Watson est plus qu’un outil de recherche
• Une recherche sur le Web retourne
une liste de résultats possibles
contenant la réponse
– Les résultats des moteurs de recherche
sont basés sur leur popularité et leur
référencement
– L’utilisateur doit encore analyser le
résultat pour trouver la meilleure
réponse
• Le moteur d’analyse de Watson
comprend la structure et le libellé de la
question posée
– Il trouve une réponse spécifique
– Il classe les réponses en donnant en
“degré de confiance” basé sur
l’expérience
• Watson répond à des questions en
“langage naturel”
– Qui peut inclure des jeux de mots, de
l’argot, du jargon et des acronymes qui
doivent être évalués
[12] © 2011 IBM Corporation 2011-02-23 12
13. Cercle Alumni IBM – 18 octobre 2011
DeepQA : La Technologie de Watson
Architecture Massivement Parallèle ; Système probabiliste à base de “preuves”
Génère et pèse de nombreuses hypothèses en utilisant une combinaison de 1000 Traitements en Langage
naturel, de recherche d’Information et d’Algorithmes d’apprentissage et de Raisonnement .
Le système évalue, pèse et compare différentes types de “preuves” pour donner la réponse qui présente le plus
grand “degré de confiance”
Modèles appris
pour combiner et
peser les “preuves”
Sources Balance
Preuves & Combine
Sources Models Models
Réponses Eval
Question Eval. Recherche Models Models
Réponses
preuve
Preuves 100,000’s Scores from
Recherche Generation forte
many Deep Analysis
1000’s of Models Models
primaire Pieces of Evidence Algorithms
Réponse
100’s Possible
Answers
Multiple 100’s
Interpretations sources
Analyse Evaluation des Classement
Décomposition Génération
Question & Hypothèses et des Synthèse assemblage des
De la Question Hypothèse
sujet “preuves” réponses
Réponse et degré
Génération Hypothèses et évaluation
de confiance
des réponses
Hypothèse
... © 2011 IBM Corporation
13
14. Cercle Alumni IBM – 18 octobre 2011
La Performance humaine comparée à celle des ordinateurs
Chaque point represente les performances d’un joueur à Jeopardy
Performance des
gagnants
Performance des
grands champions
2007 QA Computer System
More Confident Less Confident
[14] Financial Services GTO 2011 -Corporation DISTRIBUTE
© 2011 IBM DO NOT 2011-04-07
14
15. Cercle Alumni IBM – 18 octobre 2011
DeepQA: Les progrès dans la précision de la réponse: 12/2006-11/2010
v0.8 11/10
V0.7 04/10
v0.6 10/09
v0.5 05/09
v0.4 12/08
v0.3 08/08
v0.2 05/08
v0.1 12/07
IBM Watson joue dans le
domaine des gagnants
Baseline 12/06
© 2011 IBM Corporation
15
16. Cercle Alumni IBM – 18 octobre 2011
L’infrastructure technique de Watson,
ou comment gérer plus de 10000 conversations
•Une question de Jeopardy! demande 2 heures de traitement d’un processeur (core) 2.6Ghz.
Le traitement a été optimisé et porté sur 2,880-Core Power750 pour une réponse en 2 à 6 secondes.
Le système se compose de … Performance et dispositifs
– 10 racks (10 nodes/rack, et 1 rack avec switch, controleurs & – Puissance de 80 teraflops par seconde (80 trillion
cluster disque système) d’operations/sec)
– 90 HV32 nodes (60 avec 128GB RAM, et 30 avec 256GB RAM) – Le processeur P7 est designé pour les charges de traitement
– Chaque node a 4 puces Atlas P7, et chaque puce a 8 CPU massivement parallèle (comme celles de Watson)
cores (32 cores/node) pour un total de 2,880 cores – Le Power 750 comprend des dispositifs de gestion de l’énergie,
– Interconnection a 10gigE (réseau ethernet) en faisant le 1er système à 4 processeurs qualifié “ENERGY
STAR”
Power7
© 2011 IBM Corporation
16
17. 11
Cercle Alumni IBM – 18 octobre 2011
Vers de nouveaux domaines d’application
Santé et Sciences de la Vie
Diagnostic Assistance “In healthcare, we talk about
turning data into knowledge.
Evidence-based
Collaborative Medicine
That’s really what Watson does.”
Support Technique: Joe Jasinski
help-desk, call centers Program Director,
IBM Healthcare and Life Sciences
Research
Enterprise knowledge management
and business intelligence
Government citizen services
….
© 2011 IBM Corporation 17
18. 11
Cercle Alumni IBM – 18 octobre 2011
DeepQA : Diagnostic en continu
Symptômes Traite et synthetise une grande quantité de
preuves pour améliorer le diagnostic
Diagnosis Models Confidence
Antécédents
Familiaux PB Renal
Histoire du Patient UTI
Traitements
Diabetes
Tests/Résultats
Influenza
Notes/Hypotheses
hypokalemie
esophogitis
MostConfident Diagnosis: Rhume
Most ConfidentDiagnosis: Diabetes
Most Confident Diagnosis: UTI
Most Confident Diagnosis: Diabetes and Esophogitis
Grands Volumes de Textes, publications,
Références, DBs etc.en langage naturel
© 2011 IBM Corporation 18
19. When it comes to the future, there are three kinds of people: those who let it
happen, those who make it happen, and those who wonder what happened.”
John M. Richardson, Jr., American academic and author
Claude Riousset, Executive Architect - Systems & Technology Group
21. Cercle Alumni IBM – 18 octobre 2011
Vers un ordinateur sachant raisonner….
….une Synthèse Créative
du meilleur état de l’art des Technologies.
Claude Riousset
Executive Architect
© 2011 IBM Corporation
22. Cercle Alumni IBM – 18 octobre 2011
En Février 2011,
14 ans après avoir battu Kasparov aux échecs,
un nouvel ordinateur IBM remportait une série de
3 parties qui l’opposait aux 2 champions de tous les
temps du jeu télévisé américain «Jeopardy».
© 2011 IBM Corporation
23. Cercle Alumni IBM – 18 octobre 2011
Agenda
Qu’est-ce que Watson ?
Principe du jeu « Jeopardy »
Les principes et technologies mises en œuvre pour Watson
Les applications possibles
Le futur
© 2011 IBM Corporation
24. Cercle Alumni IBM – 18 octobre 2011
Qu’est-ce que Watson?
Le 1er ordinateur candidat à un jeu télévisé (Jeopardy) qui a
battu les 2 meilleurs candidats de toute l’histoire du jeu
(depuis le 30 mars 1964).
Un ordinateur conçu par une équipe d’IBM Research
capable de rivaliser avec les humains en répondant à des
questions posées en langage naturel avec rapidité et
précision.
Un système capable de comprendre la signification et le
contexte du langage humain pour traiter l’information
rapidement et trouver des réponses précises à des
questions complexes.
© 2011 IBM Corporation
25. Cercle Alumni IBM – 18 octobre 2011
Du langage au projet Watson pour Jeopardy, le principe du jeu
Technologie Classique Grands Citations
TECHNOLOGIE Savoir Avant et 6 Catégories
Espaces de Dickens vivre Après
$200 $200 $200 $200 $200 $200
TOUS LES POLICIERS PEUVENT
$400 $400 REMERCIER STEPHANIE$400
$400 $400 $400
KWOLEK POUR L’INVENTION 5 degrés de
$600 $600 DE CETTE FIBRE POLYMERE, 5
$600 $600 $600 $600 Difficulté
FOIS PLUS RESISTANTE QUE
$800 $800 $800 $800 $800 $800
L’ACIER
$1000 $1000 $1000 $1000 $1000 $1000
Si la réponse est bonne
L’un des 3 joueurs choisit une
case Le joueur gagne le
montant de la case
L’animateur lit l’énigme à
voix haute
Qu’est-ce que le KEVLAR ? choisit une autre case
Et
Si la réponse est fausse
Le 1er joueur qui “buzz” peut Le joueur perd le montant
répondre de la case
2 manches par jeu + une Question finale les autres joueurs
peuvent “buzzer”
une règle de doublement des points
© 2011 IBM Corporation
5
26. Cercle Alumni IBM – 18 octobre 2011
Du jeu d’échec au langage…
Jeu d’échecs
– Un espace de solution fini et totalement structuré
– Un nombre limité de mouvement et d’états
– Des règles mathématiques qui s’appliquent à
des symboles finis
Langage humain
– Les mots n’ont pas de signification par eux-mêmes
– Ils sont associés à une expérience humaine
– Les mots véhiculent et transmettent un espace infini de significations possibles ou supposées.
– Les ordinateurs ne savent pas associer les mots à des expériences humaines pour en déduire une
signification
© 2011 IBM Corporation
6
27. Cercle Alumni IBM – 18 octobre 2011
Qu’est-ce qu’une question facile ?
ln((12,546,798 * π)) ^ 2 / 34,567.46 = 0.00885
Select Payment where Owner=“David Jones” and Type(Product)=“Laptop”,
Owner Serial Number
David Jones 45322190-AK
Invoice # Vendor Payment
INV10895 MyBuy $104.56
Serial Number Type Invoice #
45322190-AK LapTop INV10895
David Jones Dave Jones
David Jones = David Jones
≠
7 © 2011 IBM Corporation
7
28. Cercle Alumni IBM – 18 octobre 2011
Qu’est-ce qu’une question difficile ?
Les programmes informatiques sont nativement explicites, rapides et exigeants pour mener
des calculs sur des nombres et des symboles….alors que le Langage naturel est implicite,
très contextuel, ambigu et souvent imprécis.
Person Birth Place Structured
A. Einstein ULM
Unstructured
Where was X born?
One day, from among his city views of Ulm, Otto chose a water color to send
to Albert Einstein as a remembrance of Einstein´s birthplace.
Person Organization
J. Welch GE
X ran this?
If leadership is an art then surely Jack Welch has proved himself a master
painter during his tenure at GE.
© 2011 IBM Corporation
8
29. Cercle Alumni IBM – 18 octobre 2011
Apprentissage Automatique par la “Lecture”
Volumes of Text Syntactic Frames Semantic Frames
Inventors patent inventions (.8)
Officials Submit Resignations (.7)
People earn degrees at schools (0.9)
Fluid is a liquid (.6)
Liquid is a fluid (.5)
Vessels Sink (0.7)
People sink 8-balls (0.5) (in pool/0.8)
IBM Confidential
© 2011 IBM Corporation
30. Cercle Alumni IBM – 18 octobre 2011
La correspondance de mots-clés n’est pas suffisante
En Mai 1898 le Portugal a célébré En Mai, Georges est arrivé
le 400eme anniversaire de en Inde après avoir célébré
l’arrivée de cet explorateur en son anniversaire au
Inde. Portugal.
Est arrivé
A célébré Correspondance A célébré
En Mai Correspondance En Mai
1898
400eme Correspondance anniversaire
anniversaire
“Georges” est la Portugal Correspondance au Portugal
réponse évidente par
L’arrivée
correspondance des
mots-clés cependant
Correspondance
l’ordinateur ne doit Inde Inde
pas accorder une
grande confiance à
explorateur Georges
cette réponse. © 2011 IBM Corporation
10
31. Cercle Alumni IBM – 18 octobre 2011
Des éléments plus probables
En Mai 1898 le Portugal a célébré Le 27 Mai 1498, Vasco da Gama a
le 400eme anniversaire de débarqué à Kappad Beach
l’arrivée de cet explorateur en
Inde.
Recherche élargie
Explorer de nombreuses
hypothèses
A célébré
A
Peser les réponses
débarqué
Portugal
Différents algorithmes
400eme Raisonnement
Mai 1898 27 Mai 1498
anniversaire temporel
Date
Math
Paraphrase
L’arrivée
statistique
Para-
phrases
Inde
Raisonnement Kappad Beach
GeoSpatial
Un résultat Geo-
plus probable KB
explorateur Vasco da Gama
n’est pas
toujours simple
à obtenir Le résultat n’est toujours pas certain à
© 2011 IBM Corporation
100%. 11
32. 11
Cercle Alumni IBM – 18 octobre 2011
Le moteur d’analyse de Watson est plus qu’un outil de recherche
• Une recherche sur le Web retourne
une liste de résultats possibles
contenant la réponse
– Les résultats des moteurs de recherche
sont basés sur leur popularité et leur
référencement
– L’utilisateur doit encore analyser le
résultat pour trouver la meilleure
réponse
• Le moteur d’analyse de Watson
comprend la structure et le libellé de la
question posée
– Il trouve une réponse spécifique
– Il classe les réponses en donnant en
“degré de confiance” basé sur
l’expérience
• Watson répond à des questions en
“langage naturel”
– Qui peut inclure des jeux de mots, de
l’argot, du jargon et des acronymes qui
doivent être évalués
[12] © 2011 IBM Corporation 2011-02-23 12
33. Cercle Alumni IBM – 18 octobre 2011
DeepQA : La Technologie de Watson
Architecture Massivement Parallèle ; Système probabiliste à base de “preuves”
Génère et pèse de nombreuses hypothèses en utilisant une combinaison de 1000 Traitements en Langage
naturel, de recherche d’Information et d’Algorithmes d’apprentissage et de Raisonnement .
Le système évalue, pèse et compare différentes types de “preuves” pour donner la réponse qui présente le plus
grand “degré de confiance”
Modèles appris
pour combiner et
peser les “preuves”
Sources Balance
Preuves & Combine
Sources Models Models
Réponses Eval
Question Eval. Recherche Models Models
Réponses
preuve
Preuves 100,000’s Scores from
Recherche Generation forte
many Deep Analysis
1000’s of Models Models
primaire Pieces of Evidence Algorithms
Réponse
100’s Possible
Answers
Multiple 100’s
Interpretations sources
Analyse Evaluation des Classement
Décomposition Génération
Question & Hypothèses et des Synthèse assemblage des
De la Question Hypothèse
sujet “preuves” réponses
Réponse et degré
Génération Hypothèses et évaluation
de confiance
des réponses
Hypothèse
... © 2011 IBM Corporation
13
34. Cercle Alumni IBM – 18 octobre 2011
La Performance humaine comparée à celle des ordinateurs
Chaque point represente les performances d’un joueur à Jeopardy
Performance des
gagnants
Performance des
grands champions
2007 QA Computer System
More Confident Less Confident
[14] Financial Services GTO 2011 -Corporation DISTRIBUTE
© 2011 IBM DO NOT 2011-04-07
14
35. Cercle Alumni IBM – 18 octobre 2011
DeepQA: Les progrès dans la précision de la réponse: 12/2006-11/2010
v0.8 11/10
V0.7 04/10
v0.6 10/09
v0.5 05/09
v0.4 12/08
v0.3 08/08
v0.2 05/08
v0.1 12/07
IBM Watson joue dans le
domaine des gagnants
Baseline 12/06
© 2011 IBM Corporation
15
36. Cercle Alumni IBM – 18 octobre 2011
L’infrastructure technique de Watson,
ou comment gérer plus de 10000 conversations
•Une question de Jeopardy! demande 2 heures de traitement d’un processeur (core) 2.6Ghz.
Le traitement a été optimisé et porté sur 2,880-Core Power750 pour une réponse en 2 à 6 secondes.
Le système se compose de … Performance et dispositifs
– 10 racks (10 nodes/rack, et 1 rack avec switch, controleurs & – Puissance de 80 teraflops par seconde (80 trillion
cluster disque système) d’operations/sec)
– 90 HV32 nodes (60 avec 128GB RAM, et 30 avec 256GB RAM) – Le processeur P7 est designé pour les charges de traitement
– Chaque node a 4 puces Atlas P7, et chaque puce a 8 CPU massivement parallèle (comme celles de Watson)
cores (32 cores/node) pour un total de 2,880 cores – Le Power 750 comprend des dispositifs de gestion de l’énergie,
– Interconnection a 10gigE (réseau ethernet) en faisant le 1er système à 4 processeurs qualifié “ENERGY
STAR”
Power7
© 2011 IBM Corporation
16
37. 11
Cercle Alumni IBM – 18 octobre 2011
Vers de nouveaux domaines d’application
Santé et Sciences de la Vie
Diagnostic Assistance “In healthcare, we talk about
turning data into knowledge.
Evidence-based
Collaborative Medicine
That’s really what Watson does.”
Support Technique: Joe Jasinski
help-desk, call centers Program Director,
IBM Healthcare and Life Sciences
Research
Enterprise knowledge management
and business intelligence
Government citizen services
….
© 2011 IBM Corporation 17
38. 11
Cercle Alumni IBM – 18 octobre 2011
DeepQA : Diagnostic en continu
Symptômes Traite et synthetise une grande quantité de
preuves pour améliorer le diagnostic
Diagnosis Models Confidence
Antécédents
Familiaux PB Renal
Histoire du Patient UTI
Traitements
Diabetes
Tests/Résultats
Influenza
Notes/Hypotheses
hypokalemie
esophogitis
MostConfident Diagnosis: Rhume
Most ConfidentDiagnosis: Diabetes
Most Confident Diagnosis: UTI
Most Confident Diagnosis: Diabetes and Esophogitis
Grands Volumes de Textes, publications,
Références, DBs etc.en langage naturel
© 2011 IBM Corporation 18
39. When it comes to the future, there are three kinds of people: those who let it
happen, those who make it happen, and those who wonder what happened.”
John M. Richardson, Jr., American academic and author
Claude Riousset, Executive Architect - Systems & Technology Group