Extraction et structuration de connaissances pour une plateforme interactive dédiée à Érudit: état de l’art et points de réflexion
1. But Extraction Discussion
Extraction et structuration de connaissances pour une
plateforme interactive d´edi´ee `a ´Erudit:
´etat de l’art et points de r´eflexion
Philippe Langlais
RALI
Dept. Informatique et Recherche Op´erationnelle
Universit´e de Montr´eal
ACFAS, Mai, 2015
felipe@iro.umontreal.ca Extraction et structuration de connaissances 1 / 25
2. But Extraction Discussion
Plan
Constat
Extraction d’information ouverte
Extraction de tuples
Structuration
Applications
Discussion
felipe@iro.umontreal.ca Extraction et structuration de connaissances 2 / 25
3. But Extraction Discussion
Plan
Constat
Extraction d’information ouverte
Extraction de tuples
Structuration
Applications
Discussion
felipe@iro.umontreal.ca Extraction et structuration de connaissances 3 / 25
7. But Extraction Discussion
Vers une recherche bas´ee sur les faits
Actuellement :
requˆete : mots cl´es
d´eformation + dos
r´esultat : documents
doc1 | doc2 | doc3 . . .
But :
requˆete : question
d´eformations du dos ?
r´esultat : r´eponses
scoliose (doc)
cyphose (doc)
spondylolisth´esis (doc) . . .
Mais aussi :
Quels sont les protagonistes de la th´eorie de la viabilit´e ?
Symptˆomes de la d´epression ?
. . .
felipe@iro.umontreal.ca Extraction et structuration de connaissances 7 / 25
8. But Extraction Discussion
Comment ?
base de connaissances :
tuples extraits des textes
structur´es
Ex. de tuples :
{Gonzales, produit, une musique ´electro-pop}
{Gonzales, collabore avec, Feist}
felipe@iro.umontreal.ca Extraction et structuration de connaissances 8 / 25
9. But Extraction Discussion Extraction de tuples Structuration Applications
Plan
Constat
Extraction d’information ouverte
Extraction de tuples
Structuration
Applications
Discussion
felipe@iro.umontreal.ca Extraction et structuration de connaissances 9 / 25
10. But Extraction Discussion Extraction de tuples Structuration Applications
felipe@iro.umontreal.ca Extraction et structuration de connaissances 10 / 25
11. But Extraction Discussion Extraction de tuples Structuration Applications
3 familles d’extracteurs (ouverts) de tuples
Texte2Tuples
´etiquetage morphosyntaxique (POS) :
TEXTRUNNER, REVERB, SONEX
analyse syntaxique en d´ependance :
OLLIE, TREEKERNEL, PATTY, EXAMPLAR
´etiquetage s´emantique :
LUND, SWIRL, EXAMPLAR
http://openie.cs.washington.edu
REVERB [Fader et al., 2011]
OLLIE [Mausam et al., 2012]
felipe@iro.umontreal.ca Extraction et structuration de connaissances 11 / 25
12. But Extraction Discussion Extraction de tuples Structuration Applications
REVERB / relations
Relations verbales
reconnues par une ER sur les ´etiquettes POS :
V | V P | V W* P
V = verb particle? adv?
W = (noun | adj | adv | pron | det)
P = (prep | particle | inf. marker)
ex : invented (V), located in (VP), has atomic weight of (VW*P)
+ contraintes :
pour ´eviter des relations verbales trop sp´ecifiques
ex : is offering only modest greenhouse gas reduction targets at
id´ee : les relations d’int´erˆet impliquent de nombreux arguments.
felipe@iro.umontreal.ca Extraction et structuration de connaissances 12 / 25
13. But Extraction Discussion Extraction de tuples Structuration Applications
REVERB / extraction
∀ relation r :
chercher x le plus proche NP `a gauche de r
pas : un pronom relatif, un adverbe, WHO, THERE, etc.
chercher y le plus proche NP `a droite de r
TOKS Elle reprend ses ´etudes `a l’ Universit´e McGill et obtient un doctorat en
psychologie ( 1965 ) .
POS CLS V DET NC P DET NC NPP CC V DET NC P NC PONCT NC PONCT
PONCT
CHNK B-NP B-VN B-NP I-NP B-PP B-NP I-NP I-NP B-COORD B-VN B-NP I-NP
B-PP B-NP O B-NP O O
felipe@iro.umontreal.ca Extraction et structuration de connaissances 13 / 25
14. But Extraction Discussion Extraction de tuples Structuration Applications
REVERB / extraction
∀ relation r :
chercher x le plus proche NP `a gauche de r
pas : un pronom relatif, un adverbe, WHO, THERE, etc.
chercher y le plus proche NP `a droite de r
TOKS Elle reprend ses ´etudes `a l’ Universit´e McGill et obtient un doctorat en
psychologie ( 1965 ) .
POS CLS V DET NC P DET NC NPP CC V DET NC P NC PONCT NC PONCT
PONCT
CHNK B-NP B-VN B-NP I-NP B-PP B-NP I-NP I-NP B-COORD B-VN B-NP I-NP
B-PP B-NP O B-NP O O
EXTR Elle == reprend == ses ´etudes
felipe@iro.umontreal.ca Extraction et structuration de connaissances 13 / 25
15. But Extraction Discussion Extraction de tuples Structuration Applications
REVERB / extraction
∀ relation r :
chercher x le plus proche NP `a gauche de r
pas : un pronom relatif, un adverbe, WHO, THERE, etc.
chercher y le plus proche NP `a droite de r
TOKS Elle reprend ses ´etudes `a l’ Universit´e McGill et obtient un doctorat en
psychologie ( 1965 ) .
POS CLS V DET NC P DET NC NPP CC V DET NC P NC PONCT NC PONCT
PONCT
CHNK B-NP B-VN B-NP I-NP B-PP B-NP I-NP I-NP B-COORD B-VN B-NP I-NP
B-PP B-NP O B-NP O O
EXTR Elle == reprend == ses ´etudes
EXTR l’Universit´e McGill == obtient == un doctorat
felipe@iro.umontreal.ca Extraction et structuration de connaissances 13 / 25
16. But Extraction Discussion Extraction de tuples Structuration Applications
REVERB / filtrage
in : tuple {x, r, y}
out : p(correctness)
entrain´e sur un corpus (1000 phrases) de tuples manuellement
annot´es (correct ou pas)
19 traits encodant un tuple {x, r, y} extrait d’une phrase s
1.16 {x, r, y} couvre tous les mots de s
0.50 last PREP dans r est for
0.49 last PREP dans r est on
0.46 last PREP dans r est of
0.43 length(s) ≤ 10 words
...
-0.93 conjonction de coordination `a gauche de r dans s
felipe@iro.umontreal.ca Extraction et structuration de connaissances 14 / 25
17. But Extraction Discussion Extraction de tuples Structuration Applications
OLLIE
bootstrape d’extractions fiables de REVERB par analyse
syntaxique :
∼110k tuples extraits avec confiance par REVERB depuis
CLUEWEB, tels que :
freq≥2
args = nom propre
chemin de d´ependances pas plus long que 4
4M de phrases de CLUEWEB contiennent ces tuples fiables et
servent de supervision distante
fiable `a 90% selon une ´evaluation manuelle
felipe@iro.umontreal.ca Extraction et structuration de connaissances 15 / 25
18. But Extraction Discussion Extraction de tuples Structuration Applications
OLLIE
∀ tuple fiable {x, rel, y}
e.g. {the 2012 Sasquash music festival, be scheduled for, May 25th}
1 d´ependances entre les mots de tˆete des args et de la relation
I learned that the 2012
Sasquash music festi-
val is scheduled for May
25th until May 28th
2 patron syntaxique
{x}
nsubjpass
−−−−−−→ {rel :postag=VBN}
prep
←−−− {y}
3 sch´ema d’extraction
(x ; be {rel} {prep} ; y)
felipe@iro.umontreal.ca Extraction et structuration de connaissances 16 / 25
19. But Extraction Discussion Extraction de tuples Structuration Applications
felipe@iro.umontreal.ca Extraction et structuration de connaissances 17 / 25
20. But Extraction Discussion Extraction de tuples Structuration Applications
PATTY [Nakashole et al., 2012]
r`egles apprises de mani`ere similaire `a OLLIE, mais ancr´ees sur
les types de YAGO2 :
e.g. < person > ’s [adj] voice * < song > matches :
Amy Winehouse’s soft voice in ’Rehab’
les patrons sont structur´es en une taxonomie
synset :
< person > twice won [[det]] < event > ≡
{then won [[det]]; also won; has won with; . . .}
subsumption :
< person > winner of < award > ⇒
< person > nominated for < award >
https://d5gate.ag5.mpi-sb.mpg.de/pattyweb/
felipe@iro.umontreal.ca Extraction et structuration de connaissances 18 / 25
21. But Extraction Discussion Extraction de tuples Structuration Applications
WEBRE [Min et al., 2012]
in : 14.7M tuples fiables identifi´es par REVERB depuis
CLUEWEB
1.3M relations verbales
3.3M entit´ees (args)
out : 84 000 item sets
marijuana result in insomnia
caffeine be risk factor of emphysema
nicotine be major cause of breast cancer
. . . . . . . . .
Comment : par regroupement (clustering)
felipe@iro.umontreal.ca Extraction et structuration de connaissances 19 / 25
22. But Extraction Discussion Extraction de tuples Structuration Applications
felipe@iro.umontreal.ca Extraction et structuration de connaissances 20 / 25
23. But Extraction Discussion Extraction de tuples Structuration Applications
Question-R´eponse ouvert [Fader et al., 2014]
QR ≡ question2requˆete `a une collection de tuples
4 tuple-stores (FREEBASE et 3 extraits automatiquement)
une fonction de pointage apprise sur un ens. de
questions-r´eponses (structured perceptron)
r´eponse ≡ recherche en faisceau (espace = s´equence
d’op´erateurs)
Input What are some examples of building maintenance jobs ?
Parse ?x: (?x, example of, building maintenance jobs)
Rewrite ?x: (?x, is-a, building maintenance job)
Execute {changing light bulb, is-a, small building maintenance job}
Input What animal represents California ?
Paraphrase What are California’s symbols ?
Parse ?x: (california,symbols, ?x)
Execute {California Water Service, Trading symbol, CWT}
felipe@iro.umontreal.ca Extraction et structuration de connaissances 21 / 25
24. But Extraction Discussion Extraction de tuples Structuration Applications
Exploration d’une large collections de textes
[Akbik et al., 2014]
http://lucene.textmining.tu-berlin.de/
felipe@iro.umontreal.ca Extraction et structuration de connaissances 22 / 25
25. But Extraction Discussion Extraction de tuples Structuration Applications
Literome project [Poon et al., 2014]
extraction de connaissances g´enomiques depuis les articles de
PubMed
disponible en ligne
felipe@iro.umontreal.ca Extraction et structuration de connaissances 23 / 25
26. But Extraction Discussion
Plan
Constat
Extraction d’information ouverte
Extraction de tuples
Structuration
Applications
Discussion
felipe@iro.umontreal.ca Extraction et structuration de connaissances 24 / 25
27. But Extraction Discussion
Enjeux sp´ecifiques `a ´Erudit
base “petite” et h´et´erog`ene
(th`eses, livres, actes, pluri-domaines)
peu de liens `a des bases existantes
(Freebase, Wikidata, Yago)
technologie embarqu´ee peu adapt´ee
(reconnaissance d’entit´es nomm´ees, r´esolution d’anaphores)
felipe@iro.umontreal.ca Extraction et structuration de connaissances 25 / 25
28. But Extraction Discussion
Ce qui aiderait
acc`es au corpus
(merci `a ´Emilie Paquin et Joanie Lavoie)
acc`es aux (logs) utilisateurs
que cherchent les utilisateurs ?
sont-il limit´es par les fonctionnalit´es de recherche actuelles ?
ce qu’ils aimeraient ?
Merci
Questions, suggestions ?
felipe@iro.umontreal.ca Extraction et structuration de connaissances 26 / 25
29. But Extraction Discussion
Bibliography I
Akbik, A., Michael, T., and Boden, C. (2014).
Exploratory relation extraction in large text corpora.
In 25th International Conference on Computational Linguistics,
pages 2087–2096.
Fader, A., Soderland, S., and Etzioni, O. (2011).
Identifying relations for open information extraction.
In Empirical Methods in Natural Language Processing, EMNLP
’11, pages 1535–1545.
Fader, A., Zettlemoyer, L., and Etzioni, O. (2014).
Open question answering over curated and extracted knowledge
bases.
In Proceedings of the 20th ACM SIGKDD International
Conference on Knowledge Discovery and Data Mining, KDD ’14,
pages 1156–1165.
30. But Extraction Discussion
Bibliography II
Mausam, Schmitz, M., Bart, R., Soderland, S., and
Etzioni, O. (2012).
Open language learning for information extraction.
In Joint EMNLP and CoNLL, pages 523–534.
Min, B., Shi, S., Grishman, R., and yew Lin, C. (2012).
Ensemble semantics for large-scale unsupervised relation
extraction.
In Joint EMNLP and CoNLL, pages 1027–1037.
Nakashole, N., Weikum, G., and Suchanek, F. (2012).
Patty : A taxonomy of relational patterns with semantic types.
In Joint EMNLP and CoNLL, pages 1135–1145.
Poon, H., Quirk, C., DeZiel, C., and Heckerman, D.
(2014).
Literome : Pubmed-scale genomic knowledge base in the cloud.
Bioinformatics, 30(19) :2840–2842.