SlideShare uma empresa Scribd logo
1 de 31
Baixar para ler offline
But Extraction Discussion
Extraction et structuration de connaissances pour une
plateforme interactive d´edi´ee `a ´Erudit:
´etat de l’art et points de r´eflexion
Philippe Langlais
RALI
Dept. Informatique et Recherche Op´erationnelle
Universit´e de Montr´eal
ACFAS, Mai, 2015
felipe@iro.umontreal.ca Extraction et structuration de connaissances 1 / 25
But Extraction Discussion
Plan
Constat
Extraction d’information ouverte
Extraction de tuples
Structuration
Applications
Discussion
felipe@iro.umontreal.ca Extraction et structuration de connaissances 2 / 25
But Extraction Discussion
Plan
Constat
Extraction d’information ouverte
Extraction de tuples
Structuration
Applications
Discussion
felipe@iro.umontreal.ca Extraction et structuration de connaissances 3 / 25
But Extraction Discussion
felipe@iro.umontreal.ca Extraction et structuration de connaissances 4 / 25
But Extraction Discussion
felipe@iro.umontreal.ca Extraction et structuration de connaissances 5 / 25
But Extraction Discussion
felipe@iro.umontreal.ca Extraction et structuration de connaissances 6 / 25
But Extraction Discussion
Vers une recherche bas´ee sur les faits
Actuellement :
requˆete : mots cl´es
d´eformation + dos
r´esultat : documents
doc1 | doc2 | doc3 . . .
But :
requˆete : question
d´eformations du dos ?
r´esultat : r´eponses
scoliose (doc)
cyphose (doc)
spondylolisth´esis (doc) . . .
Mais aussi :
Quels sont les protagonistes de la th´eorie de la viabilit´e ?
Symptˆomes de la d´epression ?
. . .
felipe@iro.umontreal.ca Extraction et structuration de connaissances 7 / 25
But Extraction Discussion
Comment ?
base de connaissances :
tuples extraits des textes
structur´es
Ex. de tuples :
{Gonzales, produit, une musique ´electro-pop}
{Gonzales, collabore avec, Feist}
felipe@iro.umontreal.ca Extraction et structuration de connaissances 8 / 25
But Extraction Discussion Extraction de tuples Structuration Applications
Plan
Constat
Extraction d’information ouverte
Extraction de tuples
Structuration
Applications
Discussion
felipe@iro.umontreal.ca Extraction et structuration de connaissances 9 / 25
But Extraction Discussion Extraction de tuples Structuration Applications
felipe@iro.umontreal.ca Extraction et structuration de connaissances 10 / 25
But Extraction Discussion Extraction de tuples Structuration Applications
3 familles d’extracteurs (ouverts) de tuples
Texte2Tuples
´etiquetage morphosyntaxique (POS) :
TEXTRUNNER, REVERB, SONEX
analyse syntaxique en d´ependance :
OLLIE, TREEKERNEL, PATTY, EXAMPLAR
´etiquetage s´emantique :
LUND, SWIRL, EXAMPLAR
http://openie.cs.washington.edu
REVERB [Fader et al., 2011]
OLLIE [Mausam et al., 2012]
felipe@iro.umontreal.ca Extraction et structuration de connaissances 11 / 25
But Extraction Discussion Extraction de tuples Structuration Applications
REVERB / relations
Relations verbales
reconnues par une ER sur les ´etiquettes POS :
V | V P | V W* P
V = verb particle? adv?
W = (noun | adj | adv | pron | det)
P = (prep | particle | inf. marker)
ex : invented (V), located in (VP), has atomic weight of (VW*P)
+ contraintes :
pour ´eviter des relations verbales trop sp´ecifiques
ex : is offering only modest greenhouse gas reduction targets at
id´ee : les relations d’int´erˆet impliquent de nombreux arguments.
felipe@iro.umontreal.ca Extraction et structuration de connaissances 12 / 25
But Extraction Discussion Extraction de tuples Structuration Applications
REVERB / extraction
∀ relation r :
chercher x le plus proche NP `a gauche de r
pas : un pronom relatif, un adverbe, WHO, THERE, etc.
chercher y le plus proche NP `a droite de r
TOKS Elle reprend ses ´etudes `a l’ Universit´e McGill et obtient un doctorat en
psychologie ( 1965 ) .
POS CLS V DET NC P DET NC NPP CC V DET NC P NC PONCT NC PONCT
PONCT
CHNK B-NP B-VN B-NP I-NP B-PP B-NP I-NP I-NP B-COORD B-VN B-NP I-NP
B-PP B-NP O B-NP O O
felipe@iro.umontreal.ca Extraction et structuration de connaissances 13 / 25
But Extraction Discussion Extraction de tuples Structuration Applications
REVERB / extraction
∀ relation r :
chercher x le plus proche NP `a gauche de r
pas : un pronom relatif, un adverbe, WHO, THERE, etc.
chercher y le plus proche NP `a droite de r
TOKS Elle reprend ses ´etudes `a l’ Universit´e McGill et obtient un doctorat en
psychologie ( 1965 ) .
POS CLS V DET NC P DET NC NPP CC V DET NC P NC PONCT NC PONCT
PONCT
CHNK B-NP B-VN B-NP I-NP B-PP B-NP I-NP I-NP B-COORD B-VN B-NP I-NP
B-PP B-NP O B-NP O O
EXTR Elle == reprend == ses ´etudes
felipe@iro.umontreal.ca Extraction et structuration de connaissances 13 / 25
But Extraction Discussion Extraction de tuples Structuration Applications
REVERB / extraction
∀ relation r :
chercher x le plus proche NP `a gauche de r
pas : un pronom relatif, un adverbe, WHO, THERE, etc.
chercher y le plus proche NP `a droite de r
TOKS Elle reprend ses ´etudes `a l’ Universit´e McGill et obtient un doctorat en
psychologie ( 1965 ) .
POS CLS V DET NC P DET NC NPP CC V DET NC P NC PONCT NC PONCT
PONCT
CHNK B-NP B-VN B-NP I-NP B-PP B-NP I-NP I-NP B-COORD B-VN B-NP I-NP
B-PP B-NP O B-NP O O
EXTR Elle == reprend == ses ´etudes
EXTR l’Universit´e McGill == obtient == un doctorat
felipe@iro.umontreal.ca Extraction et structuration de connaissances 13 / 25
But Extraction Discussion Extraction de tuples Structuration Applications
REVERB / filtrage
in : tuple {x, r, y}
out : p(correctness)
entrain´e sur un corpus (1000 phrases) de tuples manuellement
annot´es (correct ou pas)
19 traits encodant un tuple {x, r, y} extrait d’une phrase s
1.16 {x, r, y} couvre tous les mots de s
0.50 last PREP dans r est for
0.49 last PREP dans r est on
0.46 last PREP dans r est of
0.43 length(s) ≤ 10 words
...
-0.93 conjonction de coordination `a gauche de r dans s
felipe@iro.umontreal.ca Extraction et structuration de connaissances 14 / 25
But Extraction Discussion Extraction de tuples Structuration Applications
OLLIE
bootstrape d’extractions fiables de REVERB par analyse
syntaxique :
∼110k tuples extraits avec confiance par REVERB depuis
CLUEWEB, tels que :
freq≥2
args = nom propre
chemin de d´ependances pas plus long que 4
4M de phrases de CLUEWEB contiennent ces tuples fiables et
servent de supervision distante
fiable `a 90% selon une ´evaluation manuelle
felipe@iro.umontreal.ca Extraction et structuration de connaissances 15 / 25
But Extraction Discussion Extraction de tuples Structuration Applications
OLLIE
∀ tuple fiable {x, rel, y}
e.g. {the 2012 Sasquash music festival, be scheduled for, May 25th}
1 d´ependances entre les mots de tˆete des args et de la relation
I learned that the 2012
Sasquash music festi-
val is scheduled for May
25th until May 28th
2 patron syntaxique
{x}
nsubjpass
−−−−−−→ {rel :postag=VBN}
prep
←−−− {y}
3 sch´ema d’extraction
(x ; be {rel} {prep} ; y)
felipe@iro.umontreal.ca Extraction et structuration de connaissances 16 / 25
But Extraction Discussion Extraction de tuples Structuration Applications
felipe@iro.umontreal.ca Extraction et structuration de connaissances 17 / 25
But Extraction Discussion Extraction de tuples Structuration Applications
PATTY [Nakashole et al., 2012]
r`egles apprises de mani`ere similaire `a OLLIE, mais ancr´ees sur
les types de YAGO2 :
e.g. < person > ’s [adj] voice * < song > matches :
Amy Winehouse’s soft voice in ’Rehab’
les patrons sont structur´es en une taxonomie
synset :
< person > twice won [[det]] < event > ≡
{then won [[det]]; also won; has won with; . . .}
subsumption :
< person > winner of < award > ⇒
< person > nominated for < award >
https://d5gate.ag5.mpi-sb.mpg.de/pattyweb/
felipe@iro.umontreal.ca Extraction et structuration de connaissances 18 / 25
But Extraction Discussion Extraction de tuples Structuration Applications
WEBRE [Min et al., 2012]
in : 14.7M tuples fiables identifi´es par REVERB depuis
CLUEWEB
1.3M relations verbales
3.3M entit´ees (args)
out : 84 000 item sets
marijuana result in insomnia
caffeine be risk factor of emphysema
nicotine be major cause of breast cancer
. . . . . . . . .
Comment : par regroupement (clustering)
felipe@iro.umontreal.ca Extraction et structuration de connaissances 19 / 25
But Extraction Discussion Extraction de tuples Structuration Applications
felipe@iro.umontreal.ca Extraction et structuration de connaissances 20 / 25
But Extraction Discussion Extraction de tuples Structuration Applications
Question-R´eponse ouvert [Fader et al., 2014]
QR ≡ question2requˆete `a une collection de tuples
4 tuple-stores (FREEBASE et 3 extraits automatiquement)
une fonction de pointage apprise sur un ens. de
questions-r´eponses (structured perceptron)
r´eponse ≡ recherche en faisceau (espace = s´equence
d’op´erateurs)
Input What are some examples of building maintenance jobs ?
Parse ?x: (?x, example of, building maintenance jobs)
Rewrite ?x: (?x, is-a, building maintenance job)
Execute {changing light bulb, is-a, small building maintenance job}
Input What animal represents California ?
Paraphrase What are California’s symbols ?
Parse ?x: (california,symbols, ?x)
Execute {California Water Service, Trading symbol, CWT}
felipe@iro.umontreal.ca Extraction et structuration de connaissances 21 / 25
But Extraction Discussion Extraction de tuples Structuration Applications
Exploration d’une large collections de textes
[Akbik et al., 2014]
http://lucene.textmining.tu-berlin.de/
felipe@iro.umontreal.ca Extraction et structuration de connaissances 22 / 25
But Extraction Discussion Extraction de tuples Structuration Applications
Literome project [Poon et al., 2014]
extraction de connaissances g´enomiques depuis les articles de
PubMed
disponible en ligne
felipe@iro.umontreal.ca Extraction et structuration de connaissances 23 / 25
But Extraction Discussion
Plan
Constat
Extraction d’information ouverte
Extraction de tuples
Structuration
Applications
Discussion
felipe@iro.umontreal.ca Extraction et structuration de connaissances 24 / 25
But Extraction Discussion
Enjeux sp´ecifiques `a ´Erudit
base “petite” et h´et´erog`ene
(th`eses, livres, actes, pluri-domaines)
peu de liens `a des bases existantes
(Freebase, Wikidata, Yago)
technologie embarqu´ee peu adapt´ee
(reconnaissance d’entit´es nomm´ees, r´esolution d’anaphores)
felipe@iro.umontreal.ca Extraction et structuration de connaissances 25 / 25
But Extraction Discussion
Ce qui aiderait
acc`es au corpus
(merci `a ´Emilie Paquin et Joanie Lavoie)
acc`es aux (logs) utilisateurs
que cherchent les utilisateurs ?
sont-il limit´es par les fonctionnalit´es de recherche actuelles ?
ce qu’ils aimeraient ?
Merci
Questions, suggestions ?
felipe@iro.umontreal.ca Extraction et structuration de connaissances 26 / 25
But Extraction Discussion
Bibliography I
Akbik, A., Michael, T., and Boden, C. (2014).
Exploratory relation extraction in large text corpora.
In 25th International Conference on Computational Linguistics,
pages 2087–2096.
Fader, A., Soderland, S., and Etzioni, O. (2011).
Identifying relations for open information extraction.
In Empirical Methods in Natural Language Processing, EMNLP
’11, pages 1535–1545.
Fader, A., Zettlemoyer, L., and Etzioni, O. (2014).
Open question answering over curated and extracted knowledge
bases.
In Proceedings of the 20th ACM SIGKDD International
Conference on Knowledge Discovery and Data Mining, KDD ’14,
pages 1156–1165.
But Extraction Discussion
Bibliography II
Mausam, Schmitz, M., Bart, R., Soderland, S., and
Etzioni, O. (2012).
Open language learning for information extraction.
In Joint EMNLP and CoNLL, pages 523–534.
Min, B., Shi, S., Grishman, R., and yew Lin, C. (2012).
Ensemble semantics for large-scale unsupervised relation
extraction.
In Joint EMNLP and CoNLL, pages 1027–1037.
Nakashole, N., Weikum, G., and Suchanek, F. (2012).
Patty : A taxonomy of relational patterns with semantic types.
In Joint EMNLP and CoNLL, pages 1135–1145.
Poon, H., Quirk, C., DeZiel, C., and Heckerman, D.
(2014).
Literome : Pubmed-scale genomic knowledge base in the cloud.
Bioinformatics, 30(19) :2840–2842.
Cr´edits
Underground, underdog, underrated, under stress, under
pressure, under-appreciated, Chilly Gonzales - Never Stop

Mais conteúdo relacionado

Destaque

Briet Suzanne
Briet SuzanneBriet Suzanne
Briet SuzanneLyrae
 
operaciones combinadas
operaciones combinadasoperaciones combinadas
operaciones combinadasangelaanabella
 
Conferencia Inaugural “Nuevos objetivos propuestos por la Comisión Europea en...
Conferencia Inaugural “Nuevos objetivos propuestos por la Comisión Europea en...Conferencia Inaugural “Nuevos objetivos propuestos por la Comisión Europea en...
Conferencia Inaugural “Nuevos objetivos propuestos por la Comisión Europea en...ANEPMA
 
Droit des cartels et de la concurrence déloyale
Droit des cartels et de la concurrence déloyaleDroit des cartels et de la concurrence déloyale
Droit des cartels et de la concurrence déloyalefredericborel
 
UTS ENTRENAMIENTO DEPORTIVO
UTS ENTRENAMIENTO DEPORTIVOUTS ENTRENAMIENTO DEPORTIVO
UTS ENTRENAMIENTO DEPORTIVOgiullianaillon
 
de l'art
de l'artde l'art
de l'artzet
 
33. Brandix Appointment Letter
33. Brandix Appointment Letter33. Brandix Appointment Letter
33. Brandix Appointment LetterMuzammel Haque
 
Partage de signets et de références bibliographiques
Partage de signets et de références bibliographiquesPartage de signets et de références bibliographiques
Partage de signets et de références bibliographiquesAlain Marois
 
Private Sector An indispensable player for sustainable health outcomes 5 18 1...
Private Sector An indispensable player for sustainable health outcomes 5 18 1...Private Sector An indispensable player for sustainable health outcomes 5 18 1...
Private Sector An indispensable player for sustainable health outcomes 5 18 1...Bettina Brunner
 
Germs Le Mensonge Dans La Figure De L’Art
Germs  Le Mensonge Dans La Figure De L’ArtGerms  Le Mensonge Dans La Figure De L’Art
Germs Le Mensonge Dans La Figure De L’Artgerms
 
recherche sur le web
recherche sur le webrecherche sur le web
recherche sur le webLyrae
 
1 Allez Dans Le Menu « Outil »
1  Allez Dans Le Menu « Outil »1  Allez Dans Le Menu « Outil »
1 Allez Dans Le Menu « Outil »stamiu
 

Destaque (20)

Briet Suzanne
Briet SuzanneBriet Suzanne
Briet Suzanne
 
operaciones combinadas
operaciones combinadasoperaciones combinadas
operaciones combinadas
 
Conferencia Inaugural “Nuevos objetivos propuestos por la Comisión Europea en...
Conferencia Inaugural “Nuevos objetivos propuestos por la Comisión Europea en...Conferencia Inaugural “Nuevos objetivos propuestos por la Comisión Europea en...
Conferencia Inaugural “Nuevos objetivos propuestos por la Comisión Europea en...
 
Droit des cartels et de la concurrence déloyale
Droit des cartels et de la concurrence déloyaleDroit des cartels et de la concurrence déloyale
Droit des cartels et de la concurrence déloyale
 
UTS ENTRENAMIENTO DEPORTIVO
UTS ENTRENAMIENTO DEPORTIVOUTS ENTRENAMIENTO DEPORTIVO
UTS ENTRENAMIENTO DEPORTIVO
 
Diapo tex 2
Diapo tex 2Diapo tex 2
Diapo tex 2
 
Taller de fotografía
Taller de fotografíaTaller de fotografía
Taller de fotografía
 
Plagio.
Plagio.Plagio.
Plagio.
 
Recursos web cintia tercero
Recursos web cintia terceroRecursos web cintia tercero
Recursos web cintia tercero
 
de l'art
de l'artde l'art
de l'art
 
XinéS
XinéSXinéS
XinéS
 
33. Brandix Appointment Letter
33. Brandix Appointment Letter33. Brandix Appointment Letter
33. Brandix Appointment Letter
 
Peur Du Web
Peur Du WebPeur Du Web
Peur Du Web
 
Partage de signets et de références bibliographiques
Partage de signets et de références bibliographiquesPartage de signets et de références bibliographiques
Partage de signets et de références bibliographiques
 
Private Sector An indispensable player for sustainable health outcomes 5 18 1...
Private Sector An indispensable player for sustainable health outcomes 5 18 1...Private Sector An indispensable player for sustainable health outcomes 5 18 1...
Private Sector An indispensable player for sustainable health outcomes 5 18 1...
 
Germs Le Mensonge Dans La Figure De L’Art
Germs  Le Mensonge Dans La Figure De L’ArtGerms  Le Mensonge Dans La Figure De L’Art
Germs Le Mensonge Dans La Figure De L’Art
 
presentacion 1
presentacion  1presentacion  1
presentacion 1
 
recherche sur le web
recherche sur le webrecherche sur le web
recherche sur le web
 
Embraer Courses
Embraer CoursesEmbraer Courses
Embraer Courses
 
1 Allez Dans Le Menu « Outil »
1  Allez Dans Le Menu « Outil »1  Allez Dans Le Menu « Outil »
1 Allez Dans Le Menu « Outil »
 

Mais de Érudit

Partnership for Open Access : Érudit webinar
Partnership for Open Access : Érudit webinar Partnership for Open Access : Érudit webinar
Partnership for Open Access : Érudit webinar Érudit
 
Partenariat pour la diffusion en libre accès
Partenariat pour la diffusion en libre accèsPartenariat pour la diffusion en libre accès
Partenariat pour la diffusion en libre accèsÉrudit
 
Open Access Network Presentation
Open Access Network PresentationOpen Access Network Presentation
Open Access Network PresentationÉrudit
 
Les transformations de l'édition savante à l'ère numérique
Les transformations de l'édition savante à l'ère numériqueLes transformations de l'édition savante à l'ère numérique
Les transformations de l'édition savante à l'ère numériqueÉrudit
 
A Library-Publisher Partnership for Open access
A Library-Publisher Partnership for Open accessA Library-Publisher Partnership for Open access
A Library-Publisher Partnership for Open accessÉrudit
 
Fouille de textes et cartographie thématique des corpus numériques
Fouille de textes et cartographie thématique des corpus numériquesFouille de textes et cartographie thématique des corpus numériques
Fouille de textes et cartographie thématique des corpus numériquesÉrudit
 
Valorisation du fonds documentaire numérique pour la recherche
Valorisation du fonds documentaire numérique pour la rechercheValorisation du fonds documentaire numérique pour la recherche
Valorisation du fonds documentaire numérique pour la rechercheÉrudit
 
Fouille textuelle de revues intellectuelles québécoises
Fouille textuelle de revues intellectuelles québécoisesFouille textuelle de revues intellectuelles québécoises
Fouille textuelle de revues intellectuelles québécoisesÉrudit
 
Projets de données liées chez Canadiana.org
Projets de données liées chez Canadiana.orgProjets de données liées chez Canadiana.org
Projets de données liées chez Canadiana.orgÉrudit
 

Mais de Érudit (9)

Partnership for Open Access : Érudit webinar
Partnership for Open Access : Érudit webinar Partnership for Open Access : Érudit webinar
Partnership for Open Access : Érudit webinar
 
Partenariat pour la diffusion en libre accès
Partenariat pour la diffusion en libre accèsPartenariat pour la diffusion en libre accès
Partenariat pour la diffusion en libre accès
 
Open Access Network Presentation
Open Access Network PresentationOpen Access Network Presentation
Open Access Network Presentation
 
Les transformations de l'édition savante à l'ère numérique
Les transformations de l'édition savante à l'ère numériqueLes transformations de l'édition savante à l'ère numérique
Les transformations de l'édition savante à l'ère numérique
 
A Library-Publisher Partnership for Open access
A Library-Publisher Partnership for Open accessA Library-Publisher Partnership for Open access
A Library-Publisher Partnership for Open access
 
Fouille de textes et cartographie thématique des corpus numériques
Fouille de textes et cartographie thématique des corpus numériquesFouille de textes et cartographie thématique des corpus numériques
Fouille de textes et cartographie thématique des corpus numériques
 
Valorisation du fonds documentaire numérique pour la recherche
Valorisation du fonds documentaire numérique pour la rechercheValorisation du fonds documentaire numérique pour la recherche
Valorisation du fonds documentaire numérique pour la recherche
 
Fouille textuelle de revues intellectuelles québécoises
Fouille textuelle de revues intellectuelles québécoisesFouille textuelle de revues intellectuelles québécoises
Fouille textuelle de revues intellectuelles québécoises
 
Projets de données liées chez Canadiana.org
Projets de données liées chez Canadiana.orgProjets de données liées chez Canadiana.org
Projets de données liées chez Canadiana.org
 

Último

Recurrent neural network_PresentationRNN.pptx
Recurrent neural network_PresentationRNN.pptxRecurrent neural network_PresentationRNN.pptx
Recurrent neural network_PresentationRNN.pptxbahija babzine
 
Le contrôle de la recherche d'emploi en 2023
Le contrôle de la recherche d'emploi en 2023Le contrôle de la recherche d'emploi en 2023
Le contrôle de la recherche d'emploi en 2023France Travail
 
To_understand_transformers_together presentation
To_understand_transformers_together presentationTo_understand_transformers_together presentation
To_understand_transformers_together presentationbahija babzine
 
ELABE BFMTV L'Opinion en direct - Les Français et les 100 jours de Gabriel Attal
ELABE BFMTV L'Opinion en direct - Les Français et les 100 jours de Gabriel AttalELABE BFMTV L'Opinion en direct - Les Français et les 100 jours de Gabriel Attal
ELABE BFMTV L'Opinion en direct - Les Français et les 100 jours de Gabriel Attalcontact Elabe
 
Montant moyen du droit d'allocation chômage versé aux demandeurs d'emploi ind...
Montant moyen du droit d'allocation chômage versé aux demandeurs d'emploi ind...Montant moyen du droit d'allocation chômage versé aux demandeurs d'emploi ind...
Montant moyen du droit d'allocation chômage versé aux demandeurs d'emploi ind...France Travail
 
Bidirectional Encoder Representations from Transformers
Bidirectional Encoder Representations from TransformersBidirectional Encoder Representations from Transformers
Bidirectional Encoder Representations from Transformersbahija babzine
 

Último (6)

Recurrent neural network_PresentationRNN.pptx
Recurrent neural network_PresentationRNN.pptxRecurrent neural network_PresentationRNN.pptx
Recurrent neural network_PresentationRNN.pptx
 
Le contrôle de la recherche d'emploi en 2023
Le contrôle de la recherche d'emploi en 2023Le contrôle de la recherche d'emploi en 2023
Le contrôle de la recherche d'emploi en 2023
 
To_understand_transformers_together presentation
To_understand_transformers_together presentationTo_understand_transformers_together presentation
To_understand_transformers_together presentation
 
ELABE BFMTV L'Opinion en direct - Les Français et les 100 jours de Gabriel Attal
ELABE BFMTV L'Opinion en direct - Les Français et les 100 jours de Gabriel AttalELABE BFMTV L'Opinion en direct - Les Français et les 100 jours de Gabriel Attal
ELABE BFMTV L'Opinion en direct - Les Français et les 100 jours de Gabriel Attal
 
Montant moyen du droit d'allocation chômage versé aux demandeurs d'emploi ind...
Montant moyen du droit d'allocation chômage versé aux demandeurs d'emploi ind...Montant moyen du droit d'allocation chômage versé aux demandeurs d'emploi ind...
Montant moyen du droit d'allocation chômage versé aux demandeurs d'emploi ind...
 
Bidirectional Encoder Representations from Transformers
Bidirectional Encoder Representations from TransformersBidirectional Encoder Representations from Transformers
Bidirectional Encoder Representations from Transformers
 

Extraction et structuration de connaissances pour une plateforme interactive dédiée à Érudit: état de l’art et points de réflexion

  • 1. But Extraction Discussion Extraction et structuration de connaissances pour une plateforme interactive d´edi´ee `a ´Erudit: ´etat de l’art et points de r´eflexion Philippe Langlais RALI Dept. Informatique et Recherche Op´erationnelle Universit´e de Montr´eal ACFAS, Mai, 2015 felipe@iro.umontreal.ca Extraction et structuration de connaissances 1 / 25
  • 2. But Extraction Discussion Plan Constat Extraction d’information ouverte Extraction de tuples Structuration Applications Discussion felipe@iro.umontreal.ca Extraction et structuration de connaissances 2 / 25
  • 3. But Extraction Discussion Plan Constat Extraction d’information ouverte Extraction de tuples Structuration Applications Discussion felipe@iro.umontreal.ca Extraction et structuration de connaissances 3 / 25
  • 4. But Extraction Discussion felipe@iro.umontreal.ca Extraction et structuration de connaissances 4 / 25
  • 5. But Extraction Discussion felipe@iro.umontreal.ca Extraction et structuration de connaissances 5 / 25
  • 6. But Extraction Discussion felipe@iro.umontreal.ca Extraction et structuration de connaissances 6 / 25
  • 7. But Extraction Discussion Vers une recherche bas´ee sur les faits Actuellement : requˆete : mots cl´es d´eformation + dos r´esultat : documents doc1 | doc2 | doc3 . . . But : requˆete : question d´eformations du dos ? r´esultat : r´eponses scoliose (doc) cyphose (doc) spondylolisth´esis (doc) . . . Mais aussi : Quels sont les protagonistes de la th´eorie de la viabilit´e ? Symptˆomes de la d´epression ? . . . felipe@iro.umontreal.ca Extraction et structuration de connaissances 7 / 25
  • 8. But Extraction Discussion Comment ? base de connaissances : tuples extraits des textes structur´es Ex. de tuples : {Gonzales, produit, une musique ´electro-pop} {Gonzales, collabore avec, Feist} felipe@iro.umontreal.ca Extraction et structuration de connaissances 8 / 25
  • 9. But Extraction Discussion Extraction de tuples Structuration Applications Plan Constat Extraction d’information ouverte Extraction de tuples Structuration Applications Discussion felipe@iro.umontreal.ca Extraction et structuration de connaissances 9 / 25
  • 10. But Extraction Discussion Extraction de tuples Structuration Applications felipe@iro.umontreal.ca Extraction et structuration de connaissances 10 / 25
  • 11. But Extraction Discussion Extraction de tuples Structuration Applications 3 familles d’extracteurs (ouverts) de tuples Texte2Tuples ´etiquetage morphosyntaxique (POS) : TEXTRUNNER, REVERB, SONEX analyse syntaxique en d´ependance : OLLIE, TREEKERNEL, PATTY, EXAMPLAR ´etiquetage s´emantique : LUND, SWIRL, EXAMPLAR http://openie.cs.washington.edu REVERB [Fader et al., 2011] OLLIE [Mausam et al., 2012] felipe@iro.umontreal.ca Extraction et structuration de connaissances 11 / 25
  • 12. But Extraction Discussion Extraction de tuples Structuration Applications REVERB / relations Relations verbales reconnues par une ER sur les ´etiquettes POS : V | V P | V W* P V = verb particle? adv? W = (noun | adj | adv | pron | det) P = (prep | particle | inf. marker) ex : invented (V), located in (VP), has atomic weight of (VW*P) + contraintes : pour ´eviter des relations verbales trop sp´ecifiques ex : is offering only modest greenhouse gas reduction targets at id´ee : les relations d’int´erˆet impliquent de nombreux arguments. felipe@iro.umontreal.ca Extraction et structuration de connaissances 12 / 25
  • 13. But Extraction Discussion Extraction de tuples Structuration Applications REVERB / extraction ∀ relation r : chercher x le plus proche NP `a gauche de r pas : un pronom relatif, un adverbe, WHO, THERE, etc. chercher y le plus proche NP `a droite de r TOKS Elle reprend ses ´etudes `a l’ Universit´e McGill et obtient un doctorat en psychologie ( 1965 ) . POS CLS V DET NC P DET NC NPP CC V DET NC P NC PONCT NC PONCT PONCT CHNK B-NP B-VN B-NP I-NP B-PP B-NP I-NP I-NP B-COORD B-VN B-NP I-NP B-PP B-NP O B-NP O O felipe@iro.umontreal.ca Extraction et structuration de connaissances 13 / 25
  • 14. But Extraction Discussion Extraction de tuples Structuration Applications REVERB / extraction ∀ relation r : chercher x le plus proche NP `a gauche de r pas : un pronom relatif, un adverbe, WHO, THERE, etc. chercher y le plus proche NP `a droite de r TOKS Elle reprend ses ´etudes `a l’ Universit´e McGill et obtient un doctorat en psychologie ( 1965 ) . POS CLS V DET NC P DET NC NPP CC V DET NC P NC PONCT NC PONCT PONCT CHNK B-NP B-VN B-NP I-NP B-PP B-NP I-NP I-NP B-COORD B-VN B-NP I-NP B-PP B-NP O B-NP O O EXTR Elle == reprend == ses ´etudes felipe@iro.umontreal.ca Extraction et structuration de connaissances 13 / 25
  • 15. But Extraction Discussion Extraction de tuples Structuration Applications REVERB / extraction ∀ relation r : chercher x le plus proche NP `a gauche de r pas : un pronom relatif, un adverbe, WHO, THERE, etc. chercher y le plus proche NP `a droite de r TOKS Elle reprend ses ´etudes `a l’ Universit´e McGill et obtient un doctorat en psychologie ( 1965 ) . POS CLS V DET NC P DET NC NPP CC V DET NC P NC PONCT NC PONCT PONCT CHNK B-NP B-VN B-NP I-NP B-PP B-NP I-NP I-NP B-COORD B-VN B-NP I-NP B-PP B-NP O B-NP O O EXTR Elle == reprend == ses ´etudes EXTR l’Universit´e McGill == obtient == un doctorat felipe@iro.umontreal.ca Extraction et structuration de connaissances 13 / 25
  • 16. But Extraction Discussion Extraction de tuples Structuration Applications REVERB / filtrage in : tuple {x, r, y} out : p(correctness) entrain´e sur un corpus (1000 phrases) de tuples manuellement annot´es (correct ou pas) 19 traits encodant un tuple {x, r, y} extrait d’une phrase s 1.16 {x, r, y} couvre tous les mots de s 0.50 last PREP dans r est for 0.49 last PREP dans r est on 0.46 last PREP dans r est of 0.43 length(s) ≤ 10 words ... -0.93 conjonction de coordination `a gauche de r dans s felipe@iro.umontreal.ca Extraction et structuration de connaissances 14 / 25
  • 17. But Extraction Discussion Extraction de tuples Structuration Applications OLLIE bootstrape d’extractions fiables de REVERB par analyse syntaxique : ∼110k tuples extraits avec confiance par REVERB depuis CLUEWEB, tels que : freq≥2 args = nom propre chemin de d´ependances pas plus long que 4 4M de phrases de CLUEWEB contiennent ces tuples fiables et servent de supervision distante fiable `a 90% selon une ´evaluation manuelle felipe@iro.umontreal.ca Extraction et structuration de connaissances 15 / 25
  • 18. But Extraction Discussion Extraction de tuples Structuration Applications OLLIE ∀ tuple fiable {x, rel, y} e.g. {the 2012 Sasquash music festival, be scheduled for, May 25th} 1 d´ependances entre les mots de tˆete des args et de la relation I learned that the 2012 Sasquash music festi- val is scheduled for May 25th until May 28th 2 patron syntaxique {x} nsubjpass −−−−−−→ {rel :postag=VBN} prep ←−−− {y} 3 sch´ema d’extraction (x ; be {rel} {prep} ; y) felipe@iro.umontreal.ca Extraction et structuration de connaissances 16 / 25
  • 19. But Extraction Discussion Extraction de tuples Structuration Applications felipe@iro.umontreal.ca Extraction et structuration de connaissances 17 / 25
  • 20. But Extraction Discussion Extraction de tuples Structuration Applications PATTY [Nakashole et al., 2012] r`egles apprises de mani`ere similaire `a OLLIE, mais ancr´ees sur les types de YAGO2 : e.g. < person > ’s [adj] voice * < song > matches : Amy Winehouse’s soft voice in ’Rehab’ les patrons sont structur´es en une taxonomie synset : < person > twice won [[det]] < event > ≡ {then won [[det]]; also won; has won with; . . .} subsumption : < person > winner of < award > ⇒ < person > nominated for < award > https://d5gate.ag5.mpi-sb.mpg.de/pattyweb/ felipe@iro.umontreal.ca Extraction et structuration de connaissances 18 / 25
  • 21. But Extraction Discussion Extraction de tuples Structuration Applications WEBRE [Min et al., 2012] in : 14.7M tuples fiables identifi´es par REVERB depuis CLUEWEB 1.3M relations verbales 3.3M entit´ees (args) out : 84 000 item sets marijuana result in insomnia caffeine be risk factor of emphysema nicotine be major cause of breast cancer . . . . . . . . . Comment : par regroupement (clustering) felipe@iro.umontreal.ca Extraction et structuration de connaissances 19 / 25
  • 22. But Extraction Discussion Extraction de tuples Structuration Applications felipe@iro.umontreal.ca Extraction et structuration de connaissances 20 / 25
  • 23. But Extraction Discussion Extraction de tuples Structuration Applications Question-R´eponse ouvert [Fader et al., 2014] QR ≡ question2requˆete `a une collection de tuples 4 tuple-stores (FREEBASE et 3 extraits automatiquement) une fonction de pointage apprise sur un ens. de questions-r´eponses (structured perceptron) r´eponse ≡ recherche en faisceau (espace = s´equence d’op´erateurs) Input What are some examples of building maintenance jobs ? Parse ?x: (?x, example of, building maintenance jobs) Rewrite ?x: (?x, is-a, building maintenance job) Execute {changing light bulb, is-a, small building maintenance job} Input What animal represents California ? Paraphrase What are California’s symbols ? Parse ?x: (california,symbols, ?x) Execute {California Water Service, Trading symbol, CWT} felipe@iro.umontreal.ca Extraction et structuration de connaissances 21 / 25
  • 24. But Extraction Discussion Extraction de tuples Structuration Applications Exploration d’une large collections de textes [Akbik et al., 2014] http://lucene.textmining.tu-berlin.de/ felipe@iro.umontreal.ca Extraction et structuration de connaissances 22 / 25
  • 25. But Extraction Discussion Extraction de tuples Structuration Applications Literome project [Poon et al., 2014] extraction de connaissances g´enomiques depuis les articles de PubMed disponible en ligne felipe@iro.umontreal.ca Extraction et structuration de connaissances 23 / 25
  • 26. But Extraction Discussion Plan Constat Extraction d’information ouverte Extraction de tuples Structuration Applications Discussion felipe@iro.umontreal.ca Extraction et structuration de connaissances 24 / 25
  • 27. But Extraction Discussion Enjeux sp´ecifiques `a ´Erudit base “petite” et h´et´erog`ene (th`eses, livres, actes, pluri-domaines) peu de liens `a des bases existantes (Freebase, Wikidata, Yago) technologie embarqu´ee peu adapt´ee (reconnaissance d’entit´es nomm´ees, r´esolution d’anaphores) felipe@iro.umontreal.ca Extraction et structuration de connaissances 25 / 25
  • 28. But Extraction Discussion Ce qui aiderait acc`es au corpus (merci `a ´Emilie Paquin et Joanie Lavoie) acc`es aux (logs) utilisateurs que cherchent les utilisateurs ? sont-il limit´es par les fonctionnalit´es de recherche actuelles ? ce qu’ils aimeraient ? Merci Questions, suggestions ? felipe@iro.umontreal.ca Extraction et structuration de connaissances 26 / 25
  • 29. But Extraction Discussion Bibliography I Akbik, A., Michael, T., and Boden, C. (2014). Exploratory relation extraction in large text corpora. In 25th International Conference on Computational Linguistics, pages 2087–2096. Fader, A., Soderland, S., and Etzioni, O. (2011). Identifying relations for open information extraction. In Empirical Methods in Natural Language Processing, EMNLP ’11, pages 1535–1545. Fader, A., Zettlemoyer, L., and Etzioni, O. (2014). Open question answering over curated and extracted knowledge bases. In Proceedings of the 20th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, KDD ’14, pages 1156–1165.
  • 30. But Extraction Discussion Bibliography II Mausam, Schmitz, M., Bart, R., Soderland, S., and Etzioni, O. (2012). Open language learning for information extraction. In Joint EMNLP and CoNLL, pages 523–534. Min, B., Shi, S., Grishman, R., and yew Lin, C. (2012). Ensemble semantics for large-scale unsupervised relation extraction. In Joint EMNLP and CoNLL, pages 1027–1037. Nakashole, N., Weikum, G., and Suchanek, F. (2012). Patty : A taxonomy of relational patterns with semantic types. In Joint EMNLP and CoNLL, pages 1135–1145. Poon, H., Quirk, C., DeZiel, C., and Heckerman, D. (2014). Literome : Pubmed-scale genomic knowledge base in the cloud. Bioinformatics, 30(19) :2840–2842.
  • 31. Cr´edits Underground, underdog, underrated, under stress, under pressure, under-appreciated, Chilly Gonzales - Never Stop