SlideShare uma empresa Scribd logo
1 de 20
Baixar para ler offline
Gilles Boyé & Anna Kupść
Analyse automatique
d'espaces thématiques
Analyse thématique
• Morphologie théorique	

• Représentation de la flexion	

• organisation des paradigmes des formes	

• rapport entre cases du paradigme	

• deux types de prédictibilité	

• interprédictibilité totale : distillation	

• prédictibilité graduée : graphe des régularités 	

• Analyse manuelle => nombreuses généralisations approximatives
Paradigme de formes = Tableau de cases
PASSER 1SG 2SG 3SG 1PL 2PL 3PL
Présent passe passes passe passons passez passent
Imparfait passais passais passait passions passiez passaient
Passé passai passas ...
...
Verbes 1SG 2SG 3SG 1PL 2PL 3PL
Présent PRS.1 PRS.2 PRS.3 PRS.4 PRS.5 PRS.6
Imparfait IPF.1	

 IPF.2	

 IPF.3	

 IPF.4	

 IPF.5	

 IPF.6	

Passé PST.1 PST.2 ...
...
• Notre analyse porte sur les rapports entre les cases du tableau	

• généralisation sur l'ensemble des verbes
Formes interprédictibles
FUT.1 FUT.2 FUT.3 FUT.4 FUT.5 FUT.6
PASSER passerai passeras passera passerons passerez passeront
ALLER irai iras ira irons irez iront
FINIR finirai finiras finira finirons finirez finiront
MORDR
E
mordrai mordras mordra mordrons mordrez mordront
SAVOIR saurai sauras saura saurons saurez sauront
Série *rai *ras *ra *rons *rez *ront
• Les cases du futur sont toujours basées sur les mêmes éléments :	

• un radical pour le verbe	

• une désinence pour personne
• Le rapport entre les formes est constant et indépendant du contexte
Formes interprédictibles
PST.1 PST.2 PST.3 PST.4 PST.5 PST.6
PASSER passai passas passa passâmes passâtes passèrent
ALLER allai allas alla allâmes allâtes allèrent
FINIR finis finis finit finîmes finîtes finirent
MORDR
E
mordis mordis mordit mordîmes mordîtes mordirent
SAVOIR sus sus sut sûmes sûtes surent
Série 1 *ai *as *a *âmes *âtes *èrent
Série 2 *is *is *it *îmes *îtes *irent
Série 3 *us *us *ut *ûmes *ûtes *urent
• Les cases du passé ne sont pas toutes basées sur les mêmes éléments :	

• les désinences forment des séries différentes mais entièrement
prédictives
Interprédictibilité totale
• Les cases totalement interprédictibles ont la même couleur, elles
constituent une alliance de formes	

• L'interprédictibilité permet de réduire le paradigme à étudier
PRS.1 PRS.2 PRS.3 PRS.4 PRS.5 PRS.6
IPF.1 IPF.2 IPF.3 IPF.4 IPF.5 IPF.6
PST.1 PST.2 PST.3 PST.4 PST.5 PST.6
FUT.1 FUT.2 FUT.3 FUT.4 FUT.5 FUT.6
SBJV.1 SBJV.2 SBJV.3 SBJV.4 SBJV.5 SBJV.6
SBJV.IPF.
1
SBJV.IPF.
2
SBJV.IPF.
3
SBJV.IPF.
4
SBJV.IPF.
5
SBJV.IPF.
6CND.1 CND.2 CND.3 CND.4 CND.5 CND.6
IMP.2 IMP.4 IMP.5
INF
PCP.PRS
PCP.PST
Alliances de formes : illustrations
sais sais sait savons savez savent
savais savais savait savions saviez savaient
sus sus sut sûmes sûtes surent
saurai sauras saura saurons saurez sauront
sache saches sache sachions sachiez sachent
susse susses sût sussions sussiez sussent
saurais saurais saurait saurions sauriez sauraient
sache sachons sachez
savoir
sachant
su
vais vas va allons allez vont
allais allais allai
t
allions alliez allaient
allai allas alla allâmes allâtes allèrent
irai iras ira irons irez iront
aille ailles aille allions alliez aillent
allasse allasse
s
allât allassions allassiez allassent
irais irais irait irions iriez iraient
vas allons allez
aller
allant
allé
Distillation du paradigme
• La distillation du paradigme consiste à prendre une case
représentante par alliance de formes (1 couleur)
PRS.1 PRS.4 PRS.6 PST.1
FUT.
1
SBJV.
1
SBJV.4 IMP.2
IMP.4 INF PCP.PRS PCP.PST
PRS.1 PRS.2 PRS.3 PRS.4 PRS.5 PRS.6
IPF.1 IPF.2 IPF.3 IPF.4 IPF.5 IPF.6
PST.1 PST.2 PST.3 PST.4 PST.5 PST.6
FUT.1 FUT.2 FUT.3 FUT.4 FUT.5 FUT.6
SBJV.1 SBJV.2 SBJV.3 SBJV.4 SBJV.5 SBJV.6
SBJV.IPF.
1
SBJV.IPF.
2
SBJV.IPF.
3
SBJV.IPF.
4
SBJV.IPF.
5
SBJV.IPF.
6CND.1 CND.2 CND.3 CND.4 CND.5 CND.6
IMP.2 IMP.4 IMP.5
INF
PCP.PRS
PCP.PST
Relations entre les alliances
PRS.1
PRS.4
PRS.6
PRS.
1
PRS.4 PRS.6
MORDRE mor mord
õ
mor
dMOURIR mœr murõ mœr
LAVER lav lavõ lav
BOIRE bwa byvõ bwav
4<=>6 Y Xõ X
1<=>6 X Yõ X
1<=>4 X Xõ Y
toutes reliées X Xõ X
aucunes reliées X Yõ Z
• Toutes les relations entre alliances n'ont
pas la même pertinence	

• on peut extraire un sous-ensemble de
relations pertinentes qui constitue un
graphe de régularités entre alliances
4<=>6
1<=>6
1<=>4
Un graphe de l'espace thématique
10
Graphe de régularité obtenu manuellement (DUMAL)	

• 12 relations symétriques pertinentes sur 66 possibles
PRS.1
PRS.4
PRS.6
PST.1
FUT.1
SBJV.1
SBJV.4
IMP.2
IMP.4
INF
PCP.PRS
PCP.PST
L'objectif
• Obtenir une distillation sur la base d'un lexique de formes	

• par calcul des prédictibilités au sens de la théorie de l'information	

• en tenant compte des effets de fréquence	

• Construire un graphe de relations entre alliances	

• sur la base des prédictibilités (sans préjuger des régularités)	

• avec des relations orientées (pour tenir compte des asymétries)
La méthode
• Deux bases :	

• Bonami, Boyé & Henri (2011) basé sur l'idée de Ackerman, Blevins,
Malouf (2009)	

• BDLEX de Calmès & Pérennou (1998)	

• Deux classifications :	

• Classification des alternances basée sur le MGL de Albright (2002)	

• Classification par ensemble d’alternances possibles	

• Un calcul :	

• Entropie conditionnelle par ensemble d’alternances
12
Principe de classification des alternances
• Pour une paire de formes du paradigme, on classe les alternances
entre la forme d’entrée et la forme de sortie	

• par exemple, pour l’imparfait indicatif 1 et l’indicatif présent 6 :
LEXEME IPF.1 PRS.6
PASSER pasɛ pas
BOIRE byvɛ bwav
FINIR finisɛ finis
MENER mənɛ mɛn
SORTIR sɔrtɛ sɔrt
PRENDRE prənɛ prɛn
… … …
ɛ → Ø
yvɛ → wav
ənɛ → ɛn
… → …
13
Principe de classification par ensembles
• Chaque forme d’entrée est associée à l’ensemble d’alternances
susceptibles de lui être appliquées, sa classe	

• par exemple, pour l’imparfait indicatif 1 et l’indicatif présent 6 :
LEXEME IPF.1 
(→ PRS.6)
1 2 3 …
Classe
ɛ → Ø yvɛ → wav ənɛ → ɛn …
PASSER pasɛ pas *yvɛ *ənɛ {1, …}
BOIRE byvɛ byv byvɛ *ənɛ {1, 2, …}
FINIR finisɛ finis *yvɛ *ənɛ {1, …}
MENER mənɛ mən *yvɛ mɛn
 {1, 3, …}
SORTIR sɔrtɛ sɔrt *yvɛ *ənɛ {1, …}
PRENDRE prənɛ prən *yvɛ prɛn
 {1, 3, …}
… … {…, …}14
Entropie conditionnelle par classe
• Pour chaque classe, on calcule l’entropie conditionnelle associée :	

• par exemple pour la classe {1,3,4}
50 verbes {1, 3, 4} 1 3 4
Nombre
EXEMPLE IPF.1 (→ PRS.6) ɛ → Ø ənɛ → ɛn ənɛ → jɛn
PRENDRE prənɛ prən prɛn prjɛn 24
VENIR vənɛ vən vɛn vjɛn 26
Entropie pour la classe {1,3,4} 0.999
15
Entropie conditionnelle par classe
• Pour chaque classe, on calcule l’entropie conditionnelle associée :	

• par exemple pour la classe {1,5,6} (ɛ → Ø ; jɛ → Ø ; jɛ → i)
438 verbes {1, 5, 6} 1 5 6
Nombre
EXEMPLE IPF.1 (→ PRS.6) ɛ → Ø jɛ → Ø jɛ → i
APPAREILLER aparejɛ aparej apare aparei 134
STRIER strijɛ strij stri strii 102
COPIER kopjɛ kopj kop kopi 202
Entropie pour la classe {1,5,6} 1,527
,
16
Entropie conditionnelle globale
• Pour une paire de case du paradigme, on additionne les entropies
partielles en respectant les proportions de verbes dans chaque
classe :	

• par exemple pour les deux classes déjà vues, {1,3,4} et {1,5,6} et
toutes les autres
Ensemble Nombre Proportion Entropie Contribution
{1, 3, 4} 50 0.78% 0.999 0.008
{1, 5, 6} 438 6.80% 1.527 0.104
… … …
Entropie globale pour IPF.1 → PRS.6 0,155
,17
Tableau des entropies
• Le calcul se fait sur toutes les paires 	

• On obtient une matrice d'entropies conditionnelles
les zéros (en blanc) indiquent la prédictibilité les alliances de formes correspondent aux zéros
symétriques et on obtient automatiquement une
nouvelle distillation
PRS.1 PRS.2 PRS.5
PRS.6 IPF.1 IPF.4
PST.1 FUT.1 SBJV.1
SBJV.4 IMP.2 IMP.4
IMP.5 INF PCP.PST
Graphe de prédictibilité
• On utilise le tableau des entropies pour
établir le graphe de prédictibilité sur la
distillation (relations entre les alliances de
formes)	

• on classe les relations par entropies
croissantes	

• on ajoute un arc à chaque fois que le
chemin entre les alliances n'est pas
parcourable sur le graphe	

• on s'arrête quand toutes les alliances
peuvent s'inter-atteindre
Conclusion
• Le calcul de l'entropie permet d'échapper aux préconceptions sur la
régularité et de faire un calcul systématique sur les relations entre
formes.	

• extraire toutes les relations dans les deux sens était inaccessible à la
main => choix arbitraire	

• Le premier résultat obtenu semble très lié à l'influence de quelques
lexèmes hyper-fréquents et très irréguliers	

• nous avons apporté une modification au calcul de l'entropie qui
limite cet effet en prenant en compte la fréquence des lexèmes et
de celles de leur famille (préfixés à conjugaison identique)

Mais conteúdo relacionado

Destaque

AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfmarketingartwork
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024Neil Kimberley
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)contently
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024Albert Qian
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsKurio // The Social Media Age(ncy)
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Search Engine Journal
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summarySpeakerHub
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next Tessa Mero
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentLily Ray
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best PracticesVit Horky
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project managementMindGenius
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...RachelPearson36
 
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Applitools
 
12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at WorkGetSmarter
 

Destaque (20)

AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
 
Skeleton Culture Code
Skeleton Culture CodeSkeleton Culture Code
Skeleton Culture Code
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
 
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project management
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
 
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
 
12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work
 
ChatGPT webinar slides
ChatGPT webinar slidesChatGPT webinar slides
ChatGPT webinar slides
 
More than Just Lines on a Map: Best Practices for U.S Bike Routes
More than Just Lines on a Map: Best Practices for U.S Bike RoutesMore than Just Lines on a Map: Best Practices for U.S Bike Routes
More than Just Lines on a Map: Best Practices for U.S Bike Routes
 

BoKu14-ERSS

  • 1. Gilles Boyé & Anna Kupść Analyse automatique d'espaces thématiques
  • 2. Analyse thématique • Morphologie théorique • Représentation de la flexion • organisation des paradigmes des formes • rapport entre cases du paradigme • deux types de prédictibilité • interprédictibilité totale : distillation • prédictibilité graduée : graphe des régularités • Analyse manuelle => nombreuses généralisations approximatives
  • 3. Paradigme de formes = Tableau de cases PASSER 1SG 2SG 3SG 1PL 2PL 3PL Présent passe passes passe passons passez passent Imparfait passais passais passait passions passiez passaient Passé passai passas ... ... Verbes 1SG 2SG 3SG 1PL 2PL 3PL Présent PRS.1 PRS.2 PRS.3 PRS.4 PRS.5 PRS.6 Imparfait IPF.1 IPF.2 IPF.3 IPF.4 IPF.5 IPF.6 Passé PST.1 PST.2 ... ... • Notre analyse porte sur les rapports entre les cases du tableau • généralisation sur l'ensemble des verbes
  • 4. Formes interprédictibles FUT.1 FUT.2 FUT.3 FUT.4 FUT.5 FUT.6 PASSER passerai passeras passera passerons passerez passeront ALLER irai iras ira irons irez iront FINIR finirai finiras finira finirons finirez finiront MORDR E mordrai mordras mordra mordrons mordrez mordront SAVOIR saurai sauras saura saurons saurez sauront Série *rai *ras *ra *rons *rez *ront • Les cases du futur sont toujours basées sur les mêmes éléments : • un radical pour le verbe • une désinence pour personne • Le rapport entre les formes est constant et indépendant du contexte
  • 5. Formes interprédictibles PST.1 PST.2 PST.3 PST.4 PST.5 PST.6 PASSER passai passas passa passâmes passâtes passèrent ALLER allai allas alla allâmes allâtes allèrent FINIR finis finis finit finîmes finîtes finirent MORDR E mordis mordis mordit mordîmes mordîtes mordirent SAVOIR sus sus sut sûmes sûtes surent Série 1 *ai *as *a *âmes *âtes *èrent Série 2 *is *is *it *îmes *îtes *irent Série 3 *us *us *ut *ûmes *ûtes *urent • Les cases du passé ne sont pas toutes basées sur les mêmes éléments : • les désinences forment des séries différentes mais entièrement prédictives
  • 6. Interprédictibilité totale • Les cases totalement interprédictibles ont la même couleur, elles constituent une alliance de formes • L'interprédictibilité permet de réduire le paradigme à étudier PRS.1 PRS.2 PRS.3 PRS.4 PRS.5 PRS.6 IPF.1 IPF.2 IPF.3 IPF.4 IPF.5 IPF.6 PST.1 PST.2 PST.3 PST.4 PST.5 PST.6 FUT.1 FUT.2 FUT.3 FUT.4 FUT.5 FUT.6 SBJV.1 SBJV.2 SBJV.3 SBJV.4 SBJV.5 SBJV.6 SBJV.IPF. 1 SBJV.IPF. 2 SBJV.IPF. 3 SBJV.IPF. 4 SBJV.IPF. 5 SBJV.IPF. 6CND.1 CND.2 CND.3 CND.4 CND.5 CND.6 IMP.2 IMP.4 IMP.5 INF PCP.PRS PCP.PST
  • 7. Alliances de formes : illustrations sais sais sait savons savez savent savais savais savait savions saviez savaient sus sus sut sûmes sûtes surent saurai sauras saura saurons saurez sauront sache saches sache sachions sachiez sachent susse susses sût sussions sussiez sussent saurais saurais saurait saurions sauriez sauraient sache sachons sachez savoir sachant su vais vas va allons allez vont allais allais allai t allions alliez allaient allai allas alla allâmes allâtes allèrent irai iras ira irons irez iront aille ailles aille allions alliez aillent allasse allasse s allât allassions allassiez allassent irais irais irait irions iriez iraient vas allons allez aller allant allé
  • 8. Distillation du paradigme • La distillation du paradigme consiste à prendre une case représentante par alliance de formes (1 couleur) PRS.1 PRS.4 PRS.6 PST.1 FUT. 1 SBJV. 1 SBJV.4 IMP.2 IMP.4 INF PCP.PRS PCP.PST PRS.1 PRS.2 PRS.3 PRS.4 PRS.5 PRS.6 IPF.1 IPF.2 IPF.3 IPF.4 IPF.5 IPF.6 PST.1 PST.2 PST.3 PST.4 PST.5 PST.6 FUT.1 FUT.2 FUT.3 FUT.4 FUT.5 FUT.6 SBJV.1 SBJV.2 SBJV.3 SBJV.4 SBJV.5 SBJV.6 SBJV.IPF. 1 SBJV.IPF. 2 SBJV.IPF. 3 SBJV.IPF. 4 SBJV.IPF. 5 SBJV.IPF. 6CND.1 CND.2 CND.3 CND.4 CND.5 CND.6 IMP.2 IMP.4 IMP.5 INF PCP.PRS PCP.PST
  • 9. Relations entre les alliances PRS.1 PRS.4 PRS.6 PRS. 1 PRS.4 PRS.6 MORDRE mor mord õ mor dMOURIR mœr murõ mœr LAVER lav lavõ lav BOIRE bwa byvõ bwav 4<=>6 Y Xõ X 1<=>6 X Yõ X 1<=>4 X Xõ Y toutes reliées X Xõ X aucunes reliées X Yõ Z • Toutes les relations entre alliances n'ont pas la même pertinence • on peut extraire un sous-ensemble de relations pertinentes qui constitue un graphe de régularités entre alliances 4<=>6 1<=>6 1<=>4
  • 10. Un graphe de l'espace thématique 10 Graphe de régularité obtenu manuellement (DUMAL) • 12 relations symétriques pertinentes sur 66 possibles PRS.1 PRS.4 PRS.6 PST.1 FUT.1 SBJV.1 SBJV.4 IMP.2 IMP.4 INF PCP.PRS PCP.PST
  • 11. L'objectif • Obtenir une distillation sur la base d'un lexique de formes • par calcul des prédictibilités au sens de la théorie de l'information • en tenant compte des effets de fréquence • Construire un graphe de relations entre alliances • sur la base des prédictibilités (sans préjuger des régularités) • avec des relations orientées (pour tenir compte des asymétries)
  • 12. La méthode • Deux bases : • Bonami, Boyé & Henri (2011) basé sur l'idée de Ackerman, Blevins, Malouf (2009) • BDLEX de Calmès & Pérennou (1998) • Deux classifications : • Classification des alternances basée sur le MGL de Albright (2002) • Classification par ensemble d’alternances possibles • Un calcul : • Entropie conditionnelle par ensemble d’alternances 12
  • 13. Principe de classification des alternances • Pour une paire de formes du paradigme, on classe les alternances entre la forme d’entrée et la forme de sortie • par exemple, pour l’imparfait indicatif 1 et l’indicatif présent 6 : LEXEME IPF.1 PRS.6 PASSER pasɛ pas BOIRE byvɛ bwav FINIR finisɛ finis MENER mənɛ mɛn SORTIR sɔrtɛ sɔrt PRENDRE prənɛ prɛn … … … ɛ → Ø yvɛ → wav ənɛ → ɛn … → … 13
  • 14. Principe de classification par ensembles • Chaque forme d’entrée est associée à l’ensemble d’alternances susceptibles de lui être appliquées, sa classe • par exemple, pour l’imparfait indicatif 1 et l’indicatif présent 6 : LEXEME IPF.1 (→ PRS.6) 1 2 3 … Classe ɛ → Ø yvɛ → wav ənɛ → ɛn … PASSER pasɛ pas *yvɛ *ənɛ {1, …} BOIRE byvɛ byv byvɛ *ənɛ {1, 2, …} FINIR finisɛ finis *yvɛ *ənɛ {1, …} MENER mənɛ mən *yvɛ mɛn {1, 3, …} SORTIR sɔrtɛ sɔrt *yvɛ *ənɛ {1, …} PRENDRE prənɛ prən *yvɛ prɛn {1, 3, …} … … {…, …}14
  • 15. Entropie conditionnelle par classe • Pour chaque classe, on calcule l’entropie conditionnelle associée : • par exemple pour la classe {1,3,4} 50 verbes {1, 3, 4} 1 3 4 Nombre EXEMPLE IPF.1 (→ PRS.6) ɛ → Ø ənɛ → ɛn ənɛ → jɛn PRENDRE prənɛ prən prɛn prjɛn 24 VENIR vənɛ vən vɛn vjɛn 26 Entropie pour la classe {1,3,4} 0.999 15
  • 16. Entropie conditionnelle par classe • Pour chaque classe, on calcule l’entropie conditionnelle associée : • par exemple pour la classe {1,5,6} (ɛ → Ø ; jɛ → Ø ; jɛ → i) 438 verbes {1, 5, 6} 1 5 6 Nombre EXEMPLE IPF.1 (→ PRS.6) ɛ → Ø jɛ → Ø jɛ → i APPAREILLER aparejɛ aparej apare aparei 134 STRIER strijɛ strij stri strii 102 COPIER kopjɛ kopj kop kopi 202 Entropie pour la classe {1,5,6} 1,527 , 16
  • 17. Entropie conditionnelle globale • Pour une paire de case du paradigme, on additionne les entropies partielles en respectant les proportions de verbes dans chaque classe : • par exemple pour les deux classes déjà vues, {1,3,4} et {1,5,6} et toutes les autres Ensemble Nombre Proportion Entropie Contribution {1, 3, 4} 50 0.78% 0.999 0.008 {1, 5, 6} 438 6.80% 1.527 0.104 … … … Entropie globale pour IPF.1 → PRS.6 0,155 ,17
  • 18. Tableau des entropies • Le calcul se fait sur toutes les paires • On obtient une matrice d'entropies conditionnelles les zéros (en blanc) indiquent la prédictibilité les alliances de formes correspondent aux zéros symétriques et on obtient automatiquement une nouvelle distillation PRS.1 PRS.2 PRS.5 PRS.6 IPF.1 IPF.4 PST.1 FUT.1 SBJV.1 SBJV.4 IMP.2 IMP.4 IMP.5 INF PCP.PST
  • 19. Graphe de prédictibilité • On utilise le tableau des entropies pour établir le graphe de prédictibilité sur la distillation (relations entre les alliances de formes) • on classe les relations par entropies croissantes • on ajoute un arc à chaque fois que le chemin entre les alliances n'est pas parcourable sur le graphe • on s'arrête quand toutes les alliances peuvent s'inter-atteindre
  • 20. Conclusion • Le calcul de l'entropie permet d'échapper aux préconceptions sur la régularité et de faire un calcul systématique sur les relations entre formes. • extraire toutes les relations dans les deux sens était inaccessible à la main => choix arbitraire • Le premier résultat obtenu semble très lié à l'influence de quelques lexèmes hyper-fréquents et très irréguliers • nous avons apporté une modification au calcul de l'entropie qui limite cet effet en prenant en compte la fréquence des lexèmes et de celles de leur famille (préfixés à conjugaison identique)