SlideShare uma empresa Scribd logo
1 de 65
Baixar para ler offline
Colloque Cooccurrence 2012
                     09/02/2012 - Besançon




Longueur de branches et arbres de mots

  Philippe Gambette, Nuria Gala, Alexis Nasr, Alain Guénoche
         LIGM                        LIF              IML
   Université Paris-Est   Université Aix-Marseille   CNRS
    Marne-la-Vallée
Plan

• Analyses et nuages arborés
• Interprétation visuelle
• Formules de longueurs d'arêtes
• Protocole d'évaluation
• Résultats
• Visualisations
• Perspectives
Plan

• Analyses et nuages arborés
• Interprétation visuelle
• Formules de longueurs d'arêtes
• Protocole d'évaluation
• Résultats
• Visualisations
• Perspectives
Analyses arborées

  Rapprochement des mots d'un texte selon leur degré de
  cooccurrence dans le texte
  Constellation du mot “nuit” dans la base EXEMPLEM
  (22 romans de 11 auteurs, lemmatisés)            TEMPS 2




                                                              CHAMBRE À COUCHER




               L'ATMOSPHÈRE

                                                        TEMPS 1




                              Barthelémy & Luong, Statistique et Analyse des Données, 1986
Hyperbase                                                                  Brunet, JADT'08
Nuage arboré, une information double




       occurrences



                         cooccurrences

                           Discours inaugural de Barack Obama
construit avec

                        SplitsTree : Huson & Bryant, Bioinformatics, 2006
                                 TreeCloud : Gambette & Véronis, IFCS'09
Plan

• Analyses et nuages arborés
• Interprétation visuelle
• Formules de longueurs d'arêtes
• Protocole d'évaluation
• Résultats
• Visualisations
• Perspectives
Interprétation réelle




 Les distances dans l'arbre entre deux mots reflètent au mieux
 le degré de cooccurrence entre ces deux mots
Interprétation réelle




 Problème 1 :
 difficiles à lire


 Les distances dans l'arbre entre deux mots reflètent au mieux
 le degré de cooccurrence entre ces deux mots
Interprétation réelle




 Problème 1 :                                       Problème 2 :
 difficiles à lire                                  peu fiables


 Les distances dans l'arbre entre deux mots reflètent au mieux
 le degré de cooccurrence entre ces deux mots
Interprétation réelle




                                                    Optimisation
                                                    globale, pas
                                                    de garanties
                                                    locales de
                                                    qualité
 Problème 1 :                                       Problème 2 :
 difficiles à lire                                  peu fiables


 Les distances dans l'arbre entre deux mots reflètent au mieux
 le degré de cooccurrence entre ces deux mots
Interprétation pratique
                          arbre de distances
                          utilisé comme
                          classification
Interprétation pratique
                                          arbre de distances
                                          utilisé comme
                                          classification




 Les mots d'un même sous-arbre bien séparé du reste de l'arbre
 constituent une classe de mots
Interprétation pratique
                                          arbre de distances
                                          utilisé comme
                                          classification




 Les mots d'un même sous-arbre bien séparé du reste de l'arbre
 constituent une classe de mots
Interprétation pratique
                                          arbre de distances
                                          utilisé comme
                                          classification




                                          Problème : toujours
                                          peu lisible (longueur
                                          des arêtes externes)
                                          et peu fiable
 Les mots d'un même sous-arbre bien séparé du reste de l'arbre
 constituent une classe de mots
Interprétation pratique
   Astuce de visualisation pour améliorer la lisibilité :
   longueur unitaire des arêtes




Nuages arborés globaux des 60 mots les plus fréquents dans Cinna et Othon (distance Liddell, fenêtre
de largeur 20), colorés chronologiquement (rouge au début, bleu à la fin)
                                                                        Amstutz & Gambette, JADT'10
Interprétation pratique
   Astuce de visualisation pour améliorer la lisibilité :
   longueur unitaire des arêtes, MAIS...
                        encore moins fiable !




                                     retour au texte
                                       nécessaire,
                                      fausses pistes
Nuages arborés globaux des 60 mots les plus fréquents dans Cinna et Othon (distance Liddell, fenêtre
de largeur 20), colorés chronologiquement (rouge au début, bleu à la fin)
                                                                        Amstutz & Gambette, JADT'10
Interprétation pratique

 Problème :

 Comment calculer les longueurs des arêtes de l'arbre pour une
 interprétation fiable des classes ?


 Arête longue = classe de mots significative (proches les uns des
 autres, bien séparés du reste)

 Arête courte = classe de mots peu significative
Plan

• Analyses et nuages arborés
• Interprétation visuelle
• Formules de longueurs d'arêtes
• Protocole d'évaluation
• Résultats
• Visualisations
• Perspectives
Formules de longueurs d'arêtes

 Post-calcul des longueurs d'arêtes après la construction de l'arbre,
 pour que :

 arêtes les plus longues ↔ classes de mots les plus significatives
                         ↔ classes de mots bien séparées
                            d'après la distance de cooccurrence
Formules de longueurs d'arêtes

 Post-calcul des longueurs d'arêtes après la construction de l'arbre,
 pour que :

 arêtes les plus longues ↔ classes de mots les plus significatives
                         ↔ classes de mots bien séparées
                            d'après la distance de cooccurrence


 Formule du ratio des bons triplets (“triples”) :

 Si mot1 et mot2 d'un côté de l'arête, mot3 de l'autre côté,
 “bon triplet” si
 distance(mot1,mot2) <
 min(distance(mot1,mot3),                  mot1
 distance(mot2,mot3))
                                                                            mot3

 ratio espéré proche de 1
                                           mot2
                                                         Guénoche & Garreta, IFCS'02
Formules de longueurs d'arêtes

 Post-calcul des longueurs d'arêtes après la construction de l'arbre,
 pour que :

 arêtes les plus longues ↔ classes de mots les plus significatives
                         ↔ classes de mots bien séparées
                            d'après la distance de cooccurrence


 Formule du ratio des distances moyennes (“distanceRatio”) :

 moyenne(distances inter-classes)
 moyenne(distances intra-classes)

 ratio espéré supérieur à 1




                                                         Guénoche & Garreta, IFCS'02
Formules de longueurs d'arêtes

 Post-calcul des longueurs d'arêtes après la construction de l'arbre,
 pour que :

 arêtes les plus longues ↔ classes de mots les plus significatives
                         ↔ classes de mots bien séparées
                            d'après la distance de cooccurrence


 Formule du ratio des bons quadruplets (“quartets”) :

 Si mot1 et mot2 d'un côté de l'arête, mot3 et mot4 de l'autre côté,
 “bon quadruplet” si                                                 mot4
 distance(mot1,mot2) +
 distance(mot2,mot3) <                    mot1
 min(distance(mot1,mot3) +
 distance(mot2,mot4) +,                                                     mot3
 distance(mot1,mot4) +
 distance(mot2,mot3))
                                          mot2
 ratio espéré proche de 1                                Guénoche & Garreta, IFCS'02
Plan

• Analyses et nuages arborés
• Interprétation visuelle
• Formules de longueurs d'arêtes
• Protocole d'évaluation
• Résultats
• Visualisations
• Perspectives
Protocole d'évaluation

 Post-calcul des longueurs d'arêtes après la construction de l'arbre, puis :

 Vérification que les classes de mots les mieux séparées
 (d'après ces longueurs) sont significatives
Protocole d'évaluation

 Post-calcul des longueurs d'arêtes après la construction de l'arbre, puis :



 Vérification que les classes de mots        Partition obtenue en découpant les
 les mieux séparées (d'après ces             arêtes les plus longues comparée
 longueurs) sont significatives              avec une partition de référence
Protocole d'évaluation

 Post-calcul des longueurs d'arêtes après la construction de l'arbre, puis :



 Vérification que les classes de mots        Partition obtenue en découpant les
 les mieux séparées (d'après ces             arêtes les plus longues comparée
 longueurs) sont significatives              avec une partition de référence

                                                             quelles
                                                            données ?
Protocole d'évaluation
  Base de données Polymots
  Base lexicale de familles morpho-phonologiques
  20 000 mots, 2000 familles




http://polymots.lif.univ-mrs.fr                    Gala & Rey, TALN'08
Protocole d'évaluation
 Base de données Polymots
 Base lexicale de familles morpho-phonologiques
 20 000 mots, 2000 familles

 + partitions sémantiques des familles de 20 mots
     (arbre, art, boule, carte, corde, dent, dict, fil, fusée, lune,
     meuble, mode, onde, paille, penser, pot, presse, tenir, terre, val).




                                               Gala, Hathout, Nasr, Rey, Seppälä, TALN'11
Protocole d'évaluation
 Base de données Polymots
 Base lexicale de familles morpho-phonologiques
 20 000 mots, 2000 familles

 + partitions sémantiques des familles de 20 mots
     (arbre, art, boule, carte, corde, dent, dict, fil, fusée, lune,
     meuble, mode, onde, paille, penser, pot, presse, tenir, terre, val).


 Exemple pour la famille de art :
 { {artifice, artificiel, artificiellement, artificier},
  {artillerie, artilleur},
  {artisan, artisanal, artisanalement, artisanat},
  {artiste, artistique, artistiquement, art} }




                                                      Gala, Hathout, Nasr, Rey, Seppälä, TALN'11
Protocole d'évaluation
 Idée :
 • Construire une représentation arborée des mots de la famille
 • Découper les k arêtes les plus longues de l'arbre pour obtenir Pk
 • La partition obtenue est-elle proche de la partition “manuelle” ?




                                              Gala, Hathout, Nasr, Rey, Seppälä, TALN'11
Protocole d'évaluation
 Idée :
 • Construire une représentation arborée des mots de la famille
 • Découper les k arêtes les plus longues de l'arbre pour obtenir Pk
 • La partition obtenue est-elle proche de la partition “manuelle” ?


 Distance utilisée pour le calcul de la représentation arborée ?
 Distance composite entre :
 • nombre d'affixes communs
 • degré de cooccurrence dans




                                               Gala, Hathout, Nasr, Rey, Seppälä, TALN'11
Protocole d'évaluation
   Idée :
   • Construire une représentation arborée des mots de la famille
   • Découper les k arêtes les plus longues de l'arbre pour obtenir Pk
   • La partition obtenue est-elle proche de la partition “manuelle” ?


                                                                   Partition automatique :
                                                                   P0 = {{artisan, artisanat,
                                                                   artisanal, artisanalement,
                                                                   artiste, artistique,
                                                                   artistiquement, artificier,
                                                                   artificiel, artifice,
                                                                   artificiellement, artillerie,
                                                                   artilleur, art}}




Partition manuelle : Pm = {{artificier, artifice, artificiel, artificiellement}, {artillerie, artilleur},
{artisan, artisanal, artisanalement, artisanat}, {artiste, artistique, artistiquement, art}}
                                                             Gala, Hathout, Nasr, Rey, Seppälä, TALN'11
Protocole d'évaluation
   Idée :
   • Construire une représentation arborée des mots de la famille
   • Découper les k arêtes les plus longues de l'arbre pour obtenir Pk
   • La partition obtenue est-elle proche de la partition “manuelle” ?


                                                                   Partition automatique :
                                                                   P1 = {{artisan, artisanat,
                                                                   artisanal, artisanalement,
                                                                   artiste, artistique,
                                                                   artistiquement, artificier,
                                                                   artificiel, artifice,
                                                                   artificiellement},
                     1                                             {artillerie, artilleur, art}}




Partition manuelle : Pm = {{artificier, artifice, artificiel, artificiellement}, {artillerie, artilleur},
{artisan, artisanal, artisanalement, artisanat}, {artiste, artistique, artistiquement, art}}
                                                             Gala, Hathout, Nasr, Rey, Seppälä, TALN'11
Protocole d'évaluation
   Idée :
   • Construire une représentation arborée des mots de la famille
   • Découper les k arêtes les plus longues de l'arbre pour obtenir Pk
   • La partition obtenue est-elle proche de la partition “manuelle” ?


                                                                   Partition automatique :
                                                                   P2 = {{artisan, artisanat,
                                                                   artisanal, artisanalement},
                                                                   {artiste, artistique,
                                                                   artistiquement, artificier,
                           2                                       artificiel, artifice,
                                                                   artificiellement},
                     1                                             {artillerie, artilleur, art}}




Partition manuelle : Pm = {{artificier, artifice, artificiel, artificiellement}, {artillerie, artilleur},
{artisan, artisanal, artisanalement, artisanat}, {artiste, artistique, artistiquement, art}}
                                                             Gala, Hathout, Nasr, Rey, Seppälä, TALN'11
Protocole d'évaluation
   Idée :
   • Construire une représentation arborée des mots de la famille
   • Découper les k arêtes les plus longues de l'arbre pour obtenir Pk
   • La partition obtenue est-elle proche de la partition “manuelle” ?


                                                                   Partition automatique :
                                                                   P3 = {{artisan, artisanat,
                                                                   artisanal, artisanalement},
                                                                   {artiste, artistique,
                                                                   artistiquement, artificier,
                           2                                       artificiel, artifice,
                                                                   artificiellement},
                     1                                             {artillerie, artilleur},
             3                                                     {art}}




Partition manuelle : Pm = {{artificier, artifice, artificiel, artificiellement}, {artillerie, artilleur},
{artisan, artisanal, artisanalement, artisanat}, {artiste, artistique, artistiquement, art}}
                                                             Gala, Hathout, Nasr, Rey, Seppälä, TALN'11
Protocole d'évaluation
   Idée :
   • Construire une représentation arborée des mots de la famille
   • Découper les k arêtes les plus longues de l'arbre pour obtenir Pk
   • La partition obtenue est-elle proche de la partition “manuelle” ?


                                                                   Partition automatique :
                                                                   P4 = {{artisan, artisanat,
                                                                   artisanal, artisanalement},
                                                                   {artiste, artistique,
                                                                   artistiquement},
                           2                                       {artificier, artificiel, artifice,
                                                                   artificiellement},
                     1                                             {artillerie, artilleur},
                                  4
             3                                                     {art}}




Partition manuelle : Pm = {{artificier, artifice, artificiel, artificiellement}, {artillerie, artilleur},
{artisan, artisanal, artisanalement, artisanat}, {artiste, artistique, artistiquement, art}}
                                                             Gala, Hathout, Nasr, Rey, Seppälä, TALN'11
Protocole d'évaluation
   Idée :
   • Construire une représentation arborée des mots de la famille
   • Découper les k arêtes les plus longues de l'arbre pour obtenir Pk
   • La partition obtenue est-elle proche de la partition “manuelle” ?


                                                                   Partition automatique :
                                                                   P5 = {{artisan, artisanat,
                                                                   artisanal, artisanalement},
                                                                   {artiste, artistique,
                                                                   artistiquement},
                         5 2                                       {artificier, artificiel, artifice,
                                                                   artificiellement},
                     1                                             {artillerie, artilleur},
                                  4
             3                                                     {art}}




Partition manuelle : Pm = {{artificier, artifice, artificiel, artificiellement}, {artillerie, artilleur},
{artisan, artisanal, artisanalement, artisanat}, {artiste, artistique, artistiquement, art}}
                                                             Gala, Hathout, Nasr, Rey, Seppälä, TALN'11
Protocole d'évaluation
   Idée :
   • Construire une représentation arborée des mots de la famille
   • Découper les k arêtes les plus longues de l'arbre pour obtenir Pk
   • La partition obtenue est-elle proche de la partition “manuelle” ?


                                                                   Partition automatique :
                                                                   P6 = {{artisan, artisanat,
                                                                   artisanal, artisanalement},
                                                                   {artiste, artistique,
                                   6                               artistiquement},
                         5 2                                       {artificier, artificiel, artifice,
                                                                   artificiellement},
                     1                                             {artillerie, artilleur},
                                  4
             3                                                     {art}}




Partition manuelle : Pm = {{artificier, artifice, artificiel, artificiellement}, {artillerie, artilleur},
{artisan, artisanal, artisanalement, artisanat}, {artiste, artistique, artistiquement, art}}
                                                             Gala, Hathout, Nasr, Rey, Seppälä, TALN'11
Protocole d'évaluation
   Idée :
   • Construire une représentation arborée des mots de la famille
   • Découper les k arêtes les plus longues de l'arbre pour obtenir Pk
   • La partition obtenue est-elle proche de la partition “manuelle” ?


                                                                   Partition automatique :
                                                                   P7 = {{artisan, artisanat,
                                                                   artisanal, artisanalement},
                                                                   {artiste, artistique,
                                   6                               artistiquement},
                         5 2                                       {artificier, artificiel, artifice},
                                                                   {artificiellement},
                     1                                             {artillerie, artilleur},
                                  4     7
             3                                                     {art}}




Partition manuelle : Pm = {{artificier, artifice, artificiel, artificiellement}, {artillerie, artilleur},
{artisan, artisanal, artisanalement, artisanat}, {artiste, artistique, artistiquement, art}}
                                                             Gala, Hathout, Nasr, Rey, Seppälä, TALN'11
Protocole d'évaluation
   Idée :
   • Construire une représentation arborée des mots de la famille
   • Découper les k arêtes les plus longues de l'arbre pour obtenir Pk
   • La partition obtenue est-elle proche de la partition “manuelle” ?


                                                                   Partition automatique :
                                                                   P7 = {{artisan, artisanat,
                                                                   artisanal, artisanalement},
                                                                   {artiste, artistique,
                                   6                               artistiquement},
                         5 2                                       {artificier, artificiel, artifice},
                                                                   {artificiellement},
                     1                                             {artillerie, artilleur},
                                  4     7
             3                                                     {art}}




Partition manuelle : Pm = {{artificier, artifice, artificiel, artificiellement}, {artillerie, artilleur},
{artisan, artisanal, artisanalement, artisanat}, {artiste, artistique, artistiquement, art}}
                                                             Gala, Hathout, Nasr, Rey, Seppälä, TALN'11
Protocole d'évaluation
   Idée :
   • Construire une représentation arborée des mots de la famille
   • Découper les k arêtes les plus longues de l'arbre pour obtenir Pk
   • La partition obtenue est-elle proche de la partition “manuelle” ?


                                                                   Partition automatique :
                                                                   P7 = {{artisan, artisanat,
                                                                   artisanal, artisanalement},
                                                                   {artiste, artistique,
                                   6                               artistiquement},
                         5 2                                       {artificier, artificiel, artifice},
                                                                   {artificiellement},
                     1                                             {artillerie, artilleur},
                                  4     7
             3                                                     {art}}

                                                                   Comparer les partitions !
                                                                   (indice de Rand, Rand corrigé)

Partition manuelle : Pm = {{artificier, artifice, artificiel, artificiellement}, {artillerie, artilleur},
{artisan, artisanal, artisanalement, artisanat}, {artiste, artistique, artistiquement, art}}
                                                             Gala, Hathout, Nasr, Rey, Seppälä, TALN'11
Protocole d'évaluation
   Idée :
   • Construire une représentation arborée des mots de la famille
   • Découper les k arêtes les plus longues de l'arbre pour obtenir Pk
   • La partition obtenue est-elle proche de la partition “manuelle” ?


                                                                   Partition automatique :
                                                                   P7 = {{artisan, artisanat,
                                                                   artisanal, artisanalement},
                                                                   {artiste, artistique,
                                                                   artistiquement},
                                                                   {artificier, artificiel, artifice},
                                                                   {artificiellement},
                                                                   {artillerie, artilleur},
                                                                   {art}}

                                                                   Comparer les partitions !
                                                                   (indice de Rand, Rand corrigé)

Partition manuelle : Pm = {{artificier, artifice, artificiel, artificiellement}, {artillerie, artilleur},
{artisan, artisanal, artisanalement, artisanat}, {artiste, artistique, artistiquement, art}}
                                                            Gala, Hathout, Nasr, Rey, Seppälä, TALN'11
Protocole d'évaluation
   Idée :
   • Construire une représentation arborée des mots de la famille
   • Découper les k arêtes les plus longues de l'arbre pour obtenir Pk
   • La partition obtenue est-elle proche de la partition “manuelle” ?


                                                                   Partition automatique :
                                                                   P7 = {{artisan, artisanat,
                                                                   artisanal, artisanalement},
                                                                   {artiste, artistique,
                                                                   artistiquement},
                                                                   {artificier, artificiel, artifice},
                                                                   {artificiellement},
                                                                   {artillerie, artilleur},
                                                                   {art}}

                                                                   rand(Pm,P7) = 0.934
                                                                   aRand(Pm,P7) = 0.774

Partition manuelle : Pm = {{artificier, artifice, artificiel, artificiellement}, {artillerie, artilleur},
{artisan, artisanal, artisanalement, artisanat}, {artiste, artistique, artistiquement, art}}
                                                            Gala, Hathout, Nasr, Rey, Seppälä, TALN'11
Protocole d'évaluation
   Idée :
   • Construire une représentation arborée des mots de la famille
   • Découper les k arêtes les plus longues de l'arbre pour obtenir Pk
   • La partition obtenue est-elle proche de la partition “manuelle” ?


                                                                   Partition automatique :
                                                                   P4 = {{artisan, artisanat,
                                                                   artisanal, artisanalement},
                                                                   {artiste, artistique,
                                                                   artistiquement},
                                                                   {artificier, artificiel, artifice,
                                                                   artificiellement},
                                                                   {artillerie, artilleur},
                                                                   {art}}

                                                                   rand(Pm,P4) = 0.967
                                                                   aRand(Pm,P4) = 0.894

Partition manuelle : Pm = {{artificier, artifice, artificiel, artificiellement}, {artillerie, artilleur},
{artisan, artisanal, artisanalement, artisanat}, {artiste, artistique, artistiquement, art}}
                                                            Gala, Hathout, Nasr, Rey, Seppälä, TALN'11
Protocole d'évaluation
 ensemble de mots                cooccurrence dans le TLFI
                                 + affixes communs
                      matrice de distances                      méthodes NJ, UPGMA
                                                             arbre



                            formule 1     formule 2    formule 3
                         triples        length      quartets                 réévaluation des
                                         Ratio                             longueurs d'arêtes

                            arbre 1           arbre 2        arbre 3
                                                                         découpage de l'arbre
                                                                         par longueur d'arête
                                                                                 décroissante
 partition manuelle       partition 1        partition 2   partition 3
                                                                           comparaison de la
                                                                           meilleure partition
                                                                           parmi P0, P1, P2...
                            score 1           score 2        score 3
Plan

• Analyses et nuages arborés
• Interprétation visuelle
• Formules de longueurs d'arêtes
• Protocole d'évaluation
• Résultats
• Visualisations
• Perspectives
Scores de chaque formule
                                                            triples
 1,2
                                                            lengthRatio
                                                            computedLength
   1
                                                            agreementPairs
                                                            quartets
 0,8

 0,6

 0,4

 0,2

   0
       arbre   art   boule carte corde dent    dict   fil    fus   lune meuble mode onde paille penser pot presse ten   terre   val moyenne
        Score Rand de la meilleure partition trouvée automatiquement

  1
                              triples
 0,9                          lengthRatio
 0,8                          computedLength
 0,7                          agreementPairs
                              quartets
 0,6
 0,5
 0,4
 0,3
 0,2
 0,1
  0
       arbre   art   boule carte corde dent    dict   fil    fus   lune meuble mode onde paille penser pot presse ten   terre   val moyenne

        Score Rand corrigé de la meilleure partition trouvée automatiquement
Scores de chaque formule
                                                            triples
 1,2
                                                            lengthRatio
                                                            computedLength
   1
                                                            agreementPairs
                                                            quartets
 0,8

 0,6

 0,4

 0,2

   0
       arbre   art   boule carte corde dent    dict   fil    fus   lune meuble mode onde paille penser pot presse ten   terre   val moyenne
        Score Rand de la meilleure partition trouvée automatiquement

  1
                              triples
                                                             meilleures performances
 0,9                          lengthRatio                    par triples et lengthRatio
 0,8                          computedLength
 0,7                          agreementPairs
                              quartets
 0,6
 0,5
 0,4
 0,3
 0,2
 0,1
  0
       arbre   art   boule carte corde dent    dict   fil    fus   lune meuble mode onde paille penser pot presse ten   terre   val moyenne

        Score Rand corrigé de la meilleure partition trouvée automatiquement
Scores de chaque formule
 Les formules de longueur d'arête sont-elles cohérentes ?
Scores de chaque formule
 Les formules de longueur d'arête sont-elles cohérentes ?

       1
triples
     0,9

    0,8

    0,7

    0,6

    0,5

    0,4

    0,3

    0,2

    0,1

      0
           0      0,5          1           1,5          2          2,5          3
                                                                           computedLength

   Longueur selon la formule triples en fonction de la longueur originale de l'arête
   pour l'arbre de la famille de art
Scores de chaque formule
 Les formules de longueur d'arête sont-elles cohérentes ?

       1
triples
     0,9

    0,8

    0,7

    0,6

    0,5

    0,4

    0,3

    0,2                   arêtes externes (trop longues)
    0,1

      0
           0      0,5          1           1,5          2          2,5          3
                                                                           computedLength

   Longueur selon la formule triples en fonction de la longueur originale de l'arête
   pour l'arbre de la famille de art
Scores de chaque formule
 Les formules de longueur d'arête sont-elles cohérentes ?

       1
triples        classes de mots les plus fiables
     0,9

    0,8

    0,7

    0,6

    0,5

    0,4        classes de
    0,3
               mots les
               moins fiables    arêtes externes (trop longues)
    0,2

    0,1

      0
           0            0,5          1            1,5     2        2,5          3
                                                                           computedLength

   Longueur selon la formule triples en fonction de la longueur originale de l'arête
   pour l'arbre de la famille de art
Scores de chaque formule
     Les formules de longueur d'arête sont-elles cohérentes ?

       1,35         coefficient de corrélation :
lengthRatio                    0.865
        1,3


       1,25


        1,2


       1,15


        1,1


       1,05


          1


       0,95


        0,9
              0,3         0,4        0,5           0,6   0,7         0,8          0,9
                                                                                triples

   Longueur selon la formule lengthRatio en fonction de celle selon la formule triples
   pour l'arbre de la famille de art
Scores de chaque formule
     Les formules de longueur d'arête sont-elles cohérentes ?

       1,35         coefficient de corrélation :
lengthRatio
        1,3
                               0.865                     arêtes internes
       1,25                    arêtes internes
                         généralement plus longues :
        1,2
                          bonne lisibilité de l'arbre
       1,15


        1,1


       1,05


          1

                     arêtes externes
       0,95


        0,9
              0,3         0,4        0,5           0,6     0,7       0,8          0,9
                                                                                triples

   Longueur selon la formule lengthRatio en fonction de celle selon la formule triples
   pour l'arbre de la famille de art
Scores de chaque formule
     Les formules de longueur d'arête sont-elles cohérentes ?

       1,35         coefficient de corrélation :
lengthRatio
        1,3
                               0.865                        arêtes internes
       1,25                    arêtes internes
                         généralement plus longues :
        1,2
                          bonne lisibilité de l'arbre
       1,15


        1,1


       1,05


          1                                              écart-type deux fois plus
                     arêtes externes                        grand pour triples
       0,95
                                                          0.166 au lieu de 0.084
        0,9
              0,3         0,4        0,5           0,6         0,7        0,8          0,9
                                                                                     triples

   Longueur selon la formule lengthRatio en fonction de celle selon la formule triples
   pour l'arbre de la famille de art
Plan

• Analyses et nuages arborés
• Interprétation visuelle
• Formules de longueurs d'arêtes
• Protocole d'évaluation
• Résultats
• Visualisations
• Perspectives
Visualisations
arbre original computedLength
                                   arbre avec longueurs d'arêtes triples




                                arbre avec longueurs d'arêtes
                                lengthRatio
Visualisations
arbre original computedLength
                                         arbre avec longueurs d'arêtes triples




                      variance trop faible des
                      longueurs d'arêtes !
                                      arbre avec longueurs d'arêtes
                                      lengthRatio
Visualisations
arbre original computedLength
                                   arbre avec longueurs d'arêtes triples




                                arbre avec longueurs d'arêtes
                                lengthRatio
Plan

• Analyses et nuages arborés
• Interprétation visuelle
• Formules de longueurs d'arêtes
• Protocole d'évaluation
• Résultats
• Visualisations
• Perspectives
Perspectives

  • intégration des données de JeuxDeMots        dans le protocole, et plus
  généralement en textométrie
       • réseau de plus de 200 000 mots et 1 200 000 liens pondérés
       • cooccurrences dans la production spontanée de mots par rapport à
       un mot cible
       • cohérence avec les distances de cooccurrence calculées à partir
       d'un texte ?
                                                          Lafourcade, JADT'08

  • intégration de la visualisation en nuages arborés avec longueurs de
  branches post-calculées :
       • dans les outils de textométrie existants
       • par des interfaces d'import/export adaptées
       • pour faciliter le retour au texte
Questions ?




 Merci pour votre attention !




                                http://www.treecloud.org
Analyses arborées

  Rapprochement des mots d'un texte selon leur degré de
  cooccurrence dans le texte
  Constellation du mot “nuit” dans la base EXEMPLEM
  (22 romans de 11 auteurs, lemmatisés)            TEMPS 2




                                                              CHAMBRE À COUCHER




               L'ATMOSPHÈRE

                                                        TEMPS 1




                              Barthelémy & Luong, Statistique et Analyse des Données, 1986
Hyperbase                                                                  Brunet, JADT'08
Analyses arborées

  Rapprochement des mots d'un texte selon leur degré de
  cooccurrence dans le texte
  Constellation du mot “nuit” dans la base EXEMPLEM
  (22 romans de 11 auteurs, lemmatisés)            TEMPS 2




                                                              CHAMBRE À COUCHER




               L'ATMOSPHÈRE

                                                        TEMPS 1




                              Barthelémy & Luong, Statistique et Analyse des Données, 1986
Hyperbase                                                                  Brunet, JADT'08
Ultramétriques, centre d'un arbre




                                arbre “sans centre” (feuilles
                                à gauche plus éloignées de
                                ce point que celles à droit)
         “centre” de l'arbre

Mais conteúdo relacionado

Mais de Philippe Gambette

Nuages arborés et analyse textuelle de corpus politiques avec TreeCloud
Nuages arborés et analyse textuelle de corpus politiques avec TreeCloudNuages arborés et analyse textuelle de corpus politiques avec TreeCloud
Nuages arborés et analyse textuelle de corpus politiques avec TreeCloudPhilippe Gambette
 
Nuages arborés et analyse textuelle - Présentation de l’outil TreeCloud
Nuages arborés et analyse textuelle - Présentation de l’outil TreeCloudNuages arborés et analyse textuelle - Présentation de l’outil TreeCloud
Nuages arborés et analyse textuelle - Présentation de l’outil TreeCloudPhilippe Gambette
 
Practical use of combinatorial methods for phylogenetic network reconstruction
Practical use of combinatorial methods for phylogenetic network reconstructionPractical use of combinatorial methods for phylogenetic network reconstruction
Practical use of combinatorial methods for phylogenetic network reconstructionPhilippe Gambette
 
Méthodes combinatoires de reconstruction de réseaux phylogénétiques
Méthodes combinatoires de reconstruction de réseaux phylogénétiquesMéthodes combinatoires de reconstruction de réseaux phylogénétiques
Méthodes combinatoires de reconstruction de réseaux phylogénétiquesPhilippe Gambette
 
Utilisation de la visualisation en nuage arboré pour l'analyse littéraire
Utilisation de la visualisation en nuage arboré pour l'analyse littéraireUtilisation de la visualisation en nuage arboré pour l'analyse littéraire
Utilisation de la visualisation en nuage arboré pour l'analyse littérairePhilippe Gambette
 
Codage des voisinages et parcours en largeur en temps O(n) des graphes d'inte...
Codage des voisinages et parcours en largeur en temps O(n) des graphes d'inte...Codage des voisinages et parcours en largeur en temps O(n) des graphes d'inte...
Codage des voisinages et parcours en largeur en temps O(n) des graphes d'inte...Philippe Gambette
 
Reconstruction combinatoire de réseaux phylogénétiques
Reconstruction combinatoire de réseaux phylogénétiquesReconstruction combinatoire de réseaux phylogénétiques
Reconstruction combinatoire de réseaux phylogénétiquesPhilippe Gambette
 
The Structure of Level-k Phylogenetic Networks
The Structure of Level-k Phylogenetic NetworksThe Structure of Level-k Phylogenetic Networks
The Structure of Level-k Phylogenetic NetworksPhilippe Gambette
 
Visualiser un texte par un nuage arboré
Visualiser un texte par un nuage arboréVisualiser un texte par un nuage arboré
Visualiser un texte par un nuage arboréPhilippe Gambette
 
Estimation du nombre de citations de papillotes et de blagues Carambar
Estimation du nombre de citations de papillotes et de blagues CarambarEstimation du nombre de citations de papillotes et de blagues Carambar
Estimation du nombre de citations de papillotes et de blagues CarambarPhilippe Gambette
 
On restrictions of balanced 2-interval graphs
On restrictions of balanced 2-interval graphsOn restrictions of balanced 2-interval graphs
On restrictions of balanced 2-interval graphsPhilippe Gambette
 
Visualising a text with a tree cloud
Visualising a text with a tree cloudVisualising a text with a tree cloud
Visualising a text with a tree cloudPhilippe Gambette
 

Mais de Philippe Gambette (12)

Nuages arborés et analyse textuelle de corpus politiques avec TreeCloud
Nuages arborés et analyse textuelle de corpus politiques avec TreeCloudNuages arborés et analyse textuelle de corpus politiques avec TreeCloud
Nuages arborés et analyse textuelle de corpus politiques avec TreeCloud
 
Nuages arborés et analyse textuelle - Présentation de l’outil TreeCloud
Nuages arborés et analyse textuelle - Présentation de l’outil TreeCloudNuages arborés et analyse textuelle - Présentation de l’outil TreeCloud
Nuages arborés et analyse textuelle - Présentation de l’outil TreeCloud
 
Practical use of combinatorial methods for phylogenetic network reconstruction
Practical use of combinatorial methods for phylogenetic network reconstructionPractical use of combinatorial methods for phylogenetic network reconstruction
Practical use of combinatorial methods for phylogenetic network reconstruction
 
Méthodes combinatoires de reconstruction de réseaux phylogénétiques
Méthodes combinatoires de reconstruction de réseaux phylogénétiquesMéthodes combinatoires de reconstruction de réseaux phylogénétiques
Méthodes combinatoires de reconstruction de réseaux phylogénétiques
 
Utilisation de la visualisation en nuage arboré pour l'analyse littéraire
Utilisation de la visualisation en nuage arboré pour l'analyse littéraireUtilisation de la visualisation en nuage arboré pour l'analyse littéraire
Utilisation de la visualisation en nuage arboré pour l'analyse littéraire
 
Codage des voisinages et parcours en largeur en temps O(n) des graphes d'inte...
Codage des voisinages et parcours en largeur en temps O(n) des graphes d'inte...Codage des voisinages et parcours en largeur en temps O(n) des graphes d'inte...
Codage des voisinages et parcours en largeur en temps O(n) des graphes d'inte...
 
Reconstruction combinatoire de réseaux phylogénétiques
Reconstruction combinatoire de réseaux phylogénétiquesReconstruction combinatoire de réseaux phylogénétiques
Reconstruction combinatoire de réseaux phylogénétiques
 
The Structure of Level-k Phylogenetic Networks
The Structure of Level-k Phylogenetic NetworksThe Structure of Level-k Phylogenetic Networks
The Structure of Level-k Phylogenetic Networks
 
Visualiser un texte par un nuage arboré
Visualiser un texte par un nuage arboréVisualiser un texte par un nuage arboré
Visualiser un texte par un nuage arboré
 
Estimation du nombre de citations de papillotes et de blagues Carambar
Estimation du nombre de citations de papillotes et de blagues CarambarEstimation du nombre de citations de papillotes et de blagues Carambar
Estimation du nombre de citations de papillotes et de blagues Carambar
 
On restrictions of balanced 2-interval graphs
On restrictions of balanced 2-interval graphsOn restrictions of balanced 2-interval graphs
On restrictions of balanced 2-interval graphs
 
Visualising a text with a tree cloud
Visualising a text with a tree cloudVisualising a text with a tree cloud
Visualising a text with a tree cloud
 

Último

le present des verbes reguliers -er.pptx
le present des verbes reguliers -er.pptxle present des verbes reguliers -er.pptx
le present des verbes reguliers -er.pptxmmatar2
 
Saint Georges, martyr, et la lègend du dragon.pptx
Saint Georges, martyr, et la lègend du dragon.pptxSaint Georges, martyr, et la lègend du dragon.pptx
Saint Georges, martyr, et la lègend du dragon.pptxMartin M Flynn
 
Bibdoc 2024 - Les maillons de la chaine du livre face aux enjeux écologiques.pdf
Bibdoc 2024 - Les maillons de la chaine du livre face aux enjeux écologiques.pdfBibdoc 2024 - Les maillons de la chaine du livre face aux enjeux écologiques.pdf
Bibdoc 2024 - Les maillons de la chaine du livre face aux enjeux écologiques.pdfBibdoc 37
 
SciencesPo_Aix_InnovationPédagogique_Atelier_EtudiantActeur.pdf
SciencesPo_Aix_InnovationPédagogique_Atelier_EtudiantActeur.pdfSciencesPo_Aix_InnovationPédagogique_Atelier_EtudiantActeur.pdf
SciencesPo_Aix_InnovationPédagogique_Atelier_EtudiantActeur.pdfSKennel
 
Bibdoc 2024 - Ecologie du livre et creation de badge.pdf
Bibdoc 2024 - Ecologie du livre et creation de badge.pdfBibdoc 2024 - Ecologie du livre et creation de badge.pdf
Bibdoc 2024 - Ecologie du livre et creation de badge.pdfBibdoc 37
 
Zotero avancé - support de formation doctorants SHS 2024
Zotero avancé - support de formation doctorants SHS 2024Zotero avancé - support de formation doctorants SHS 2024
Zotero avancé - support de formation doctorants SHS 2024Alain Marois
 
Annie Ernaux Extérieurs. pptx. Exposition basée sur un livre .
Annie   Ernaux  Extérieurs. pptx. Exposition basée sur un livre .Annie   Ernaux  Extérieurs. pptx. Exposition basée sur un livre .
Annie Ernaux Extérieurs. pptx. Exposition basée sur un livre .Txaruka
 
LA MONTÉE DE L'ÉDUCATION DANS LE MONDE DE LA PRÉHISTOIRE À L'ÈRE CONTEMPORAIN...
LA MONTÉE DE L'ÉDUCATION DANS LE MONDE DE LA PRÉHISTOIRE À L'ÈRE CONTEMPORAIN...LA MONTÉE DE L'ÉDUCATION DANS LE MONDE DE LA PRÉHISTOIRE À L'ÈRE CONTEMPORAIN...
LA MONTÉE DE L'ÉDUCATION DANS LE MONDE DE LA PRÉHISTOIRE À L'ÈRE CONTEMPORAIN...Faga1939
 
Cours SE Gestion des périphériques - IG IPSET
Cours SE Gestion des périphériques - IG IPSETCours SE Gestion des périphériques - IG IPSET
Cours SE Gestion des périphériques - IG IPSETMedBechir
 
SciencesPo_Aix_InnovationPédagogique_Atelier_IA.pdf
SciencesPo_Aix_InnovationPédagogique_Atelier_IA.pdfSciencesPo_Aix_InnovationPédagogique_Atelier_IA.pdf
SciencesPo_Aix_InnovationPédagogique_Atelier_IA.pdfSKennel
 
SciencesPo_Aix_InnovationPédagogique_Atelier_FormationRecherche.pdf
SciencesPo_Aix_InnovationPédagogique_Atelier_FormationRecherche.pdfSciencesPo_Aix_InnovationPédagogique_Atelier_FormationRecherche.pdf
SciencesPo_Aix_InnovationPédagogique_Atelier_FormationRecherche.pdfSKennel
 
Cours SE Le système Linux : La ligne de commande bash - IG IPSET
Cours SE Le système Linux : La ligne de commande bash - IG IPSETCours SE Le système Linux : La ligne de commande bash - IG IPSET
Cours SE Le système Linux : La ligne de commande bash - IG IPSETMedBechir
 
Evaluation du systeme d'Education. Marocpptx
Evaluation du systeme d'Education. MarocpptxEvaluation du systeme d'Education. Marocpptx
Evaluation du systeme d'Education. MarocpptxAsmaa105193
 
Bernard Réquichot.pptx Peintre français
Bernard Réquichot.pptx   Peintre françaisBernard Réquichot.pptx   Peintre français
Bernard Réquichot.pptx Peintre françaisTxaruka
 
SciencesPo_Aix_InnovationPédagogique_Conférence_SK.pdf
SciencesPo_Aix_InnovationPédagogique_Conférence_SK.pdfSciencesPo_Aix_InnovationPédagogique_Conférence_SK.pdf
SciencesPo_Aix_InnovationPédagogique_Conférence_SK.pdfSKennel
 
Présentation_ Didactique 1_SVT (S4) complet.pptx
Présentation_ Didactique 1_SVT (S4) complet.pptxPrésentation_ Didactique 1_SVT (S4) complet.pptx
Présentation_ Didactique 1_SVT (S4) complet.pptxrababouerdighi
 
Presentation de la plateforme Moodle - avril 2024
Presentation de la plateforme Moodle - avril 2024Presentation de la plateforme Moodle - avril 2024
Presentation de la plateforme Moodle - avril 2024Gilles Le Page
 
SciencesPo_Aix_InnovationPédagogique_Bilan.pdf
SciencesPo_Aix_InnovationPédagogique_Bilan.pdfSciencesPo_Aix_InnovationPédagogique_Bilan.pdf
SciencesPo_Aix_InnovationPédagogique_Bilan.pdfSKennel
 
Principe de fonctionnement d'un moteur 4 temps
Principe de fonctionnement d'un moteur 4 tempsPrincipe de fonctionnement d'un moteur 4 temps
Principe de fonctionnement d'un moteur 4 tempsRajiAbdelghani
 

Último (20)

le present des verbes reguliers -er.pptx
le present des verbes reguliers -er.pptxle present des verbes reguliers -er.pptx
le present des verbes reguliers -er.pptx
 
Saint Georges, martyr, et la lègend du dragon.pptx
Saint Georges, martyr, et la lègend du dragon.pptxSaint Georges, martyr, et la lègend du dragon.pptx
Saint Georges, martyr, et la lègend du dragon.pptx
 
Bibdoc 2024 - Les maillons de la chaine du livre face aux enjeux écologiques.pdf
Bibdoc 2024 - Les maillons de la chaine du livre face aux enjeux écologiques.pdfBibdoc 2024 - Les maillons de la chaine du livre face aux enjeux écologiques.pdf
Bibdoc 2024 - Les maillons de la chaine du livre face aux enjeux écologiques.pdf
 
SciencesPo_Aix_InnovationPédagogique_Atelier_EtudiantActeur.pdf
SciencesPo_Aix_InnovationPédagogique_Atelier_EtudiantActeur.pdfSciencesPo_Aix_InnovationPédagogique_Atelier_EtudiantActeur.pdf
SciencesPo_Aix_InnovationPédagogique_Atelier_EtudiantActeur.pdf
 
Bibdoc 2024 - Ecologie du livre et creation de badge.pdf
Bibdoc 2024 - Ecologie du livre et creation de badge.pdfBibdoc 2024 - Ecologie du livre et creation de badge.pdf
Bibdoc 2024 - Ecologie du livre et creation de badge.pdf
 
DO PALÁCIO À ASSEMBLEIA .
DO PALÁCIO À ASSEMBLEIA                 .DO PALÁCIO À ASSEMBLEIA                 .
DO PALÁCIO À ASSEMBLEIA .
 
Zotero avancé - support de formation doctorants SHS 2024
Zotero avancé - support de formation doctorants SHS 2024Zotero avancé - support de formation doctorants SHS 2024
Zotero avancé - support de formation doctorants SHS 2024
 
Annie Ernaux Extérieurs. pptx. Exposition basée sur un livre .
Annie   Ernaux  Extérieurs. pptx. Exposition basée sur un livre .Annie   Ernaux  Extérieurs. pptx. Exposition basée sur un livre .
Annie Ernaux Extérieurs. pptx. Exposition basée sur un livre .
 
LA MONTÉE DE L'ÉDUCATION DANS LE MONDE DE LA PRÉHISTOIRE À L'ÈRE CONTEMPORAIN...
LA MONTÉE DE L'ÉDUCATION DANS LE MONDE DE LA PRÉHISTOIRE À L'ÈRE CONTEMPORAIN...LA MONTÉE DE L'ÉDUCATION DANS LE MONDE DE LA PRÉHISTOIRE À L'ÈRE CONTEMPORAIN...
LA MONTÉE DE L'ÉDUCATION DANS LE MONDE DE LA PRÉHISTOIRE À L'ÈRE CONTEMPORAIN...
 
Cours SE Gestion des périphériques - IG IPSET
Cours SE Gestion des périphériques - IG IPSETCours SE Gestion des périphériques - IG IPSET
Cours SE Gestion des périphériques - IG IPSET
 
SciencesPo_Aix_InnovationPédagogique_Atelier_IA.pdf
SciencesPo_Aix_InnovationPédagogique_Atelier_IA.pdfSciencesPo_Aix_InnovationPédagogique_Atelier_IA.pdf
SciencesPo_Aix_InnovationPédagogique_Atelier_IA.pdf
 
SciencesPo_Aix_InnovationPédagogique_Atelier_FormationRecherche.pdf
SciencesPo_Aix_InnovationPédagogique_Atelier_FormationRecherche.pdfSciencesPo_Aix_InnovationPédagogique_Atelier_FormationRecherche.pdf
SciencesPo_Aix_InnovationPédagogique_Atelier_FormationRecherche.pdf
 
Cours SE Le système Linux : La ligne de commande bash - IG IPSET
Cours SE Le système Linux : La ligne de commande bash - IG IPSETCours SE Le système Linux : La ligne de commande bash - IG IPSET
Cours SE Le système Linux : La ligne de commande bash - IG IPSET
 
Evaluation du systeme d'Education. Marocpptx
Evaluation du systeme d'Education. MarocpptxEvaluation du systeme d'Education. Marocpptx
Evaluation du systeme d'Education. Marocpptx
 
Bernard Réquichot.pptx Peintre français
Bernard Réquichot.pptx   Peintre françaisBernard Réquichot.pptx   Peintre français
Bernard Réquichot.pptx Peintre français
 
SciencesPo_Aix_InnovationPédagogique_Conférence_SK.pdf
SciencesPo_Aix_InnovationPédagogique_Conférence_SK.pdfSciencesPo_Aix_InnovationPédagogique_Conférence_SK.pdf
SciencesPo_Aix_InnovationPédagogique_Conférence_SK.pdf
 
Présentation_ Didactique 1_SVT (S4) complet.pptx
Présentation_ Didactique 1_SVT (S4) complet.pptxPrésentation_ Didactique 1_SVT (S4) complet.pptx
Présentation_ Didactique 1_SVT (S4) complet.pptx
 
Presentation de la plateforme Moodle - avril 2024
Presentation de la plateforme Moodle - avril 2024Presentation de la plateforme Moodle - avril 2024
Presentation de la plateforme Moodle - avril 2024
 
SciencesPo_Aix_InnovationPédagogique_Bilan.pdf
SciencesPo_Aix_InnovationPédagogique_Bilan.pdfSciencesPo_Aix_InnovationPédagogique_Bilan.pdf
SciencesPo_Aix_InnovationPédagogique_Bilan.pdf
 
Principe de fonctionnement d'un moteur 4 temps
Principe de fonctionnement d'un moteur 4 tempsPrincipe de fonctionnement d'un moteur 4 temps
Principe de fonctionnement d'un moteur 4 temps
 

Longueur de branches et arbres de mots

  • 1. Colloque Cooccurrence 2012 09/02/2012 - Besançon Longueur de branches et arbres de mots Philippe Gambette, Nuria Gala, Alexis Nasr, Alain Guénoche LIGM LIF IML Université Paris-Est Université Aix-Marseille CNRS Marne-la-Vallée
  • 2. Plan • Analyses et nuages arborés • Interprétation visuelle • Formules de longueurs d'arêtes • Protocole d'évaluation • Résultats • Visualisations • Perspectives
  • 3. Plan • Analyses et nuages arborés • Interprétation visuelle • Formules de longueurs d'arêtes • Protocole d'évaluation • Résultats • Visualisations • Perspectives
  • 4. Analyses arborées Rapprochement des mots d'un texte selon leur degré de cooccurrence dans le texte Constellation du mot “nuit” dans la base EXEMPLEM (22 romans de 11 auteurs, lemmatisés) TEMPS 2 CHAMBRE À COUCHER L'ATMOSPHÈRE TEMPS 1 Barthelémy & Luong, Statistique et Analyse des Données, 1986 Hyperbase Brunet, JADT'08
  • 5. Nuage arboré, une information double occurrences cooccurrences Discours inaugural de Barack Obama construit avec SplitsTree : Huson & Bryant, Bioinformatics, 2006 TreeCloud : Gambette & Véronis, IFCS'09
  • 6. Plan • Analyses et nuages arborés • Interprétation visuelle • Formules de longueurs d'arêtes • Protocole d'évaluation • Résultats • Visualisations • Perspectives
  • 7. Interprétation réelle Les distances dans l'arbre entre deux mots reflètent au mieux le degré de cooccurrence entre ces deux mots
  • 8. Interprétation réelle Problème 1 : difficiles à lire Les distances dans l'arbre entre deux mots reflètent au mieux le degré de cooccurrence entre ces deux mots
  • 9. Interprétation réelle Problème 1 : Problème 2 : difficiles à lire peu fiables Les distances dans l'arbre entre deux mots reflètent au mieux le degré de cooccurrence entre ces deux mots
  • 10. Interprétation réelle Optimisation globale, pas de garanties locales de qualité Problème 1 : Problème 2 : difficiles à lire peu fiables Les distances dans l'arbre entre deux mots reflètent au mieux le degré de cooccurrence entre ces deux mots
  • 11. Interprétation pratique arbre de distances utilisé comme classification
  • 12. Interprétation pratique arbre de distances utilisé comme classification Les mots d'un même sous-arbre bien séparé du reste de l'arbre constituent une classe de mots
  • 13. Interprétation pratique arbre de distances utilisé comme classification Les mots d'un même sous-arbre bien séparé du reste de l'arbre constituent une classe de mots
  • 14. Interprétation pratique arbre de distances utilisé comme classification Problème : toujours peu lisible (longueur des arêtes externes) et peu fiable Les mots d'un même sous-arbre bien séparé du reste de l'arbre constituent une classe de mots
  • 15. Interprétation pratique Astuce de visualisation pour améliorer la lisibilité : longueur unitaire des arêtes Nuages arborés globaux des 60 mots les plus fréquents dans Cinna et Othon (distance Liddell, fenêtre de largeur 20), colorés chronologiquement (rouge au début, bleu à la fin) Amstutz & Gambette, JADT'10
  • 16. Interprétation pratique Astuce de visualisation pour améliorer la lisibilité : longueur unitaire des arêtes, MAIS... encore moins fiable ! retour au texte nécessaire, fausses pistes Nuages arborés globaux des 60 mots les plus fréquents dans Cinna et Othon (distance Liddell, fenêtre de largeur 20), colorés chronologiquement (rouge au début, bleu à la fin) Amstutz & Gambette, JADT'10
  • 17. Interprétation pratique Problème : Comment calculer les longueurs des arêtes de l'arbre pour une interprétation fiable des classes ? Arête longue = classe de mots significative (proches les uns des autres, bien séparés du reste) Arête courte = classe de mots peu significative
  • 18. Plan • Analyses et nuages arborés • Interprétation visuelle • Formules de longueurs d'arêtes • Protocole d'évaluation • Résultats • Visualisations • Perspectives
  • 19. Formules de longueurs d'arêtes Post-calcul des longueurs d'arêtes après la construction de l'arbre, pour que : arêtes les plus longues ↔ classes de mots les plus significatives ↔ classes de mots bien séparées d'après la distance de cooccurrence
  • 20. Formules de longueurs d'arêtes Post-calcul des longueurs d'arêtes après la construction de l'arbre, pour que : arêtes les plus longues ↔ classes de mots les plus significatives ↔ classes de mots bien séparées d'après la distance de cooccurrence Formule du ratio des bons triplets (“triples”) : Si mot1 et mot2 d'un côté de l'arête, mot3 de l'autre côté, “bon triplet” si distance(mot1,mot2) < min(distance(mot1,mot3), mot1 distance(mot2,mot3)) mot3 ratio espéré proche de 1 mot2 Guénoche & Garreta, IFCS'02
  • 21. Formules de longueurs d'arêtes Post-calcul des longueurs d'arêtes après la construction de l'arbre, pour que : arêtes les plus longues ↔ classes de mots les plus significatives ↔ classes de mots bien séparées d'après la distance de cooccurrence Formule du ratio des distances moyennes (“distanceRatio”) : moyenne(distances inter-classes) moyenne(distances intra-classes) ratio espéré supérieur à 1 Guénoche & Garreta, IFCS'02
  • 22. Formules de longueurs d'arêtes Post-calcul des longueurs d'arêtes après la construction de l'arbre, pour que : arêtes les plus longues ↔ classes de mots les plus significatives ↔ classes de mots bien séparées d'après la distance de cooccurrence Formule du ratio des bons quadruplets (“quartets”) : Si mot1 et mot2 d'un côté de l'arête, mot3 et mot4 de l'autre côté, “bon quadruplet” si mot4 distance(mot1,mot2) + distance(mot2,mot3) < mot1 min(distance(mot1,mot3) + distance(mot2,mot4) +, mot3 distance(mot1,mot4) + distance(mot2,mot3)) mot2 ratio espéré proche de 1 Guénoche & Garreta, IFCS'02
  • 23. Plan • Analyses et nuages arborés • Interprétation visuelle • Formules de longueurs d'arêtes • Protocole d'évaluation • Résultats • Visualisations • Perspectives
  • 24. Protocole d'évaluation Post-calcul des longueurs d'arêtes après la construction de l'arbre, puis : Vérification que les classes de mots les mieux séparées (d'après ces longueurs) sont significatives
  • 25. Protocole d'évaluation Post-calcul des longueurs d'arêtes après la construction de l'arbre, puis : Vérification que les classes de mots Partition obtenue en découpant les les mieux séparées (d'après ces arêtes les plus longues comparée longueurs) sont significatives avec une partition de référence
  • 26. Protocole d'évaluation Post-calcul des longueurs d'arêtes après la construction de l'arbre, puis : Vérification que les classes de mots Partition obtenue en découpant les les mieux séparées (d'après ces arêtes les plus longues comparée longueurs) sont significatives avec une partition de référence quelles données ?
  • 27. Protocole d'évaluation Base de données Polymots Base lexicale de familles morpho-phonologiques 20 000 mots, 2000 familles http://polymots.lif.univ-mrs.fr Gala & Rey, TALN'08
  • 28. Protocole d'évaluation Base de données Polymots Base lexicale de familles morpho-phonologiques 20 000 mots, 2000 familles + partitions sémantiques des familles de 20 mots (arbre, art, boule, carte, corde, dent, dict, fil, fusée, lune, meuble, mode, onde, paille, penser, pot, presse, tenir, terre, val). Gala, Hathout, Nasr, Rey, Seppälä, TALN'11
  • 29. Protocole d'évaluation Base de données Polymots Base lexicale de familles morpho-phonologiques 20 000 mots, 2000 familles + partitions sémantiques des familles de 20 mots (arbre, art, boule, carte, corde, dent, dict, fil, fusée, lune, meuble, mode, onde, paille, penser, pot, presse, tenir, terre, val). Exemple pour la famille de art : { {artifice, artificiel, artificiellement, artificier}, {artillerie, artilleur}, {artisan, artisanal, artisanalement, artisanat}, {artiste, artistique, artistiquement, art} } Gala, Hathout, Nasr, Rey, Seppälä, TALN'11
  • 30. Protocole d'évaluation Idée : • Construire une représentation arborée des mots de la famille • Découper les k arêtes les plus longues de l'arbre pour obtenir Pk • La partition obtenue est-elle proche de la partition “manuelle” ? Gala, Hathout, Nasr, Rey, Seppälä, TALN'11
  • 31. Protocole d'évaluation Idée : • Construire une représentation arborée des mots de la famille • Découper les k arêtes les plus longues de l'arbre pour obtenir Pk • La partition obtenue est-elle proche de la partition “manuelle” ? Distance utilisée pour le calcul de la représentation arborée ? Distance composite entre : • nombre d'affixes communs • degré de cooccurrence dans Gala, Hathout, Nasr, Rey, Seppälä, TALN'11
  • 32. Protocole d'évaluation Idée : • Construire une représentation arborée des mots de la famille • Découper les k arêtes les plus longues de l'arbre pour obtenir Pk • La partition obtenue est-elle proche de la partition “manuelle” ? Partition automatique : P0 = {{artisan, artisanat, artisanal, artisanalement, artiste, artistique, artistiquement, artificier, artificiel, artifice, artificiellement, artillerie, artilleur, art}} Partition manuelle : Pm = {{artificier, artifice, artificiel, artificiellement}, {artillerie, artilleur}, {artisan, artisanal, artisanalement, artisanat}, {artiste, artistique, artistiquement, art}} Gala, Hathout, Nasr, Rey, Seppälä, TALN'11
  • 33. Protocole d'évaluation Idée : • Construire une représentation arborée des mots de la famille • Découper les k arêtes les plus longues de l'arbre pour obtenir Pk • La partition obtenue est-elle proche de la partition “manuelle” ? Partition automatique : P1 = {{artisan, artisanat, artisanal, artisanalement, artiste, artistique, artistiquement, artificier, artificiel, artifice, artificiellement}, 1 {artillerie, artilleur, art}} Partition manuelle : Pm = {{artificier, artifice, artificiel, artificiellement}, {artillerie, artilleur}, {artisan, artisanal, artisanalement, artisanat}, {artiste, artistique, artistiquement, art}} Gala, Hathout, Nasr, Rey, Seppälä, TALN'11
  • 34. Protocole d'évaluation Idée : • Construire une représentation arborée des mots de la famille • Découper les k arêtes les plus longues de l'arbre pour obtenir Pk • La partition obtenue est-elle proche de la partition “manuelle” ? Partition automatique : P2 = {{artisan, artisanat, artisanal, artisanalement}, {artiste, artistique, artistiquement, artificier, 2 artificiel, artifice, artificiellement}, 1 {artillerie, artilleur, art}} Partition manuelle : Pm = {{artificier, artifice, artificiel, artificiellement}, {artillerie, artilleur}, {artisan, artisanal, artisanalement, artisanat}, {artiste, artistique, artistiquement, art}} Gala, Hathout, Nasr, Rey, Seppälä, TALN'11
  • 35. Protocole d'évaluation Idée : • Construire une représentation arborée des mots de la famille • Découper les k arêtes les plus longues de l'arbre pour obtenir Pk • La partition obtenue est-elle proche de la partition “manuelle” ? Partition automatique : P3 = {{artisan, artisanat, artisanal, artisanalement}, {artiste, artistique, artistiquement, artificier, 2 artificiel, artifice, artificiellement}, 1 {artillerie, artilleur}, 3 {art}} Partition manuelle : Pm = {{artificier, artifice, artificiel, artificiellement}, {artillerie, artilleur}, {artisan, artisanal, artisanalement, artisanat}, {artiste, artistique, artistiquement, art}} Gala, Hathout, Nasr, Rey, Seppälä, TALN'11
  • 36. Protocole d'évaluation Idée : • Construire une représentation arborée des mots de la famille • Découper les k arêtes les plus longues de l'arbre pour obtenir Pk • La partition obtenue est-elle proche de la partition “manuelle” ? Partition automatique : P4 = {{artisan, artisanat, artisanal, artisanalement}, {artiste, artistique, artistiquement}, 2 {artificier, artificiel, artifice, artificiellement}, 1 {artillerie, artilleur}, 4 3 {art}} Partition manuelle : Pm = {{artificier, artifice, artificiel, artificiellement}, {artillerie, artilleur}, {artisan, artisanal, artisanalement, artisanat}, {artiste, artistique, artistiquement, art}} Gala, Hathout, Nasr, Rey, Seppälä, TALN'11
  • 37. Protocole d'évaluation Idée : • Construire une représentation arborée des mots de la famille • Découper les k arêtes les plus longues de l'arbre pour obtenir Pk • La partition obtenue est-elle proche de la partition “manuelle” ? Partition automatique : P5 = {{artisan, artisanat, artisanal, artisanalement}, {artiste, artistique, artistiquement}, 5 2 {artificier, artificiel, artifice, artificiellement}, 1 {artillerie, artilleur}, 4 3 {art}} Partition manuelle : Pm = {{artificier, artifice, artificiel, artificiellement}, {artillerie, artilleur}, {artisan, artisanal, artisanalement, artisanat}, {artiste, artistique, artistiquement, art}} Gala, Hathout, Nasr, Rey, Seppälä, TALN'11
  • 38. Protocole d'évaluation Idée : • Construire une représentation arborée des mots de la famille • Découper les k arêtes les plus longues de l'arbre pour obtenir Pk • La partition obtenue est-elle proche de la partition “manuelle” ? Partition automatique : P6 = {{artisan, artisanat, artisanal, artisanalement}, {artiste, artistique, 6 artistiquement}, 5 2 {artificier, artificiel, artifice, artificiellement}, 1 {artillerie, artilleur}, 4 3 {art}} Partition manuelle : Pm = {{artificier, artifice, artificiel, artificiellement}, {artillerie, artilleur}, {artisan, artisanal, artisanalement, artisanat}, {artiste, artistique, artistiquement, art}} Gala, Hathout, Nasr, Rey, Seppälä, TALN'11
  • 39. Protocole d'évaluation Idée : • Construire une représentation arborée des mots de la famille • Découper les k arêtes les plus longues de l'arbre pour obtenir Pk • La partition obtenue est-elle proche de la partition “manuelle” ? Partition automatique : P7 = {{artisan, artisanat, artisanal, artisanalement}, {artiste, artistique, 6 artistiquement}, 5 2 {artificier, artificiel, artifice}, {artificiellement}, 1 {artillerie, artilleur}, 4 7 3 {art}} Partition manuelle : Pm = {{artificier, artifice, artificiel, artificiellement}, {artillerie, artilleur}, {artisan, artisanal, artisanalement, artisanat}, {artiste, artistique, artistiquement, art}} Gala, Hathout, Nasr, Rey, Seppälä, TALN'11
  • 40. Protocole d'évaluation Idée : • Construire une représentation arborée des mots de la famille • Découper les k arêtes les plus longues de l'arbre pour obtenir Pk • La partition obtenue est-elle proche de la partition “manuelle” ? Partition automatique : P7 = {{artisan, artisanat, artisanal, artisanalement}, {artiste, artistique, 6 artistiquement}, 5 2 {artificier, artificiel, artifice}, {artificiellement}, 1 {artillerie, artilleur}, 4 7 3 {art}} Partition manuelle : Pm = {{artificier, artifice, artificiel, artificiellement}, {artillerie, artilleur}, {artisan, artisanal, artisanalement, artisanat}, {artiste, artistique, artistiquement, art}} Gala, Hathout, Nasr, Rey, Seppälä, TALN'11
  • 41. Protocole d'évaluation Idée : • Construire une représentation arborée des mots de la famille • Découper les k arêtes les plus longues de l'arbre pour obtenir Pk • La partition obtenue est-elle proche de la partition “manuelle” ? Partition automatique : P7 = {{artisan, artisanat, artisanal, artisanalement}, {artiste, artistique, 6 artistiquement}, 5 2 {artificier, artificiel, artifice}, {artificiellement}, 1 {artillerie, artilleur}, 4 7 3 {art}} Comparer les partitions ! (indice de Rand, Rand corrigé) Partition manuelle : Pm = {{artificier, artifice, artificiel, artificiellement}, {artillerie, artilleur}, {artisan, artisanal, artisanalement, artisanat}, {artiste, artistique, artistiquement, art}} Gala, Hathout, Nasr, Rey, Seppälä, TALN'11
  • 42. Protocole d'évaluation Idée : • Construire une représentation arborée des mots de la famille • Découper les k arêtes les plus longues de l'arbre pour obtenir Pk • La partition obtenue est-elle proche de la partition “manuelle” ? Partition automatique : P7 = {{artisan, artisanat, artisanal, artisanalement}, {artiste, artistique, artistiquement}, {artificier, artificiel, artifice}, {artificiellement}, {artillerie, artilleur}, {art}} Comparer les partitions ! (indice de Rand, Rand corrigé) Partition manuelle : Pm = {{artificier, artifice, artificiel, artificiellement}, {artillerie, artilleur}, {artisan, artisanal, artisanalement, artisanat}, {artiste, artistique, artistiquement, art}} Gala, Hathout, Nasr, Rey, Seppälä, TALN'11
  • 43. Protocole d'évaluation Idée : • Construire une représentation arborée des mots de la famille • Découper les k arêtes les plus longues de l'arbre pour obtenir Pk • La partition obtenue est-elle proche de la partition “manuelle” ? Partition automatique : P7 = {{artisan, artisanat, artisanal, artisanalement}, {artiste, artistique, artistiquement}, {artificier, artificiel, artifice}, {artificiellement}, {artillerie, artilleur}, {art}} rand(Pm,P7) = 0.934 aRand(Pm,P7) = 0.774 Partition manuelle : Pm = {{artificier, artifice, artificiel, artificiellement}, {artillerie, artilleur}, {artisan, artisanal, artisanalement, artisanat}, {artiste, artistique, artistiquement, art}} Gala, Hathout, Nasr, Rey, Seppälä, TALN'11
  • 44. Protocole d'évaluation Idée : • Construire une représentation arborée des mots de la famille • Découper les k arêtes les plus longues de l'arbre pour obtenir Pk • La partition obtenue est-elle proche de la partition “manuelle” ? Partition automatique : P4 = {{artisan, artisanat, artisanal, artisanalement}, {artiste, artistique, artistiquement}, {artificier, artificiel, artifice, artificiellement}, {artillerie, artilleur}, {art}} rand(Pm,P4) = 0.967 aRand(Pm,P4) = 0.894 Partition manuelle : Pm = {{artificier, artifice, artificiel, artificiellement}, {artillerie, artilleur}, {artisan, artisanal, artisanalement, artisanat}, {artiste, artistique, artistiquement, art}} Gala, Hathout, Nasr, Rey, Seppälä, TALN'11
  • 45. Protocole d'évaluation ensemble de mots cooccurrence dans le TLFI + affixes communs matrice de distances méthodes NJ, UPGMA arbre formule 1 formule 2 formule 3 triples length quartets réévaluation des Ratio longueurs d'arêtes arbre 1 arbre 2 arbre 3 découpage de l'arbre par longueur d'arête décroissante partition manuelle partition 1 partition 2 partition 3 comparaison de la meilleure partition parmi P0, P1, P2... score 1 score 2 score 3
  • 46. Plan • Analyses et nuages arborés • Interprétation visuelle • Formules de longueurs d'arêtes • Protocole d'évaluation • Résultats • Visualisations • Perspectives
  • 47. Scores de chaque formule triples 1,2 lengthRatio computedLength 1 agreementPairs quartets 0,8 0,6 0,4 0,2 0 arbre art boule carte corde dent dict fil fus lune meuble mode onde paille penser pot presse ten terre val moyenne Score Rand de la meilleure partition trouvée automatiquement 1 triples 0,9 lengthRatio 0,8 computedLength 0,7 agreementPairs quartets 0,6 0,5 0,4 0,3 0,2 0,1 0 arbre art boule carte corde dent dict fil fus lune meuble mode onde paille penser pot presse ten terre val moyenne Score Rand corrigé de la meilleure partition trouvée automatiquement
  • 48. Scores de chaque formule triples 1,2 lengthRatio computedLength 1 agreementPairs quartets 0,8 0,6 0,4 0,2 0 arbre art boule carte corde dent dict fil fus lune meuble mode onde paille penser pot presse ten terre val moyenne Score Rand de la meilleure partition trouvée automatiquement 1 triples meilleures performances 0,9 lengthRatio par triples et lengthRatio 0,8 computedLength 0,7 agreementPairs quartets 0,6 0,5 0,4 0,3 0,2 0,1 0 arbre art boule carte corde dent dict fil fus lune meuble mode onde paille penser pot presse ten terre val moyenne Score Rand corrigé de la meilleure partition trouvée automatiquement
  • 49. Scores de chaque formule Les formules de longueur d'arête sont-elles cohérentes ?
  • 50. Scores de chaque formule Les formules de longueur d'arête sont-elles cohérentes ? 1 triples 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0 0 0,5 1 1,5 2 2,5 3 computedLength Longueur selon la formule triples en fonction de la longueur originale de l'arête pour l'arbre de la famille de art
  • 51. Scores de chaque formule Les formules de longueur d'arête sont-elles cohérentes ? 1 triples 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 arêtes externes (trop longues) 0,1 0 0 0,5 1 1,5 2 2,5 3 computedLength Longueur selon la formule triples en fonction de la longueur originale de l'arête pour l'arbre de la famille de art
  • 52. Scores de chaque formule Les formules de longueur d'arête sont-elles cohérentes ? 1 triples classes de mots les plus fiables 0,9 0,8 0,7 0,6 0,5 0,4 classes de 0,3 mots les moins fiables arêtes externes (trop longues) 0,2 0,1 0 0 0,5 1 1,5 2 2,5 3 computedLength Longueur selon la formule triples en fonction de la longueur originale de l'arête pour l'arbre de la famille de art
  • 53. Scores de chaque formule Les formules de longueur d'arête sont-elles cohérentes ? 1,35 coefficient de corrélation : lengthRatio 0.865 1,3 1,25 1,2 1,15 1,1 1,05 1 0,95 0,9 0,3 0,4 0,5 0,6 0,7 0,8 0,9 triples Longueur selon la formule lengthRatio en fonction de celle selon la formule triples pour l'arbre de la famille de art
  • 54. Scores de chaque formule Les formules de longueur d'arête sont-elles cohérentes ? 1,35 coefficient de corrélation : lengthRatio 1,3 0.865 arêtes internes 1,25 arêtes internes généralement plus longues : 1,2 bonne lisibilité de l'arbre 1,15 1,1 1,05 1 arêtes externes 0,95 0,9 0,3 0,4 0,5 0,6 0,7 0,8 0,9 triples Longueur selon la formule lengthRatio en fonction de celle selon la formule triples pour l'arbre de la famille de art
  • 55. Scores de chaque formule Les formules de longueur d'arête sont-elles cohérentes ? 1,35 coefficient de corrélation : lengthRatio 1,3 0.865 arêtes internes 1,25 arêtes internes généralement plus longues : 1,2 bonne lisibilité de l'arbre 1,15 1,1 1,05 1 écart-type deux fois plus arêtes externes grand pour triples 0,95 0.166 au lieu de 0.084 0,9 0,3 0,4 0,5 0,6 0,7 0,8 0,9 triples Longueur selon la formule lengthRatio en fonction de celle selon la formule triples pour l'arbre de la famille de art
  • 56. Plan • Analyses et nuages arborés • Interprétation visuelle • Formules de longueurs d'arêtes • Protocole d'évaluation • Résultats • Visualisations • Perspectives
  • 57. Visualisations arbre original computedLength arbre avec longueurs d'arêtes triples arbre avec longueurs d'arêtes lengthRatio
  • 58. Visualisations arbre original computedLength arbre avec longueurs d'arêtes triples variance trop faible des longueurs d'arêtes ! arbre avec longueurs d'arêtes lengthRatio
  • 59. Visualisations arbre original computedLength arbre avec longueurs d'arêtes triples arbre avec longueurs d'arêtes lengthRatio
  • 60. Plan • Analyses et nuages arborés • Interprétation visuelle • Formules de longueurs d'arêtes • Protocole d'évaluation • Résultats • Visualisations • Perspectives
  • 61. Perspectives • intégration des données de JeuxDeMots dans le protocole, et plus généralement en textométrie • réseau de plus de 200 000 mots et 1 200 000 liens pondérés • cooccurrences dans la production spontanée de mots par rapport à un mot cible • cohérence avec les distances de cooccurrence calculées à partir d'un texte ? Lafourcade, JADT'08 • intégration de la visualisation en nuages arborés avec longueurs de branches post-calculées : • dans les outils de textométrie existants • par des interfaces d'import/export adaptées • pour faciliter le retour au texte
  • 62. Questions ? Merci pour votre attention ! http://www.treecloud.org
  • 63. Analyses arborées Rapprochement des mots d'un texte selon leur degré de cooccurrence dans le texte Constellation du mot “nuit” dans la base EXEMPLEM (22 romans de 11 auteurs, lemmatisés) TEMPS 2 CHAMBRE À COUCHER L'ATMOSPHÈRE TEMPS 1 Barthelémy & Luong, Statistique et Analyse des Données, 1986 Hyperbase Brunet, JADT'08
  • 64. Analyses arborées Rapprochement des mots d'un texte selon leur degré de cooccurrence dans le texte Constellation du mot “nuit” dans la base EXEMPLEM (22 romans de 11 auteurs, lemmatisés) TEMPS 2 CHAMBRE À COUCHER L'ATMOSPHÈRE TEMPS 1 Barthelémy & Luong, Statistique et Analyse des Données, 1986 Hyperbase Brunet, JADT'08
  • 65. Ultramétriques, centre d'un arbre arbre “sans centre” (feuilles à gauche plus éloignées de ce point que celles à droit) “centre” de l'arbre