SlideShare uma empresa Scribd logo
1 de 65
Baixar para ler offline
Colloque Cooccurrence 2012
                     09/02/2012 - Besançon




Longueur de branches et arbres de mots

  Philippe Gambette, Nuria Gala, Alexis Nasr, Alain Guénoche
         LIGM                        LIF              IML
   Université Paris-Est   Université Aix-Marseille   CNRS
    Marne-la-Vallée
Plan

• Analyses et nuages arborés
• Interprétation visuelle
• Formules de longueurs d'arêtes
• Protocole d'évaluation
• Résultats
• Visualisations
• Perspectives
Plan

• Analyses et nuages arborés
• Interprétation visuelle
• Formules de longueurs d'arêtes
• Protocole d'évaluation
• Résultats
• Visualisations
• Perspectives
Analyses arborées

  Rapprochement des mots d'un texte selon leur degré de
  cooccurrence dans le texte
  Constellation du mot “nuit” dans la base EXEMPLEM
  (22 romans de 11 auteurs, lemmatisés)            TEMPS 2




                                                              CHAMBRE À COUCHER




               L'ATMOSPHÈRE

                                                        TEMPS 1




                              Barthelémy & Luong, Statistique et Analyse des Données, 1986
Hyperbase                                                                  Brunet, JADT'08
Nuage arboré, une information double




       occurrences



                         cooccurrences

                           Discours inaugural de Barack Obama
construit avec

                        SplitsTree : Huson & Bryant, Bioinformatics, 2006
                                 TreeCloud : Gambette & Véronis, IFCS'09
Plan

• Analyses et nuages arborés
• Interprétation visuelle
• Formules de longueurs d'arêtes
• Protocole d'évaluation
• Résultats
• Visualisations
• Perspectives
Interprétation réelle




 Les distances dans l'arbre entre deux mots reflètent au mieux
 le degré de cooccurrence entre ces deux mots
Interprétation réelle




 Problème 1 :
 difficiles à lire


 Les distances dans l'arbre entre deux mots reflètent au mieux
 le degré de cooccurrence entre ces deux mots
Interprétation réelle




 Problème 1 :                                       Problème 2 :
 difficiles à lire                                  peu fiables


 Les distances dans l'arbre entre deux mots reflètent au mieux
 le degré de cooccurrence entre ces deux mots
Interprétation réelle




                                                    Optimisation
                                                    globale, pas
                                                    de garanties
                                                    locales de
                                                    qualité
 Problème 1 :                                       Problème 2 :
 difficiles à lire                                  peu fiables


 Les distances dans l'arbre entre deux mots reflètent au mieux
 le degré de cooccurrence entre ces deux mots
Interprétation pratique
                          arbre de distances
                          utilisé comme
                          classification
Interprétation pratique
                                          arbre de distances
                                          utilisé comme
                                          classification




 Les mots d'un même sous-arbre bien séparé du reste de l'arbre
 constituent une classe de mots
Interprétation pratique
                                          arbre de distances
                                          utilisé comme
                                          classification




 Les mots d'un même sous-arbre bien séparé du reste de l'arbre
 constituent une classe de mots
Interprétation pratique
                                          arbre de distances
                                          utilisé comme
                                          classification




                                          Problème : toujours
                                          peu lisible (longueur
                                          des arêtes externes)
                                          et peu fiable
 Les mots d'un même sous-arbre bien séparé du reste de l'arbre
 constituent une classe de mots
Interprétation pratique
   Astuce de visualisation pour améliorer la lisibilité :
   longueur unitaire des arêtes




Nuages arborés globaux des 60 mots les plus fréquents dans Cinna et Othon (distance Liddell, fenêtre
de largeur 20), colorés chronologiquement (rouge au début, bleu à la fin)
                                                                        Amstutz & Gambette, JADT'10
Interprétation pratique
   Astuce de visualisation pour améliorer la lisibilité :
   longueur unitaire des arêtes, MAIS...
                        encore moins fiable !




                                     retour au texte
                                       nécessaire,
                                      fausses pistes
Nuages arborés globaux des 60 mots les plus fréquents dans Cinna et Othon (distance Liddell, fenêtre
de largeur 20), colorés chronologiquement (rouge au début, bleu à la fin)
                                                                        Amstutz & Gambette, JADT'10
Interprétation pratique

 Problème :

 Comment calculer les longueurs des arêtes de l'arbre pour une
 interprétation fiable des classes ?


 Arête longue = classe de mots significative (proches les uns des
 autres, bien séparés du reste)

 Arête courte = classe de mots peu significative
Plan

• Analyses et nuages arborés
• Interprétation visuelle
• Formules de longueurs d'arêtes
• Protocole d'évaluation
• Résultats
• Visualisations
• Perspectives
Formules de longueurs d'arêtes

 Post-calcul des longueurs d'arêtes après la construction de l'arbre,
 pour que :

 arêtes les plus longues ↔ classes de mots les plus significatives
                         ↔ classes de mots bien séparées
                            d'après la distance de cooccurrence
Formules de longueurs d'arêtes

 Post-calcul des longueurs d'arêtes après la construction de l'arbre,
 pour que :

 arêtes les plus longues ↔ classes de mots les plus significatives
                         ↔ classes de mots bien séparées
                            d'après la distance de cooccurrence


 Formule du ratio des bons triplets (“triples”) :

 Si mot1 et mot2 d'un côté de l'arête, mot3 de l'autre côté,
 “bon triplet” si
 distance(mot1,mot2) <
 min(distance(mot1,mot3),                  mot1
 distance(mot2,mot3))
                                                                            mot3

 ratio espéré proche de 1
                                           mot2
                                                         Guénoche & Garreta, IFCS'02
Formules de longueurs d'arêtes

 Post-calcul des longueurs d'arêtes après la construction de l'arbre,
 pour que :

 arêtes les plus longues ↔ classes de mots les plus significatives
                         ↔ classes de mots bien séparées
                            d'après la distance de cooccurrence


 Formule du ratio des distances moyennes (“distanceRatio”) :

 moyenne(distances inter-classes)
 moyenne(distances intra-classes)

 ratio espéré supérieur à 1




                                                         Guénoche & Garreta, IFCS'02
Formules de longueurs d'arêtes

 Post-calcul des longueurs d'arêtes après la construction de l'arbre,
 pour que :

 arêtes les plus longues ↔ classes de mots les plus significatives
                         ↔ classes de mots bien séparées
                            d'après la distance de cooccurrence


 Formule du ratio des bons quadruplets (“quartets”) :

 Si mot1 et mot2 d'un côté de l'arête, mot3 et mot4 de l'autre côté,
 “bon quadruplet” si                                                 mot4
 distance(mot1,mot2) +
 distance(mot2,mot3) <                    mot1
 min(distance(mot1,mot3) +
 distance(mot2,mot4) +,                                                     mot3
 distance(mot1,mot4) +
 distance(mot2,mot3))
                                          mot2
 ratio espéré proche de 1                                Guénoche & Garreta, IFCS'02
Plan

• Analyses et nuages arborés
• Interprétation visuelle
• Formules de longueurs d'arêtes
• Protocole d'évaluation
• Résultats
• Visualisations
• Perspectives
Protocole d'évaluation

 Post-calcul des longueurs d'arêtes après la construction de l'arbre, puis :

 Vérification que les classes de mots les mieux séparées
 (d'après ces longueurs) sont significatives
Protocole d'évaluation

 Post-calcul des longueurs d'arêtes après la construction de l'arbre, puis :



 Vérification que les classes de mots        Partition obtenue en découpant les
 les mieux séparées (d'après ces             arêtes les plus longues comparée
 longueurs) sont significatives              avec une partition de référence
Protocole d'évaluation

 Post-calcul des longueurs d'arêtes après la construction de l'arbre, puis :



 Vérification que les classes de mots        Partition obtenue en découpant les
 les mieux séparées (d'après ces             arêtes les plus longues comparée
 longueurs) sont significatives              avec une partition de référence

                                                             quelles
                                                            données ?
Protocole d'évaluation
  Base de données Polymots
  Base lexicale de familles morpho-phonologiques
  20 000 mots, 2000 familles




http://polymots.lif.univ-mrs.fr                    Gala & Rey, TALN'08
Protocole d'évaluation
 Base de données Polymots
 Base lexicale de familles morpho-phonologiques
 20 000 mots, 2000 familles

 + partitions sémantiques des familles de 20 mots
     (arbre, art, boule, carte, corde, dent, dict, fil, fusée, lune,
     meuble, mode, onde, paille, penser, pot, presse, tenir, terre, val).




                                               Gala, Hathout, Nasr, Rey, Seppälä, TALN'11
Protocole d'évaluation
 Base de données Polymots
 Base lexicale de familles morpho-phonologiques
 20 000 mots, 2000 familles

 + partitions sémantiques des familles de 20 mots
     (arbre, art, boule, carte, corde, dent, dict, fil, fusée, lune,
     meuble, mode, onde, paille, penser, pot, presse, tenir, terre, val).


 Exemple pour la famille de art :
 { {artifice, artificiel, artificiellement, artificier},
  {artillerie, artilleur},
  {artisan, artisanal, artisanalement, artisanat},
  {artiste, artistique, artistiquement, art} }




                                                      Gala, Hathout, Nasr, Rey, Seppälä, TALN'11
Protocole d'évaluation
 Idée :
 • Construire une représentation arborée des mots de la famille
 • Découper les k arêtes les plus longues de l'arbre pour obtenir Pk
 • La partition obtenue est-elle proche de la partition “manuelle” ?




                                              Gala, Hathout, Nasr, Rey, Seppälä, TALN'11
Protocole d'évaluation
 Idée :
 • Construire une représentation arborée des mots de la famille
 • Découper les k arêtes les plus longues de l'arbre pour obtenir Pk
 • La partition obtenue est-elle proche de la partition “manuelle” ?


 Distance utilisée pour le calcul de la représentation arborée ?
 Distance composite entre :
 • nombre d'affixes communs
 • degré de cooccurrence dans




                                               Gala, Hathout, Nasr, Rey, Seppälä, TALN'11
Protocole d'évaluation
   Idée :
   • Construire une représentation arborée des mots de la famille
   • Découper les k arêtes les plus longues de l'arbre pour obtenir Pk
   • La partition obtenue est-elle proche de la partition “manuelle” ?


                                                                   Partition automatique :
                                                                   P0 = {{artisan, artisanat,
                                                                   artisanal, artisanalement,
                                                                   artiste, artistique,
                                                                   artistiquement, artificier,
                                                                   artificiel, artifice,
                                                                   artificiellement, artillerie,
                                                                   artilleur, art}}




Partition manuelle : Pm = {{artificier, artifice, artificiel, artificiellement}, {artillerie, artilleur},
{artisan, artisanal, artisanalement, artisanat}, {artiste, artistique, artistiquement, art}}
                                                             Gala, Hathout, Nasr, Rey, Seppälä, TALN'11
Protocole d'évaluation
   Idée :
   • Construire une représentation arborée des mots de la famille
   • Découper les k arêtes les plus longues de l'arbre pour obtenir Pk
   • La partition obtenue est-elle proche de la partition “manuelle” ?


                                                                   Partition automatique :
                                                                   P1 = {{artisan, artisanat,
                                                                   artisanal, artisanalement,
                                                                   artiste, artistique,
                                                                   artistiquement, artificier,
                                                                   artificiel, artifice,
                                                                   artificiellement},
                     1                                             {artillerie, artilleur, art}}




Partition manuelle : Pm = {{artificier, artifice, artificiel, artificiellement}, {artillerie, artilleur},
{artisan, artisanal, artisanalement, artisanat}, {artiste, artistique, artistiquement, art}}
                                                             Gala, Hathout, Nasr, Rey, Seppälä, TALN'11
Protocole d'évaluation
   Idée :
   • Construire une représentation arborée des mots de la famille
   • Découper les k arêtes les plus longues de l'arbre pour obtenir Pk
   • La partition obtenue est-elle proche de la partition “manuelle” ?


                                                                   Partition automatique :
                                                                   P2 = {{artisan, artisanat,
                                                                   artisanal, artisanalement},
                                                                   {artiste, artistique,
                                                                   artistiquement, artificier,
                           2                                       artificiel, artifice,
                                                                   artificiellement},
                     1                                             {artillerie, artilleur, art}}




Partition manuelle : Pm = {{artificier, artifice, artificiel, artificiellement}, {artillerie, artilleur},
{artisan, artisanal, artisanalement, artisanat}, {artiste, artistique, artistiquement, art}}
                                                             Gala, Hathout, Nasr, Rey, Seppälä, TALN'11
Protocole d'évaluation
   Idée :
   • Construire une représentation arborée des mots de la famille
   • Découper les k arêtes les plus longues de l'arbre pour obtenir Pk
   • La partition obtenue est-elle proche de la partition “manuelle” ?


                                                                   Partition automatique :
                                                                   P3 = {{artisan, artisanat,
                                                                   artisanal, artisanalement},
                                                                   {artiste, artistique,
                                                                   artistiquement, artificier,
                           2                                       artificiel, artifice,
                                                                   artificiellement},
                     1                                             {artillerie, artilleur},
             3                                                     {art}}




Partition manuelle : Pm = {{artificier, artifice, artificiel, artificiellement}, {artillerie, artilleur},
{artisan, artisanal, artisanalement, artisanat}, {artiste, artistique, artistiquement, art}}
                                                             Gala, Hathout, Nasr, Rey, Seppälä, TALN'11
Protocole d'évaluation
   Idée :
   • Construire une représentation arborée des mots de la famille
   • Découper les k arêtes les plus longues de l'arbre pour obtenir Pk
   • La partition obtenue est-elle proche de la partition “manuelle” ?


                                                                   Partition automatique :
                                                                   P4 = {{artisan, artisanat,
                                                                   artisanal, artisanalement},
                                                                   {artiste, artistique,
                                                                   artistiquement},
                           2                                       {artificier, artificiel, artifice,
                                                                   artificiellement},
                     1                                             {artillerie, artilleur},
                                  4
             3                                                     {art}}




Partition manuelle : Pm = {{artificier, artifice, artificiel, artificiellement}, {artillerie, artilleur},
{artisan, artisanal, artisanalement, artisanat}, {artiste, artistique, artistiquement, art}}
                                                             Gala, Hathout, Nasr, Rey, Seppälä, TALN'11
Protocole d'évaluation
   Idée :
   • Construire une représentation arborée des mots de la famille
   • Découper les k arêtes les plus longues de l'arbre pour obtenir Pk
   • La partition obtenue est-elle proche de la partition “manuelle” ?


                                                                   Partition automatique :
                                                                   P5 = {{artisan, artisanat,
                                                                   artisanal, artisanalement},
                                                                   {artiste, artistique,
                                                                   artistiquement},
                         5 2                                       {artificier, artificiel, artifice,
                                                                   artificiellement},
                     1                                             {artillerie, artilleur},
                                  4
             3                                                     {art}}




Partition manuelle : Pm = {{artificier, artifice, artificiel, artificiellement}, {artillerie, artilleur},
{artisan, artisanal, artisanalement, artisanat}, {artiste, artistique, artistiquement, art}}
                                                             Gala, Hathout, Nasr, Rey, Seppälä, TALN'11
Protocole d'évaluation
   Idée :
   • Construire une représentation arborée des mots de la famille
   • Découper les k arêtes les plus longues de l'arbre pour obtenir Pk
   • La partition obtenue est-elle proche de la partition “manuelle” ?


                                                                   Partition automatique :
                                                                   P6 = {{artisan, artisanat,
                                                                   artisanal, artisanalement},
                                                                   {artiste, artistique,
                                   6                               artistiquement},
                         5 2                                       {artificier, artificiel, artifice,
                                                                   artificiellement},
                     1                                             {artillerie, artilleur},
                                  4
             3                                                     {art}}




Partition manuelle : Pm = {{artificier, artifice, artificiel, artificiellement}, {artillerie, artilleur},
{artisan, artisanal, artisanalement, artisanat}, {artiste, artistique, artistiquement, art}}
                                                             Gala, Hathout, Nasr, Rey, Seppälä, TALN'11
Protocole d'évaluation
   Idée :
   • Construire une représentation arborée des mots de la famille
   • Découper les k arêtes les plus longues de l'arbre pour obtenir Pk
   • La partition obtenue est-elle proche de la partition “manuelle” ?


                                                                   Partition automatique :
                                                                   P7 = {{artisan, artisanat,
                                                                   artisanal, artisanalement},
                                                                   {artiste, artistique,
                                   6                               artistiquement},
                         5 2                                       {artificier, artificiel, artifice},
                                                                   {artificiellement},
                     1                                             {artillerie, artilleur},
                                  4     7
             3                                                     {art}}




Partition manuelle : Pm = {{artificier, artifice, artificiel, artificiellement}, {artillerie, artilleur},
{artisan, artisanal, artisanalement, artisanat}, {artiste, artistique, artistiquement, art}}
                                                             Gala, Hathout, Nasr, Rey, Seppälä, TALN'11
Protocole d'évaluation
   Idée :
   • Construire une représentation arborée des mots de la famille
   • Découper les k arêtes les plus longues de l'arbre pour obtenir Pk
   • La partition obtenue est-elle proche de la partition “manuelle” ?


                                                                   Partition automatique :
                                                                   P7 = {{artisan, artisanat,
                                                                   artisanal, artisanalement},
                                                                   {artiste, artistique,
                                   6                               artistiquement},
                         5 2                                       {artificier, artificiel, artifice},
                                                                   {artificiellement},
                     1                                             {artillerie, artilleur},
                                  4     7
             3                                                     {art}}




Partition manuelle : Pm = {{artificier, artifice, artificiel, artificiellement}, {artillerie, artilleur},
{artisan, artisanal, artisanalement, artisanat}, {artiste, artistique, artistiquement, art}}
                                                             Gala, Hathout, Nasr, Rey, Seppälä, TALN'11
Protocole d'évaluation
   Idée :
   • Construire une représentation arborée des mots de la famille
   • Découper les k arêtes les plus longues de l'arbre pour obtenir Pk
   • La partition obtenue est-elle proche de la partition “manuelle” ?


                                                                   Partition automatique :
                                                                   P7 = {{artisan, artisanat,
                                                                   artisanal, artisanalement},
                                                                   {artiste, artistique,
                                   6                               artistiquement},
                         5 2                                       {artificier, artificiel, artifice},
                                                                   {artificiellement},
                     1                                             {artillerie, artilleur},
                                  4     7
             3                                                     {art}}

                                                                   Comparer les partitions !
                                                                   (indice de Rand, Rand corrigé)

Partition manuelle : Pm = {{artificier, artifice, artificiel, artificiellement}, {artillerie, artilleur},
{artisan, artisanal, artisanalement, artisanat}, {artiste, artistique, artistiquement, art}}
                                                             Gala, Hathout, Nasr, Rey, Seppälä, TALN'11
Protocole d'évaluation
   Idée :
   • Construire une représentation arborée des mots de la famille
   • Découper les k arêtes les plus longues de l'arbre pour obtenir Pk
   • La partition obtenue est-elle proche de la partition “manuelle” ?


                                                                   Partition automatique :
                                                                   P7 = {{artisan, artisanat,
                                                                   artisanal, artisanalement},
                                                                   {artiste, artistique,
                                                                   artistiquement},
                                                                   {artificier, artificiel, artifice},
                                                                   {artificiellement},
                                                                   {artillerie, artilleur},
                                                                   {art}}

                                                                   Comparer les partitions !
                                                                   (indice de Rand, Rand corrigé)

Partition manuelle : Pm = {{artificier, artifice, artificiel, artificiellement}, {artillerie, artilleur},
{artisan, artisanal, artisanalement, artisanat}, {artiste, artistique, artistiquement, art}}
                                                            Gala, Hathout, Nasr, Rey, Seppälä, TALN'11
Protocole d'évaluation
   Idée :
   • Construire une représentation arborée des mots de la famille
   • Découper les k arêtes les plus longues de l'arbre pour obtenir Pk
   • La partition obtenue est-elle proche de la partition “manuelle” ?


                                                                   Partition automatique :
                                                                   P7 = {{artisan, artisanat,
                                                                   artisanal, artisanalement},
                                                                   {artiste, artistique,
                                                                   artistiquement},
                                                                   {artificier, artificiel, artifice},
                                                                   {artificiellement},
                                                                   {artillerie, artilleur},
                                                                   {art}}

                                                                   rand(Pm,P7) = 0.934
                                                                   aRand(Pm,P7) = 0.774

Partition manuelle : Pm = {{artificier, artifice, artificiel, artificiellement}, {artillerie, artilleur},
{artisan, artisanal, artisanalement, artisanat}, {artiste, artistique, artistiquement, art}}
                                                            Gala, Hathout, Nasr, Rey, Seppälä, TALN'11
Protocole d'évaluation
   Idée :
   • Construire une représentation arborée des mots de la famille
   • Découper les k arêtes les plus longues de l'arbre pour obtenir Pk
   • La partition obtenue est-elle proche de la partition “manuelle” ?


                                                                   Partition automatique :
                                                                   P4 = {{artisan, artisanat,
                                                                   artisanal, artisanalement},
                                                                   {artiste, artistique,
                                                                   artistiquement},
                                                                   {artificier, artificiel, artifice,
                                                                   artificiellement},
                                                                   {artillerie, artilleur},
                                                                   {art}}

                                                                   rand(Pm,P4) = 0.967
                                                                   aRand(Pm,P4) = 0.894

Partition manuelle : Pm = {{artificier, artifice, artificiel, artificiellement}, {artillerie, artilleur},
{artisan, artisanal, artisanalement, artisanat}, {artiste, artistique, artistiquement, art}}
                                                            Gala, Hathout, Nasr, Rey, Seppälä, TALN'11
Protocole d'évaluation
 ensemble de mots                cooccurrence dans le TLFI
                                 + affixes communs
                      matrice de distances                      méthodes NJ, UPGMA
                                                             arbre



                            formule 1     formule 2    formule 3
                         triples        length      quartets                 réévaluation des
                                         Ratio                             longueurs d'arêtes

                            arbre 1           arbre 2        arbre 3
                                                                         découpage de l'arbre
                                                                         par longueur d'arête
                                                                                 décroissante
 partition manuelle       partition 1        partition 2   partition 3
                                                                           comparaison de la
                                                                           meilleure partition
                                                                           parmi P0, P1, P2...
                            score 1           score 2        score 3
Plan

• Analyses et nuages arborés
• Interprétation visuelle
• Formules de longueurs d'arêtes
• Protocole d'évaluation
• Résultats
• Visualisations
• Perspectives
Scores de chaque formule
                                                            triples
 1,2
                                                            lengthRatio
                                                            computedLength
   1
                                                            agreementPairs
                                                            quartets
 0,8

 0,6

 0,4

 0,2

   0
       arbre   art   boule carte corde dent    dict   fil    fus   lune meuble mode onde paille penser pot presse ten   terre   val moyenne
        Score Rand de la meilleure partition trouvée automatiquement

  1
                              triples
 0,9                          lengthRatio
 0,8                          computedLength
 0,7                          agreementPairs
                              quartets
 0,6
 0,5
 0,4
 0,3
 0,2
 0,1
  0
       arbre   art   boule carte corde dent    dict   fil    fus   lune meuble mode onde paille penser pot presse ten   terre   val moyenne

        Score Rand corrigé de la meilleure partition trouvée automatiquement
Scores de chaque formule
                                                            triples
 1,2
                                                            lengthRatio
                                                            computedLength
   1
                                                            agreementPairs
                                                            quartets
 0,8

 0,6

 0,4

 0,2

   0
       arbre   art   boule carte corde dent    dict   fil    fus   lune meuble mode onde paille penser pot presse ten   terre   val moyenne
        Score Rand de la meilleure partition trouvée automatiquement

  1
                              triples
                                                             meilleures performances
 0,9                          lengthRatio                    par triples et lengthRatio
 0,8                          computedLength
 0,7                          agreementPairs
                              quartets
 0,6
 0,5
 0,4
 0,3
 0,2
 0,1
  0
       arbre   art   boule carte corde dent    dict   fil    fus   lune meuble mode onde paille penser pot presse ten   terre   val moyenne

        Score Rand corrigé de la meilleure partition trouvée automatiquement
Scores de chaque formule
 Les formules de longueur d'arête sont-elles cohérentes ?
Scores de chaque formule
 Les formules de longueur d'arête sont-elles cohérentes ?

       1
triples
     0,9

    0,8

    0,7

    0,6

    0,5

    0,4

    0,3

    0,2

    0,1

      0
           0      0,5          1           1,5          2          2,5          3
                                                                           computedLength

   Longueur selon la formule triples en fonction de la longueur originale de l'arête
   pour l'arbre de la famille de art
Scores de chaque formule
 Les formules de longueur d'arête sont-elles cohérentes ?

       1
triples
     0,9

    0,8

    0,7

    0,6

    0,5

    0,4

    0,3

    0,2                   arêtes externes (trop longues)
    0,1

      0
           0      0,5          1           1,5          2          2,5          3
                                                                           computedLength

   Longueur selon la formule triples en fonction de la longueur originale de l'arête
   pour l'arbre de la famille de art
Scores de chaque formule
 Les formules de longueur d'arête sont-elles cohérentes ?

       1
triples        classes de mots les plus fiables
     0,9

    0,8

    0,7

    0,6

    0,5

    0,4        classes de
    0,3
               mots les
               moins fiables    arêtes externes (trop longues)
    0,2

    0,1

      0
           0            0,5          1            1,5     2        2,5          3
                                                                           computedLength

   Longueur selon la formule triples en fonction de la longueur originale de l'arête
   pour l'arbre de la famille de art
Scores de chaque formule
     Les formules de longueur d'arête sont-elles cohérentes ?

       1,35         coefficient de corrélation :
lengthRatio                    0.865
        1,3


       1,25


        1,2


       1,15


        1,1


       1,05


          1


       0,95


        0,9
              0,3         0,4        0,5           0,6   0,7         0,8          0,9
                                                                                triples

   Longueur selon la formule lengthRatio en fonction de celle selon la formule triples
   pour l'arbre de la famille de art
Scores de chaque formule
     Les formules de longueur d'arête sont-elles cohérentes ?

       1,35         coefficient de corrélation :
lengthRatio
        1,3
                               0.865                     arêtes internes
       1,25                    arêtes internes
                         généralement plus longues :
        1,2
                          bonne lisibilité de l'arbre
       1,15


        1,1


       1,05


          1

                     arêtes externes
       0,95


        0,9
              0,3         0,4        0,5           0,6     0,7       0,8          0,9
                                                                                triples

   Longueur selon la formule lengthRatio en fonction de celle selon la formule triples
   pour l'arbre de la famille de art
Scores de chaque formule
     Les formules de longueur d'arête sont-elles cohérentes ?

       1,35         coefficient de corrélation :
lengthRatio
        1,3
                               0.865                        arêtes internes
       1,25                    arêtes internes
                         généralement plus longues :
        1,2
                          bonne lisibilité de l'arbre
       1,15


        1,1


       1,05


          1                                              écart-type deux fois plus
                     arêtes externes                        grand pour triples
       0,95
                                                          0.166 au lieu de 0.084
        0,9
              0,3         0,4        0,5           0,6         0,7        0,8          0,9
                                                                                     triples

   Longueur selon la formule lengthRatio en fonction de celle selon la formule triples
   pour l'arbre de la famille de art
Plan

• Analyses et nuages arborés
• Interprétation visuelle
• Formules de longueurs d'arêtes
• Protocole d'évaluation
• Résultats
• Visualisations
• Perspectives
Visualisations
arbre original computedLength
                                   arbre avec longueurs d'arêtes triples




                                arbre avec longueurs d'arêtes
                                lengthRatio
Visualisations
arbre original computedLength
                                         arbre avec longueurs d'arêtes triples




                      variance trop faible des
                      longueurs d'arêtes !
                                      arbre avec longueurs d'arêtes
                                      lengthRatio
Visualisations
arbre original computedLength
                                   arbre avec longueurs d'arêtes triples




                                arbre avec longueurs d'arêtes
                                lengthRatio
Plan

• Analyses et nuages arborés
• Interprétation visuelle
• Formules de longueurs d'arêtes
• Protocole d'évaluation
• Résultats
• Visualisations
• Perspectives
Perspectives

  • intégration des données de JeuxDeMots        dans le protocole, et plus
  généralement en textométrie
       • réseau de plus de 200 000 mots et 1 200 000 liens pondérés
       • cooccurrences dans la production spontanée de mots par rapport à
       un mot cible
       • cohérence avec les distances de cooccurrence calculées à partir
       d'un texte ?
                                                          Lafourcade, JADT'08

  • intégration de la visualisation en nuages arborés avec longueurs de
  branches post-calculées :
       • dans les outils de textométrie existants
       • par des interfaces d'import/export adaptées
       • pour faciliter le retour au texte
Questions ?




 Merci pour votre attention !




                                http://www.treecloud.org
Analyses arborées

  Rapprochement des mots d'un texte selon leur degré de
  cooccurrence dans le texte
  Constellation du mot “nuit” dans la base EXEMPLEM
  (22 romans de 11 auteurs, lemmatisés)            TEMPS 2




                                                              CHAMBRE À COUCHER




               L'ATMOSPHÈRE

                                                        TEMPS 1




                              Barthelémy & Luong, Statistique et Analyse des Données, 1986
Hyperbase                                                                  Brunet, JADT'08
Analyses arborées

  Rapprochement des mots d'un texte selon leur degré de
  cooccurrence dans le texte
  Constellation du mot “nuit” dans la base EXEMPLEM
  (22 romans de 11 auteurs, lemmatisés)            TEMPS 2




                                                              CHAMBRE À COUCHER




               L'ATMOSPHÈRE

                                                        TEMPS 1




                              Barthelémy & Luong, Statistique et Analyse des Données, 1986
Hyperbase                                                                  Brunet, JADT'08
Ultramétriques, centre d'un arbre




                                arbre “sans centre” (feuilles
                                à gauche plus éloignées de
                                ce point que celles à droit)
         “centre” de l'arbre

Mais conteúdo relacionado

Mais de Philippe Gambette

Nuages arborés et analyse textuelle de corpus politiques avec TreeCloud
Nuages arborés et analyse textuelle de corpus politiques avec TreeCloudNuages arborés et analyse textuelle de corpus politiques avec TreeCloud
Nuages arborés et analyse textuelle de corpus politiques avec TreeCloudPhilippe Gambette
 
Nuages arborés et analyse textuelle - Présentation de l’outil TreeCloud
Nuages arborés et analyse textuelle - Présentation de l’outil TreeCloudNuages arborés et analyse textuelle - Présentation de l’outil TreeCloud
Nuages arborés et analyse textuelle - Présentation de l’outil TreeCloudPhilippe Gambette
 
Practical use of combinatorial methods for phylogenetic network reconstruction
Practical use of combinatorial methods for phylogenetic network reconstructionPractical use of combinatorial methods for phylogenetic network reconstruction
Practical use of combinatorial methods for phylogenetic network reconstructionPhilippe Gambette
 
Méthodes combinatoires de reconstruction de réseaux phylogénétiques
Méthodes combinatoires de reconstruction de réseaux phylogénétiquesMéthodes combinatoires de reconstruction de réseaux phylogénétiques
Méthodes combinatoires de reconstruction de réseaux phylogénétiquesPhilippe Gambette
 
Utilisation de la visualisation en nuage arboré pour l'analyse littéraire
Utilisation de la visualisation en nuage arboré pour l'analyse littéraireUtilisation de la visualisation en nuage arboré pour l'analyse littéraire
Utilisation de la visualisation en nuage arboré pour l'analyse littérairePhilippe Gambette
 
Codage des voisinages et parcours en largeur en temps O(n) des graphes d'inte...
Codage des voisinages et parcours en largeur en temps O(n) des graphes d'inte...Codage des voisinages et parcours en largeur en temps O(n) des graphes d'inte...
Codage des voisinages et parcours en largeur en temps O(n) des graphes d'inte...Philippe Gambette
 
Reconstruction combinatoire de réseaux phylogénétiques
Reconstruction combinatoire de réseaux phylogénétiquesReconstruction combinatoire de réseaux phylogénétiques
Reconstruction combinatoire de réseaux phylogénétiquesPhilippe Gambette
 
The Structure of Level-k Phylogenetic Networks
The Structure of Level-k Phylogenetic NetworksThe Structure of Level-k Phylogenetic Networks
The Structure of Level-k Phylogenetic NetworksPhilippe Gambette
 
Visualiser un texte par un nuage arboré
Visualiser un texte par un nuage arboréVisualiser un texte par un nuage arboré
Visualiser un texte par un nuage arboréPhilippe Gambette
 
Estimation du nombre de citations de papillotes et de blagues Carambar
Estimation du nombre de citations de papillotes et de blagues CarambarEstimation du nombre de citations de papillotes et de blagues Carambar
Estimation du nombre de citations de papillotes et de blagues CarambarPhilippe Gambette
 
On restrictions of balanced 2-interval graphs
On restrictions of balanced 2-interval graphsOn restrictions of balanced 2-interval graphs
On restrictions of balanced 2-interval graphsPhilippe Gambette
 
Visualising a text with a tree cloud
Visualising a text with a tree cloudVisualising a text with a tree cloud
Visualising a text with a tree cloudPhilippe Gambette
 

Mais de Philippe Gambette (12)

Nuages arborés et analyse textuelle de corpus politiques avec TreeCloud
Nuages arborés et analyse textuelle de corpus politiques avec TreeCloudNuages arborés et analyse textuelle de corpus politiques avec TreeCloud
Nuages arborés et analyse textuelle de corpus politiques avec TreeCloud
 
Nuages arborés et analyse textuelle - Présentation de l’outil TreeCloud
Nuages arborés et analyse textuelle - Présentation de l’outil TreeCloudNuages arborés et analyse textuelle - Présentation de l’outil TreeCloud
Nuages arborés et analyse textuelle - Présentation de l’outil TreeCloud
 
Practical use of combinatorial methods for phylogenetic network reconstruction
Practical use of combinatorial methods for phylogenetic network reconstructionPractical use of combinatorial methods for phylogenetic network reconstruction
Practical use of combinatorial methods for phylogenetic network reconstruction
 
Méthodes combinatoires de reconstruction de réseaux phylogénétiques
Méthodes combinatoires de reconstruction de réseaux phylogénétiquesMéthodes combinatoires de reconstruction de réseaux phylogénétiques
Méthodes combinatoires de reconstruction de réseaux phylogénétiques
 
Utilisation de la visualisation en nuage arboré pour l'analyse littéraire
Utilisation de la visualisation en nuage arboré pour l'analyse littéraireUtilisation de la visualisation en nuage arboré pour l'analyse littéraire
Utilisation de la visualisation en nuage arboré pour l'analyse littéraire
 
Codage des voisinages et parcours en largeur en temps O(n) des graphes d'inte...
Codage des voisinages et parcours en largeur en temps O(n) des graphes d'inte...Codage des voisinages et parcours en largeur en temps O(n) des graphes d'inte...
Codage des voisinages et parcours en largeur en temps O(n) des graphes d'inte...
 
Reconstruction combinatoire de réseaux phylogénétiques
Reconstruction combinatoire de réseaux phylogénétiquesReconstruction combinatoire de réseaux phylogénétiques
Reconstruction combinatoire de réseaux phylogénétiques
 
The Structure of Level-k Phylogenetic Networks
The Structure of Level-k Phylogenetic NetworksThe Structure of Level-k Phylogenetic Networks
The Structure of Level-k Phylogenetic Networks
 
Visualiser un texte par un nuage arboré
Visualiser un texte par un nuage arboréVisualiser un texte par un nuage arboré
Visualiser un texte par un nuage arboré
 
Estimation du nombre de citations de papillotes et de blagues Carambar
Estimation du nombre de citations de papillotes et de blagues CarambarEstimation du nombre de citations de papillotes et de blagues Carambar
Estimation du nombre de citations de papillotes et de blagues Carambar
 
On restrictions of balanced 2-interval graphs
On restrictions of balanced 2-interval graphsOn restrictions of balanced 2-interval graphs
On restrictions of balanced 2-interval graphs
 
Visualising a text with a tree cloud
Visualising a text with a tree cloudVisualising a text with a tree cloud
Visualising a text with a tree cloud
 

Último

Sidonie au Japon . pptx Un film français
Sidonie    au   Japon  .  pptx  Un film françaisSidonie    au   Japon  .  pptx  Un film français
Sidonie au Japon . pptx Un film françaisTxaruka
 
gestion des conflits dans les entreprises
gestion des  conflits dans les entreprisesgestion des  conflits dans les entreprises
gestion des conflits dans les entreprisesMajdaKtiri2
 
COURS SVT 3 EME ANNEE COLLEGE 2EME SEM.pdf
COURS SVT 3 EME ANNEE COLLEGE 2EME SEM.pdfCOURS SVT 3 EME ANNEE COLLEGE 2EME SEM.pdf
COURS SVT 3 EME ANNEE COLLEGE 2EME SEM.pdfabatanebureau
 
Boléro. pptx Film français réalisé par une femme.
Boléro.  pptx   Film   français   réalisé  par une  femme.Boléro.  pptx   Film   français   réalisé  par une  femme.
Boléro. pptx Film français réalisé par une femme.Txaruka
 
Cours ofppt du Trade-Marketing-Présentation.pdf
Cours ofppt du Trade-Marketing-Présentation.pdfCours ofppt du Trade-Marketing-Présentation.pdf
Cours ofppt du Trade-Marketing-Présentation.pdfachrafbrahimi1
 
SUPPORT DE SUR COURS_GOUVERNANCE_SI_M2.pptx
SUPPORT DE SUR COURS_GOUVERNANCE_SI_M2.pptxSUPPORT DE SUR COURS_GOUVERNANCE_SI_M2.pptx
SUPPORT DE SUR COURS_GOUVERNANCE_SI_M2.pptxssuserbd075f
 
Computer Parts in French - Les parties de l'ordinateur.pptx
Computer Parts in French - Les parties de l'ordinateur.pptxComputer Parts in French - Les parties de l'ordinateur.pptx
Computer Parts in French - Les parties de l'ordinateur.pptxRayane619450
 
La nouvelle femme . pptx Film français
La   nouvelle   femme  . pptx  Film françaisLa   nouvelle   femme  . pptx  Film français
La nouvelle femme . pptx Film françaisTxaruka
 
Bolero. pptx . Film de A nnne Fontaine
Bolero. pptx . Film   de  A nnne FontaineBolero. pptx . Film   de  A nnne Fontaine
Bolero. pptx . Film de A nnne FontaineTxaruka
 

Último (10)

Sidonie au Japon . pptx Un film français
Sidonie    au   Japon  .  pptx  Un film françaisSidonie    au   Japon  .  pptx  Un film français
Sidonie au Japon . pptx Un film français
 
gestion des conflits dans les entreprises
gestion des  conflits dans les entreprisesgestion des  conflits dans les entreprises
gestion des conflits dans les entreprises
 
COURS SVT 3 EME ANNEE COLLEGE 2EME SEM.pdf
COURS SVT 3 EME ANNEE COLLEGE 2EME SEM.pdfCOURS SVT 3 EME ANNEE COLLEGE 2EME SEM.pdf
COURS SVT 3 EME ANNEE COLLEGE 2EME SEM.pdf
 
Boléro. pptx Film français réalisé par une femme.
Boléro.  pptx   Film   français   réalisé  par une  femme.Boléro.  pptx   Film   français   réalisé  par une  femme.
Boléro. pptx Film français réalisé par une femme.
 
Evaluación Alumnos de Ecole Victor Hugo
Evaluación Alumnos de Ecole  Victor HugoEvaluación Alumnos de Ecole  Victor Hugo
Evaluación Alumnos de Ecole Victor Hugo
 
Cours ofppt du Trade-Marketing-Présentation.pdf
Cours ofppt du Trade-Marketing-Présentation.pdfCours ofppt du Trade-Marketing-Présentation.pdf
Cours ofppt du Trade-Marketing-Présentation.pdf
 
SUPPORT DE SUR COURS_GOUVERNANCE_SI_M2.pptx
SUPPORT DE SUR COURS_GOUVERNANCE_SI_M2.pptxSUPPORT DE SUR COURS_GOUVERNANCE_SI_M2.pptx
SUPPORT DE SUR COURS_GOUVERNANCE_SI_M2.pptx
 
Computer Parts in French - Les parties de l'ordinateur.pptx
Computer Parts in French - Les parties de l'ordinateur.pptxComputer Parts in French - Les parties de l'ordinateur.pptx
Computer Parts in French - Les parties de l'ordinateur.pptx
 
La nouvelle femme . pptx Film français
La   nouvelle   femme  . pptx  Film françaisLa   nouvelle   femme  . pptx  Film français
La nouvelle femme . pptx Film français
 
Bolero. pptx . Film de A nnne Fontaine
Bolero. pptx . Film   de  A nnne FontaineBolero. pptx . Film   de  A nnne Fontaine
Bolero. pptx . Film de A nnne Fontaine
 

Longueur de branches et arbres de mots

  • 1. Colloque Cooccurrence 2012 09/02/2012 - Besançon Longueur de branches et arbres de mots Philippe Gambette, Nuria Gala, Alexis Nasr, Alain Guénoche LIGM LIF IML Université Paris-Est Université Aix-Marseille CNRS Marne-la-Vallée
  • 2. Plan • Analyses et nuages arborés • Interprétation visuelle • Formules de longueurs d'arêtes • Protocole d'évaluation • Résultats • Visualisations • Perspectives
  • 3. Plan • Analyses et nuages arborés • Interprétation visuelle • Formules de longueurs d'arêtes • Protocole d'évaluation • Résultats • Visualisations • Perspectives
  • 4. Analyses arborées Rapprochement des mots d'un texte selon leur degré de cooccurrence dans le texte Constellation du mot “nuit” dans la base EXEMPLEM (22 romans de 11 auteurs, lemmatisés) TEMPS 2 CHAMBRE À COUCHER L'ATMOSPHÈRE TEMPS 1 Barthelémy & Luong, Statistique et Analyse des Données, 1986 Hyperbase Brunet, JADT'08
  • 5. Nuage arboré, une information double occurrences cooccurrences Discours inaugural de Barack Obama construit avec SplitsTree : Huson & Bryant, Bioinformatics, 2006 TreeCloud : Gambette & Véronis, IFCS'09
  • 6. Plan • Analyses et nuages arborés • Interprétation visuelle • Formules de longueurs d'arêtes • Protocole d'évaluation • Résultats • Visualisations • Perspectives
  • 7. Interprétation réelle Les distances dans l'arbre entre deux mots reflètent au mieux le degré de cooccurrence entre ces deux mots
  • 8. Interprétation réelle Problème 1 : difficiles à lire Les distances dans l'arbre entre deux mots reflètent au mieux le degré de cooccurrence entre ces deux mots
  • 9. Interprétation réelle Problème 1 : Problème 2 : difficiles à lire peu fiables Les distances dans l'arbre entre deux mots reflètent au mieux le degré de cooccurrence entre ces deux mots
  • 10. Interprétation réelle Optimisation globale, pas de garanties locales de qualité Problème 1 : Problème 2 : difficiles à lire peu fiables Les distances dans l'arbre entre deux mots reflètent au mieux le degré de cooccurrence entre ces deux mots
  • 11. Interprétation pratique arbre de distances utilisé comme classification
  • 12. Interprétation pratique arbre de distances utilisé comme classification Les mots d'un même sous-arbre bien séparé du reste de l'arbre constituent une classe de mots
  • 13. Interprétation pratique arbre de distances utilisé comme classification Les mots d'un même sous-arbre bien séparé du reste de l'arbre constituent une classe de mots
  • 14. Interprétation pratique arbre de distances utilisé comme classification Problème : toujours peu lisible (longueur des arêtes externes) et peu fiable Les mots d'un même sous-arbre bien séparé du reste de l'arbre constituent une classe de mots
  • 15. Interprétation pratique Astuce de visualisation pour améliorer la lisibilité : longueur unitaire des arêtes Nuages arborés globaux des 60 mots les plus fréquents dans Cinna et Othon (distance Liddell, fenêtre de largeur 20), colorés chronologiquement (rouge au début, bleu à la fin) Amstutz & Gambette, JADT'10
  • 16. Interprétation pratique Astuce de visualisation pour améliorer la lisibilité : longueur unitaire des arêtes, MAIS... encore moins fiable ! retour au texte nécessaire, fausses pistes Nuages arborés globaux des 60 mots les plus fréquents dans Cinna et Othon (distance Liddell, fenêtre de largeur 20), colorés chronologiquement (rouge au début, bleu à la fin) Amstutz & Gambette, JADT'10
  • 17. Interprétation pratique Problème : Comment calculer les longueurs des arêtes de l'arbre pour une interprétation fiable des classes ? Arête longue = classe de mots significative (proches les uns des autres, bien séparés du reste) Arête courte = classe de mots peu significative
  • 18. Plan • Analyses et nuages arborés • Interprétation visuelle • Formules de longueurs d'arêtes • Protocole d'évaluation • Résultats • Visualisations • Perspectives
  • 19. Formules de longueurs d'arêtes Post-calcul des longueurs d'arêtes après la construction de l'arbre, pour que : arêtes les plus longues ↔ classes de mots les plus significatives ↔ classes de mots bien séparées d'après la distance de cooccurrence
  • 20. Formules de longueurs d'arêtes Post-calcul des longueurs d'arêtes après la construction de l'arbre, pour que : arêtes les plus longues ↔ classes de mots les plus significatives ↔ classes de mots bien séparées d'après la distance de cooccurrence Formule du ratio des bons triplets (“triples”) : Si mot1 et mot2 d'un côté de l'arête, mot3 de l'autre côté, “bon triplet” si distance(mot1,mot2) < min(distance(mot1,mot3), mot1 distance(mot2,mot3)) mot3 ratio espéré proche de 1 mot2 Guénoche & Garreta, IFCS'02
  • 21. Formules de longueurs d'arêtes Post-calcul des longueurs d'arêtes après la construction de l'arbre, pour que : arêtes les plus longues ↔ classes de mots les plus significatives ↔ classes de mots bien séparées d'après la distance de cooccurrence Formule du ratio des distances moyennes (“distanceRatio”) : moyenne(distances inter-classes) moyenne(distances intra-classes) ratio espéré supérieur à 1 Guénoche & Garreta, IFCS'02
  • 22. Formules de longueurs d'arêtes Post-calcul des longueurs d'arêtes après la construction de l'arbre, pour que : arêtes les plus longues ↔ classes de mots les plus significatives ↔ classes de mots bien séparées d'après la distance de cooccurrence Formule du ratio des bons quadruplets (“quartets”) : Si mot1 et mot2 d'un côté de l'arête, mot3 et mot4 de l'autre côté, “bon quadruplet” si mot4 distance(mot1,mot2) + distance(mot2,mot3) < mot1 min(distance(mot1,mot3) + distance(mot2,mot4) +, mot3 distance(mot1,mot4) + distance(mot2,mot3)) mot2 ratio espéré proche de 1 Guénoche & Garreta, IFCS'02
  • 23. Plan • Analyses et nuages arborés • Interprétation visuelle • Formules de longueurs d'arêtes • Protocole d'évaluation • Résultats • Visualisations • Perspectives
  • 24. Protocole d'évaluation Post-calcul des longueurs d'arêtes après la construction de l'arbre, puis : Vérification que les classes de mots les mieux séparées (d'après ces longueurs) sont significatives
  • 25. Protocole d'évaluation Post-calcul des longueurs d'arêtes après la construction de l'arbre, puis : Vérification que les classes de mots Partition obtenue en découpant les les mieux séparées (d'après ces arêtes les plus longues comparée longueurs) sont significatives avec une partition de référence
  • 26. Protocole d'évaluation Post-calcul des longueurs d'arêtes après la construction de l'arbre, puis : Vérification que les classes de mots Partition obtenue en découpant les les mieux séparées (d'après ces arêtes les plus longues comparée longueurs) sont significatives avec une partition de référence quelles données ?
  • 27. Protocole d'évaluation Base de données Polymots Base lexicale de familles morpho-phonologiques 20 000 mots, 2000 familles http://polymots.lif.univ-mrs.fr Gala & Rey, TALN'08
  • 28. Protocole d'évaluation Base de données Polymots Base lexicale de familles morpho-phonologiques 20 000 mots, 2000 familles + partitions sémantiques des familles de 20 mots (arbre, art, boule, carte, corde, dent, dict, fil, fusée, lune, meuble, mode, onde, paille, penser, pot, presse, tenir, terre, val). Gala, Hathout, Nasr, Rey, Seppälä, TALN'11
  • 29. Protocole d'évaluation Base de données Polymots Base lexicale de familles morpho-phonologiques 20 000 mots, 2000 familles + partitions sémantiques des familles de 20 mots (arbre, art, boule, carte, corde, dent, dict, fil, fusée, lune, meuble, mode, onde, paille, penser, pot, presse, tenir, terre, val). Exemple pour la famille de art : { {artifice, artificiel, artificiellement, artificier}, {artillerie, artilleur}, {artisan, artisanal, artisanalement, artisanat}, {artiste, artistique, artistiquement, art} } Gala, Hathout, Nasr, Rey, Seppälä, TALN'11
  • 30. Protocole d'évaluation Idée : • Construire une représentation arborée des mots de la famille • Découper les k arêtes les plus longues de l'arbre pour obtenir Pk • La partition obtenue est-elle proche de la partition “manuelle” ? Gala, Hathout, Nasr, Rey, Seppälä, TALN'11
  • 31. Protocole d'évaluation Idée : • Construire une représentation arborée des mots de la famille • Découper les k arêtes les plus longues de l'arbre pour obtenir Pk • La partition obtenue est-elle proche de la partition “manuelle” ? Distance utilisée pour le calcul de la représentation arborée ? Distance composite entre : • nombre d'affixes communs • degré de cooccurrence dans Gala, Hathout, Nasr, Rey, Seppälä, TALN'11
  • 32. Protocole d'évaluation Idée : • Construire une représentation arborée des mots de la famille • Découper les k arêtes les plus longues de l'arbre pour obtenir Pk • La partition obtenue est-elle proche de la partition “manuelle” ? Partition automatique : P0 = {{artisan, artisanat, artisanal, artisanalement, artiste, artistique, artistiquement, artificier, artificiel, artifice, artificiellement, artillerie, artilleur, art}} Partition manuelle : Pm = {{artificier, artifice, artificiel, artificiellement}, {artillerie, artilleur}, {artisan, artisanal, artisanalement, artisanat}, {artiste, artistique, artistiquement, art}} Gala, Hathout, Nasr, Rey, Seppälä, TALN'11
  • 33. Protocole d'évaluation Idée : • Construire une représentation arborée des mots de la famille • Découper les k arêtes les plus longues de l'arbre pour obtenir Pk • La partition obtenue est-elle proche de la partition “manuelle” ? Partition automatique : P1 = {{artisan, artisanat, artisanal, artisanalement, artiste, artistique, artistiquement, artificier, artificiel, artifice, artificiellement}, 1 {artillerie, artilleur, art}} Partition manuelle : Pm = {{artificier, artifice, artificiel, artificiellement}, {artillerie, artilleur}, {artisan, artisanal, artisanalement, artisanat}, {artiste, artistique, artistiquement, art}} Gala, Hathout, Nasr, Rey, Seppälä, TALN'11
  • 34. Protocole d'évaluation Idée : • Construire une représentation arborée des mots de la famille • Découper les k arêtes les plus longues de l'arbre pour obtenir Pk • La partition obtenue est-elle proche de la partition “manuelle” ? Partition automatique : P2 = {{artisan, artisanat, artisanal, artisanalement}, {artiste, artistique, artistiquement, artificier, 2 artificiel, artifice, artificiellement}, 1 {artillerie, artilleur, art}} Partition manuelle : Pm = {{artificier, artifice, artificiel, artificiellement}, {artillerie, artilleur}, {artisan, artisanal, artisanalement, artisanat}, {artiste, artistique, artistiquement, art}} Gala, Hathout, Nasr, Rey, Seppälä, TALN'11
  • 35. Protocole d'évaluation Idée : • Construire une représentation arborée des mots de la famille • Découper les k arêtes les plus longues de l'arbre pour obtenir Pk • La partition obtenue est-elle proche de la partition “manuelle” ? Partition automatique : P3 = {{artisan, artisanat, artisanal, artisanalement}, {artiste, artistique, artistiquement, artificier, 2 artificiel, artifice, artificiellement}, 1 {artillerie, artilleur}, 3 {art}} Partition manuelle : Pm = {{artificier, artifice, artificiel, artificiellement}, {artillerie, artilleur}, {artisan, artisanal, artisanalement, artisanat}, {artiste, artistique, artistiquement, art}} Gala, Hathout, Nasr, Rey, Seppälä, TALN'11
  • 36. Protocole d'évaluation Idée : • Construire une représentation arborée des mots de la famille • Découper les k arêtes les plus longues de l'arbre pour obtenir Pk • La partition obtenue est-elle proche de la partition “manuelle” ? Partition automatique : P4 = {{artisan, artisanat, artisanal, artisanalement}, {artiste, artistique, artistiquement}, 2 {artificier, artificiel, artifice, artificiellement}, 1 {artillerie, artilleur}, 4 3 {art}} Partition manuelle : Pm = {{artificier, artifice, artificiel, artificiellement}, {artillerie, artilleur}, {artisan, artisanal, artisanalement, artisanat}, {artiste, artistique, artistiquement, art}} Gala, Hathout, Nasr, Rey, Seppälä, TALN'11
  • 37. Protocole d'évaluation Idée : • Construire une représentation arborée des mots de la famille • Découper les k arêtes les plus longues de l'arbre pour obtenir Pk • La partition obtenue est-elle proche de la partition “manuelle” ? Partition automatique : P5 = {{artisan, artisanat, artisanal, artisanalement}, {artiste, artistique, artistiquement}, 5 2 {artificier, artificiel, artifice, artificiellement}, 1 {artillerie, artilleur}, 4 3 {art}} Partition manuelle : Pm = {{artificier, artifice, artificiel, artificiellement}, {artillerie, artilleur}, {artisan, artisanal, artisanalement, artisanat}, {artiste, artistique, artistiquement, art}} Gala, Hathout, Nasr, Rey, Seppälä, TALN'11
  • 38. Protocole d'évaluation Idée : • Construire une représentation arborée des mots de la famille • Découper les k arêtes les plus longues de l'arbre pour obtenir Pk • La partition obtenue est-elle proche de la partition “manuelle” ? Partition automatique : P6 = {{artisan, artisanat, artisanal, artisanalement}, {artiste, artistique, 6 artistiquement}, 5 2 {artificier, artificiel, artifice, artificiellement}, 1 {artillerie, artilleur}, 4 3 {art}} Partition manuelle : Pm = {{artificier, artifice, artificiel, artificiellement}, {artillerie, artilleur}, {artisan, artisanal, artisanalement, artisanat}, {artiste, artistique, artistiquement, art}} Gala, Hathout, Nasr, Rey, Seppälä, TALN'11
  • 39. Protocole d'évaluation Idée : • Construire une représentation arborée des mots de la famille • Découper les k arêtes les plus longues de l'arbre pour obtenir Pk • La partition obtenue est-elle proche de la partition “manuelle” ? Partition automatique : P7 = {{artisan, artisanat, artisanal, artisanalement}, {artiste, artistique, 6 artistiquement}, 5 2 {artificier, artificiel, artifice}, {artificiellement}, 1 {artillerie, artilleur}, 4 7 3 {art}} Partition manuelle : Pm = {{artificier, artifice, artificiel, artificiellement}, {artillerie, artilleur}, {artisan, artisanal, artisanalement, artisanat}, {artiste, artistique, artistiquement, art}} Gala, Hathout, Nasr, Rey, Seppälä, TALN'11
  • 40. Protocole d'évaluation Idée : • Construire une représentation arborée des mots de la famille • Découper les k arêtes les plus longues de l'arbre pour obtenir Pk • La partition obtenue est-elle proche de la partition “manuelle” ? Partition automatique : P7 = {{artisan, artisanat, artisanal, artisanalement}, {artiste, artistique, 6 artistiquement}, 5 2 {artificier, artificiel, artifice}, {artificiellement}, 1 {artillerie, artilleur}, 4 7 3 {art}} Partition manuelle : Pm = {{artificier, artifice, artificiel, artificiellement}, {artillerie, artilleur}, {artisan, artisanal, artisanalement, artisanat}, {artiste, artistique, artistiquement, art}} Gala, Hathout, Nasr, Rey, Seppälä, TALN'11
  • 41. Protocole d'évaluation Idée : • Construire une représentation arborée des mots de la famille • Découper les k arêtes les plus longues de l'arbre pour obtenir Pk • La partition obtenue est-elle proche de la partition “manuelle” ? Partition automatique : P7 = {{artisan, artisanat, artisanal, artisanalement}, {artiste, artistique, 6 artistiquement}, 5 2 {artificier, artificiel, artifice}, {artificiellement}, 1 {artillerie, artilleur}, 4 7 3 {art}} Comparer les partitions ! (indice de Rand, Rand corrigé) Partition manuelle : Pm = {{artificier, artifice, artificiel, artificiellement}, {artillerie, artilleur}, {artisan, artisanal, artisanalement, artisanat}, {artiste, artistique, artistiquement, art}} Gala, Hathout, Nasr, Rey, Seppälä, TALN'11
  • 42. Protocole d'évaluation Idée : • Construire une représentation arborée des mots de la famille • Découper les k arêtes les plus longues de l'arbre pour obtenir Pk • La partition obtenue est-elle proche de la partition “manuelle” ? Partition automatique : P7 = {{artisan, artisanat, artisanal, artisanalement}, {artiste, artistique, artistiquement}, {artificier, artificiel, artifice}, {artificiellement}, {artillerie, artilleur}, {art}} Comparer les partitions ! (indice de Rand, Rand corrigé) Partition manuelle : Pm = {{artificier, artifice, artificiel, artificiellement}, {artillerie, artilleur}, {artisan, artisanal, artisanalement, artisanat}, {artiste, artistique, artistiquement, art}} Gala, Hathout, Nasr, Rey, Seppälä, TALN'11
  • 43. Protocole d'évaluation Idée : • Construire une représentation arborée des mots de la famille • Découper les k arêtes les plus longues de l'arbre pour obtenir Pk • La partition obtenue est-elle proche de la partition “manuelle” ? Partition automatique : P7 = {{artisan, artisanat, artisanal, artisanalement}, {artiste, artistique, artistiquement}, {artificier, artificiel, artifice}, {artificiellement}, {artillerie, artilleur}, {art}} rand(Pm,P7) = 0.934 aRand(Pm,P7) = 0.774 Partition manuelle : Pm = {{artificier, artifice, artificiel, artificiellement}, {artillerie, artilleur}, {artisan, artisanal, artisanalement, artisanat}, {artiste, artistique, artistiquement, art}} Gala, Hathout, Nasr, Rey, Seppälä, TALN'11
  • 44. Protocole d'évaluation Idée : • Construire une représentation arborée des mots de la famille • Découper les k arêtes les plus longues de l'arbre pour obtenir Pk • La partition obtenue est-elle proche de la partition “manuelle” ? Partition automatique : P4 = {{artisan, artisanat, artisanal, artisanalement}, {artiste, artistique, artistiquement}, {artificier, artificiel, artifice, artificiellement}, {artillerie, artilleur}, {art}} rand(Pm,P4) = 0.967 aRand(Pm,P4) = 0.894 Partition manuelle : Pm = {{artificier, artifice, artificiel, artificiellement}, {artillerie, artilleur}, {artisan, artisanal, artisanalement, artisanat}, {artiste, artistique, artistiquement, art}} Gala, Hathout, Nasr, Rey, Seppälä, TALN'11
  • 45. Protocole d'évaluation ensemble de mots cooccurrence dans le TLFI + affixes communs matrice de distances méthodes NJ, UPGMA arbre formule 1 formule 2 formule 3 triples length quartets réévaluation des Ratio longueurs d'arêtes arbre 1 arbre 2 arbre 3 découpage de l'arbre par longueur d'arête décroissante partition manuelle partition 1 partition 2 partition 3 comparaison de la meilleure partition parmi P0, P1, P2... score 1 score 2 score 3
  • 46. Plan • Analyses et nuages arborés • Interprétation visuelle • Formules de longueurs d'arêtes • Protocole d'évaluation • Résultats • Visualisations • Perspectives
  • 47. Scores de chaque formule triples 1,2 lengthRatio computedLength 1 agreementPairs quartets 0,8 0,6 0,4 0,2 0 arbre art boule carte corde dent dict fil fus lune meuble mode onde paille penser pot presse ten terre val moyenne Score Rand de la meilleure partition trouvée automatiquement 1 triples 0,9 lengthRatio 0,8 computedLength 0,7 agreementPairs quartets 0,6 0,5 0,4 0,3 0,2 0,1 0 arbre art boule carte corde dent dict fil fus lune meuble mode onde paille penser pot presse ten terre val moyenne Score Rand corrigé de la meilleure partition trouvée automatiquement
  • 48. Scores de chaque formule triples 1,2 lengthRatio computedLength 1 agreementPairs quartets 0,8 0,6 0,4 0,2 0 arbre art boule carte corde dent dict fil fus lune meuble mode onde paille penser pot presse ten terre val moyenne Score Rand de la meilleure partition trouvée automatiquement 1 triples meilleures performances 0,9 lengthRatio par triples et lengthRatio 0,8 computedLength 0,7 agreementPairs quartets 0,6 0,5 0,4 0,3 0,2 0,1 0 arbre art boule carte corde dent dict fil fus lune meuble mode onde paille penser pot presse ten terre val moyenne Score Rand corrigé de la meilleure partition trouvée automatiquement
  • 49. Scores de chaque formule Les formules de longueur d'arête sont-elles cohérentes ?
  • 50. Scores de chaque formule Les formules de longueur d'arête sont-elles cohérentes ? 1 triples 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0 0 0,5 1 1,5 2 2,5 3 computedLength Longueur selon la formule triples en fonction de la longueur originale de l'arête pour l'arbre de la famille de art
  • 51. Scores de chaque formule Les formules de longueur d'arête sont-elles cohérentes ? 1 triples 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 arêtes externes (trop longues) 0,1 0 0 0,5 1 1,5 2 2,5 3 computedLength Longueur selon la formule triples en fonction de la longueur originale de l'arête pour l'arbre de la famille de art
  • 52. Scores de chaque formule Les formules de longueur d'arête sont-elles cohérentes ? 1 triples classes de mots les plus fiables 0,9 0,8 0,7 0,6 0,5 0,4 classes de 0,3 mots les moins fiables arêtes externes (trop longues) 0,2 0,1 0 0 0,5 1 1,5 2 2,5 3 computedLength Longueur selon la formule triples en fonction de la longueur originale de l'arête pour l'arbre de la famille de art
  • 53. Scores de chaque formule Les formules de longueur d'arête sont-elles cohérentes ? 1,35 coefficient de corrélation : lengthRatio 0.865 1,3 1,25 1,2 1,15 1,1 1,05 1 0,95 0,9 0,3 0,4 0,5 0,6 0,7 0,8 0,9 triples Longueur selon la formule lengthRatio en fonction de celle selon la formule triples pour l'arbre de la famille de art
  • 54. Scores de chaque formule Les formules de longueur d'arête sont-elles cohérentes ? 1,35 coefficient de corrélation : lengthRatio 1,3 0.865 arêtes internes 1,25 arêtes internes généralement plus longues : 1,2 bonne lisibilité de l'arbre 1,15 1,1 1,05 1 arêtes externes 0,95 0,9 0,3 0,4 0,5 0,6 0,7 0,8 0,9 triples Longueur selon la formule lengthRatio en fonction de celle selon la formule triples pour l'arbre de la famille de art
  • 55. Scores de chaque formule Les formules de longueur d'arête sont-elles cohérentes ? 1,35 coefficient de corrélation : lengthRatio 1,3 0.865 arêtes internes 1,25 arêtes internes généralement plus longues : 1,2 bonne lisibilité de l'arbre 1,15 1,1 1,05 1 écart-type deux fois plus arêtes externes grand pour triples 0,95 0.166 au lieu de 0.084 0,9 0,3 0,4 0,5 0,6 0,7 0,8 0,9 triples Longueur selon la formule lengthRatio en fonction de celle selon la formule triples pour l'arbre de la famille de art
  • 56. Plan • Analyses et nuages arborés • Interprétation visuelle • Formules de longueurs d'arêtes • Protocole d'évaluation • Résultats • Visualisations • Perspectives
  • 57. Visualisations arbre original computedLength arbre avec longueurs d'arêtes triples arbre avec longueurs d'arêtes lengthRatio
  • 58. Visualisations arbre original computedLength arbre avec longueurs d'arêtes triples variance trop faible des longueurs d'arêtes ! arbre avec longueurs d'arêtes lengthRatio
  • 59. Visualisations arbre original computedLength arbre avec longueurs d'arêtes triples arbre avec longueurs d'arêtes lengthRatio
  • 60. Plan • Analyses et nuages arborés • Interprétation visuelle • Formules de longueurs d'arêtes • Protocole d'évaluation • Résultats • Visualisations • Perspectives
  • 61. Perspectives • intégration des données de JeuxDeMots dans le protocole, et plus généralement en textométrie • réseau de plus de 200 000 mots et 1 200 000 liens pondérés • cooccurrences dans la production spontanée de mots par rapport à un mot cible • cohérence avec les distances de cooccurrence calculées à partir d'un texte ? Lafourcade, JADT'08 • intégration de la visualisation en nuages arborés avec longueurs de branches post-calculées : • dans les outils de textométrie existants • par des interfaces d'import/export adaptées • pour faciliter le retour au texte
  • 62. Questions ? Merci pour votre attention ! http://www.treecloud.org
  • 63. Analyses arborées Rapprochement des mots d'un texte selon leur degré de cooccurrence dans le texte Constellation du mot “nuit” dans la base EXEMPLEM (22 romans de 11 auteurs, lemmatisés) TEMPS 2 CHAMBRE À COUCHER L'ATMOSPHÈRE TEMPS 1 Barthelémy & Luong, Statistique et Analyse des Données, 1986 Hyperbase Brunet, JADT'08
  • 64. Analyses arborées Rapprochement des mots d'un texte selon leur degré de cooccurrence dans le texte Constellation du mot “nuit” dans la base EXEMPLEM (22 romans de 11 auteurs, lemmatisés) TEMPS 2 CHAMBRE À COUCHER L'ATMOSPHÈRE TEMPS 1 Barthelémy & Luong, Statistique et Analyse des Données, 1986 Hyperbase Brunet, JADT'08
  • 65. Ultramétriques, centre d'un arbre arbre “sans centre” (feuilles à gauche plus éloignées de ce point que celles à droit) “centre” de l'arbre