SlideShare uma empresa Scribd logo
1 de 87
Baixar para ler offline
30/11/2010

 Méthodes combinatoires
     de reconstruction
de réseaux phylogénétiques
       Philippe Gambette
Plan

     • Les réseaux phylogénétiques
     • Motivations de l'approche combinatoire
     • Restrictions sur les réseaux phylogénétiques
     • Méthodes combinatoires de reconstruction
     • Limites
     • Application pratique
     • Bilan
     • Perspectives




2
Plan

     • Les réseaux phylogénétiques
     • Motivations de l'approche combinatoire
     • Restrictions sur les réseaux phylogénétiques
     • Méthodes combinatoires de reconstruction
     • Limites
     • Application pratique
     • Bilan
     • Perspectives




3
Les arbres phylogénétiques

     Arbre phylogénétique d'un ensemble d'espèces :
     • Les organiser en fonction de caractères communs                   classification
     • Décrire leur évolution




                     D'après Lamarck : Histoire naturelle des animaux
                                                 sans vertèbres (1815)

                                                                                   4
4
Les arbres phylogénétiques

     Arbre phylogénétique d'un ensemble d'espèces :
     • Les organiser en fonction de caractères communs
     • Décrire leur évolution                                                                        modélisation




                D'après Woese, Kandler, Wheelis : Towards a natural system of organisms: proposal for the
                domains Archaea, Bacteria, and Eucarya, Proceedings of the National Academy of Sciences,
                87(12), 4576–4579 (1990)


5
Les arbres phylogénétiques

     Arbre phylogénétique d'un ensemble d'espèces :
     • Les organiser en fonction de caractères communs
     • Décrire leur évolution                                                                        modélisation




                                                       racine
                D'après Woese, Kandler, Wheelis : Towards a natural system of organisms: proposal for the
                domains Archaea, Bacteria, and Eucarya, Proceedings of the National Academy of Sciences,
                87(12), 4576–4579 (1990)


6
Les arbres phylogénétiques

     Arbre phylogénétique d'un ensemble d'espèces :
     • Les organiser en fonction de caractères communs
     • Décrire leur évolution                                                                       modélisation

                        incertitudes
                        → arbre non enraciné




                D'après Christophe Blumrich, David S. Spencer,
                cité dans Doolittle : Uprooting the Tree of Life, Scientific American (Fév. 2000)

7
Les arbres phylogénétiques

        Arbre phylogénétique d'un ensemble d'espèces :
        • Les organiser en fonction de caractères communs
        • Décrire leur évolution



        arbre des                                   “tokogénie” des
        espèces S                                      individus




    A      B        C




                                   A    B           C
8
Transferts de matériel génétique

        Transferts de matériel génétique entre espèces coexistantes :
        • transfert horizontal
        • hybridation




    S




    A       B    C




                                 A       B            C
9
Transferts de matériel génétique

         Transferts de matériel génétique entre espèces coexistantes :
         • transfert horizontal
         • hybridation


                   arbre des
                   espèces S


      A       B     C                                              gène G1


                                                                         A   B   C


     A       B      C
     réseau N
                                  A       B            C
10
Transferts de matériel génétique

         Transferts de matériel génétique entre espèces coexistantes :
         • transfert horizontal
         • hybridation

                                                                   gène G1
                   arbre des
                   espèces S
                                                                         A   B     C

      A       B     C
                                                                     arbres de gènes
                                                                     incompatibles


                                                                   gène G2
     A       B      C
     réseau N
                                                                         A   B     C
                                  A       B            C
11
Les réseaux phylogénétiques

      Réseau phylogénétique : réseau représentant des données d'évolution
      • réseaux phylogénétiques explicites
      modélisation de l'évolution
                                                      Simplistic


                        réseau à une
                           couche de
                         réticulation                     réseau de
                                                          niveau 2
                        Dendroscope




                            diagramme de
                                 synthèse




                       HorizStory             T-Rex
                                             réticulogramme
12
Les réseaux phylogénétiques

       Réseau phylogénétique : réseau représentant des données d'évolution
       • réseaux phylogénétiques explicites
       modélisation de l'évolution                                                      Simplistic
                                                             diagramme de
                                                                  synthèse
                              réseau à une
                                 couche de
                               réticulation                                                 réseau de
                                                                                            niveau 2
                              Dendroscope

                                                        HorizStory

       • réseaux phylogénétiques abstraits
       classification, visualisation de données
                                                                              réseau couvrant minimum
     réseau de bipartitions                      réseau
                                                 médian


     SplitsTree
                                              Network
                                                                             TCS
13
Plate-forme bibliographique
                                            Who is Who in
                                            Phylogenetic Networks,
                                            Articles, Authors &
                                            Programs




     Basé sur BibAdmin
     par Sergiu Chelcea
     + nuages de mots, histogramme
     des dates, liste des journaux,
     graphes de co-auteurs,
     définition des mots-clés.
14                                    http://www.atgc-montpellier.fr/phylnet
Plan

      • Les réseaux phylogénétiques
      • Motivations de l'approche combinatoire
      • Restrictions sur les réseaux phylogénétiques
      • Méthodes combinatoires de reconstruction
      • Limites
      • Application pratique
      • Bilan
      • Perspectives




15
Reconstruction de réseaux phylogénétiques



     espèce   1   :   AATTGCAG TAGCCCAAAAT
     espèce   2   :   ACCTGCAG TAGACCAAT
     espèce
     espèce
              3
              4
                  :
                  :
                      GCTTGCCG
                      ATTTGCAG
                               TAGACAAGAAT
                               AAGACCAAAT
                                             {séquences de gènes}
     espèce   5   :            TAGACAAGAAT
     espèce   6   :   ACTTGCAG TAGCACAAAAT
     espèce   7   :   ACCTGGTG TAAAAT                 méthodes de distance
                       G1        G2                         Bandelt & Dress 1992 - Legendre & Makarenkov
                                                                             2000 - Bryant & Moulton 2002

                                                      méthodes de parcimonie
                                                                Hein 1990 - Kececioglu & Gusfield 1994 - Jin,
                                                                                  Nakhleh, Snir, Tuller 2009

                                                      méthodes de vraisemblance
                                                          Snir & Tuller 2009 - Jin, Nakhleh, Snir, Tuller 2009 -
                                                                                        Velasco & Sober 2009

                                               réseau N



16
Reconstruction de réseaux phylogénétiques

                                 Problème : méthodes généralement lentes,
                                    explosion du nombre de séquences.

     espèce   1   :   AATTGCAG TAGCCCAAAAT
     espèce   2   :   ACCTGCAG TAGACCAAT
     espèce
     espèce
              3
              4
                  :
                  :
                      GCTTGCCG
                      ATTTGCAG
                               TAGACAAGAAT
                               AAGACCAAAT
                                             {séquences de gènes}
     espèce   5   :            TAGACAAGAAT
     espèce   6   :   ACTTGCAG TAGCACAAAAT
     espèce   7   :   ACCTGGTG TAAAAT                 méthodes de distance
                       G1         G2                        Bandelt & Dress 1992 - Legendre & Makarenkov
                                                                             2000 - Bryant & Moulton 2002

                                                      méthodes de parcimonie
                                                                Hein 1990 - Kececioglu & Gusfield 1994 - Jin,
                                                                                  Nakhleh, Snir, Tuller 2009

                                                      méthodes de vraisemblance
                                                          Snir & Tuller 2009 - Jin, Nakhleh, Snir, Tuller 2009 -
                                                                                        Velasco & Sober 2009

                                               réseau N



17
Reconstruction de réseaux phylogénétiques
     espèce   1   :   AATTGCAG TAGCCCAAAAT
     espèce   2   :   ACCTGCAG TAGACCAAT
     espèce
     espèce
              3
              4
                  :
                  :
                      GCTTGCCG
                      ATTTGCAG
                               TAGACAAGAAT
                               AAGACCAAAT     {séquences de gènes}
     espèce   5   :            TAGACAAGAAT
     espèce   6   :   ACTTGCAG TAGCACAAAAT
     espèce   7   :   ACCTGGTG TAAAAT

                       G1        G2                      Reconstruction d'un arbre pour chaque
                                                         gène présent chez plusieurs espèces
                                                                             Guindon & Gascuel, SB, 2003

                  T1
                                                    {arbres}          Base HOGENOM
                                                                      Dufayard, Duret, Penel, Gouy,
                                                                      Rechenmann & Perrière, BioInf, 2005
                                 T2
                                                         Réconciliation ou consensus d'arbres

          réseau
          explicite
                                             super-réseau optimal N



18
Reconstruction de réseaux phylogénétiques
     espèce   1   :   AATTGCAG TAGCCCAAAAT
     espèce   2   :   ACCTGCAG TAGACCAAT
     espèce
     espèce
              3
              4
                  :
                  :
                      GCTTGCCG
                      ATTTGCAG
                               TAGACAAGAAT
                               AAGACCAAAT     {séquences de gènes}
     espèce   5   :            TAGACAAGAAT
     espèce   6   :   ACTTGCAG TAGCACAAAAT
     espèce   7   :   ACCTGGTG TAAAAT

                       G1         G2                        Reconstruction d'un arbre pour chaque
                                                            gène présent chez plusieurs espèces
                                                                                 Guindon & Gascuel, SB, 2003

                  T1
                                                     {arbres}             Base HOGENOM
                                                                          Dufayard, Duret, Penel, Gouy,
                                                                          Rechenmann & Perrière, BioInf, 2005
                                  T2                                      > 500 espèces, >70 000 arbres
                                                            Réconciliation ou consensus d'arbres

          réseau
          explicite
                                             super-réseau optimal N

                      Problème : la réconciliation d'arbres est un problème difficile
                                 (NP-complet pour 2 arbres avec le minimum d'hybridations)
19                                                                             Bordewich & Semple, DAM, 2007
Triplets et quadruplets, clades et bipartitions

     Problème :
     Reconstruire le super-réseau d'un ensemble d'arbres est
                                      difficile.
     Idée :
     reconstuire un réseau contenant tous les :

                                        triplets
                                      quadruplets
                                         clades
                                      bipartitions
                                                                 des arbres en entrée ?
                                                             b       c
                                                     a
                                                         f
                                                                 e       d   a b c d e
20
Triplets et quadruplets, clades et bipartitions

     Idée :
     reconstuire un réseau contenant tous les :

                                                                 triplets
                                                                  a|ce

                                                     a b c d e




                                              des arbres en entrée ?
21
Triplets et quadruplets, clades et bipartitions

     Idée :
     reconstuire un réseau contenant tous les :

                                                                 triplets
         quadruplets b                                            a|ce
                                 c
            ab|ce
                   a                                 a b c d e
                    f
                                     d
                             e




                                              des arbres en entrée ?
22
Triplets et quadruplets, clades et bipartitions

     Idée :
     reconstuire un réseau contenant tous les :

                                                                 triplets
         quadruplets b                                            a|ce
                                 c
            ab|ce
                   a                                 a b c d e
                    f
                                     d
                             e

                                                                  clades
                                                                  {c,d,e}

                                                     a b c d e


                                              des arbres en entrée ?
23
Triplets et quadruplets, clades et bipartitions

     Idée :
     reconstuire un réseau contenant tous les :

                                                                 triplets
         quadruplets b                                            a|ce
                                 c
            ab|ce
                   a                                 a b c d e
                    f
                                     d
                             e

                                                                  clades
         bipartitions                                             {c,d,e}
                      b          c
            {a,b,f}
            {c,d,e} a                                a b c d e
                     f
                                     d
                             e
                                              des arbres en entrée ?
24
Reconstruction combinatoire de réseaux phylogénétiques

     Idée :
     modifier le type de données à traiter

                                       {arbres}




                                   {triplets} {quadruplets} {clades} {bipartitions}




        super-réseau N                              super-réseau N'
           optimal                                     optimal

                                             Huson, Rupp, Berry, Gambette & Paul, IMSB 2009
                                                                Gambette, Berry & Paul, 2010
25
Reconstruction combinatoire de réseaux phylogénétiques

     Idée :
     modifier le type de données à traiter

                                       {arbres}




                                   {triplets} {quadruplets} {clades} {bipartitions}




        super-réseau N                             super-réseau N'
           optimal                                    optimal


26
                                      N=N' ?
Reconstruction combinatoire de réseaux phylogénétiques

     Idée :
     modifier le type de données à traiter

                                       {arbres}




                                   {triplets} {quadruplets} {clades} {bipartitions}




        super-réseaux N                           super-réseaux N'




27
                             { N } ⊆ { N' }
Reconstruction combinatoire de réseaux phylogénétiques

      Un réseau qui contient l'ensemble de tous les triplets ou clades d'un arbre T
      ne contient pas forcément T.

                                               contient {a|bc,a|bd,a|cd,b|cd}
          T                                    mais pas T
                             N


                                               contient {abcd,bcd,cd,a,b,c,d}
         a b c d            a b c d            mais pas T




28
Reconstruction combinatoire de réseaux phylogénétiques

      Un réseau qui contient l'ensemble de tous les triplets ou clades d'un arbre T
      ne contient pas forcément T.

                                               contient {a|bc,a|bd,a|cd,b|cd}
          T                                    mais pas T
                             N


                                               contient {abcd,bcd,cd,a,b,c,d}
         a b c d            a b c d            mais pas T




29
Reconstruction combinatoire de réseaux phylogénétiques

      Un réseau qui contient l'ensemble de tous les triplets ou clades d'un arbre T
      ne contient pas forcément T.

                                               contient {a|bc,a|bd,a|cd,b|cd}
          T                                    mais pas T
                             N


                                               contient {abcd,bcd,cd,a,b,c,d}
         a b c d            a b c d            mais pas T




30
Reconstruction combinatoire de réseaux phylogénétiques

      Un réseau qui contient l'ensemble de tous les triplets ou clades d'un arbre T
      ne contient pas forcément T.

                                               contient {a|bc,a|bd,a|cd,b|cd}
          T                                    mais pas T
                             N


                                               contient {abcd,bcd,cd,a,b,c,d}
         a b c d            a b c d            mais pas T




31
Reconstruction combinatoire de réseaux phylogénétiques

      Un réseau qui contient l'ensemble de tous les triplets ou clades d'un arbre T
      ne contient pas forcément T.

                                               contient {a|bc,a|bd,a|cd,b|cd}
          T                                    mais pas T
                             N


                                               contient {abcd,bcd,cd,a,b,c,d}
         a b c d            a b c d            mais pas T




32
Reconstruction combinatoire de réseaux phylogénétiques

      Un réseau qui contient l'ensemble de tous les triplets ou clades d'un arbre T
      ne contient pas forcément T.

                                               contient {a|bc,a|bd,a|cd,b|cd}
          T                                    mais pas T
                             N


                                               contient {abcd,bcd,cd,a,b,c,d}
         a b c d            a b c d            mais pas T




33
Reconstruction combinatoire de réseaux phylogénétiques

      Un réseau qui contient l'ensemble de tous les triplets ou clades d'un arbre T
      ne contient pas forcément T.

                                               contient {a|bc,a|bd,a|cd,b|cd}
          T                                    mais pas T
                             N


                                               contient {abcd,bcd,cd,a,b,c,d}
         a b c d            a b c d            mais pas T




34
Reconstruction combinatoire de réseaux phylogénétiques

      Un réseau qui contient l'ensemble de tous les triplets ou clades d'un arbre T
      ne contient pas forcément T.

                                               contient {a|bc,a|bd,a|cd,b|cd}
          T                                    mais pas T
                             N


                                               contient {abcd,bcd,cd,a,b,c,d}
         a b c d            a b c d            mais pas T



                       contient les clades / triplets d'un arbre T




                                       contient T.
35
Clades stricts et souples


      Clade “strict” : ensemble des feuilles sous un noeud du réseau



                                             abcd
                                       abc          cd
                                             bc



                                   a    b     c     d




36
Clades stricts et souples

      Clade “souple” : clade d'un arbre inclus dans le réseau

      Modèle de transmission arborée des gènes
      (gène transmis intégralement)


                                       abc
                                       ab         cd
                                             bc



                                   a    b     c   d




37
Clades stricts et souples

      Clade “souple” : clade d'un arbre inclus dans le réseau

      Modèle de transmission arborée des gènes
      (gène transmis intégralement)


                                       abc
                                       ab         cd
                                             bc



                                   a    b     c   d




38
Clades stricts et souples

      Modèle de transmission arborée des gènes
      (gène transmis intégralement)

      Clade “souple” : clade d'un arbre inclus dans le réseau


                                       abc
                                       ab         cd
                                             bc



                                   a    b     c   d

      L'ensemble S(N) de tous les clades souplement compatibles avec N peut être
      de taille exponentielle.
      Tester si un clade souple appartient à un réseau : NP-complet.
                                                         Kanj, Nakhleh, Than & Xia, TCS, 2008

39
Plan

      • Les réseaux phylogénétiques
      • Motivations de l'approche combinatoire
      • Restrictions sur les réseaux phylogénétiques
      • Méthodes combinatoires de reconstruction
      • Limites
      • Application pratique
      • Perspectives




40
Réseaux phylogénétiques restreints

      Algorithmes rapides pour des réseaux à structure proche d'un arbre.




                                           niveau =
                                           nombre maximum d'hybridations
                  h1                       par partie non arborée (blob).
                               h3
                       h2

       a b c d e f g h i            j k
         réseau de niveau 2




                                                 Choy, Jansson, Sadakane & Sung, TCS, 2005
41
Réseaux phylogénétiques restreints

      Algorithmes rapides pour des réseaux à structure proche d'un arbre.




                                           niveau =
                                           nombre maximum d'hybridations
                                           par partie non arborée (blob).



       a b c d e f g h i           j k
         réseau de niveau 2




                         réseau de niveau 1
                         (“galled tree”)       a b c d e f g h i            j k
42
Décomposition des réseaux de niveau k
     Décomposition en blobs :




        a b c d e f g h i            j k        a b c d e f g h i                 j k
        N, réseau de niveau k.                     décomposition arborée de N en
                                                          générateurs.
                                                           Gambette, Berry & Paul, CPM 2009


     Générateurs initialement introduits pour la classe restreinte des réseaux simples
     de niveau k
     Analyse de cas pour trouver les 4 générateurs de niveau 2
     Force brute pour les 65 générateurs de niveau 3
                                                               Van Iersel et al., RECOMB 2008
43                                                    http://homepages.cwi.nl/~kelk/lev3gen
Décomposition des réseaux de niveau k

     Générateur de niveau k :
     réseau de niveau k sans isthme (arête dont la suppression déconnecte le réseau).




                  G0                 G1        2a      2b         2c     2d

     Règles de construction des générateurs de niveau k+1 à partir de ceux de
     niveau k

                        N                 e2

                            h1 e 1        h2            h1         h2
                                                             h3
                                                         R1(N,h1,h2)

44                                                                 Gambette, Berry & Paul, CPM 2009
Décomposition des réseaux de niveau k

     Générateur de niveau k :
     réseau de niveau k sans isthme (arête dont la suppression déconnecte le réseau).




                  G0                 G1        2a      2b         2c     2d

     Règles de construction des générateurs de niveau k+1 à partir de ceux de
     niveau k

                        N                 e2

                            h1 e 1        h2            h1         h2
                                                             h3
                                                         R1(N,h1,e2)


45                                                                 Gambette, Berry & Paul, CPM 2009
Construction des générateurs

     Problème !
     Certains des générateurs de niveau k+1 obtenus depuis ceux de niveau k sont
     isomorphes !




                       h1        h2              h1         h2
                            h3                        h3
                      R1(N,h1,e2)               R1(N,h2,e1)




46                                                         Gambette, Berry & Paul, CPM 2009
Construction des générateurs

     Problème !
     Certains des générateurs de niveau k+1 obtenus depuis ceux de niveau k sont
     isomorphes !




                       h1        h2                  h1        h2
                            h3                            h3
                      R1(N,h1,e2)                 R1(N,h2,e1)



                            → comptage difficile !
                            → génération possible jusqu'à niveau 5 :
                               1, 4, 65, 1993, 91454
                                                            Gambette, Berry & Paul, CPM 2009
47                                         http://www.lirmm.fr/~gambette/ProgGenerators.php
Réseaux phylogénétiques restreints

      Algorithmes rapides pour des réseaux à structure proche d'un arbre.




                                            réseau à une couche de réticulation
                                            (“galled network”) : la suppression
                  h1                        d'un noeud de réticulation
                               h3           déconnecte le réseau.
                       h2

       a b c d e f g h i            j k
         réseau à une couche de
         réticulation.




48
Réseaux phylogénétiques restreints

      Algorithmes rapides pour des réseaux à structure proche d'un arbre.




                                            réseau à une couche de réticulation
                                            (“galled network”) : la suppression
                  h1                        d'un noeud de réticulation
                               h3           déconnecte le réseau.
                       h2

       a b c d e f g h i            j k
         réseau à une couche de
         réticulation.




49
Réseaux phylogénétiques restreints

      Algorithmes rapides pour des réseaux à structure proche d'un arbre.




                                            réseau à une couche de réticulation
                                            (“galled network”) : la suppression
                  h1                        d'un noeud de réticulation
                                            déconnecte le réseau.
                       h2

       a b c d e f g h i           j k
         réseau à une couche de
         réticulation.




50
Réseaux phylogénétiques restreints

      Algorithmes rapides pour des réseaux à structure proche d'un arbre.




                                             réseau à une couche de réticulation
                                             (“galled network”) : la suppression
                  h1                         d'un noeud de réticulation
                               h3            déconnecte le réseau.
                       h2

       a b c d e f g h i            j k
         réseau à une couche de
         réticulation.
                                                           h2

                               réseau à deux                      h3
                                  couches de        h1
                                 réticulation.   a b c d e f g h i          j k
51
Réseaux phylogénétiques restreints

      Algorithmes rapides pour des réseaux à structure proche d'un arbre.




                                             réseau à une couche de réticulation
                                             (“galled network”) : la suppression
                  h1                         d'un noeud de réticulation
                               h3            déconnecte le réseau.
                       h2

       a b c d e f g h i            j k
         réseau à une couche de
         réticulation.


                               réseau à deux                      h3
                                  couches de        h1
                                 réticulation.   a b c d e f g h i          j k
52
Hiérarchie de sous-classes de réseaux

                                                 explicite
                                                 enraciné



                             sans fratrie
                                                    niveau k
                               hybride
                                                                   1 couche de
              régulier                                                            enchâssés
                                                                   réticulation
                            sans descen.
                                                    niveau 2
                              hybride



                         normal                                niveau 1



                                                                   unicyclique


                                                                    simple de
                                            arbre                    niveau 1




53                                          http://www.lirmm.fr/~gambette/RePhylogeneticNetworks.php
Hiérarchie de sous-classes de réseaux

                                                 explicite
                                                 enraciné



                             sans fratrie
                                                    niveau k
                               hybride
                                                                   1 couche de
              régulier                                                            enchâssés
                                                                   réticulation
                            sans descen.
                                                    niveau 2
                              hybride



                         normal                                niveau 1



                                                                   unicyclique


                                                                    simple de
                                            arbre                    niveau 1




54                                          http://www.lirmm.fr/~gambette/RePhylogeneticNetworks.php
Plan

      • Les réseaux phylogénétiques
      • Motivations de l'approche combinatoire
      • Restrictions sur les réseaux phylogénétiques
      • Méthodes combinatoires de reconstruction
      • Limites
      • Application pratique
      • Bilan
      • Perspectives




55
Reconstruction depuis les clades souples

     {arbres}         Consensus de clades souples :
                      Dendroscope
                                                               Huson et al., BMCB, 2007

                      Méthode exacte rapide de reconstruction de réseaux à 1
                      couche de réticulation à partir de clades souples
                                         Huson, Rupp, Berry, Gambette & Paul, ISMB 2009
     {clades}

                      Méthode exacte de reconstruction de réseaux de niveau k
                      à partir de clades souples
                                                   Iersel, Kelk, Rupp & Huson, ISMB 2010

                          meilleurs résultats mais plus lente pour niveau > 2.
                          pour k fixé, certains ensembles de clades contenus
       N'                 dans aucun réseau de niveau k.
       réseau à 1
       couche de
       réticulation
56                                                            http://www.dendroscope.org
Clades et réseaux à une couche de réticulation

      Test de compatibilité souple polynomial sur les réseaux à une couche de
      réticulation.



      Pour tout ensemble C de clades, il existe un réseau à une couche de
      réticulation compatible avec C.




                        N
                                        Le réseau à une couche de réticulation N
                                        est compatible avec
                                        tout clade souple sur {a,b,c,d,e,f}.

            a   b   c       d   e   f

                                               Huson, Rupp, Berry, Gambette & Paul, IMSB 2009
57
Clades et réseaux à une couche de réticulation

      Test de compatibilité souple polynomial sur les réseaux à une couche de
      réticulation.



      Pour tout ensemble C de clades, il existe un réseau à une couche de
      réticulation compatible avec C.



           {a,b,d}
                         N
                                         Le réseau à une couche de réticulation N
                                         est compatible avec
                                         tout clade souple sur {a,b,c,d,e,f}.

            a   b    c       d   e   f

                                                Huson, Rupp, Berry, Gambette & Paul, IMSB 2009
58
Une approche en deux étapes


     1- Trouver un ensemble minimum de conflits parmi les clades :
     - partie sans conflits  arbre,
     - taxons impliqués dans des conflits sous les réticulations.
                                                                         a   b    c    d
                             MAXIMUM COMPATIBLE SUBSET
                                                                             x    y

     2- Attacher à l'arbre les taxons impliqués dans des conflits
     avec un nombre minimal d'arcs :

                            MINIMUM ATTACHMENT PROBLEM




                                                                    a b      x   y    c    d
                                              Huson, Rupp, Berry, Gambette & Paul, IMSB 2009
59
L'ensemble minimum de conflits

      Conflit : clades ni inclus ni disjoints                 A        B

      Problème :
      enlever un nombre minimum t de taxons pour supprimer tous les conflits
      entre les clades de C.

      NP-complet dans le cas général
                                                                  Steel & Hamel, AML, 1996

      NP-complet sur un graphe connexe, sans taxons “jumeaux”
                                                              réduction depuis le cas général

      Algorithme FPT de branchement en O(3t.n|C|²) implémenté dans
      Dendroscope




                                                Huson, Rupp, Berry, Gambette & Paul, IMSB 2009
60
L'ensemble minimum de conflits

      Conflit : clades ni inclus ni disjoints                   A       B

      Graphe des caractères d'un ensemble de clades,
      graphe biparti avec :
      - un ensemble de sommets pour les clades
      - un ensemble de sommets pour les taxons
      - arête quand le taxon appartient au clade

      Exemple :       {{a,b},{a,b,x},{a,x},{b,x},{b,y},{c,d},{c,d,x,y},{c,x},{d,y},{x,y}}

         {a,b} {a,b,x} {a,x} {b,x} {b,y} {c,d} {c,d,x,y} {c,x} {d,y} {x,y}




                            a      b      c       d     x           y
                                    conflit = graphe “M”
                                                  Huson, Rupp, Berry, Gambette & Paul, IMSB 2009
61
L'ensemble minimum de conflits

      Conflit : clades ni inclus ni disjoints                 A       B

      Graphe des caractères :

         {a,b} {a,b,x} {a,x} {b,x} {b,y} {c,d} {c,d,x,y} {c,x} {d,y} {x,y}




                            a      b       c     d        x       y


                          Trouver l'ensemble minimum de conflits


      Supprimer le nombre minimum t de sommets-taxons tels que le graphe des
                        caractères est un graphe “sans M”
                                                Huson, Rupp, Berry, Gambette & Paul, IMSB 2009
62
L'ensemble minimum de conflits

      Conflit : clades ni inclus ni disjoints                 A       B

      Graphe des caractères :

         {a,b} {a,b,x} {a,x} {b,x} {b,y} {c,d} {c,d,x,y} {c,x} {d,y} {x,y}




                            a      b       c     d


      Supprimer le nombre minimum t de sommets-taxons tels que le graphe des
      caractères est un graphe “sans M” :
      - algorithme FPT basique de branchement en O*(3 t)
      - algorithme FPT 3-Hitting-Set en O*(2,076t)

                                                Huson, Rupp, Berry, Gambette & Paul, IMSB 2009
63
L'attachement minimum

      Etape précédente :
      ensemble minimum de taxons R tels que les clades
      sur XR sont compatibles (avec un arbre T).



                                ab    cd                T : arbre représentant les
                             abx        cdxy            clades sur XR
                          ax    bx          dy
                                  by cx
                          a     b     c      d
                                                    XR
                                      xy
                                               B        B : réseau représentant les
                                  x    y                clades maximaux sur R et les
                                           R            singletons de R.
      Problème :
      Attacher T à B avec le minimum de liens.
                                               Huson, Rupp, Berry, Gambette & Paul, IMSB 2009
64
L'attachement minimum

      Problème :                                                  ab    cd     T
      Attacher T à B avec le minimum de liens.                 abx        cdxy
                                                            ax    bx          dy
                                                                    by cx
                                                            a     b     c      d

                                                                          xy
                                                                                 B
                                                                     x     y
      NP-complet
                                                                 réduction depuis SetCover

      Algorithmes :
      - Séparation et évaluation
                                                           implémenté dans Dendroscope 2
      - Programme linéaire en nombres entiers



                                            Huson, Rupp, Berry, Gambette & Paul, IMSB 2009
65
Reconstruction depuis les triplets

     {arbres}     Méthodes exactes rapides pour reconstruire un réseau de niveau 1
                  et 2 (s'il en existe un) à partir d'un ensemble dense de triplets
                                                 Jansson, Nguyen & Sung, SODA'05 : O(n3) pour niveau 1,
                                                   van Iersel, Kelk & al, RECOMB'08 : O(n8) pour niveau 2,
                                                               To & Habib, CPM'09 : O(n5k+4) pour niveau k


                  dense =
     {triplets}   sur chaque ensemble de 3 feuilles, au moins 1 triplet existe dans T.

                  Programme Simplistic




        N'                              Réseau phylogénétique de levures -
        réseau                          Van Iersel et al. :
                                        Constructing level-2 phylogenetic
        de niveau k                     networks from triplets.
                                        RECOMB 2008

66                                                     http://homepages.cwi.nl/~kelk/simplistic.html
Reconstruction depuis les quadruplets

      {arbres}       Réseau non enraciné de niveau k
                                          nombre maximum d'arêtes à supprimer,
                                                   par blob, pour obtenir un arbre

                                        h                 g
                                   i

     {quadruplets}                                                    f


                             a
                                                                 e         réseau
                                                 d                   non enraciné
                                                                      de niveau 2
                                  b         c
     N' réseau
     non enraciné    Orientation enracinée : réseau de niveau k
     de niveau k     Niveau invariant selon l'orientation

                                                              Gambette, Berry & Paul, 2010
67
Reconstruction d'arbres


                       non enraciné / quadruplets                enraciné / triplets


                                                                      polynomial
        général                  NP-complet             Aho, Sagiv, Szymanski & Ullman, SJOC, 1981
                                Steel, JOC, 1992           Henzinger, King & Warnow, ALG, 1999
                                                         Jansson, Ng, Sadakane & Sung, ALG, 2005




         dense
       au moins un                   O(n4)                                  O(n3)
     quadruplet pour       Berry & Gascuel, TCS, 2000               Aho et al., SJOC, 1981
      tout ensemble
       de 4 feuilles




68
Reconstruction de réseaux de niveau k

                                  non enraciné                             enraciné

                          niveau 1          niveau k>1          niveau 1              niveau k>1


        général          NP-complet              ?             NP-complet          NP-complet
                       Réduction depuis                      Jansson, Nguyen      Van Iersel, Kelk
                         Betweenness                        & Sung, SJOC, 2006    & Mnich, JBCB,
                                                                                       2009



         dense                ?                                   O(n3)                O(n5k+4)
       au moins un     (décomposition en         ?           Jansson, Nguyen          To & Habib,
     quadruplet pour        temps                           & Sung, SJOC, 2006         CPM 2009
      tout ensemble       polynomial)
       de 4 feuilles

       complet
        tous les            O(n4)                 ?               O(n3)                O(n3k+3)
     quadruplets du                        (décomposition    Jansson, Nguyen     Van Iersel & Kelk,
         réseau                               en temps      & Sung, SJOC, 2006      ALG, 2010
                                             polynomial)


                                                                     Gambette, Berry & Paul, 2010
69
Plan

      • Les réseaux phylogénétiques
      • Motivations de l'approche combinatoire
      • Restrictions sur les réseaux phylogénétiques
      • Méthodes combinatoires de reconstruction
      • Limites
      • Application pratique
      • Bilan
      • Perspectives




70
Explosion combinatoire

       • Les restrictions sur les réseaux reconstruits n'empêchent pas l'explosion
       combinatoire
       • Ambiguïté de la reconstruction, même à partir de données complètes et
       correctes.

       Rappel :
       Un réseau de niveau k se décompose en
       un arbre de générateurs choisis parmi un ensemble fini.

       Nombre exponentiel de générateurs de niveau k :
                                     gk ≥ 2k-1




71                                                       Gambette, Berry & Paul, CPM, 2010
Ambiguïté des solutions

        • Les restrictions sur les réseaux reconstruits n'empêchent pas l'explosion
        combinatoire
        • Ambiguïté de la reconstruction, même à partir de données complètes et
        correctes.

                  Plusieurs réseaux minimaux distincts ont exactement
                   le même ensemble d'arbres, de triplets, de clades.



                                       a               c
                     a          c
                                           b               b

                          b                       c               a
                     Caractérisation pour les réseaux de niveau 1 :
             les seuls cas ambigus sont les blobs ci-dessus (< 5 somments)

72                                                                Gambette & Huber, 2010
Ambiguïté des solutions

        • Les restrictions sur les réseaux reconstruits n'empêchent pas l'explosion
        combinatoire
        • Ambiguïté de la reconstruction, même à partir de données complètes et
        correctes.

                  Plusieurs réseaux minimaux distincts ont exactement
                   le même ensemble d'arbres, de triplets, de clades.

              a|bc

                                       a               c
                     a          c
                                           b               b

                          b                       c               a
                     Caractérisation pour les réseaux de niveau 1 :
             les seuls cas ambigus sont les blobs ci-dessus (< 5 somments)

73                                                                Gambette & Huber, 2010
Ambiguïté des solutions

   • Les restrictions sur les réseaux reconstruits n'empêchent pas l'explosion
   combinatoire
   • Ambiguïté de la reconstruction, même à partir de données complètes et
   correctes.

             Plusieurs réseaux minimaux distincts ont exactement
              le même ensemble d'arbres, de triplets, de clades.

         c|ab

                                  a               c
                a          c
                                      b               b

                     b                       c               a
                Caractérisation pour les réseaux de niveau 1 :
        les seuls cas ambigus sont les blobs ci-dessus (< 5 somments)

                                                             Gambette & Huber, 2010
Ambiguïté des solutions

        • Les restrictions sur les réseaux reconstruits n'empêchent pas l'explosion
        combinatoire
        • Ambiguïté de la reconstruction, même à partir de données complètes et
        correctes.

                  Plusieurs réseaux minimaux distincts ont exactement
                   le même ensemble d'arbres, de triplets, de clades.


                                                       x1
                                       x1                   x2
                                  x2

                            b
                                       a           b         a
                2 réseaux de niveau 2 avec le même ensemble de triplets


75                                                                Gambette & Huber, 2010
Ambiguïté des solutions

        • Les restrictions sur les réseaux reconstruits n'empêchent pas l'explosion
        combinatoire
        • Ambiguïté de la reconstruction, même à partir de données complètes et
        correctes.

                  Plusieurs réseaux minimaux distincts ont exactement
                   le même ensemble d'arbres, de triplets, de clades.


                                                       x1
                                       x1                   x2
                                  x2

                            b
                                       a           b         a
                2 réseaux de niveau 2 avec le même ensemble de triplets
              Même avec des données de départ complètes et correctes,
                 impossible de choisir entre les formes ambiguës !
76                                                                Gambette & Huber, 2010
Plan

      • Les réseaux phylogénétiques
      • Motivations de l'approche combinatoire
      • Restrictions sur les réseaux phylogénétiques
      • Méthodes combinatoires de reconstruction
      • Limites
      • Application pratique
      • Perspectives




77
Bruit dans les données


     • Approches de filtres :
     Ne considérer que les clades, triplets, avec un bon support.
     Ex : clades présents dans 20% des arbres en entrée



     • Approches d'édition des données :
     Corriger les données au minimum pour obtenir un réseau restreint :
     - arbres à partir de clades :
                                               O*(3l), Huson, Rupp, Berry, Gambette & Paul, ISMB 2009

     - arbres à partir de triplets :
                                                                     O*(3l), Guillemot & Berry, TCBB, 2007,
                                                     O(n4 + 2O(t^(1/3) log t)), Guillemot & Mnich, TAMC 2009.



     Problème ouvert :
     réseaux de niveau 1 à partir de clades ou triplets


78
Silence dans les données

     Nécessité d'avoir des clades complets, des ensembles denses de triplets ou
     quadruplets :
                   arbres en entrée sur le même ensemble de taxons

     • Compléter les données :
     Inférence de triplets
                                                                Bryant & Steel, AAM, 1995
     Inférence de bipartitions
                                              Huson, Dezulian, Klöpper & Steel, TCBB, 2004
                                                      Grünewald, Huber & Wu, BMB, 2008

     • Sélectionner les données :

     Arbres de gènes :
     Rectangles maximaux / bicliques maximales

     Ensemble dense maximum de triplets :
     Problème NP-complet
                                                                      Réduction de Clique


79
Exemples de résultats

     16 arbres de la base HOGENOM sur 47 taxons            Lev1athan
     (protéobactéries)                                   (heuristique
     24 Enterobacteriales                                    triplets,
     2 Pasteurellales                                       niveau 1)
     1 Aeromonadales                                          24 sec.
     9 Alteromonadales
     1 Oceanospirillales
     6 Rhodobacterales
     4 Rhizobiales

     Réseaux contenant les triplets, clades souples,
     présents dans au moins 20% des arbres


     Simplistic                                          Dendroscope
     (réseau de                                        (clades, réseau
     niveau 7                                           à 1 couche de
     à partir                                             réticulation)
     de                                                         <1 sec.
     triplets)
     63 sec.




80
Exemples de résultats

     16 arbres de la base HOGENOM sur 47 taxons    Dendroscope
     (protéobactéries)                               (réseau de
     24 Enterobacteriales                                clades)
     2 Pasteurellales                                    <1 sec.
     1 Aeromonadales
     9 Alteromonadales
     1 Oceanospirillales
     6 Rhodobacterales
     4 Rhizobiales

     Réseaux contenant les clades souples
     présents dans au moins 20% des arbres


                                                    Dendroscope
     Dendroscope                                  (clades, réseau
     (clades, réseau                               à 1 couche de
     de niveau 2)                                    réticulation)
     2 sec.                                                <1 sec.




81
Exemples de résultats

      9 arbres sur 279 espèces de procaryotes
      Clades dans au moins 2 arbres
                                                Auch, Steigele, Huson & Henz, 2009




                                                                             Dendroscope
                                                (clades, réseau à 1 couche de réticulation)
82                                                                                   2 sec.
Plan

      • Les réseaux phylogénétiques
      • Motivations de l'approche combinatoire
      • Restrictions sur les réseaux phylogénétiques
      • Méthodes combinatoires de reconstruction
      • Limites
      • Application pratique
      • Bilan
      • Perspectives




83
Résultats obtenus pendant la thèse
                                  Bioinformatique
       Reconstruction de réseaux à une couche de réticulation à partir de clades                   journaux
                        Huson, Rupp, Berry, Gambette & Paul, BioInf, ISMB 2009                  internationaux
       Structure des réseaux de niveau borné                                                      conférences
                                               Gambette, Berry & Paul, CPM 2009               internationales avec
                                                                                                     actes
       Ambiguïté des réseaux de niveau 1 par rapport à leur ensemble de clades
       et triplets                                                                              colloques jeunes
                                               Gambette & Huber, soumis à JMB                      chercheurs
       Quadruplets et réseaux phylogénétiques non enracinés de niveau borné                        manuscrits
                         Gambette, Berry & Paul, en cours de soumission à JBCB



                Traitement des langues et des textes                               Algorithmique des graphes
       Visualisation de textes par leur nuage arboré, robustesse                   Codage efficace des voisinages
       selon la formule de cooccurrence                                            dans les graphes de permutation
                                       Gambette & Véronis, IFCS 2009               et graphes d'intervalles, parcours
       Utilisation des nuages arborés dans une analyse contrastée de               en largeur en O(n) des graphes
       Cinna et Othon de Corneille                                                 de permutation
                                    Amstutz & Gambette, JADT 2010                     Crespelle & Gambette, IWOCA
                                                                                                                 2009
       Automatisation du calcul de la densité des idées
                    Lee, Gambette, Maillé & Thuillier, RECITAL 2010                Parcours en largeur en O(n) des
                                                                                   graphes trapézoïdaux avec un
       Dégradation de la densité des idées chez des patients atteints
                                                                                   ordre de priorité quelconque
       de la maladie d'Alzheimer
                                                                                    Crespelle & Gambette, IPL, 2010
                         Lee, Gambette, Barkat-Defradas, CEDIL 2010
84
Contributions logicielles
                                                    Bioinformatique
       Implémentation Java, dans Dendroscope, de l'algorithme FPT de suppression des conflits
                                                                                   http://www.dendroscope.org
            Dendroscope

       Implémentation Java de l'algorithme de construction des générateurs, de calcul du niveau
                                                                                 http://generators.gambette.com
            Generators

       Implémentations PHP de fonctions supplémentaires à BibAdmin pour la bibliographie interactive sur les
       réseaux phylogénétiques
            Who is Who in Phylogenetic Networks                        http://www.atgc-montpellier.fr/phylnet




                  Traitement des langues et des textes
       Implémentation en Python et Delphi de TreeCloud, logiciel libre de
       construction de nuages arborés
            TreeCloud                         http://www.treecloud.org

       Implémentation en Python et Delphi de Densidées, logiciel libre de
       calcul de la densité des idées
            Densidées                 http://code.google.com/p/densidees



                                                           Nuage arboré des 25 mots les plus fréquents de cette thèse
                                                                         (rouge au début du manuscrit, bleu à la fin)
85                                                                              construit par TreeCloud et SplitsTree
Plan

      • Les réseaux phylogénétiques
      • Motivations de l'approche combinatoire
      • Restrictions sur les réseaux phylogénétiques
      • Méthodes combinatoires de reconstruction
      • Limites
      • Application pratique
      • Bilan
      • Perspectives




86
Perspectives de recherche

      Combinatoire :
      - Meilleure connaissance des réseaux de faible niveau, enracinés ou non :
          dénombrement, caractérisations...
      - Mise à jour ou modification d'un réseau face à de nouvelles données

      Bioinformatique :
      - Fonction des gènes transférés (“autoroutes de transfert”)
      - Intégration des méthodes combinatoires dans une approche statistique
          Données de séquences                               Reconstruction combinatoire
                                                             d'un ensemble de candidats

                                    Construction des
                                 données combinatoires
                                                               Choix parmi les candidats
                                                               par méthodes statistiques

                                                 Proposition d'un
                                              réseau phylogénétique

      Autres applications des réseaux phylogénétiques :
      - visualiser la polysémie dans les nuages arborés
87

Mais conteúdo relacionado

Mais de Philippe Gambette

Géolocalisation de données et conception de cartes interactives
Géolocalisation de données et conception de cartes interactivesGéolocalisation de données et conception de cartes interactives
Géolocalisation de données et conception de cartes interactivesPhilippe Gambette
 
Reconstruction combinatoire de réseaux phylogénétiques
Reconstruction combinatoire de réseaux phylogénétiquesReconstruction combinatoire de réseaux phylogénétiques
Reconstruction combinatoire de réseaux phylogénétiquesPhilippe Gambette
 
The Structure of Level-k Phylogenetic Networks
The Structure of Level-k Phylogenetic NetworksThe Structure of Level-k Phylogenetic Networks
The Structure of Level-k Phylogenetic NetworksPhilippe Gambette
 
Visualiser un texte par un nuage arboré
Visualiser un texte par un nuage arboréVisualiser un texte par un nuage arboré
Visualiser un texte par un nuage arboréPhilippe Gambette
 
Estimation du nombre de citations de papillotes et de blagues Carambar
Estimation du nombre de citations de papillotes et de blagues CarambarEstimation du nombre de citations de papillotes et de blagues Carambar
Estimation du nombre de citations de papillotes et de blagues CarambarPhilippe Gambette
 
On restrictions of balanced 2-interval graphs
On restrictions of balanced 2-interval graphsOn restrictions of balanced 2-interval graphs
On restrictions of balanced 2-interval graphsPhilippe Gambette
 
Reconstruction de reseaux phylogenetiques a structure arboree depuis un ensem...
Reconstruction de reseaux phylogenetiques a structure arboree depuis un ensem...Reconstruction de reseaux phylogenetiques a structure arboree depuis un ensem...
Reconstruction de reseaux phylogenetiques a structure arboree depuis un ensem...Philippe Gambette
 
Visualising a text with a tree cloud
Visualising a text with a tree cloudVisualising a text with a tree cloud
Visualising a text with a tree cloudPhilippe Gambette
 

Mais de Philippe Gambette (8)

Géolocalisation de données et conception de cartes interactives
Géolocalisation de données et conception de cartes interactivesGéolocalisation de données et conception de cartes interactives
Géolocalisation de données et conception de cartes interactives
 
Reconstruction combinatoire de réseaux phylogénétiques
Reconstruction combinatoire de réseaux phylogénétiquesReconstruction combinatoire de réseaux phylogénétiques
Reconstruction combinatoire de réseaux phylogénétiques
 
The Structure of Level-k Phylogenetic Networks
The Structure of Level-k Phylogenetic NetworksThe Structure of Level-k Phylogenetic Networks
The Structure of Level-k Phylogenetic Networks
 
Visualiser un texte par un nuage arboré
Visualiser un texte par un nuage arboréVisualiser un texte par un nuage arboré
Visualiser un texte par un nuage arboré
 
Estimation du nombre de citations de papillotes et de blagues Carambar
Estimation du nombre de citations de papillotes et de blagues CarambarEstimation du nombre de citations de papillotes et de blagues Carambar
Estimation du nombre de citations de papillotes et de blagues Carambar
 
On restrictions of balanced 2-interval graphs
On restrictions of balanced 2-interval graphsOn restrictions of balanced 2-interval graphs
On restrictions of balanced 2-interval graphs
 
Reconstruction de reseaux phylogenetiques a structure arboree depuis un ensem...
Reconstruction de reseaux phylogenetiques a structure arboree depuis un ensem...Reconstruction de reseaux phylogenetiques a structure arboree depuis un ensem...
Reconstruction de reseaux phylogenetiques a structure arboree depuis un ensem...
 
Visualising a text with a tree cloud
Visualising a text with a tree cloudVisualising a text with a tree cloud
Visualising a text with a tree cloud
 

Último

antalgique cours 3 année faculté .pptx
antalgique cours 3 année  faculté  .pptxantalgique cours 3 année  faculté  .pptx
antalgique cours 3 année faculté .pptxDjacemBelmokre
 
CAT devant une Thrombose veineuse superficielle .pptx
CAT devant une Thrombose veineuse superficielle .pptxCAT devant une Thrombose veineuse superficielle .pptx
CAT devant une Thrombose veineuse superficielle .pptxsilinianfel
 
Traitement_Palu Grave_ Janv 2023..pdf RDc
Traitement_Palu Grave_ Janv 2023..pdf RDcTraitement_Palu Grave_ Janv 2023..pdf RDc
Traitement_Palu Grave_ Janv 2023..pdf RDcnuriel683
 
traitement orthopédique des fractures de la face.pptx
traitement orthopédique des fractures de la face.pptxtraitement orthopédique des fractures de la face.pptx
traitement orthopédique des fractures de la face.pptxMohamedAbdelmoumeneB
 
Brevets et innovation contre le cancer -
Brevets et innovation contre le cancer -Brevets et innovation contre le cancer -
Brevets et innovation contre le cancer -benj_2
 
cardiac manifestations in auto-immune diseases by Dr Silini.pptx
cardiac manifestations in auto-immune diseases by Dr Silini.pptxcardiac manifestations in auto-immune diseases by Dr Silini.pptx
cardiac manifestations in auto-immune diseases by Dr Silini.pptxsilinianfel
 
Syndrome coronarien aigu avec ST plus ST
Syndrome coronarien aigu avec ST plus STSyndrome coronarien aigu avec ST plus ST
Syndrome coronarien aigu avec ST plus STFatimaOulhouss1
 
Les-articulateurs-en-prothèse-totale-adjointe-A.Hamizi.pdf
Les-articulateurs-en-prothèse-totale-adjointe-A.Hamizi.pdfLes-articulateurs-en-prothèse-totale-adjointe-A.Hamizi.pdf
Les-articulateurs-en-prothèse-totale-adjointe-A.Hamizi.pdfkorialoverarmy
 
Phytochemical profile and antioxidant activity of two varieties of dates (Pho...
Phytochemical profile and antioxidant activity of two varieties of dates (Pho...Phytochemical profile and antioxidant activity of two varieties of dates (Pho...
Phytochemical profile and antioxidant activity of two varieties of dates (Pho...ilham guercif
 

Último (9)

antalgique cours 3 année faculté .pptx
antalgique cours 3 année  faculté  .pptxantalgique cours 3 année  faculté  .pptx
antalgique cours 3 année faculté .pptx
 
CAT devant une Thrombose veineuse superficielle .pptx
CAT devant une Thrombose veineuse superficielle .pptxCAT devant une Thrombose veineuse superficielle .pptx
CAT devant une Thrombose veineuse superficielle .pptx
 
Traitement_Palu Grave_ Janv 2023..pdf RDc
Traitement_Palu Grave_ Janv 2023..pdf RDcTraitement_Palu Grave_ Janv 2023..pdf RDc
Traitement_Palu Grave_ Janv 2023..pdf RDc
 
traitement orthopédique des fractures de la face.pptx
traitement orthopédique des fractures de la face.pptxtraitement orthopédique des fractures de la face.pptx
traitement orthopédique des fractures de la face.pptx
 
Brevets et innovation contre le cancer -
Brevets et innovation contre le cancer -Brevets et innovation contre le cancer -
Brevets et innovation contre le cancer -
 
cardiac manifestations in auto-immune diseases by Dr Silini.pptx
cardiac manifestations in auto-immune diseases by Dr Silini.pptxcardiac manifestations in auto-immune diseases by Dr Silini.pptx
cardiac manifestations in auto-immune diseases by Dr Silini.pptx
 
Syndrome coronarien aigu avec ST plus ST
Syndrome coronarien aigu avec ST plus STSyndrome coronarien aigu avec ST plus ST
Syndrome coronarien aigu avec ST plus ST
 
Les-articulateurs-en-prothèse-totale-adjointe-A.Hamizi.pdf
Les-articulateurs-en-prothèse-totale-adjointe-A.Hamizi.pdfLes-articulateurs-en-prothèse-totale-adjointe-A.Hamizi.pdf
Les-articulateurs-en-prothèse-totale-adjointe-A.Hamizi.pdf
 
Phytochemical profile and antioxidant activity of two varieties of dates (Pho...
Phytochemical profile and antioxidant activity of two varieties of dates (Pho...Phytochemical profile and antioxidant activity of two varieties of dates (Pho...
Phytochemical profile and antioxidant activity of two varieties of dates (Pho...
 

Méthodes combinatoires de reconstruction de réseaux phylogénétiques

  • 1. 30/11/2010 Méthodes combinatoires de reconstruction de réseaux phylogénétiques Philippe Gambette
  • 2. Plan • Les réseaux phylogénétiques • Motivations de l'approche combinatoire • Restrictions sur les réseaux phylogénétiques • Méthodes combinatoires de reconstruction • Limites • Application pratique • Bilan • Perspectives 2
  • 3. Plan • Les réseaux phylogénétiques • Motivations de l'approche combinatoire • Restrictions sur les réseaux phylogénétiques • Méthodes combinatoires de reconstruction • Limites • Application pratique • Bilan • Perspectives 3
  • 4. Les arbres phylogénétiques Arbre phylogénétique d'un ensemble d'espèces : • Les organiser en fonction de caractères communs classification • Décrire leur évolution D'après Lamarck : Histoire naturelle des animaux sans vertèbres (1815) 4 4
  • 5. Les arbres phylogénétiques Arbre phylogénétique d'un ensemble d'espèces : • Les organiser en fonction de caractères communs • Décrire leur évolution modélisation D'après Woese, Kandler, Wheelis : Towards a natural system of organisms: proposal for the domains Archaea, Bacteria, and Eucarya, Proceedings of the National Academy of Sciences, 87(12), 4576–4579 (1990) 5
  • 6. Les arbres phylogénétiques Arbre phylogénétique d'un ensemble d'espèces : • Les organiser en fonction de caractères communs • Décrire leur évolution modélisation racine D'après Woese, Kandler, Wheelis : Towards a natural system of organisms: proposal for the domains Archaea, Bacteria, and Eucarya, Proceedings of the National Academy of Sciences, 87(12), 4576–4579 (1990) 6
  • 7. Les arbres phylogénétiques Arbre phylogénétique d'un ensemble d'espèces : • Les organiser en fonction de caractères communs • Décrire leur évolution modélisation incertitudes → arbre non enraciné D'après Christophe Blumrich, David S. Spencer, cité dans Doolittle : Uprooting the Tree of Life, Scientific American (Fév. 2000) 7
  • 8. Les arbres phylogénétiques Arbre phylogénétique d'un ensemble d'espèces : • Les organiser en fonction de caractères communs • Décrire leur évolution arbre des “tokogénie” des espèces S individus A B C A B C 8
  • 9. Transferts de matériel génétique Transferts de matériel génétique entre espèces coexistantes : • transfert horizontal • hybridation S A B C A B C 9
  • 10. Transferts de matériel génétique Transferts de matériel génétique entre espèces coexistantes : • transfert horizontal • hybridation arbre des espèces S A B C gène G1 A B C A B C réseau N A B C 10
  • 11. Transferts de matériel génétique Transferts de matériel génétique entre espèces coexistantes : • transfert horizontal • hybridation gène G1 arbre des espèces S A B C A B C arbres de gènes incompatibles gène G2 A B C réseau N A B C A B C 11
  • 12. Les réseaux phylogénétiques Réseau phylogénétique : réseau représentant des données d'évolution • réseaux phylogénétiques explicites modélisation de l'évolution Simplistic réseau à une couche de réticulation réseau de niveau 2 Dendroscope diagramme de synthèse HorizStory T-Rex réticulogramme 12
  • 13. Les réseaux phylogénétiques Réseau phylogénétique : réseau représentant des données d'évolution • réseaux phylogénétiques explicites modélisation de l'évolution Simplistic diagramme de synthèse réseau à une couche de réticulation réseau de niveau 2 Dendroscope HorizStory • réseaux phylogénétiques abstraits classification, visualisation de données réseau couvrant minimum réseau de bipartitions réseau médian SplitsTree Network TCS 13
  • 14. Plate-forme bibliographique Who is Who in Phylogenetic Networks, Articles, Authors & Programs Basé sur BibAdmin par Sergiu Chelcea + nuages de mots, histogramme des dates, liste des journaux, graphes de co-auteurs, définition des mots-clés. 14 http://www.atgc-montpellier.fr/phylnet
  • 15. Plan • Les réseaux phylogénétiques • Motivations de l'approche combinatoire • Restrictions sur les réseaux phylogénétiques • Méthodes combinatoires de reconstruction • Limites • Application pratique • Bilan • Perspectives 15
  • 16. Reconstruction de réseaux phylogénétiques espèce 1 : AATTGCAG TAGCCCAAAAT espèce 2 : ACCTGCAG TAGACCAAT espèce espèce 3 4 : : GCTTGCCG ATTTGCAG TAGACAAGAAT AAGACCAAAT {séquences de gènes} espèce 5 : TAGACAAGAAT espèce 6 : ACTTGCAG TAGCACAAAAT espèce 7 : ACCTGGTG TAAAAT méthodes de distance G1 G2 Bandelt & Dress 1992 - Legendre & Makarenkov 2000 - Bryant & Moulton 2002 méthodes de parcimonie Hein 1990 - Kececioglu & Gusfield 1994 - Jin, Nakhleh, Snir, Tuller 2009 méthodes de vraisemblance Snir & Tuller 2009 - Jin, Nakhleh, Snir, Tuller 2009 - Velasco & Sober 2009 réseau N 16
  • 17. Reconstruction de réseaux phylogénétiques Problème : méthodes généralement lentes, explosion du nombre de séquences. espèce 1 : AATTGCAG TAGCCCAAAAT espèce 2 : ACCTGCAG TAGACCAAT espèce espèce 3 4 : : GCTTGCCG ATTTGCAG TAGACAAGAAT AAGACCAAAT {séquences de gènes} espèce 5 : TAGACAAGAAT espèce 6 : ACTTGCAG TAGCACAAAAT espèce 7 : ACCTGGTG TAAAAT méthodes de distance G1 G2 Bandelt & Dress 1992 - Legendre & Makarenkov 2000 - Bryant & Moulton 2002 méthodes de parcimonie Hein 1990 - Kececioglu & Gusfield 1994 - Jin, Nakhleh, Snir, Tuller 2009 méthodes de vraisemblance Snir & Tuller 2009 - Jin, Nakhleh, Snir, Tuller 2009 - Velasco & Sober 2009 réseau N 17
  • 18. Reconstruction de réseaux phylogénétiques espèce 1 : AATTGCAG TAGCCCAAAAT espèce 2 : ACCTGCAG TAGACCAAT espèce espèce 3 4 : : GCTTGCCG ATTTGCAG TAGACAAGAAT AAGACCAAAT {séquences de gènes} espèce 5 : TAGACAAGAAT espèce 6 : ACTTGCAG TAGCACAAAAT espèce 7 : ACCTGGTG TAAAAT G1 G2 Reconstruction d'un arbre pour chaque gène présent chez plusieurs espèces Guindon & Gascuel, SB, 2003 T1 {arbres} Base HOGENOM Dufayard, Duret, Penel, Gouy, Rechenmann & Perrière, BioInf, 2005 T2 Réconciliation ou consensus d'arbres réseau explicite super-réseau optimal N 18
  • 19. Reconstruction de réseaux phylogénétiques espèce 1 : AATTGCAG TAGCCCAAAAT espèce 2 : ACCTGCAG TAGACCAAT espèce espèce 3 4 : : GCTTGCCG ATTTGCAG TAGACAAGAAT AAGACCAAAT {séquences de gènes} espèce 5 : TAGACAAGAAT espèce 6 : ACTTGCAG TAGCACAAAAT espèce 7 : ACCTGGTG TAAAAT G1 G2 Reconstruction d'un arbre pour chaque gène présent chez plusieurs espèces Guindon & Gascuel, SB, 2003 T1 {arbres} Base HOGENOM Dufayard, Duret, Penel, Gouy, Rechenmann & Perrière, BioInf, 2005 T2 > 500 espèces, >70 000 arbres Réconciliation ou consensus d'arbres réseau explicite super-réseau optimal N Problème : la réconciliation d'arbres est un problème difficile (NP-complet pour 2 arbres avec le minimum d'hybridations) 19 Bordewich & Semple, DAM, 2007
  • 20. Triplets et quadruplets, clades et bipartitions Problème : Reconstruire le super-réseau d'un ensemble d'arbres est difficile. Idée : reconstuire un réseau contenant tous les : triplets quadruplets clades bipartitions des arbres en entrée ? b c a f e d a b c d e 20
  • 21. Triplets et quadruplets, clades et bipartitions Idée : reconstuire un réseau contenant tous les : triplets a|ce a b c d e des arbres en entrée ? 21
  • 22. Triplets et quadruplets, clades et bipartitions Idée : reconstuire un réseau contenant tous les : triplets quadruplets b a|ce c ab|ce a a b c d e f d e des arbres en entrée ? 22
  • 23. Triplets et quadruplets, clades et bipartitions Idée : reconstuire un réseau contenant tous les : triplets quadruplets b a|ce c ab|ce a a b c d e f d e clades {c,d,e} a b c d e des arbres en entrée ? 23
  • 24. Triplets et quadruplets, clades et bipartitions Idée : reconstuire un réseau contenant tous les : triplets quadruplets b a|ce c ab|ce a a b c d e f d e clades bipartitions {c,d,e} b c {a,b,f} {c,d,e} a a b c d e f d e des arbres en entrée ? 24
  • 25. Reconstruction combinatoire de réseaux phylogénétiques Idée : modifier le type de données à traiter {arbres} {triplets} {quadruplets} {clades} {bipartitions} super-réseau N super-réseau N' optimal optimal Huson, Rupp, Berry, Gambette & Paul, IMSB 2009 Gambette, Berry & Paul, 2010 25
  • 26. Reconstruction combinatoire de réseaux phylogénétiques Idée : modifier le type de données à traiter {arbres} {triplets} {quadruplets} {clades} {bipartitions} super-réseau N super-réseau N' optimal optimal 26 N=N' ?
  • 27. Reconstruction combinatoire de réseaux phylogénétiques Idée : modifier le type de données à traiter {arbres} {triplets} {quadruplets} {clades} {bipartitions} super-réseaux N super-réseaux N' 27 { N } ⊆ { N' }
  • 28. Reconstruction combinatoire de réseaux phylogénétiques Un réseau qui contient l'ensemble de tous les triplets ou clades d'un arbre T ne contient pas forcément T. contient {a|bc,a|bd,a|cd,b|cd} T mais pas T N contient {abcd,bcd,cd,a,b,c,d} a b c d a b c d mais pas T 28
  • 29. Reconstruction combinatoire de réseaux phylogénétiques Un réseau qui contient l'ensemble de tous les triplets ou clades d'un arbre T ne contient pas forcément T. contient {a|bc,a|bd,a|cd,b|cd} T mais pas T N contient {abcd,bcd,cd,a,b,c,d} a b c d a b c d mais pas T 29
  • 30. Reconstruction combinatoire de réseaux phylogénétiques Un réseau qui contient l'ensemble de tous les triplets ou clades d'un arbre T ne contient pas forcément T. contient {a|bc,a|bd,a|cd,b|cd} T mais pas T N contient {abcd,bcd,cd,a,b,c,d} a b c d a b c d mais pas T 30
  • 31. Reconstruction combinatoire de réseaux phylogénétiques Un réseau qui contient l'ensemble de tous les triplets ou clades d'un arbre T ne contient pas forcément T. contient {a|bc,a|bd,a|cd,b|cd} T mais pas T N contient {abcd,bcd,cd,a,b,c,d} a b c d a b c d mais pas T 31
  • 32. Reconstruction combinatoire de réseaux phylogénétiques Un réseau qui contient l'ensemble de tous les triplets ou clades d'un arbre T ne contient pas forcément T. contient {a|bc,a|bd,a|cd,b|cd} T mais pas T N contient {abcd,bcd,cd,a,b,c,d} a b c d a b c d mais pas T 32
  • 33. Reconstruction combinatoire de réseaux phylogénétiques Un réseau qui contient l'ensemble de tous les triplets ou clades d'un arbre T ne contient pas forcément T. contient {a|bc,a|bd,a|cd,b|cd} T mais pas T N contient {abcd,bcd,cd,a,b,c,d} a b c d a b c d mais pas T 33
  • 34. Reconstruction combinatoire de réseaux phylogénétiques Un réseau qui contient l'ensemble de tous les triplets ou clades d'un arbre T ne contient pas forcément T. contient {a|bc,a|bd,a|cd,b|cd} T mais pas T N contient {abcd,bcd,cd,a,b,c,d} a b c d a b c d mais pas T 34
  • 35. Reconstruction combinatoire de réseaux phylogénétiques Un réseau qui contient l'ensemble de tous les triplets ou clades d'un arbre T ne contient pas forcément T. contient {a|bc,a|bd,a|cd,b|cd} T mais pas T N contient {abcd,bcd,cd,a,b,c,d} a b c d a b c d mais pas T contient les clades / triplets d'un arbre T contient T. 35
  • 36. Clades stricts et souples Clade “strict” : ensemble des feuilles sous un noeud du réseau abcd abc cd bc a b c d 36
  • 37. Clades stricts et souples Clade “souple” : clade d'un arbre inclus dans le réseau Modèle de transmission arborée des gènes (gène transmis intégralement) abc ab cd bc a b c d 37
  • 38. Clades stricts et souples Clade “souple” : clade d'un arbre inclus dans le réseau Modèle de transmission arborée des gènes (gène transmis intégralement) abc ab cd bc a b c d 38
  • 39. Clades stricts et souples Modèle de transmission arborée des gènes (gène transmis intégralement) Clade “souple” : clade d'un arbre inclus dans le réseau abc ab cd bc a b c d L'ensemble S(N) de tous les clades souplement compatibles avec N peut être de taille exponentielle. Tester si un clade souple appartient à un réseau : NP-complet. Kanj, Nakhleh, Than & Xia, TCS, 2008 39
  • 40. Plan • Les réseaux phylogénétiques • Motivations de l'approche combinatoire • Restrictions sur les réseaux phylogénétiques • Méthodes combinatoires de reconstruction • Limites • Application pratique • Perspectives 40
  • 41. Réseaux phylogénétiques restreints Algorithmes rapides pour des réseaux à structure proche d'un arbre. niveau = nombre maximum d'hybridations h1 par partie non arborée (blob). h3 h2 a b c d e f g h i j k réseau de niveau 2 Choy, Jansson, Sadakane & Sung, TCS, 2005 41
  • 42. Réseaux phylogénétiques restreints Algorithmes rapides pour des réseaux à structure proche d'un arbre. niveau = nombre maximum d'hybridations par partie non arborée (blob). a b c d e f g h i j k réseau de niveau 2 réseau de niveau 1 (“galled tree”) a b c d e f g h i j k 42
  • 43. Décomposition des réseaux de niveau k Décomposition en blobs : a b c d e f g h i j k a b c d e f g h i j k N, réseau de niveau k. décomposition arborée de N en générateurs. Gambette, Berry & Paul, CPM 2009 Générateurs initialement introduits pour la classe restreinte des réseaux simples de niveau k Analyse de cas pour trouver les 4 générateurs de niveau 2 Force brute pour les 65 générateurs de niveau 3 Van Iersel et al., RECOMB 2008 43 http://homepages.cwi.nl/~kelk/lev3gen
  • 44. Décomposition des réseaux de niveau k Générateur de niveau k : réseau de niveau k sans isthme (arête dont la suppression déconnecte le réseau). G0 G1 2a 2b 2c 2d Règles de construction des générateurs de niveau k+1 à partir de ceux de niveau k N e2 h1 e 1 h2 h1 h2 h3 R1(N,h1,h2) 44 Gambette, Berry & Paul, CPM 2009
  • 45. Décomposition des réseaux de niveau k Générateur de niveau k : réseau de niveau k sans isthme (arête dont la suppression déconnecte le réseau). G0 G1 2a 2b 2c 2d Règles de construction des générateurs de niveau k+1 à partir de ceux de niveau k N e2 h1 e 1 h2 h1 h2 h3 R1(N,h1,e2) 45 Gambette, Berry & Paul, CPM 2009
  • 46. Construction des générateurs Problème ! Certains des générateurs de niveau k+1 obtenus depuis ceux de niveau k sont isomorphes ! h1 h2 h1 h2 h3 h3 R1(N,h1,e2) R1(N,h2,e1) 46 Gambette, Berry & Paul, CPM 2009
  • 47. Construction des générateurs Problème ! Certains des générateurs de niveau k+1 obtenus depuis ceux de niveau k sont isomorphes ! h1 h2 h1 h2 h3 h3 R1(N,h1,e2) R1(N,h2,e1) → comptage difficile ! → génération possible jusqu'à niveau 5 : 1, 4, 65, 1993, 91454 Gambette, Berry & Paul, CPM 2009 47 http://www.lirmm.fr/~gambette/ProgGenerators.php
  • 48. Réseaux phylogénétiques restreints Algorithmes rapides pour des réseaux à structure proche d'un arbre. réseau à une couche de réticulation (“galled network”) : la suppression h1 d'un noeud de réticulation h3 déconnecte le réseau. h2 a b c d e f g h i j k réseau à une couche de réticulation. 48
  • 49. Réseaux phylogénétiques restreints Algorithmes rapides pour des réseaux à structure proche d'un arbre. réseau à une couche de réticulation (“galled network”) : la suppression h1 d'un noeud de réticulation h3 déconnecte le réseau. h2 a b c d e f g h i j k réseau à une couche de réticulation. 49
  • 50. Réseaux phylogénétiques restreints Algorithmes rapides pour des réseaux à structure proche d'un arbre. réseau à une couche de réticulation (“galled network”) : la suppression h1 d'un noeud de réticulation déconnecte le réseau. h2 a b c d e f g h i j k réseau à une couche de réticulation. 50
  • 51. Réseaux phylogénétiques restreints Algorithmes rapides pour des réseaux à structure proche d'un arbre. réseau à une couche de réticulation (“galled network”) : la suppression h1 d'un noeud de réticulation h3 déconnecte le réseau. h2 a b c d e f g h i j k réseau à une couche de réticulation. h2 réseau à deux h3 couches de h1 réticulation. a b c d e f g h i j k 51
  • 52. Réseaux phylogénétiques restreints Algorithmes rapides pour des réseaux à structure proche d'un arbre. réseau à une couche de réticulation (“galled network”) : la suppression h1 d'un noeud de réticulation h3 déconnecte le réseau. h2 a b c d e f g h i j k réseau à une couche de réticulation. réseau à deux h3 couches de h1 réticulation. a b c d e f g h i j k 52
  • 53. Hiérarchie de sous-classes de réseaux explicite enraciné sans fratrie niveau k hybride 1 couche de régulier enchâssés réticulation sans descen. niveau 2 hybride normal niveau 1 unicyclique simple de arbre niveau 1 53 http://www.lirmm.fr/~gambette/RePhylogeneticNetworks.php
  • 54. Hiérarchie de sous-classes de réseaux explicite enraciné sans fratrie niveau k hybride 1 couche de régulier enchâssés réticulation sans descen. niveau 2 hybride normal niveau 1 unicyclique simple de arbre niveau 1 54 http://www.lirmm.fr/~gambette/RePhylogeneticNetworks.php
  • 55. Plan • Les réseaux phylogénétiques • Motivations de l'approche combinatoire • Restrictions sur les réseaux phylogénétiques • Méthodes combinatoires de reconstruction • Limites • Application pratique • Bilan • Perspectives 55
  • 56. Reconstruction depuis les clades souples {arbres} Consensus de clades souples : Dendroscope Huson et al., BMCB, 2007 Méthode exacte rapide de reconstruction de réseaux à 1 couche de réticulation à partir de clades souples Huson, Rupp, Berry, Gambette & Paul, ISMB 2009 {clades} Méthode exacte de reconstruction de réseaux de niveau k à partir de clades souples Iersel, Kelk, Rupp & Huson, ISMB 2010 meilleurs résultats mais plus lente pour niveau > 2. pour k fixé, certains ensembles de clades contenus N' dans aucun réseau de niveau k. réseau à 1 couche de réticulation 56 http://www.dendroscope.org
  • 57. Clades et réseaux à une couche de réticulation Test de compatibilité souple polynomial sur les réseaux à une couche de réticulation. Pour tout ensemble C de clades, il existe un réseau à une couche de réticulation compatible avec C. N Le réseau à une couche de réticulation N est compatible avec tout clade souple sur {a,b,c,d,e,f}. a b c d e f Huson, Rupp, Berry, Gambette & Paul, IMSB 2009 57
  • 58. Clades et réseaux à une couche de réticulation Test de compatibilité souple polynomial sur les réseaux à une couche de réticulation. Pour tout ensemble C de clades, il existe un réseau à une couche de réticulation compatible avec C. {a,b,d} N Le réseau à une couche de réticulation N est compatible avec tout clade souple sur {a,b,c,d,e,f}. a b c d e f Huson, Rupp, Berry, Gambette & Paul, IMSB 2009 58
  • 59. Une approche en deux étapes 1- Trouver un ensemble minimum de conflits parmi les clades : - partie sans conflits arbre, - taxons impliqués dans des conflits sous les réticulations. a b c d MAXIMUM COMPATIBLE SUBSET x y 2- Attacher à l'arbre les taxons impliqués dans des conflits avec un nombre minimal d'arcs : MINIMUM ATTACHMENT PROBLEM a b x y c d Huson, Rupp, Berry, Gambette & Paul, IMSB 2009 59
  • 60. L'ensemble minimum de conflits Conflit : clades ni inclus ni disjoints A B Problème : enlever un nombre minimum t de taxons pour supprimer tous les conflits entre les clades de C. NP-complet dans le cas général Steel & Hamel, AML, 1996 NP-complet sur un graphe connexe, sans taxons “jumeaux” réduction depuis le cas général Algorithme FPT de branchement en O(3t.n|C|²) implémenté dans Dendroscope Huson, Rupp, Berry, Gambette & Paul, IMSB 2009 60
  • 61. L'ensemble minimum de conflits Conflit : clades ni inclus ni disjoints A B Graphe des caractères d'un ensemble de clades, graphe biparti avec : - un ensemble de sommets pour les clades - un ensemble de sommets pour les taxons - arête quand le taxon appartient au clade Exemple : {{a,b},{a,b,x},{a,x},{b,x},{b,y},{c,d},{c,d,x,y},{c,x},{d,y},{x,y}} {a,b} {a,b,x} {a,x} {b,x} {b,y} {c,d} {c,d,x,y} {c,x} {d,y} {x,y} a b c d x y conflit = graphe “M” Huson, Rupp, Berry, Gambette & Paul, IMSB 2009 61
  • 62. L'ensemble minimum de conflits Conflit : clades ni inclus ni disjoints A B Graphe des caractères : {a,b} {a,b,x} {a,x} {b,x} {b,y} {c,d} {c,d,x,y} {c,x} {d,y} {x,y} a b c d x y Trouver l'ensemble minimum de conflits Supprimer le nombre minimum t de sommets-taxons tels que le graphe des caractères est un graphe “sans M” Huson, Rupp, Berry, Gambette & Paul, IMSB 2009 62
  • 63. L'ensemble minimum de conflits Conflit : clades ni inclus ni disjoints A B Graphe des caractères : {a,b} {a,b,x} {a,x} {b,x} {b,y} {c,d} {c,d,x,y} {c,x} {d,y} {x,y} a b c d Supprimer le nombre minimum t de sommets-taxons tels que le graphe des caractères est un graphe “sans M” : - algorithme FPT basique de branchement en O*(3 t) - algorithme FPT 3-Hitting-Set en O*(2,076t) Huson, Rupp, Berry, Gambette & Paul, IMSB 2009 63
  • 64. L'attachement minimum Etape précédente : ensemble minimum de taxons R tels que les clades sur XR sont compatibles (avec un arbre T). ab cd T : arbre représentant les abx cdxy clades sur XR ax bx dy by cx a b c d XR xy B B : réseau représentant les x y clades maximaux sur R et les R singletons de R. Problème : Attacher T à B avec le minimum de liens. Huson, Rupp, Berry, Gambette & Paul, IMSB 2009 64
  • 65. L'attachement minimum Problème : ab cd T Attacher T à B avec le minimum de liens. abx cdxy ax bx dy by cx a b c d xy B x y NP-complet réduction depuis SetCover Algorithmes : - Séparation et évaluation implémenté dans Dendroscope 2 - Programme linéaire en nombres entiers Huson, Rupp, Berry, Gambette & Paul, IMSB 2009 65
  • 66. Reconstruction depuis les triplets {arbres} Méthodes exactes rapides pour reconstruire un réseau de niveau 1 et 2 (s'il en existe un) à partir d'un ensemble dense de triplets Jansson, Nguyen & Sung, SODA'05 : O(n3) pour niveau 1, van Iersel, Kelk & al, RECOMB'08 : O(n8) pour niveau 2, To & Habib, CPM'09 : O(n5k+4) pour niveau k dense = {triplets} sur chaque ensemble de 3 feuilles, au moins 1 triplet existe dans T. Programme Simplistic N' Réseau phylogénétique de levures - réseau Van Iersel et al. : Constructing level-2 phylogenetic de niveau k networks from triplets. RECOMB 2008 66 http://homepages.cwi.nl/~kelk/simplistic.html
  • 67. Reconstruction depuis les quadruplets {arbres} Réseau non enraciné de niveau k nombre maximum d'arêtes à supprimer, par blob, pour obtenir un arbre h g i {quadruplets} f a e réseau d non enraciné de niveau 2 b c N' réseau non enraciné Orientation enracinée : réseau de niveau k de niveau k Niveau invariant selon l'orientation Gambette, Berry & Paul, 2010 67
  • 68. Reconstruction d'arbres non enraciné / quadruplets enraciné / triplets polynomial général NP-complet Aho, Sagiv, Szymanski & Ullman, SJOC, 1981 Steel, JOC, 1992 Henzinger, King & Warnow, ALG, 1999 Jansson, Ng, Sadakane & Sung, ALG, 2005 dense au moins un O(n4) O(n3) quadruplet pour Berry & Gascuel, TCS, 2000 Aho et al., SJOC, 1981 tout ensemble de 4 feuilles 68
  • 69. Reconstruction de réseaux de niveau k non enraciné enraciné niveau 1 niveau k>1 niveau 1 niveau k>1 général NP-complet ? NP-complet NP-complet Réduction depuis Jansson, Nguyen Van Iersel, Kelk Betweenness & Sung, SJOC, 2006 & Mnich, JBCB, 2009 dense ? O(n3) O(n5k+4) au moins un (décomposition en ? Jansson, Nguyen To & Habib, quadruplet pour temps & Sung, SJOC, 2006 CPM 2009 tout ensemble polynomial) de 4 feuilles complet tous les O(n4) ? O(n3) O(n3k+3) quadruplets du (décomposition Jansson, Nguyen Van Iersel & Kelk, réseau en temps & Sung, SJOC, 2006 ALG, 2010 polynomial) Gambette, Berry & Paul, 2010 69
  • 70. Plan • Les réseaux phylogénétiques • Motivations de l'approche combinatoire • Restrictions sur les réseaux phylogénétiques • Méthodes combinatoires de reconstruction • Limites • Application pratique • Bilan • Perspectives 70
  • 71. Explosion combinatoire • Les restrictions sur les réseaux reconstruits n'empêchent pas l'explosion combinatoire • Ambiguïté de la reconstruction, même à partir de données complètes et correctes. Rappel : Un réseau de niveau k se décompose en un arbre de générateurs choisis parmi un ensemble fini. Nombre exponentiel de générateurs de niveau k : gk ≥ 2k-1 71 Gambette, Berry & Paul, CPM, 2010
  • 72. Ambiguïté des solutions • Les restrictions sur les réseaux reconstruits n'empêchent pas l'explosion combinatoire • Ambiguïté de la reconstruction, même à partir de données complètes et correctes. Plusieurs réseaux minimaux distincts ont exactement le même ensemble d'arbres, de triplets, de clades. a c a c b b b c a Caractérisation pour les réseaux de niveau 1 : les seuls cas ambigus sont les blobs ci-dessus (< 5 somments) 72 Gambette & Huber, 2010
  • 73. Ambiguïté des solutions • Les restrictions sur les réseaux reconstruits n'empêchent pas l'explosion combinatoire • Ambiguïté de la reconstruction, même à partir de données complètes et correctes. Plusieurs réseaux minimaux distincts ont exactement le même ensemble d'arbres, de triplets, de clades. a|bc a c a c b b b c a Caractérisation pour les réseaux de niveau 1 : les seuls cas ambigus sont les blobs ci-dessus (< 5 somments) 73 Gambette & Huber, 2010
  • 74. Ambiguïté des solutions • Les restrictions sur les réseaux reconstruits n'empêchent pas l'explosion combinatoire • Ambiguïté de la reconstruction, même à partir de données complètes et correctes. Plusieurs réseaux minimaux distincts ont exactement le même ensemble d'arbres, de triplets, de clades. c|ab a c a c b b b c a Caractérisation pour les réseaux de niveau 1 : les seuls cas ambigus sont les blobs ci-dessus (< 5 somments) Gambette & Huber, 2010
  • 75. Ambiguïté des solutions • Les restrictions sur les réseaux reconstruits n'empêchent pas l'explosion combinatoire • Ambiguïté de la reconstruction, même à partir de données complètes et correctes. Plusieurs réseaux minimaux distincts ont exactement le même ensemble d'arbres, de triplets, de clades. x1 x1 x2 x2 b a b a 2 réseaux de niveau 2 avec le même ensemble de triplets 75 Gambette & Huber, 2010
  • 76. Ambiguïté des solutions • Les restrictions sur les réseaux reconstruits n'empêchent pas l'explosion combinatoire • Ambiguïté de la reconstruction, même à partir de données complètes et correctes. Plusieurs réseaux minimaux distincts ont exactement le même ensemble d'arbres, de triplets, de clades. x1 x1 x2 x2 b a b a 2 réseaux de niveau 2 avec le même ensemble de triplets Même avec des données de départ complètes et correctes, impossible de choisir entre les formes ambiguës ! 76 Gambette & Huber, 2010
  • 77. Plan • Les réseaux phylogénétiques • Motivations de l'approche combinatoire • Restrictions sur les réseaux phylogénétiques • Méthodes combinatoires de reconstruction • Limites • Application pratique • Perspectives 77
  • 78. Bruit dans les données • Approches de filtres : Ne considérer que les clades, triplets, avec un bon support. Ex : clades présents dans 20% des arbres en entrée • Approches d'édition des données : Corriger les données au minimum pour obtenir un réseau restreint : - arbres à partir de clades : O*(3l), Huson, Rupp, Berry, Gambette & Paul, ISMB 2009 - arbres à partir de triplets : O*(3l), Guillemot & Berry, TCBB, 2007, O(n4 + 2O(t^(1/3) log t)), Guillemot & Mnich, TAMC 2009. Problème ouvert : réseaux de niveau 1 à partir de clades ou triplets 78
  • 79. Silence dans les données Nécessité d'avoir des clades complets, des ensembles denses de triplets ou quadruplets : arbres en entrée sur le même ensemble de taxons • Compléter les données : Inférence de triplets Bryant & Steel, AAM, 1995 Inférence de bipartitions Huson, Dezulian, Klöpper & Steel, TCBB, 2004 Grünewald, Huber & Wu, BMB, 2008 • Sélectionner les données : Arbres de gènes : Rectangles maximaux / bicliques maximales Ensemble dense maximum de triplets : Problème NP-complet Réduction de Clique 79
  • 80. Exemples de résultats 16 arbres de la base HOGENOM sur 47 taxons Lev1athan (protéobactéries) (heuristique 24 Enterobacteriales triplets, 2 Pasteurellales niveau 1) 1 Aeromonadales 24 sec. 9 Alteromonadales 1 Oceanospirillales 6 Rhodobacterales 4 Rhizobiales Réseaux contenant les triplets, clades souples, présents dans au moins 20% des arbres Simplistic Dendroscope (réseau de (clades, réseau niveau 7 à 1 couche de à partir réticulation) de <1 sec. triplets) 63 sec. 80
  • 81. Exemples de résultats 16 arbres de la base HOGENOM sur 47 taxons Dendroscope (protéobactéries) (réseau de 24 Enterobacteriales clades) 2 Pasteurellales <1 sec. 1 Aeromonadales 9 Alteromonadales 1 Oceanospirillales 6 Rhodobacterales 4 Rhizobiales Réseaux contenant les clades souples présents dans au moins 20% des arbres Dendroscope Dendroscope (clades, réseau (clades, réseau à 1 couche de de niveau 2) réticulation) 2 sec. <1 sec. 81
  • 82. Exemples de résultats 9 arbres sur 279 espèces de procaryotes Clades dans au moins 2 arbres Auch, Steigele, Huson & Henz, 2009 Dendroscope (clades, réseau à 1 couche de réticulation) 82 2 sec.
  • 83. Plan • Les réseaux phylogénétiques • Motivations de l'approche combinatoire • Restrictions sur les réseaux phylogénétiques • Méthodes combinatoires de reconstruction • Limites • Application pratique • Bilan • Perspectives 83
  • 84. Résultats obtenus pendant la thèse Bioinformatique Reconstruction de réseaux à une couche de réticulation à partir de clades journaux Huson, Rupp, Berry, Gambette & Paul, BioInf, ISMB 2009 internationaux Structure des réseaux de niveau borné conférences Gambette, Berry & Paul, CPM 2009 internationales avec actes Ambiguïté des réseaux de niveau 1 par rapport à leur ensemble de clades et triplets colloques jeunes Gambette & Huber, soumis à JMB chercheurs Quadruplets et réseaux phylogénétiques non enracinés de niveau borné manuscrits Gambette, Berry & Paul, en cours de soumission à JBCB Traitement des langues et des textes Algorithmique des graphes Visualisation de textes par leur nuage arboré, robustesse Codage efficace des voisinages selon la formule de cooccurrence dans les graphes de permutation Gambette & Véronis, IFCS 2009 et graphes d'intervalles, parcours Utilisation des nuages arborés dans une analyse contrastée de en largeur en O(n) des graphes Cinna et Othon de Corneille de permutation Amstutz & Gambette, JADT 2010 Crespelle & Gambette, IWOCA 2009 Automatisation du calcul de la densité des idées Lee, Gambette, Maillé & Thuillier, RECITAL 2010 Parcours en largeur en O(n) des graphes trapézoïdaux avec un Dégradation de la densité des idées chez des patients atteints ordre de priorité quelconque de la maladie d'Alzheimer Crespelle & Gambette, IPL, 2010 Lee, Gambette, Barkat-Defradas, CEDIL 2010 84
  • 85. Contributions logicielles Bioinformatique Implémentation Java, dans Dendroscope, de l'algorithme FPT de suppression des conflits http://www.dendroscope.org Dendroscope Implémentation Java de l'algorithme de construction des générateurs, de calcul du niveau http://generators.gambette.com Generators Implémentations PHP de fonctions supplémentaires à BibAdmin pour la bibliographie interactive sur les réseaux phylogénétiques Who is Who in Phylogenetic Networks http://www.atgc-montpellier.fr/phylnet Traitement des langues et des textes Implémentation en Python et Delphi de TreeCloud, logiciel libre de construction de nuages arborés TreeCloud http://www.treecloud.org Implémentation en Python et Delphi de Densidées, logiciel libre de calcul de la densité des idées Densidées http://code.google.com/p/densidees Nuage arboré des 25 mots les plus fréquents de cette thèse (rouge au début du manuscrit, bleu à la fin) 85 construit par TreeCloud et SplitsTree
  • 86. Plan • Les réseaux phylogénétiques • Motivations de l'approche combinatoire • Restrictions sur les réseaux phylogénétiques • Méthodes combinatoires de reconstruction • Limites • Application pratique • Bilan • Perspectives 86
  • 87. Perspectives de recherche Combinatoire : - Meilleure connaissance des réseaux de faible niveau, enracinés ou non : dénombrement, caractérisations... - Mise à jour ou modification d'un réseau face à de nouvelles données Bioinformatique : - Fonction des gènes transférés (“autoroutes de transfert”) - Intégration des méthodes combinatoires dans une approche statistique Données de séquences Reconstruction combinatoire d'un ensemble de candidats Construction des données combinatoires Choix parmi les candidats par méthodes statistiques Proposition d'un réseau phylogénétique Autres applications des réseaux phylogénétiques : - visualiser la polysémie dans les nuages arborés 87