SlideShare uma empresa Scribd logo
1 de 46
Dynamique et expression des
génomes
1
Dynamique et expression des génomes
 Les activités du pôle « Génomes » de l’UMT eBIS :
 Caractérisation des polymorphismes du génome : SNP, INDEL, variants structuraux,
CNV, éléments transposables, recombinaisons, néo-mutations, chromosomes
particuliers (X, Y, MT)
 Annotation du génome, étude des régions régulatrices, des microARN
 Travaux de génétique inverse
 Déterminisme génétique de la méthylation
 Focus sur l’exploitation des données de séquences qui alimentent de
nombreux travaux des autres pôles de l’UMT
 Perspectives avec les travaux sur les séquences « long reads » et les données
de méthylation
2
Exploitation des données de séquence
Qu’est-ce que c’est ?
A quoi les utilise-t-on ?
3
Les données de Séquences
 Séquençage « short read » : petits fragments de 100-150 bases
 Séquençage « long read » : grands fragments de plusieurs dizaines de kbases 4
Fragments de séquences de l’individu :
1 - Extraction d’ADN
2 - Fragmentation du génome et séquençage
Mais les fragments ne sont pas positionnés sur le génome
A C T G T A A T C G T T
A T C G T T C C T G A A C T T G
T G A A C T T G T A T T
Les données de Séquences
 Cela permet de positionner les différents fragments sur le génome
5
3 – Alignement sur génome de référence (actuellement référence internationale = génome d’une vache Hereford)
A C T G T A A T C G T T C C T G A A C T T G T A T T
A C T G T A A T C C T T
A T C C T T C C T G G A C T T G
T G A A C T T G T A T T
Séquence de référence :
T G G A C T T G T A T T
Les données de Séquences
 Avec des séquences short reads, on va principalement identifier des variants de type SNP
(mutation ponctuelle) ou des petites insertions/délétions appelées INDEL
 Avec des séquences long reads, on peut identifier des variations plus complexes (ou plus
longues) appelées variants structuraux 6
4 – Identification de variants en comparant la séquence de l’individu et la séquence de référence
A C T G T A A T C G T T C C T G A A C T T G T A T T
A C T G T A A T C C T T
A T C C T T C C T G G A C T T G
T G A A C T T G T A T T
Séquence de référence :
T G G A C T T G T A T T
SNP1
SNP2
Ex : 8 G, 7 A => [AG]
Ex : 12C => [CC]
Les données de Séquences
Variant Chromosome Position Gène Allèles Type Acide Aminé Impact (de 0 à 1)
SNP1 14 610814 DGAT1 G/C missense V197L 0.24
SNP2 14 610880 DGAT1 A/G missense R219G 0.02
SNP3 2 6281432 MSTN C/T stop gained Q204X 0
7
5 – Annotation des variants identifiés
Type Conséquence
Missense Modifie un acide aminé
Perte du codon start Modifie le début de la traduction
Apparition d'un codon stop Protéine tronquée
Perte d'un codon stop Protéine plus longue
Frameshift Modifie le cadre de lecture de la protéine
Splice acceptor ou donor Affecte les sites d'épissage
etc.
 Construction d’un catalogue documenté des variants
identifiés
 L’annotation des variants consiste à préciser la position
du variant et si justifié son impact sur la protéine :
 De gros efforts en cours pour compléter
ces annotations, en particulier hors du codant
Données disponibles pour l’UMT
 Un investissement important depuis 2011, l’UMT avait accès en
janvier 2021 aux données de séquences de 4566 bovins de plus de
40 races différentes (20% issus de nos travaux, 80% via consortium
« 1000 Génomes Bovins »)
 Ci-contre, la répartition dans les principales races françaises
 571 taureaux (dont 308 en cours) de 14 races françaises différentes
seront séquencés en short read dans le cadre du projet SeqOccIn
financé par APIS-GENE et la région Occitanie,
 154 de ces 571 taureaux seront également séquencés en long reads
dans le cadre de ce projet
 Ces données de séquences ont déjà permis d’identifier plus de 102
millions de petits variants (dont 87 millions de SNP)
 Possibilité de distinguer des variants spécifiques de race
 D’identifier des néo-mutations présentes chez un individu mais pas
chez ses parents
 Dans cette liste, on retrouve les SNP utilisés en Sélection Génomique
8
# Race​ total
1 Holstein​ 1234
2 Simmental​ 283
3 Brune 231
4 Charolais​e 153
5 Normande​ 137
6 Montbéliarde​ 132
7 Limousin​e 108
8 Blonde d'Aquitaine​ 65
9 Aubrac​ 33
10 Salers​ 28
11 Rouge des Prés 31
12 Tarentaise​ 22
13 Abondance​ 22
14 INRA95 14
15 Blanc Bleu 10
16 Froment du Léon 10
17 Vosgienne​ 8
Total 2521
A quoi les utilise-t-on ?
 Etude de la diversité génétique (intra et entre races)
 Travaux sur la mitochondrie et les chromosomes sexuels
 Traces de sélection
 Etude du déterminisme génétique des caractères
 Caractérisation d’anomalies
 Approches de génétique inverse
9
A quoi les utilise-t-on ?
 Etude de la diversité génétique (intra et entre races)
 Travaux sur la mitochondrie et les chromosomes sexuels
 Traces de sélection
 Etude du déterminisme génétique des caractères
 Caractérisation d’anomalies
 Approches de génétique inverse
10
Etude de la diversité génétique du
chromosome Y
 Construction d’un réseau phylogénétique à partir
de 1200 variants du chromosome Y repérés dans
les données de séquences des races françaises.
 Identification de seulement 2 groupes de Y (Y1 &
Y2) qui coupent l’Europe en deux : Nord/Ouest vs
Sud/Est, le nombre de variants différents entre 2
points est indiqué sur chaque segment du réseau
 Y1 : HOL, NMD, RDP
 Y2 : BSW, MON, SIM, ABO, TAR, CHA, LIM, SAL, BAQ
 Peu de diversité constatée intra groupe/race,
probablement dû au fait que le chromosome Y se
transmet de mâle en mâle, sans recombinaisons
et avec une forte dérive
11
Escouflaire & Capitan, 2021
A quoi les utilise-t-on ?
 Etude de la diversité génétique
 Travaux sur la mitochondrie et les chromosomes sexuels
 Traces de sélection
 Etude du déterminisme génétique des caractères
 Caractérisation d’anomalies
 Approches de génétique inverse
12
Etude du déterminisme génétique des
caractères
13
1 . Imputations
Cette étape consiste à estimer les génotypes
manquants des animaux typés avec performances
en partant de la densité la plus faible en SNP et
en allant jusqu’à la séquence
1. Imputations 2. Cartographies 3. Puce SNP 4. Sélection Génomique
Etude du déterminisme génétique des
caractères
14
1. Imputations 2. Cartographies 3. Puce SNP 4. Sélection Génomique
Sanchez et al., 2017
2 . Cartographies de QTL sur données de séquence
Pour un caractère donné, recherche des régions du génome
expliquant les différences de performances entre les animaux
Etude du déterminisme génétique des
caractères
15
3 . Mise à jour de la puce SNP
Ajout des variants significatifs dans les travaux de
cartographie sur la puce utilisée en Sélection
Génomique
• ~3000 variants issus de travaux de ce type (2
filières, tous caractères) seront bientôt
accessibles à tous les utilisateurs de la puce
EuroGMD
1. Imputations 2. Cartographies 3. Puce SNP 4. Sélection Génomique
Etude du déterminisme génétique des
caractères
16
4 . Prise en compte en Sélection Génomique
Ces variants peuvent ensuite participer à la
prédiction du potentiel génétique des animaux
Disposer des variants causaux dans la prédiction
peut permettre :
• de gagner en précision/efficacité surtout lorsque
populations de référence de petites tailles
• de mettre en place des modèles plus complexes
intégrant de la dominance ou des interactions
1. Imputations 2. Cartographies 3. Puce SNP 4. Sélection Génomique
A quoi les utilise-t-on ?
 Etude de la diversité génétique
 Travaux sur la mitochondrie et les chromosomes sexuels
 Traces de sélection
 Etude du déterminisme génétique des caractères
 Caractérisation d’anomalies
 Approches de génétique inverse
17
Caractérisation d’anomalies
18
1. ONAB 2. Cartographie 3. Puce SNP 4. Tests génétiques
1 . ONAB (Obs National des Anomalies Bovines)
Remontée de cas d’anomalies observés en élevage
Examens cliniques
https://www.onab.fr Anomalie du pelage
Achondroplasie
Ostéogénèse imparfaite
Anomalie de coloration
Photo
ENVT
Caractérisation d’anomalies
19
1. ONAB 2. Cartographie 3. Puce SNP 4. Tests génétiques
2 . Cartographie
Identification de la région du génome qui
contient l’anomalie génétique
Séquençage de deux malades et recherche du
variant causal dans les données obtenues 0
200
400
600
800
0 50 100 150
Log(LRT)
Position (Mb)
Confidence interval
Cartographie d’une anomalie de coloration (Milca) en race MON
(Floriot et al., 2021)
Caractérisation d’anomalies
20
1. ONAB 2. Cartographie 3. Puce SNP 4. Tests génétiques
3 . Ajout du variant sur la puce SNP
Caractérisation d’anomalies
21
1. ONAB 2. Cartographie 3. Puce SNP 4. Tests génétiques
4 . Mise à disposition du test génétique
Possibilité de contre-sélectionner les variants
identifiés :
• ~25 anomalies caractérisées en France sont
disponibles sur la puce EuroGMD
• proposition d’une méthode pour les intégrer
dans les objectifs de sélection
A quoi les utilise-t-on ?
 Etude de la diversité génétique
 Travaux sur la mitochondrie et les chromosomes sexuels
 Traces de sélection
 Etude du déterminisme génétique des caractères
 Caractérisation d’anomalies
 Approches de génétique inverse
22
Exemple de travaux de génétique inverse
 Génétique Inverse : on part du catalogue des variants pour aller vers le
phénotypage des animaux porteurs
23
1 . Identification de variants à étudier
Ex : identification d’une mutation avec une
fréquence élevée dans les génomes Normands
(27%) dans un gène connu chez l’Homme et la
Souris conduisant à une cécité complète.
Par ailleurs, des remontées au niveau de l’ONAB
indiquaient des cas de vaches aveugles en race
Normande
1. Variants 2. Puce SNP 3. Phénotypes 4. Tests génétiques
Exemple de travaux de génétique inverse
 Génétique Inverse : on part du catalogue des variants pour aller vers le
phénotypage des animaux porteurs
24
2 . Ajout du variant sur la puce SNP
1. Variants 2. Puce SNP 3. Phénotypes 4. Tests génétiques
Exemple de travaux de génétique inverse
 Génétique Inverse : on part du catalogue des variants pour aller vers le
phénotypage des animaux porteurs
25
3 . Phénotypage d’individus homozygotes
Examens oculaires de 20 vaches à la station
expérimentale du Pin-au-Haras :
• Perte partielle de la vascularisation de la rétine
• Perte des photorécepteurs
1. Variants 2. Puce SNP 3. Phénotypes 4. Tests génétiques
Seulement 10% à 20% des
variants repérés par
génétique inverse seront
finalement confirmés
Exemple de travaux de génétique inverse
 Génétique Inverse : on part du catalogue des variants pour aller vers le
phénotypage des animaux porteurs
26
4 . Mise à disposition d’un test génétique
Possibilité de sélectionner ou de contre-
sélectionner les variants confirmés
• La mutation responsable de la perte progressive
de vision est disponible sur la puce EuroGMD
1. Variants 2. Puce SNP 3. Phénotypes 4. Tests génétiques
(Michot et al., 2016)
Bilan
 Depuis 2016, la majorité des travaux de l’UMT eBIS exploitent des données de
séquences, des travaux très académiques en point de départ mais qui amènent
progressivement à de nombreuses applications quelques années plus tard
 La puce SNP utilisée en Sélection Génomique est un point clef car il est à la
fois le support de nombreux travaux de recherche exploitant les données de
séquences mais aussi le support des applications en élevage issues de ces
travaux de recherche
27
Perspectives offertes
par les séquences long-read
Rappel sur le processus de séquençage
 La molécule d’ADN d’un chromosome est très longue, souvent plus de 100 millions de
bases
 On ne sais pas (encore…) la séquencer en une seule fois d’un bout à l’autre
 On la séquence par morceaux que l’on assemble ensuite
trou
 En très haut débit, les fragments font aujourd’hui
• 100-150 bases = short reads (Illumina)
• Plusieurs dizaines de kb = long reads
Intérêt et limite des fragments courts
 Les plus
 Le moins onéreux, très haut débit, peu d’erreurs
 Qualité d’ADN moyenne
 Très efficace pour génotyper les variants de petite taille (SNP ou petits InDels)
 Ainsi que d’autres applications (microbiote…)
 Les moins
 Suppose un assemblage de bonne qualité préexistant
 Peu efficace (temps, précision…) pour génotyper les variants structuraux de grande
taille (SV)
Les variants structuraux
Insertion
Délétion
Duplication (en tandem ou non)
Translocation (plus ou moins éloignée)
Les variants structuraux
Inversion
Tout existe dans le génome ….
Situation souvent complexe combinant plusieurs évènements élémentaires
(exemple : les insertions peuvent être accompagnées d’une délétion)
Les variants structuraux
Les éléments transposables
Transposition
Type de translocation
Séquences d’origine virale, intégrées depuis très longtemps dans le génome
et qui ont gardé la capacité de se déplacer sur le génome
Taux de transposition (= de mutation) bien plus élevé que les autres types de variants
Les variants structuraux sont ils importants ?
 OUI !
 Même s’ils sont moins nombreux que les petits variants, ils couvrent une proportion du
génome au moins équivalente
 Ils ont une probabilité bien plus forte d’avoir un effet biologique, car les
gènes peuvent être fortement altérés
 Quelques exemples :
 Polled (celtique et frison)
 Brachyspina (FANCY)
 CDH (APOB)
 Dysplasie ectodermique (EDA)
 Epidermolyse bulleuse jonctionnelle (ITGB4)
 ….
Intérêt et limites des long reads
 Les plus
 « déjà préassemblé »
 Permet de caractériser les séquences répétées
 Fournit une information haplotypique
 Facilite grandement la détection et le typage des variants structuraux jusqu’à quelques kb
 Les moins
 Encore onéreux
 Nécessite une très bonne qualité d’ADN (détermine la longueur des reads)
 Taux d’erreur ponctuelle élevé
 Pas encore au stade industriel (mais ça va venir)
Séquences répétées
Ces séquences courtes ne peuvent pas être positionnées
et ne permettent pas de caractériser la région
10 kb
Cette séquence longue de 15 kb permet de caractériser la région
(détermination de la longueur réelle, du nombre de répétitions,
variation de séquence intra répétition…)
Typage d’une insertion
Insertion
Génome de l’animal
séquencé
Lecture montrant l’allèle sauvage
Lecture montrant l’insertion
Ce qu’on peut attendre des données
• Liste des variants présents et leurs fréquences
• Génotypes individuels
• Ajout sur puce pour les variants les plus importants, avec un design
approprié
• Imputation des SV sur l’ensemble de la population
• recherche des effets sur les caractères
• utilisation en sélection
Le paradigme du génome de référence évolue
 Actuellement, quand un animal est séquencé, ses lectures sont d’abord
alignées sur le génome de référence, qui est le génome de la vache Hereford
Dominette.
 La comparaison des lectures avec la référence détecte les variations
 Si le génome de Dominette ne contient pas une région, les lectures de cette
région de l’animal séquencé ne s’alignent pas : elles sont éliminées
 En cas de transposition ou d’inversion, l’alignement ne reflète pas la réalité
 On peut donc manquer une proportion non négligeable du génome ou avoir
une image erronée
 D’où la proposition de constituer plusieurs génomes de référence
La notion de pangénome
 Définition : l’ensemble de l’ADN non commun à tous les animaux
Race A
Race B
Race C
Si A = Dominette, les séquences orange et jaune ne sont jamais analysées
 Analyse des spécificités de race, de populations, d’individus
 Projet international de caractérisation du pangénome visant la construction d’assemblages
de références par race : l’UMT en charge des races françaises, en lien avec la plateforme
de Toulouse
Perspectives en épigénétique :
Relations entre génétique
et marques de méthylation
Méthylation de l’ADN
 Les cytosines, lorsqu’elles sont voisines des guanosines
(groupe CpG) peuvent être sous une forme native ou méthylée
 Plus une région du génome est méthylée, plus elle est compacte,
moins elle est exprimée
 Les méthylations sont donc des régulateurs de l’expression du génome
 Les méthylations expliquent, entre autres, la différenciation des cellules
 Contrairement à la séquence qui est constante intra individu, les méthylations varient entre
tissus, entre stades physiologiques…
 Le niveau de méthylation a un déterminisme pour partie génétique, pour partie du milieu
 Un sujet d’étude considérable
Comment identifier les cytosines méthylées ?
 Lors d’un traitement de l’ADN au bisulfite,
les cytosines non méthylées sont transformées en thymine
les cytosines méthylées restent intactes
 Les différences C vs T induites peuvent être mises en évidence par séquençage
 Génome complet
 Une fraction plus ou moins ciblée du génome => RRBS
Les questions posées
Projets Rumigen (H2020) et PolyPheme (ApisGene – ANR?)
 Certaines marques de méthylation se transmettent-elles à la descendance ?
 Quel est le déterminisme génétique des marques de méthylation ?
 Les marques de méthylation dans le sperme influencent-elles la fertilité du taureau ?
Et les phénotypes des produits ?
 Une similarité de pattern de méthylation entre individus induit-elle une ressemblance entre
individus, au-delà de leur apparentement ?
 Si oui, cette information peut-elle être utilisée en prédiction, en complément des SNP ? Et si
oui, comment envisager un épigénotypage à haut débit peu coûteux ?
 Les méthylations induisent-elles un taux de néomutation plus élevé ?
Des différences de taux de recombinaison
Travaux en collaboration avec
l’UMR BREED de Jouy en Josas
46
Vos Questions ?

Mais conteúdo relacionado

Mais de Institut de l'Elevage - Idele

Mais de Institut de l'Elevage - Idele (20)

GAL2024 - Renouvellement des actifs : un enjeu pour la filière laitière franç...
GAL2024 - Renouvellement des actifs : un enjeu pour la filière laitière franç...GAL2024 - Renouvellement des actifs : un enjeu pour la filière laitière franç...
GAL2024 - Renouvellement des actifs : un enjeu pour la filière laitière franç...
 
GAL2024 - Situation laitière 2023-2024 : consommation, marchés, prix et revenus
GAL2024 - Situation laitière 2023-2024 : consommation, marchés, prix et revenusGAL2024 - Situation laitière 2023-2024 : consommation, marchés, prix et revenus
GAL2024 - Situation laitière 2023-2024 : consommation, marchés, prix et revenus
 
JTC 2024 La relance de la filière de la viande de chevreau.pdf
JTC 2024 La relance de la filière de la viande de chevreau.pdfJTC 2024 La relance de la filière de la viande de chevreau.pdf
JTC 2024 La relance de la filière de la viande de chevreau.pdf
 
JTC 2024 - Leviers d’adaptation au changement climatique, qualité du lait et ...
JTC 2024 - Leviers d’adaptation au changement climatique, qualité du lait et ...JTC 2024 - Leviers d’adaptation au changement climatique, qualité du lait et ...
JTC 2024 - Leviers d’adaptation au changement climatique, qualité du lait et ...
 
JTC 2024 - SMARTER Retour sur les indicateurs de santé .pdf
JTC 2024 - SMARTER Retour sur les indicateurs de santé .pdfJTC 2024 - SMARTER Retour sur les indicateurs de santé .pdf
JTC 2024 - SMARTER Retour sur les indicateurs de santé .pdf
 
JTC 2024 - DeCremoux_Anomalies_génétiques.pdf
JTC 2024 - DeCremoux_Anomalies_génétiques.pdfJTC 2024 - DeCremoux_Anomalies_génétiques.pdf
JTC 2024 - DeCremoux_Anomalies_génétiques.pdf
 
JTC 2024 - Réglementation européenne BEA et Transport.pdf
JTC 2024 - Réglementation européenne BEA et Transport.pdfJTC 2024 - Réglementation européenne BEA et Transport.pdf
JTC 2024 - Réglementation européenne BEA et Transport.pdf
 
CAP2ER_GC_Presentation_Outil_20240422.pptx
CAP2ER_GC_Presentation_Outil_20240422.pptxCAP2ER_GC_Presentation_Outil_20240422.pptx
CAP2ER_GC_Presentation_Outil_20240422.pptx
 
Note agro-climatique n°2 - 17 Avril 2024
Note agro-climatique n°2 - 17 Avril 2024Note agro-climatique n°2 - 17 Avril 2024
Note agro-climatique n°2 - 17 Avril 2024
 
MaxForGoat aux JTCs : l'impact des modalités de distribution des fourrages en...
MaxForGoat aux JTCs : l'impact des modalités de distribution des fourrages en...MaxForGoat aux JTCs : l'impact des modalités de distribution des fourrages en...
MaxForGoat aux JTCs : l'impact des modalités de distribution des fourrages en...
 
Webinaire lésions podales_04.04.2024.pptx
Webinaire lésions podales_04.04.2024.pptxWebinaire lésions podales_04.04.2024.pptx
Webinaire lésions podales_04.04.2024.pptx
 
#Pause travail 8 Dubreuil femmes 9 avril 2024 (1).pdf
#Pause travail 8 Dubreuil femmes 9 avril 2024 (1).pdf#Pause travail 8 Dubreuil femmes 9 avril 2024 (1).pdf
#Pause travail 8 Dubreuil femmes 9 avril 2024 (1).pdf
 
Replay du Webinaire CARE 4 DAIRY - 25 mars 2024
Replay du Webinaire CARE 4 DAIRY - 25 mars 2024Replay du Webinaire CARE 4 DAIRY - 25 mars 2024
Replay du Webinaire CARE 4 DAIRY - 25 mars 2024
 
2 1 FUSELIER Prise en compte OW Société.pdf
2 1 FUSELIER Prise en compte OW Société.pdf2 1 FUSELIER Prise en compte OW Société.pdf
2 1 FUSELIER Prise en compte OW Société.pdf
 
2 2 VILLAIN Truies libres en maternité.pdf
2 2 VILLAIN Truies libres en maternité.pdf2 2 VILLAIN Truies libres en maternité.pdf
2 2 VILLAIN Truies libres en maternité.pdf
 
2 3 MESSAGER Enrichissements poulets.pdf
2 3 MESSAGER Enrichissements poulets.pdf2 3 MESSAGER Enrichissements poulets.pdf
2 3 MESSAGER Enrichissements poulets.pdf
 
2 4 COUTANT Litiere malaxée Vaches laitières.pdf
2 4 COUTANT Litiere malaxée Vaches laitières.pdf2 4 COUTANT Litiere malaxée Vaches laitières.pdf
2 4 COUTANT Litiere malaxée Vaches laitières.pdf
 
2 5 MOREL Dimensionnement logettes Vaches laitières.pdf
2 5 MOREL Dimensionnement logettes Vaches laitières.pdf2 5 MOREL Dimensionnement logettes Vaches laitières.pdf
2 5 MOREL Dimensionnement logettes Vaches laitières.pdf
 
2 7 GERARD conduite des truies en liberté.pdf
2 7 GERARD conduite des truies en liberté.pdf2 7 GERARD conduite des truies en liberté.pdf
2 7 GERARD conduite des truies en liberté.pdf
 
2 8 LERUSTE loger les veaux laitiers par deux
2 8 LERUSTE loger les veaux laitiers par deux2 8 LERUSTE loger les veaux laitiers par deux
2 8 LERUSTE loger les veaux laitiers par deux
 

Dynamique et expression des génomes eBis actu - 202106

  • 1. Dynamique et expression des génomes 1
  • 2. Dynamique et expression des génomes  Les activités du pôle « Génomes » de l’UMT eBIS :  Caractérisation des polymorphismes du génome : SNP, INDEL, variants structuraux, CNV, éléments transposables, recombinaisons, néo-mutations, chromosomes particuliers (X, Y, MT)  Annotation du génome, étude des régions régulatrices, des microARN  Travaux de génétique inverse  Déterminisme génétique de la méthylation  Focus sur l’exploitation des données de séquences qui alimentent de nombreux travaux des autres pôles de l’UMT  Perspectives avec les travaux sur les séquences « long reads » et les données de méthylation 2
  • 3. Exploitation des données de séquence Qu’est-ce que c’est ? A quoi les utilise-t-on ? 3
  • 4. Les données de Séquences  Séquençage « short read » : petits fragments de 100-150 bases  Séquençage « long read » : grands fragments de plusieurs dizaines de kbases 4 Fragments de séquences de l’individu : 1 - Extraction d’ADN 2 - Fragmentation du génome et séquençage Mais les fragments ne sont pas positionnés sur le génome A C T G T A A T C G T T A T C G T T C C T G A A C T T G T G A A C T T G T A T T
  • 5. Les données de Séquences  Cela permet de positionner les différents fragments sur le génome 5 3 – Alignement sur génome de référence (actuellement référence internationale = génome d’une vache Hereford) A C T G T A A T C G T T C C T G A A C T T G T A T T A C T G T A A T C C T T A T C C T T C C T G G A C T T G T G A A C T T G T A T T Séquence de référence : T G G A C T T G T A T T
  • 6. Les données de Séquences  Avec des séquences short reads, on va principalement identifier des variants de type SNP (mutation ponctuelle) ou des petites insertions/délétions appelées INDEL  Avec des séquences long reads, on peut identifier des variations plus complexes (ou plus longues) appelées variants structuraux 6 4 – Identification de variants en comparant la séquence de l’individu et la séquence de référence A C T G T A A T C G T T C C T G A A C T T G T A T T A C T G T A A T C C T T A T C C T T C C T G G A C T T G T G A A C T T G T A T T Séquence de référence : T G G A C T T G T A T T SNP1 SNP2 Ex : 8 G, 7 A => [AG] Ex : 12C => [CC]
  • 7. Les données de Séquences Variant Chromosome Position Gène Allèles Type Acide Aminé Impact (de 0 à 1) SNP1 14 610814 DGAT1 G/C missense V197L 0.24 SNP2 14 610880 DGAT1 A/G missense R219G 0.02 SNP3 2 6281432 MSTN C/T stop gained Q204X 0 7 5 – Annotation des variants identifiés Type Conséquence Missense Modifie un acide aminé Perte du codon start Modifie le début de la traduction Apparition d'un codon stop Protéine tronquée Perte d'un codon stop Protéine plus longue Frameshift Modifie le cadre de lecture de la protéine Splice acceptor ou donor Affecte les sites d'épissage etc.  Construction d’un catalogue documenté des variants identifiés  L’annotation des variants consiste à préciser la position du variant et si justifié son impact sur la protéine :  De gros efforts en cours pour compléter ces annotations, en particulier hors du codant
  • 8. Données disponibles pour l’UMT  Un investissement important depuis 2011, l’UMT avait accès en janvier 2021 aux données de séquences de 4566 bovins de plus de 40 races différentes (20% issus de nos travaux, 80% via consortium « 1000 Génomes Bovins »)  Ci-contre, la répartition dans les principales races françaises  571 taureaux (dont 308 en cours) de 14 races françaises différentes seront séquencés en short read dans le cadre du projet SeqOccIn financé par APIS-GENE et la région Occitanie,  154 de ces 571 taureaux seront également séquencés en long reads dans le cadre de ce projet  Ces données de séquences ont déjà permis d’identifier plus de 102 millions de petits variants (dont 87 millions de SNP)  Possibilité de distinguer des variants spécifiques de race  D’identifier des néo-mutations présentes chez un individu mais pas chez ses parents  Dans cette liste, on retrouve les SNP utilisés en Sélection Génomique 8 # Race​ total 1 Holstein​ 1234 2 Simmental​ 283 3 Brune 231 4 Charolais​e 153 5 Normande​ 137 6 Montbéliarde​ 132 7 Limousin​e 108 8 Blonde d'Aquitaine​ 65 9 Aubrac​ 33 10 Salers​ 28 11 Rouge des Prés 31 12 Tarentaise​ 22 13 Abondance​ 22 14 INRA95 14 15 Blanc Bleu 10 16 Froment du Léon 10 17 Vosgienne​ 8 Total 2521
  • 9. A quoi les utilise-t-on ?  Etude de la diversité génétique (intra et entre races)  Travaux sur la mitochondrie et les chromosomes sexuels  Traces de sélection  Etude du déterminisme génétique des caractères  Caractérisation d’anomalies  Approches de génétique inverse 9
  • 10. A quoi les utilise-t-on ?  Etude de la diversité génétique (intra et entre races)  Travaux sur la mitochondrie et les chromosomes sexuels  Traces de sélection  Etude du déterminisme génétique des caractères  Caractérisation d’anomalies  Approches de génétique inverse 10
  • 11. Etude de la diversité génétique du chromosome Y  Construction d’un réseau phylogénétique à partir de 1200 variants du chromosome Y repérés dans les données de séquences des races françaises.  Identification de seulement 2 groupes de Y (Y1 & Y2) qui coupent l’Europe en deux : Nord/Ouest vs Sud/Est, le nombre de variants différents entre 2 points est indiqué sur chaque segment du réseau  Y1 : HOL, NMD, RDP  Y2 : BSW, MON, SIM, ABO, TAR, CHA, LIM, SAL, BAQ  Peu de diversité constatée intra groupe/race, probablement dû au fait que le chromosome Y se transmet de mâle en mâle, sans recombinaisons et avec une forte dérive 11 Escouflaire & Capitan, 2021
  • 12. A quoi les utilise-t-on ?  Etude de la diversité génétique  Travaux sur la mitochondrie et les chromosomes sexuels  Traces de sélection  Etude du déterminisme génétique des caractères  Caractérisation d’anomalies  Approches de génétique inverse 12
  • 13. Etude du déterminisme génétique des caractères 13 1 . Imputations Cette étape consiste à estimer les génotypes manquants des animaux typés avec performances en partant de la densité la plus faible en SNP et en allant jusqu’à la séquence 1. Imputations 2. Cartographies 3. Puce SNP 4. Sélection Génomique
  • 14. Etude du déterminisme génétique des caractères 14 1. Imputations 2. Cartographies 3. Puce SNP 4. Sélection Génomique Sanchez et al., 2017 2 . Cartographies de QTL sur données de séquence Pour un caractère donné, recherche des régions du génome expliquant les différences de performances entre les animaux
  • 15. Etude du déterminisme génétique des caractères 15 3 . Mise à jour de la puce SNP Ajout des variants significatifs dans les travaux de cartographie sur la puce utilisée en Sélection Génomique • ~3000 variants issus de travaux de ce type (2 filières, tous caractères) seront bientôt accessibles à tous les utilisateurs de la puce EuroGMD 1. Imputations 2. Cartographies 3. Puce SNP 4. Sélection Génomique
  • 16. Etude du déterminisme génétique des caractères 16 4 . Prise en compte en Sélection Génomique Ces variants peuvent ensuite participer à la prédiction du potentiel génétique des animaux Disposer des variants causaux dans la prédiction peut permettre : • de gagner en précision/efficacité surtout lorsque populations de référence de petites tailles • de mettre en place des modèles plus complexes intégrant de la dominance ou des interactions 1. Imputations 2. Cartographies 3. Puce SNP 4. Sélection Génomique
  • 17. A quoi les utilise-t-on ?  Etude de la diversité génétique  Travaux sur la mitochondrie et les chromosomes sexuels  Traces de sélection  Etude du déterminisme génétique des caractères  Caractérisation d’anomalies  Approches de génétique inverse 17
  • 18. Caractérisation d’anomalies 18 1. ONAB 2. Cartographie 3. Puce SNP 4. Tests génétiques 1 . ONAB (Obs National des Anomalies Bovines) Remontée de cas d’anomalies observés en élevage Examens cliniques https://www.onab.fr Anomalie du pelage Achondroplasie Ostéogénèse imparfaite Anomalie de coloration Photo ENVT
  • 19. Caractérisation d’anomalies 19 1. ONAB 2. Cartographie 3. Puce SNP 4. Tests génétiques 2 . Cartographie Identification de la région du génome qui contient l’anomalie génétique Séquençage de deux malades et recherche du variant causal dans les données obtenues 0 200 400 600 800 0 50 100 150 Log(LRT) Position (Mb) Confidence interval Cartographie d’une anomalie de coloration (Milca) en race MON (Floriot et al., 2021)
  • 20. Caractérisation d’anomalies 20 1. ONAB 2. Cartographie 3. Puce SNP 4. Tests génétiques 3 . Ajout du variant sur la puce SNP
  • 21. Caractérisation d’anomalies 21 1. ONAB 2. Cartographie 3. Puce SNP 4. Tests génétiques 4 . Mise à disposition du test génétique Possibilité de contre-sélectionner les variants identifiés : • ~25 anomalies caractérisées en France sont disponibles sur la puce EuroGMD • proposition d’une méthode pour les intégrer dans les objectifs de sélection
  • 22. A quoi les utilise-t-on ?  Etude de la diversité génétique  Travaux sur la mitochondrie et les chromosomes sexuels  Traces de sélection  Etude du déterminisme génétique des caractères  Caractérisation d’anomalies  Approches de génétique inverse 22
  • 23. Exemple de travaux de génétique inverse  Génétique Inverse : on part du catalogue des variants pour aller vers le phénotypage des animaux porteurs 23 1 . Identification de variants à étudier Ex : identification d’une mutation avec une fréquence élevée dans les génomes Normands (27%) dans un gène connu chez l’Homme et la Souris conduisant à une cécité complète. Par ailleurs, des remontées au niveau de l’ONAB indiquaient des cas de vaches aveugles en race Normande 1. Variants 2. Puce SNP 3. Phénotypes 4. Tests génétiques
  • 24. Exemple de travaux de génétique inverse  Génétique Inverse : on part du catalogue des variants pour aller vers le phénotypage des animaux porteurs 24 2 . Ajout du variant sur la puce SNP 1. Variants 2. Puce SNP 3. Phénotypes 4. Tests génétiques
  • 25. Exemple de travaux de génétique inverse  Génétique Inverse : on part du catalogue des variants pour aller vers le phénotypage des animaux porteurs 25 3 . Phénotypage d’individus homozygotes Examens oculaires de 20 vaches à la station expérimentale du Pin-au-Haras : • Perte partielle de la vascularisation de la rétine • Perte des photorécepteurs 1. Variants 2. Puce SNP 3. Phénotypes 4. Tests génétiques Seulement 10% à 20% des variants repérés par génétique inverse seront finalement confirmés
  • 26. Exemple de travaux de génétique inverse  Génétique Inverse : on part du catalogue des variants pour aller vers le phénotypage des animaux porteurs 26 4 . Mise à disposition d’un test génétique Possibilité de sélectionner ou de contre- sélectionner les variants confirmés • La mutation responsable de la perte progressive de vision est disponible sur la puce EuroGMD 1. Variants 2. Puce SNP 3. Phénotypes 4. Tests génétiques (Michot et al., 2016)
  • 27. Bilan  Depuis 2016, la majorité des travaux de l’UMT eBIS exploitent des données de séquences, des travaux très académiques en point de départ mais qui amènent progressivement à de nombreuses applications quelques années plus tard  La puce SNP utilisée en Sélection Génomique est un point clef car il est à la fois le support de nombreux travaux de recherche exploitant les données de séquences mais aussi le support des applications en élevage issues de ces travaux de recherche 27
  • 28. Perspectives offertes par les séquences long-read
  • 29. Rappel sur le processus de séquençage  La molécule d’ADN d’un chromosome est très longue, souvent plus de 100 millions de bases  On ne sais pas (encore…) la séquencer en une seule fois d’un bout à l’autre  On la séquence par morceaux que l’on assemble ensuite trou  En très haut débit, les fragments font aujourd’hui • 100-150 bases = short reads (Illumina) • Plusieurs dizaines de kb = long reads
  • 30. Intérêt et limite des fragments courts  Les plus  Le moins onéreux, très haut débit, peu d’erreurs  Qualité d’ADN moyenne  Très efficace pour génotyper les variants de petite taille (SNP ou petits InDels)  Ainsi que d’autres applications (microbiote…)  Les moins  Suppose un assemblage de bonne qualité préexistant  Peu efficace (temps, précision…) pour génotyper les variants structuraux de grande taille (SV)
  • 32. Duplication (en tandem ou non) Translocation (plus ou moins éloignée) Les variants structuraux
  • 33. Inversion Tout existe dans le génome …. Situation souvent complexe combinant plusieurs évènements élémentaires (exemple : les insertions peuvent être accompagnées d’une délétion) Les variants structuraux
  • 34. Les éléments transposables Transposition Type de translocation Séquences d’origine virale, intégrées depuis très longtemps dans le génome et qui ont gardé la capacité de se déplacer sur le génome Taux de transposition (= de mutation) bien plus élevé que les autres types de variants
  • 35. Les variants structuraux sont ils importants ?  OUI !  Même s’ils sont moins nombreux que les petits variants, ils couvrent une proportion du génome au moins équivalente  Ils ont une probabilité bien plus forte d’avoir un effet biologique, car les gènes peuvent être fortement altérés  Quelques exemples :  Polled (celtique et frison)  Brachyspina (FANCY)  CDH (APOB)  Dysplasie ectodermique (EDA)  Epidermolyse bulleuse jonctionnelle (ITGB4)  ….
  • 36. Intérêt et limites des long reads  Les plus  « déjà préassemblé »  Permet de caractériser les séquences répétées  Fournit une information haplotypique  Facilite grandement la détection et le typage des variants structuraux jusqu’à quelques kb  Les moins  Encore onéreux  Nécessite une très bonne qualité d’ADN (détermine la longueur des reads)  Taux d’erreur ponctuelle élevé  Pas encore au stade industriel (mais ça va venir)
  • 37. Séquences répétées Ces séquences courtes ne peuvent pas être positionnées et ne permettent pas de caractériser la région 10 kb Cette séquence longue de 15 kb permet de caractériser la région (détermination de la longueur réelle, du nombre de répétitions, variation de séquence intra répétition…)
  • 38. Typage d’une insertion Insertion Génome de l’animal séquencé Lecture montrant l’allèle sauvage Lecture montrant l’insertion
  • 39. Ce qu’on peut attendre des données • Liste des variants présents et leurs fréquences • Génotypes individuels • Ajout sur puce pour les variants les plus importants, avec un design approprié • Imputation des SV sur l’ensemble de la population • recherche des effets sur les caractères • utilisation en sélection
  • 40. Le paradigme du génome de référence évolue  Actuellement, quand un animal est séquencé, ses lectures sont d’abord alignées sur le génome de référence, qui est le génome de la vache Hereford Dominette.  La comparaison des lectures avec la référence détecte les variations  Si le génome de Dominette ne contient pas une région, les lectures de cette région de l’animal séquencé ne s’alignent pas : elles sont éliminées  En cas de transposition ou d’inversion, l’alignement ne reflète pas la réalité  On peut donc manquer une proportion non négligeable du génome ou avoir une image erronée  D’où la proposition de constituer plusieurs génomes de référence
  • 41. La notion de pangénome  Définition : l’ensemble de l’ADN non commun à tous les animaux Race A Race B Race C Si A = Dominette, les séquences orange et jaune ne sont jamais analysées  Analyse des spécificités de race, de populations, d’individus  Projet international de caractérisation du pangénome visant la construction d’assemblages de références par race : l’UMT en charge des races françaises, en lien avec la plateforme de Toulouse
  • 42. Perspectives en épigénétique : Relations entre génétique et marques de méthylation
  • 43. Méthylation de l’ADN  Les cytosines, lorsqu’elles sont voisines des guanosines (groupe CpG) peuvent être sous une forme native ou méthylée  Plus une région du génome est méthylée, plus elle est compacte, moins elle est exprimée  Les méthylations sont donc des régulateurs de l’expression du génome  Les méthylations expliquent, entre autres, la différenciation des cellules  Contrairement à la séquence qui est constante intra individu, les méthylations varient entre tissus, entre stades physiologiques…  Le niveau de méthylation a un déterminisme pour partie génétique, pour partie du milieu  Un sujet d’étude considérable
  • 44. Comment identifier les cytosines méthylées ?  Lors d’un traitement de l’ADN au bisulfite, les cytosines non méthylées sont transformées en thymine les cytosines méthylées restent intactes  Les différences C vs T induites peuvent être mises en évidence par séquençage  Génome complet  Une fraction plus ou moins ciblée du génome => RRBS
  • 45. Les questions posées Projets Rumigen (H2020) et PolyPheme (ApisGene – ANR?)  Certaines marques de méthylation se transmettent-elles à la descendance ?  Quel est le déterminisme génétique des marques de méthylation ?  Les marques de méthylation dans le sperme influencent-elles la fertilité du taureau ? Et les phénotypes des produits ?  Une similarité de pattern de méthylation entre individus induit-elle une ressemblance entre individus, au-delà de leur apparentement ?  Si oui, cette information peut-elle être utilisée en prédiction, en complément des SNP ? Et si oui, comment envisager un épigénotypage à haut débit peu coûteux ?  Les méthylations induisent-elles un taux de néomutation plus élevé ? Des différences de taux de recombinaison Travaux en collaboration avec l’UMR BREED de Jouy en Josas