2. Dynamique et expression des génomes
Les activités du pôle « Génomes » de l’UMT eBIS :
Caractérisation des polymorphismes du génome : SNP, INDEL, variants structuraux,
CNV, éléments transposables, recombinaisons, néo-mutations, chromosomes
particuliers (X, Y, MT)
Annotation du génome, étude des régions régulatrices, des microARN
Travaux de génétique inverse
Déterminisme génétique de la méthylation
Focus sur l’exploitation des données de séquences qui alimentent de
nombreux travaux des autres pôles de l’UMT
Perspectives avec les travaux sur les séquences « long reads » et les données
de méthylation
2
4. Les données de Séquences
Séquençage « short read » : petits fragments de 100-150 bases
Séquençage « long read » : grands fragments de plusieurs dizaines de kbases 4
Fragments de séquences de l’individu :
1 - Extraction d’ADN
2 - Fragmentation du génome et séquençage
Mais les fragments ne sont pas positionnés sur le génome
A C T G T A A T C G T T
A T C G T T C C T G A A C T T G
T G A A C T T G T A T T
5. Les données de Séquences
Cela permet de positionner les différents fragments sur le génome
5
3 – Alignement sur génome de référence (actuellement référence internationale = génome d’une vache Hereford)
A C T G T A A T C G T T C C T G A A C T T G T A T T
A C T G T A A T C C T T
A T C C T T C C T G G A C T T G
T G A A C T T G T A T T
Séquence de référence :
T G G A C T T G T A T T
6. Les données de Séquences
Avec des séquences short reads, on va principalement identifier des variants de type SNP
(mutation ponctuelle) ou des petites insertions/délétions appelées INDEL
Avec des séquences long reads, on peut identifier des variations plus complexes (ou plus
longues) appelées variants structuraux 6
4 – Identification de variants en comparant la séquence de l’individu et la séquence de référence
A C T G T A A T C G T T C C T G A A C T T G T A T T
A C T G T A A T C C T T
A T C C T T C C T G G A C T T G
T G A A C T T G T A T T
Séquence de référence :
T G G A C T T G T A T T
SNP1
SNP2
Ex : 8 G, 7 A => [AG]
Ex : 12C => [CC]
7. Les données de Séquences
Variant Chromosome Position Gène Allèles Type Acide Aminé Impact (de 0 à 1)
SNP1 14 610814 DGAT1 G/C missense V197L 0.24
SNP2 14 610880 DGAT1 A/G missense R219G 0.02
SNP3 2 6281432 MSTN C/T stop gained Q204X 0
7
5 – Annotation des variants identifiés
Type Conséquence
Missense Modifie un acide aminé
Perte du codon start Modifie le début de la traduction
Apparition d'un codon stop Protéine tronquée
Perte d'un codon stop Protéine plus longue
Frameshift Modifie le cadre de lecture de la protéine
Splice acceptor ou donor Affecte les sites d'épissage
etc.
Construction d’un catalogue documenté des variants
identifiés
L’annotation des variants consiste à préciser la position
du variant et si justifié son impact sur la protéine :
De gros efforts en cours pour compléter
ces annotations, en particulier hors du codant
8. Données disponibles pour l’UMT
Un investissement important depuis 2011, l’UMT avait accès en
janvier 2021 aux données de séquences de 4566 bovins de plus de
40 races différentes (20% issus de nos travaux, 80% via consortium
« 1000 Génomes Bovins »)
Ci-contre, la répartition dans les principales races françaises
571 taureaux (dont 308 en cours) de 14 races françaises différentes
seront séquencés en short read dans le cadre du projet SeqOccIn
financé par APIS-GENE et la région Occitanie,
154 de ces 571 taureaux seront également séquencés en long reads
dans le cadre de ce projet
Ces données de séquences ont déjà permis d’identifier plus de 102
millions de petits variants (dont 87 millions de SNP)
Possibilité de distinguer des variants spécifiques de race
D’identifier des néo-mutations présentes chez un individu mais pas
chez ses parents
Dans cette liste, on retrouve les SNP utilisés en Sélection Génomique
8
# Race total
1 Holstein 1234
2 Simmental 283
3 Brune 231
4 Charolaise 153
5 Normande 137
6 Montbéliarde 132
7 Limousine 108
8 Blonde d'Aquitaine 65
9 Aubrac 33
10 Salers 28
11 Rouge des Prés 31
12 Tarentaise 22
13 Abondance 22
14 INRA95 14
15 Blanc Bleu 10
16 Froment du Léon 10
17 Vosgienne 8
Total 2521
9. A quoi les utilise-t-on ?
Etude de la diversité génétique (intra et entre races)
Travaux sur la mitochondrie et les chromosomes sexuels
Traces de sélection
Etude du déterminisme génétique des caractères
Caractérisation d’anomalies
Approches de génétique inverse
9
10. A quoi les utilise-t-on ?
Etude de la diversité génétique (intra et entre races)
Travaux sur la mitochondrie et les chromosomes sexuels
Traces de sélection
Etude du déterminisme génétique des caractères
Caractérisation d’anomalies
Approches de génétique inverse
10
11. Etude de la diversité génétique du
chromosome Y
Construction d’un réseau phylogénétique à partir
de 1200 variants du chromosome Y repérés dans
les données de séquences des races françaises.
Identification de seulement 2 groupes de Y (Y1 &
Y2) qui coupent l’Europe en deux : Nord/Ouest vs
Sud/Est, le nombre de variants différents entre 2
points est indiqué sur chaque segment du réseau
Y1 : HOL, NMD, RDP
Y2 : BSW, MON, SIM, ABO, TAR, CHA, LIM, SAL, BAQ
Peu de diversité constatée intra groupe/race,
probablement dû au fait que le chromosome Y se
transmet de mâle en mâle, sans recombinaisons
et avec une forte dérive
11
Escouflaire & Capitan, 2021
12. A quoi les utilise-t-on ?
Etude de la diversité génétique
Travaux sur la mitochondrie et les chromosomes sexuels
Traces de sélection
Etude du déterminisme génétique des caractères
Caractérisation d’anomalies
Approches de génétique inverse
12
13. Etude du déterminisme génétique des
caractères
13
1 . Imputations
Cette étape consiste à estimer les génotypes
manquants des animaux typés avec performances
en partant de la densité la plus faible en SNP et
en allant jusqu’à la séquence
1. Imputations 2. Cartographies 3. Puce SNP 4. Sélection Génomique
14. Etude du déterminisme génétique des
caractères
14
1. Imputations 2. Cartographies 3. Puce SNP 4. Sélection Génomique
Sanchez et al., 2017
2 . Cartographies de QTL sur données de séquence
Pour un caractère donné, recherche des régions du génome
expliquant les différences de performances entre les animaux
15. Etude du déterminisme génétique des
caractères
15
3 . Mise à jour de la puce SNP
Ajout des variants significatifs dans les travaux de
cartographie sur la puce utilisée en Sélection
Génomique
• ~3000 variants issus de travaux de ce type (2
filières, tous caractères) seront bientôt
accessibles à tous les utilisateurs de la puce
EuroGMD
1. Imputations 2. Cartographies 3. Puce SNP 4. Sélection Génomique
16. Etude du déterminisme génétique des
caractères
16
4 . Prise en compte en Sélection Génomique
Ces variants peuvent ensuite participer à la
prédiction du potentiel génétique des animaux
Disposer des variants causaux dans la prédiction
peut permettre :
• de gagner en précision/efficacité surtout lorsque
populations de référence de petites tailles
• de mettre en place des modèles plus complexes
intégrant de la dominance ou des interactions
1. Imputations 2. Cartographies 3. Puce SNP 4. Sélection Génomique
17. A quoi les utilise-t-on ?
Etude de la diversité génétique
Travaux sur la mitochondrie et les chromosomes sexuels
Traces de sélection
Etude du déterminisme génétique des caractères
Caractérisation d’anomalies
Approches de génétique inverse
17
18. Caractérisation d’anomalies
18
1. ONAB 2. Cartographie 3. Puce SNP 4. Tests génétiques
1 . ONAB (Obs National des Anomalies Bovines)
Remontée de cas d’anomalies observés en élevage
Examens cliniques
https://www.onab.fr Anomalie du pelage
Achondroplasie
Ostéogénèse imparfaite
Anomalie de coloration
Photo
ENVT
19. Caractérisation d’anomalies
19
1. ONAB 2. Cartographie 3. Puce SNP 4. Tests génétiques
2 . Cartographie
Identification de la région du génome qui
contient l’anomalie génétique
Séquençage de deux malades et recherche du
variant causal dans les données obtenues 0
200
400
600
800
0 50 100 150
Log(LRT)
Position (Mb)
Confidence interval
Cartographie d’une anomalie de coloration (Milca) en race MON
(Floriot et al., 2021)
21. Caractérisation d’anomalies
21
1. ONAB 2. Cartographie 3. Puce SNP 4. Tests génétiques
4 . Mise à disposition du test génétique
Possibilité de contre-sélectionner les variants
identifiés :
• ~25 anomalies caractérisées en France sont
disponibles sur la puce EuroGMD
• proposition d’une méthode pour les intégrer
dans les objectifs de sélection
22. A quoi les utilise-t-on ?
Etude de la diversité génétique
Travaux sur la mitochondrie et les chromosomes sexuels
Traces de sélection
Etude du déterminisme génétique des caractères
Caractérisation d’anomalies
Approches de génétique inverse
22
23. Exemple de travaux de génétique inverse
Génétique Inverse : on part du catalogue des variants pour aller vers le
phénotypage des animaux porteurs
23
1 . Identification de variants à étudier
Ex : identification d’une mutation avec une
fréquence élevée dans les génomes Normands
(27%) dans un gène connu chez l’Homme et la
Souris conduisant à une cécité complète.
Par ailleurs, des remontées au niveau de l’ONAB
indiquaient des cas de vaches aveugles en race
Normande
1. Variants 2. Puce SNP 3. Phénotypes 4. Tests génétiques
24. Exemple de travaux de génétique inverse
Génétique Inverse : on part du catalogue des variants pour aller vers le
phénotypage des animaux porteurs
24
2 . Ajout du variant sur la puce SNP
1. Variants 2. Puce SNP 3. Phénotypes 4. Tests génétiques
25. Exemple de travaux de génétique inverse
Génétique Inverse : on part du catalogue des variants pour aller vers le
phénotypage des animaux porteurs
25
3 . Phénotypage d’individus homozygotes
Examens oculaires de 20 vaches à la station
expérimentale du Pin-au-Haras :
• Perte partielle de la vascularisation de la rétine
• Perte des photorécepteurs
1. Variants 2. Puce SNP 3. Phénotypes 4. Tests génétiques
Seulement 10% à 20% des
variants repérés par
génétique inverse seront
finalement confirmés
26. Exemple de travaux de génétique inverse
Génétique Inverse : on part du catalogue des variants pour aller vers le
phénotypage des animaux porteurs
26
4 . Mise à disposition d’un test génétique
Possibilité de sélectionner ou de contre-
sélectionner les variants confirmés
• La mutation responsable de la perte progressive
de vision est disponible sur la puce EuroGMD
1. Variants 2. Puce SNP 3. Phénotypes 4. Tests génétiques
(Michot et al., 2016)
27. Bilan
Depuis 2016, la majorité des travaux de l’UMT eBIS exploitent des données de
séquences, des travaux très académiques en point de départ mais qui amènent
progressivement à de nombreuses applications quelques années plus tard
La puce SNP utilisée en Sélection Génomique est un point clef car il est à la
fois le support de nombreux travaux de recherche exploitant les données de
séquences mais aussi le support des applications en élevage issues de ces
travaux de recherche
27
29. Rappel sur le processus de séquençage
La molécule d’ADN d’un chromosome est très longue, souvent plus de 100 millions de
bases
On ne sais pas (encore…) la séquencer en une seule fois d’un bout à l’autre
On la séquence par morceaux que l’on assemble ensuite
trou
En très haut débit, les fragments font aujourd’hui
• 100-150 bases = short reads (Illumina)
• Plusieurs dizaines de kb = long reads
30. Intérêt et limite des fragments courts
Les plus
Le moins onéreux, très haut débit, peu d’erreurs
Qualité d’ADN moyenne
Très efficace pour génotyper les variants de petite taille (SNP ou petits InDels)
Ainsi que d’autres applications (microbiote…)
Les moins
Suppose un assemblage de bonne qualité préexistant
Peu efficace (temps, précision…) pour génotyper les variants structuraux de grande
taille (SV)
32. Duplication (en tandem ou non)
Translocation (plus ou moins éloignée)
Les variants structuraux
33. Inversion
Tout existe dans le génome ….
Situation souvent complexe combinant plusieurs évènements élémentaires
(exemple : les insertions peuvent être accompagnées d’une délétion)
Les variants structuraux
34. Les éléments transposables
Transposition
Type de translocation
Séquences d’origine virale, intégrées depuis très longtemps dans le génome
et qui ont gardé la capacité de se déplacer sur le génome
Taux de transposition (= de mutation) bien plus élevé que les autres types de variants
35. Les variants structuraux sont ils importants ?
OUI !
Même s’ils sont moins nombreux que les petits variants, ils couvrent une proportion du
génome au moins équivalente
Ils ont une probabilité bien plus forte d’avoir un effet biologique, car les
gènes peuvent être fortement altérés
Quelques exemples :
Polled (celtique et frison)
Brachyspina (FANCY)
CDH (APOB)
Dysplasie ectodermique (EDA)
Epidermolyse bulleuse jonctionnelle (ITGB4)
….
36. Intérêt et limites des long reads
Les plus
« déjà préassemblé »
Permet de caractériser les séquences répétées
Fournit une information haplotypique
Facilite grandement la détection et le typage des variants structuraux jusqu’à quelques kb
Les moins
Encore onéreux
Nécessite une très bonne qualité d’ADN (détermine la longueur des reads)
Taux d’erreur ponctuelle élevé
Pas encore au stade industriel (mais ça va venir)
37. Séquences répétées
Ces séquences courtes ne peuvent pas être positionnées
et ne permettent pas de caractériser la région
10 kb
Cette séquence longue de 15 kb permet de caractériser la région
(détermination de la longueur réelle, du nombre de répétitions,
variation de séquence intra répétition…)
39. Ce qu’on peut attendre des données
• Liste des variants présents et leurs fréquences
• Génotypes individuels
• Ajout sur puce pour les variants les plus importants, avec un design
approprié
• Imputation des SV sur l’ensemble de la population
• recherche des effets sur les caractères
• utilisation en sélection
40. Le paradigme du génome de référence évolue
Actuellement, quand un animal est séquencé, ses lectures sont d’abord
alignées sur le génome de référence, qui est le génome de la vache Hereford
Dominette.
La comparaison des lectures avec la référence détecte les variations
Si le génome de Dominette ne contient pas une région, les lectures de cette
région de l’animal séquencé ne s’alignent pas : elles sont éliminées
En cas de transposition ou d’inversion, l’alignement ne reflète pas la réalité
On peut donc manquer une proportion non négligeable du génome ou avoir
une image erronée
D’où la proposition de constituer plusieurs génomes de référence
41. La notion de pangénome
Définition : l’ensemble de l’ADN non commun à tous les animaux
Race A
Race B
Race C
Si A = Dominette, les séquences orange et jaune ne sont jamais analysées
Analyse des spécificités de race, de populations, d’individus
Projet international de caractérisation du pangénome visant la construction d’assemblages
de références par race : l’UMT en charge des races françaises, en lien avec la plateforme
de Toulouse
43. Méthylation de l’ADN
Les cytosines, lorsqu’elles sont voisines des guanosines
(groupe CpG) peuvent être sous une forme native ou méthylée
Plus une région du génome est méthylée, plus elle est compacte,
moins elle est exprimée
Les méthylations sont donc des régulateurs de l’expression du génome
Les méthylations expliquent, entre autres, la différenciation des cellules
Contrairement à la séquence qui est constante intra individu, les méthylations varient entre
tissus, entre stades physiologiques…
Le niveau de méthylation a un déterminisme pour partie génétique, pour partie du milieu
Un sujet d’étude considérable
44. Comment identifier les cytosines méthylées ?
Lors d’un traitement de l’ADN au bisulfite,
les cytosines non méthylées sont transformées en thymine
les cytosines méthylées restent intactes
Les différences C vs T induites peuvent être mises en évidence par séquençage
Génome complet
Une fraction plus ou moins ciblée du génome => RRBS
45. Les questions posées
Projets Rumigen (H2020) et PolyPheme (ApisGene – ANR?)
Certaines marques de méthylation se transmettent-elles à la descendance ?
Quel est le déterminisme génétique des marques de méthylation ?
Les marques de méthylation dans le sperme influencent-elles la fertilité du taureau ?
Et les phénotypes des produits ?
Une similarité de pattern de méthylation entre individus induit-elle une ressemblance entre
individus, au-delà de leur apparentement ?
Si oui, cette information peut-elle être utilisée en prédiction, en complément des SNP ? Et si
oui, comment envisager un épigénotypage à haut débit peu coûteux ?
Les méthylations induisent-elles un taux de néomutation plus élevé ?
Des différences de taux de recombinaison
Travaux en collaboration avec
l’UMR BREED de Jouy en Josas