Dynamique et expression des génomes eBis actu - 202106

Dynamique et expression des
génomes
1

Dynamique et expression des génomes
 Les activités du pôle « Génomes » de l’UMT eBIS :
 Caractérisation des polymorphismes du génome : SNP, INDEL, variants structuraux,
CNV, éléments transposables, recombinaisons, néo-mutations, chromosomes
particuliers (X, Y, MT)
 Annotation du génome, étude des régions régulatrices, des microARN
 Travaux de génétique inverse
 Déterminisme génétique de la méthylation
 Focus sur l’exploitation des données de séquences qui alimentent de
nombreux travaux des autres pôles de l’UMT
 Perspectives avec les travaux sur les séquences « long reads » et les données
de méthylation
2

Exploitation des données de séquence
Qu’est-ce que c’est ?
A quoi les utilise-t-on ?
3

Les données de Séquences
 Séquençage « short read » : petits fragments de 100-150 bases
 Séquençage « long read » : grands fragments de plusieurs dizaines de kbases 4
Fragments de séquences de l’individu :
1 - Extraction d’ADN
2 - Fragmentation du génome et séquençage
Mais les fragments ne sont pas positionnés sur le génome
A C T G T A A T C G T T
A T C G T T C C T G A A C T T G
T G A A C T T G T A T T

 Cela permet de positionner les différents fragments sur le génome
5
3 – Alignement sur génome de référence (actuellement référence internationale = génome d’une vache Hereford)
A C T G T A A T C G T T C C T G A A C T T G T A T T
A C T G T A A T C C T T
A T C C T T C C T G G A C T T G
Séquence de référence :
T G G A C T T G T A T T

 Avec des séquences short reads, on va principalement identifier des variants de type SNP
(mutation ponctuelle) ou des petites insertions/délétions appelées INDEL
 Avec des séquences long reads, on peut identifier des variations plus complexes (ou plus
longues) appelées variants structuraux 6
4 – Identification de variants en comparant la séquence de l’individu et la séquence de référence
A C T G T A A T C G T T C C T G A A C T T G T A T T
A C T G T A A T C C T T
A T C C T T C C T G G A C T T G
Séquence de référence :
T G G A C T T G T A T T
SNP1
SNP2
Ex : 8 G, 7 A => [AG]
Ex : 12C => [CC]

Variant Chromosome Position Gène Allèles Type Acide Aminé Impact (de 0 à 1)
SNP1 14 610814 DGAT1 G/C missense V197L 0.24
SNP2 14 610880 DGAT1 A/G missense R219G 0.02
SNP3 2 6281432 MSTN C/T stop gained Q204X 0
7
5 – Annotation des variants identifiés
Type Conséquence
Missense Modifie un acide aminé
Perte du codon start Modifie le début de la traduction
Apparition d'un codon stop Protéine tronquée
Perte d'un codon stop Protéine plus longue
Frameshift Modifie le cadre de lecture de la protéine
Splice acceptor ou donor Affecte les sites d'épissage
etc.
 Construction d’un catalogue documenté des variants
identifiés
 L’annotation des variants consiste à préciser la position
du variant et si justifié son impact sur la protéine :
 De gros efforts en cours pour compléter
ces annotations, en particulier hors du codant

Données disponibles pour l’UMT
 Un investissement important depuis 2011, l’UMT avait accès en
janvier 2021 aux données de séquences de 4566 bovins de plus de
40 races différentes (20% issus de nos travaux, 80% via consortium
« 1000 Génomes Bovins »)
 Ci-contre, la répartition dans les principales races françaises
 571 taureaux (dont 308 en cours) de 14 races françaises différentes
seront séquencés en short read dans le cadre du projet SeqOccIn
financé par APIS-GENE et la région Occitanie,
 154 de ces 571 taureaux seront également séquencés en long reads
dans le cadre de ce projet
 Ces données de séquences ont déjà permis d’identifier plus de 102
millions de petits variants (dont 87 millions de SNP)
 Possibilité de distinguer des variants spécifiques de race
 D’identifier des néo-mutations présentes chez un individu mais pas
chez ses parents
 Dans cette liste, on retrouve les SNP utilisés en Sélection Génomique
8
# Race total
1 Holstein 1234
2 Simmental 283
3 Brune 231
4 Charolaise 153
5 Normande 137
6 Montbéliarde 132
7 Limousine 108
8 Blonde d'Aquitaine 65
9 Aubrac 33
10 Salers 28
11 Rouge des Prés 31
12 Tarentaise 22
13 Abondance 22
14 INRA95 14
15 Blanc Bleu 10
16 Froment du Léon 10
17 Vosgienne 8
Total 2521

 Etude de la diversité génétique (intra et entre races)
 Travaux sur la mitochondrie et les chromosomes sexuels
 Traces de sélection
 Etude du déterminisme génétique des caractères
 Caractérisation d’anomalies
 Approches de génétique inverse
9

 Etude de la diversité génétique (intra et entre races)
10

Etude de la diversité génétique du
chromosome Y
 Construction d’un réseau phylogénétique à partir
de 1200 variants du chromosome Y repérés dans
les données de séquences des races françaises.
 Identification de seulement 2 groupes de Y (Y1 &
Y2) qui coupent l’Europe en deux : Nord/Ouest vs
Sud/Est, le nombre de variants différents entre 2
points est indiqué sur chaque segment du réseau
 Y1 : HOL, NMD, RDP
 Y2 : BSW, MON, SIM, ABO, TAR, CHA, LIM, SAL, BAQ
 Peu de diversité constatée intra groupe/race,
probablement dû au fait que le chromosome Y se
transmet de mâle en mâle, sans recombinaisons
et avec une forte dérive
11
Escouflaire & Capitan, 2021

 Etude de la diversité génétique
12

Etude du déterminisme génétique des
caractères
13
1 . Imputations
Cette étape consiste à estimer les génotypes
manquants des animaux typés avec performances
en partant de la densité la plus faible en SNP et
en allant jusqu’à la séquence
1. Imputations 2. Cartographies 3. Puce SNP 4. Sélection Génomique

caractères
14
Sanchez et al., 2017
2 . Cartographies de QTL sur données de séquence
Pour un caractère donné, recherche des régions du génome
expliquant les différences de performances entre les animaux

caractères
15
3 . Mise à jour de la puce SNP
Ajout des variants significatifs dans les travaux de
cartographie sur la puce utilisée en Sélection
Génomique
• ~3000 variants issus de travaux de ce type (2
filières, tous caractères) seront bientôt
accessibles à tous les utilisateurs de la puce
EuroGMD

caractères
16
4 . Prise en compte en Sélection Génomique
Ces variants peuvent ensuite participer à la
prédiction du potentiel génétique des animaux
Disposer des variants causaux dans la prédiction
peut permettre :
• de gagner en précision/efficacité surtout lorsque
populations de référence de petites tailles
• de mettre en place des modèles plus complexes
intégrant de la dominance ou des interactions

17

Caractérisation d’anomalies
18
1. ONAB 2. Cartographie 3. Puce SNP 4. Tests génétiques
1 . ONAB (Obs National des Anomalies Bovines)
Remontée de cas d’anomalies observés en élevage
Examens cliniques
https://www.onab.fr Anomalie du pelage
Achondroplasie
Ostéogénèse imparfaite
Anomalie de coloration
Photo
ENVT

19
2 . Cartographie
Identification de la région du génome qui
contient l’anomalie génétique
Séquençage de deux malades et recherche du
variant causal dans les données obtenues 0
200
400
600
800
0 50 100 150
Log(LRT)
Position (Mb)
Confidence interval
Cartographie d’une anomalie de coloration (Milca) en race MON
(Floriot et al., 2021)

20
3 . Ajout du variant sur la puce SNP

21
4 . Mise à disposition du test génétique
Possibilité de contre-sélectionner les variants
identifiés :
• ~25 anomalies caractérisées en France sont
disponibles sur la puce EuroGMD
• proposition d’une méthode pour les intégrer
dans les objectifs de sélection

22

Exemple de travaux de génétique inverse
 Génétique Inverse : on part du catalogue des variants pour aller vers le
phénotypage des animaux porteurs
23
1 . Identification de variants à étudier
Ex : identification d’une mutation avec une
fréquence élevée dans les génomes Normands
(27%) dans un gène connu chez l’Homme et la
Souris conduisant à une cécité complète.
Par ailleurs, des remontées au niveau de l’ONAB
indiquaient des cas de vaches aveugles en race
Normande
1. Variants 2. Puce SNP 3. Phénotypes 4. Tests génétiques

24
2 . Ajout du variant sur la puce SNP

25
3 . Phénotypage d’individus homozygotes
Examens oculaires de 20 vaches à la station
expérimentale du Pin-au-Haras :
• Perte partielle de la vascularisation de la rétine
• Perte des photorécepteurs
Seulement 10% à 20% des
variants repérés par
génétique inverse seront
finalement confirmés

26
4 . Mise à disposition d’un test génétique
Possibilité de sélectionner ou de contre-
sélectionner les variants confirmés
• La mutation responsable de la perte progressive
de vision est disponible sur la puce EuroGMD
(Michot et al., 2016)

Bilan
 Depuis 2016, la majorité des travaux de l’UMT eBIS exploitent des données de
séquences, des travaux très académiques en point de départ mais qui amènent
progressivement à de nombreuses applications quelques années plus tard
 La puce SNP utilisée en Sélection Génomique est un point clef car il est à la
fois le support de nombreux travaux de recherche exploitant les données de
séquences mais aussi le support des applications en élevage issues de ces
travaux de recherche
27

Perspectives offertes
par les séquences long-read

Rappel sur le processus de séquençage
 La molécule d’ADN d’un chromosome est très longue, souvent plus de 100 millions de
bases
 On ne sais pas (encore…) la séquencer en une seule fois d’un bout à l’autre
 On la séquence par morceaux que l’on assemble ensuite
trou
 En très haut débit, les fragments font aujourd’hui
• 100-150 bases = short reads (Illumina)
• Plusieurs dizaines de kb = long reads

Intérêt et limite des fragments courts
 Les plus
 Le moins onéreux, très haut débit, peu d’erreurs
 Qualité d’ADN moyenne
 Très efficace pour génotyper les variants de petite taille (SNP ou petits InDels)
 Ainsi que d’autres applications (microbiote…)
 Les moins
 Suppose un assemblage de bonne qualité préexistant
 Peu efficace (temps, précision…) pour génotyper les variants structuraux de grande
taille (SV)

Les variants structuraux
Insertion
Délétion

Duplication (en tandem ou non)
Translocation (plus ou moins éloignée)

Inversion
Tout existe dans le génome ….
Situation souvent complexe combinant plusieurs évènements élémentaires
(exemple : les insertions peuvent être accompagnées d’une délétion)

Les éléments transposables
Transposition
Type de translocation
Séquences d’origine virale, intégrées depuis très longtemps dans le génome
et qui ont gardé la capacité de se déplacer sur le génome
Taux de transposition (= de mutation) bien plus élevé que les autres types de variants

Les variants structuraux sont ils importants ?
 OUI !
 Même s’ils sont moins nombreux que les petits variants, ils couvrent une proportion du
génome au moins équivalente
 Ils ont une probabilité bien plus forte d’avoir un effet biologique, car les
gènes peuvent être fortement altérés
 Quelques exemples :
 Polled (celtique et frison)
 Brachyspina (FANCY)
 CDH (APOB)
 Dysplasie ectodermique (EDA)
 Epidermolyse bulleuse jonctionnelle (ITGB4)
 ….

Intérêt et limites des long reads
 Les plus
 « déjà préassemblé »
 Permet de caractériser les séquences répétées
 Fournit une information haplotypique
 Facilite grandement la détection et le typage des variants structuraux jusqu’à quelques kb
 Les moins
 Encore onéreux
 Nécessite une très bonne qualité d’ADN (détermine la longueur des reads)
 Taux d’erreur ponctuelle élevé
 Pas encore au stade industriel (mais ça va venir)

Séquences répétées
Ces séquences courtes ne peuvent pas être positionnées
et ne permettent pas de caractériser la région
10 kb
Cette séquence longue de 15 kb permet de caractériser la région
(détermination de la longueur réelle, du nombre de répétitions,
variation de séquence intra répétition…)

Typage d’une insertion
Insertion
Génome de l’animal
séquencé
Lecture montrant l’allèle sauvage
Lecture montrant l’insertion

Ce qu’on peut attendre des données
• Liste des variants présents et leurs fréquences
• Génotypes individuels
• Ajout sur puce pour les variants les plus importants, avec un design
approprié
• Imputation des SV sur l’ensemble de la population
• recherche des effets sur les caractères
• utilisation en sélection

Le paradigme du génome de référence évolue
 Actuellement, quand un animal est séquencé, ses lectures sont d’abord
alignées sur le génome de référence, qui est le génome de la vache Hereford
Dominette.
 La comparaison des lectures avec la référence détecte les variations
 Si le génome de Dominette ne contient pas une région, les lectures de cette
région de l’animal séquencé ne s’alignent pas : elles sont éliminées
 En cas de transposition ou d’inversion, l’alignement ne reflète pas la réalité
 On peut donc manquer une proportion non négligeable du génome ou avoir
une image erronée
 D’où la proposition de constituer plusieurs génomes de référence

La notion de pangénome
 Définition : l’ensemble de l’ADN non commun à tous les animaux
Race A
Race B
Race C
Si A = Dominette, les séquences orange et jaune ne sont jamais analysées
 Analyse des spécificités de race, de populations, d’individus
 Projet international de caractérisation du pangénome visant la construction d’assemblages
de références par race : l’UMT en charge des races françaises, en lien avec la plateforme
de Toulouse

Perspectives en épigénétique :
Relations entre génétique
et marques de méthylation

Méthylation de l’ADN
 Les cytosines, lorsqu’elles sont voisines des guanosines
(groupe CpG) peuvent être sous une forme native ou méthylée
 Plus une région du génome est méthylée, plus elle est compacte,
moins elle est exprimée
 Les méthylations sont donc des régulateurs de l’expression du génome
 Les méthylations expliquent, entre autres, la différenciation des cellules
 Contrairement à la séquence qui est constante intra individu, les méthylations varient entre
tissus, entre stades physiologiques…
 Le niveau de méthylation a un déterminisme pour partie génétique, pour partie du milieu
 Un sujet d’étude considérable

Comment identifier les cytosines méthylées ?
 Lors d’un traitement de l’ADN au bisulfite,
les cytosines non méthylées sont transformées en thymine
les cytosines méthylées restent intactes
 Les différences C vs T induites peuvent être mises en évidence par séquençage
 Génome complet
 Une fraction plus ou moins ciblée du génome => RRBS

Les questions posées
Projets Rumigen (H2020) et PolyPheme (ApisGene – ANR?)
 Certaines marques de méthylation se transmettent-elles à la descendance ?
 Quel est le déterminisme génétique des marques de méthylation ?
 Les marques de méthylation dans le sperme influencent-elles la fertilité du taureau ?
Et les phénotypes des produits ?
 Une similarité de pattern de méthylation entre individus induit-elle une ressemblance entre
individus, au-delà de leur apparentement ?
 Si oui, cette information peut-elle être utilisée en prédiction, en complément des SNP ? Et si
oui, comment envisager un épigénotypage à haut débit peu coûteux ?
 Les méthylations induisent-elles un taux de néomutation plus élevé ?
Des différences de taux de recombinaison
Travaux en collaboration avec
l’UMR BREED de Jouy en Josas

Dynamique et expression des génomes eBis actu - 202106

Recomendados

Recomendados

Mais conteúdo relacionado

Mais de Institut de l'Elevage - Idele

Mais de Institut de l'Elevage - Idele (20)

Dynamique et expression des génomes eBis actu - 202106