2. Programma del corso
1. Diversità genetica
2. Equilibrio di Hardy-Weinberg
3. Inbreeding
4. Linkage disequilibrium
5. Mutazione
6. Deriva genetica
7. Flusso genico e varianze genetiche
8. Selezione
9. Mantenimento dei polimorfismi e teoria neutrale
10. Introduzione alla teoria coalescente
11. Struttura e storia della popolazione umana
+ Lettura critica di articoli
3. La genetica studia la trasmissione ereditaria dal passato al
presente
forward
4. Ma quando si lavora su popolazioni si raccolgono dati sul
presente e si cerca di risalire al passato
? ?
backward
5. Cos’è un modello?
La teoria coalescente è un modello di evoluzione, vista come processo
genealogico.
Nella teoria coalescente la trasmissione ereditaria viene trattata
indipendentemente dal processo di mutazione
Definire il modello
Esplorarne le proprietà
Stimare parametri dai dati
Confrontare dati osservati e
attese del modello
6. Costruiamo (procedendo verso il passato) la
genealogia materna di un gruppo di individui
Due possibilità: o ogni individuo ha una madre diversa:
O due individui hanno la stessa madre:
Chiamo questo fenomeno coalescenza
7. Assunzioni del coalescente classico
(Kingman 1982)
1. Neutralità
2. Siti infiniti
3. Se gli individui sono diploidi e le dimensioni della
popolazione sono N, il modello vale per 2N copie aploidi
e indipendenti del gene
4. Unione casuale entro la popolazione
5. Dimensioni della popolazione costanti (*)
6. Generazioni non sovrapposte
Parliamo di caratteri a trasmissione uniparentale
14. Non sempre l’albero ricostruito sulla base
delle mutazioni è molto informativo
2 3 1 4 5
CAATGCGGTG CAGTG TAATA TAACA
Possiamo capire qualcosa di più?
15. Nel risalire dal presente al passato incontriamo una
successione di eventi di coalescenza. Conseguenze:
1. In un campione di r individui alla generazione 0, il numero di
antenati 1, 2,…n generazioni fa (ξ1, ξ2, ..ξn) decresce fino ad
arrivare a 1:
r = ξ0 ξ1 ξ2 , ..ξn
Ogni genealogia viene ricondotta necessariamente a un
singolo antenato comune (MRCA). Non è possibile
discriminare fra monofilia e polifilia
16. Nel risalire dal presente al passato incontriamo una successione
di eventi di coalescenza. Conseguenze:
2. Se la popolazione è stazionaria (N costante), N donne hanno
una madre fra le N donne della generazione precedente.
La probabilità di coalescenza è vicina a 1/N
N1=8
N0=8?
17. Nel risalire dal presente al passato incontriamo una successione
di eventi di coalescenza. Conseguenze:
3. La probabilità P(n) che n alleli abbiano n antenati distinti alla
generazione precedente diminuisce con le dimensioni del
campione (più grande il campione, più grande la P di
almeno un evento di coalescenza)
campione P(ant.com) P(n)
2 1/N 1-(1/N)
3 2/N 1-(2/N)
n n /N
2
1- n /N
2
18. Dimensioni effettive
A A A A
Y X X X
mt mt
A A A A
Y X X X
mt mt
4. La dimensione
effettiva della
popolazione è
proporzionale a:
NC = 2
NeA = 4
NeX = 3
NeY = 1
Ne mt = 1
19. Nel risalire dal presente al passato incontriamo una
successione di eventi di coalescenza. Conseguenze:
5. I tempi medi di coalescenza aumentano procedendo verso il
passato
20. Nel risalire dal presente al passato incontriamo una
successione di eventi di coalescenza. Conseguenze:
6. Il tempo atteso fra due eventi di coalescenza è distribuito
esponenzialmente. E(T)=4N: Wright-Fisher
Tempo atteso per passare da k a (k-1) antenati:
Tk = 4N/[k(k-1)], o 2N per geni a trasm. uniparentale
21. Come si può arricchire il coalescente classico?
1. Selection
2. Recurrent and back mutation
3. Recombination
4. *Non-random mating: eg geographic subdivision with
specified migration between subpopulations
5. Population size fluctuation, including bottlenecks and
expansions
6. Non-’Poisson’ distributions of offspring numbers
7. Unequal generation intervals between lineages
22. Utilizzo del coalescente: simulazione di
processi genetici complicati
• Per capire la demografia di popolazioni passate (colli di
bottiglia, espansioni...)
• Per stimare il momento più probabile in cui sono
avvenute mutazioni, migrazioni, cambiamenti delle
pressioni selettive...
• Per valutare se i dati disponibili sono sufficienti a
discriminare fra diverse ipotesi
23. ABC (Approximate Bayesian Computations)
1. Alternative models are defined
2. For each model, millions of genealogies are generated by coalescent simulations,
sampling parameters from broad prior distributions
3. Summary statistics are estimated from observed and simulated data
4. A subset of simulations is retained, i.e. those showing the closest correspondence
between observed and simulated statistics
5. MODEL CHOICE: The posterior probability of each model is evaluated by counting
its occurrences among the best simulations
6. PARAMETER ESTIMATION: The modes are calculated of the parameter values
producing the best simulations under the chosen model, and credible intervals
about the modes are estimated
7. VALIDATION OF THE RESULTS: by further simulations in which pseudodata are
generated according to the models, and the power of the method to (a) tell models
apart and (b) identify the right model, is tested
24. ABC (Approximate Bayesian Computations)
1. Alternative models are defined
Mod 3
E M
C
27
26
a1 a2
Mod 2
E
M
27
26
a1 a2
Mod 1Mod 1
C
E
M
27
26
C
25. ABC (Approximate Bayesian Computations)
2. For each model, millions of genealogies are generated, sampling
parameters from broad prior distributions
10 000 – 50 000Ne Medieval Tuscans
4000 – 21 000Ne Etruscans
100 – 2000Ne at split
10 000 – 100 000Ne Generation 27
100 – 10 000Ne Generation 26
101 – 1500T estimated (bottleneck)
0.0003 – 0.0075μ
50 000 – 500 000Ne Modern Tuscans
PriorsParameters
26. ABC (Approximate Bayesian Computations)
3. A subset of simulations is retained, i.e. those with the shortest
distances between observed and simulated statistics
Observed statistics
27. ABC (Approximate Bayesian Computations)
4. MODEL CHOICE: The posterior probability of each model is
estimated from the frequency among the best simulations of the
simulations generated under that model
P=0.20
E M
C
27
26
a1 a2
P=0.10
E
M
27
26
a1 a2
Mod 1P=0.70
C
E
M
27
26
C
Observed statistics
28. ABC (Approximate Bayesian Computations)
5. PARAMETER ESTIMATION: the mode and the highest
probability density interval of the parameters are estimated
from the best simulations under the best model
0
100
40
27
26
Ne generation 40
Ne generation 100
Ne Generation 27
Ne Generation 26
T bottleneck
μ
Ne generation 0
Observed statistics
33. Gene trees, population trees
Gene trees are unknown, but we can reconstruct
some of their features assuming mutations occurred at a
constant rate (=no selection)
34. T2=2N
T5=N/5
4N
For nuclear genes, Exp time from k to (k-1) ancestors:
Tk = 4N/[k(k-1)] generations (large std. errors)
Population-genetics theory describes
the expected features of gene trees in
terms of population parameters
35. present
past
If two populations are isolated, the final
coalescence is 2N generations before the split
Origin of the B population
A B
T2=2N
T: gene
divergence
: population
divergence
Exp (T) = 4N
Exp(T2) = 2N
Exp = T/2
36. present
past
If there is initial polymorphism, the final coalescence
may be much more than 2N generations before the split
Origin of the B population
A B
T>>
T2=2N
37. : population
divergence
E(T- ) = 2 Ne
generationsT: gene
divergence
past
present
Gene divergence predates population divergence:
T is equal to only if 2 Ne =0
38. T
2Ne very
small
present
past
Only if there is a population bottleneck or a
founder effect does approximate T
Phylogeographic
analyses require the
assumption of strong
founder effects
39. Is it safe to assume that most human
populations originated from a founder
effect?
Evidence for rapid expansion (110-40 Kyrs ago) in farming
populations
Evidence for shrinking in hunting-gathering populations,
possible caused by competition with early farmers
(Excoffier & Schneider 1999)
Necessary to test for founder effects causing reduced
genetic diversity at several loci in a population
40. Ages of molecules are not ages
of populations
Initial polymorphism
results in overestimation
of the population’s age
Population’s age
Coalescence time
From Krings et al. (1997)
41. Any conclusions?
• Robust inferences on past population
processes are complicated
• No shortcuts: allele genealogies are not
population genealogies
• Archaeologists need geneticists to tell
demographic from cultural processes
• Geneticists need archeologists to identify
good hypotheses to test
42. Sintesi 1
• Il coalescente fornisce un modello di
evoluzione basato sull’indipendenza fra
processo genealogico e processo
mutazionale
• Tramite il coalescente si possono stimare
parametri sulla base di assunzioni esplicite
e simulare geenalogie di geni
43. Sintesi 2
Vantaggi del coalescente:
• Rende esplicite le assunzioni;
• fornisce misure di incertezza;
• non tratta (a differenza degli approcci
filogeografici) i polimorfismi come
mutazioni fissate.