Slides Lição 5, CPAD, Os Inimigos do Cristão, 2Tr24, Pr Henrique.pptx
Polimorfismos de nucleotídeos únicos em espécies poliplóides.ppt
1. Ramon Oliveira Vidal
Email: ramon.vidal@gmail.com
Doutorando em Genética e Biologia Molecular
Sub área: Bioinformática
Orientador: Gonçalo A.G. Pereira
LGE
-
Laboratório
de
Genômica
e
Expressão
@ramonvidal
2. Marcadores Moleculares
◦ Marcadores por Hibridação
◦ Marcadores por Amplificação
Polimorfismos X mutações
SNPs
◦ Origem
◦ Aplicações
◦ Haplótipos
◦ Genotipagem
◦ Identificando os SNPs (em genomas e transcriptomas)
Sanger
454
Solexa
Taxa de evolução
Identificação de SNPs em Coffea arabica
3. Fenótipo
Propriedades observáveis de um indivíduo, que se
desenvolveram sob a influência de:
genótipo do indivíduo
fatores ambientais
Genótipo
Constituição genética de um organismo
como revelada pela análise genética e
molecular, ou seja, o conjunto completo de
genes, tanto dominantes e recessivos.
4. Qualquer característica morfológica ou
molecular que diferencia indivíduos, e que
seja facilmente detectável
5. É um fenótipo de fácil identificação, normalmente
determinado por um único alelo.
Características fenotípicas de fácil identificação visual
são utilizadas como marcadores morfológicos desde
os tempos de Mendel
6. Polimorfismo detectado na seqüência de DNA
Vantagens:
- Não é objeto de influências ambientais;
- Praticamente ilimitado em número;
Maior desvantagem é a necessidade de técnicas e
equipamentos mais complexos.
7. Reprodutibilidade;
Amplamente distribuído através do
genoma;
Poder de discriminação;
Ausência de influências ambientais;
Barato;
Fácil de mensurar
8. Diplóide: Constituído por duas cópias (homólogos)
de cada cromossomo.
Alelo: As formas alternativas de um caráter
genético encontrado em um determinado locus de
um cromossomo.
Homozigotos: Um organismo diplóide com alelos
idênticos de um determinado gene em ambos os
cromossomos homólogos.
Heterozigotos :Um organismo diplóide com alelos
diferentes de um determinado gene em ambos os
cromossomos homólogos.
13. Polimorfismo de DNA
entre indivíduos pode ser
devido a:
• Ausência do sítio do
primer.
• Surgimento de um novo
sítio.
• Ao comprimento da
região amplificada entre
sítios de primer
14. Significa Seqüências Simples Repetidas, a
qual consiste de pequenas seqüências de
nucleotídeos (1 a 4) repetidas em tandem.
Essas seqüências são distribuídas ao acaso
no genoma e é um dos marcadores mais
utilizados atualmente
15. Primers específicos (20 a 30 pb).
Diferentes números de elementos simples
repetidos.
Cada segmento amplificado de tamanho
diferente representa um alelo diferente do
mesmo loco
16.
17. Mutações genéticas
◦ Alteração na seqüência de nucleotídeos de uma
molécula de DNA.
◦ O termo "mutação“ é geralmente usado para referir-se a
alterações na seqüência de DNA que não estão presentes
na maioria dos indivíduos de uma espécie
Polimorfismos genéticos
◦ Diferença na seqüência de DNA entre indivíduos, grupos
ou populações.
◦ Incluem SNPs, seqüências repetitivas, inserções,
deleções e recombinações.
Podem dar origem a olhos ou olhos castanhos, cabelo liso
ou cabelos crespo
◦ Resultado de processos naturais ou induzidos por
agentes externos (como vírus ou radiação).
18. Polimorfismos são alterações no DNA que se
mantém nas gerações futuras
◦ Polimorfismo: variação >1%
◦ Mutação: variação <1%
C T T A G C T T
C T T A G T T T
Polimorfismo
C T T A G C T T
C T T A G T T T
Mutação
94%
6%
99.9%
0.1%
19. TAAAAAT
TAACAAT
TAAAAAT TAAAAAT TAACAAT TAACAAT TAACAAT
TAAAAAT TAACAAT
TAAAAAT
• Polimorfismos foram
mutações que se propagaram
ao longo de gerações
Polimorfismos genéticos X Mutações
genéticas
20. Single Nucleotide
Polymorphism, ou SNP
("snip"):
◦ pequena mudança, ou variação,
que pode ocorrer em um único
nucleotídeo numa sequência de
DNA em uma porção significativa
(mais de 1%) de uma população.
21. SNPs são as mais frequêntes formas de
variações genéticas
◦ 90% das variações genéticas humanas
vêm dos SNPs
SNPs tem se tornado marcadores de preferência
pela sua grande abundância e pelo
desenvolvimento de tecnologias de
genotipagem em larga escala.
22. SNPs em menor quantidade em genes do que em regiões não-
codificantes
Menor quantidade de SNPs nos cromossomos sexuais (humano).
Dentro de um único cromossomo, SNPs podem se concentrar em
uma região específica, geralmente implicando uma região de
interesse ou de pesquisa.
Em média, ocorrem a cada 300~600 nucleotídeos (humano).
Genes com maior pressão para modificação tem maior frequência de
SNP (resistência, adaptação, interação parasita-hospedeiro, etc)
23. Intra espécie
◦ Diversidade entre os indivíduos de uma
mesma espécie
◦ Reflete os SNPs entre os alelos (espécies
diplóides)
Inter espécies
◦ Diversidade entre espécies diferentes
25. Genotipagem
◦ Detecção de genótipos de individuos.
◦ Pode ser realizada observando os SNPs.
Haplótipo (genótipo haplóide)
◦ Alelo encontrado em um único cromossomo que
apresenta o mesmo padrão de SNPs.
◦ Blocos haplótipos e tendem a ser herdados
juntos.
◦ Podem servir como marcadores de doença
genética.
◦ A análise de haplótipos é útil na identificação de
eventos de recombinação.
26. Dentro de um bloco haplótipo, acontece pouca
ou nenhuma recombinação
Os SNPs dentro de um bloco haplótipo são
passados juntos nas gerações futuras
27. Um haplótipo é um conjunto de SNP no mesmo
cromossomo
SNP1 SNP2 SNP3
-A C T T A G C T T-
-A A T T T G C T C-
-A C T T T G C T C-
Haplotype 2
Haplotype 3
C A T
A T C
C T C
Haplotype 1
SNP1 SNP2 SNP3
29. SNPs estão relacionados com a diversidade
de genótipos de humanos
◦ podem ser mapeados relacionando-os a
diversidade de fenótipos.
Um SNP individual ou um bloco haplótipo
pode servir de indicação para
◦ características agronômicas
◦ doenças
◦ etc
Essa relação constitui a base e a motivação
para a identificação e genotipagem de SNPs.
30. O genoma de cada indivíduo contém
distintos padrões de SNPs
Pessoas podem ser agrupadas de acordo
com esse perfil
Perfil de SNPs são importantes na
identificação de respostas a terapias
◦ Existe uma correlação entre certos perfis de SNPs
e respostas específicas a tratamentos
32. Encontrando SNPs:
Mineração de SNPs baseados no sequenciamento
(Sanger tradicional)
Sequenciamento
De DNA
mRNA
cDNA
Library
EST
Overlap
Genomic
BAC
Library
RRS
Library
BAC
Overlap
Shotgun
Overlap
33. Fragment DNA
DNA from multiple individuals
Sequence and Reassemble
(known sequence) Assembly with other overlapping
GTTACGCCAATACAGGATCCAGGAGATTACC
GTTACGCCAATACAGCATCCAGGAGATTACC
mismatches = SNPs
Encontrando SNPs:
Mineração de SNPs baseados no sequenciamento
34. Base-calling Contig assembly
Sequence viewing
Polymorphism tagging
Relatório de polimorfismos
Genotipagem individual
Polymorphism detection
PolyPhred
Consed
Analysis
Sequenciamento Phred Phrap
Amplificação do DNA
5’ 3’
Vários indivíduos
38. Método Sanger foi o único utilizado por 30
anos
Sanger processa em paralelo 96 sequencias
enquanto NGS processa milhões de
sequencias a um custo 6X menor.
Problemas:
◦ Fidelidade dos dados
◦ Tamanho dos reads
◦ Custo da infraestrutura
◦ Manipular grandes volumes de dados
39. Sequencias curtas não mapeiam unicamente
em um lugar no genoma.
Solução #1: Reads longos.
Solução #2: Reads pareados.
ACTTAAGGCTGACTAGC TCGTACCGATATGCTG
40.
41.
42. Necessário ter uma montagem de referência
Mapeamento dos reads na referencia
Coberturas médias necessárias:
◦ Solexa - 100X, 454 - 10X
Análise estatística para validar discrepâncias com base na
redundância dos dados
Muitos Softwares disponíveis
Desenvolvimento de algorítmos para aumentar velocidade de
processamento
48. Para inferir uma taxa de evolução a um gene
são estimados o KA e o KS
KA - é a relação entre substituições não
sinônimas e todos os possíveis sitios não
sinônimos
KS – é a relação entre substituições
sinônimas e todos os possíveis sítios
sinônimos
50. A taxa KA/KS é uma medida clássica da evolução de
maneira global num gene
KA/KS << 1 indica que uma substancial proporção de
mudanças de aminoácidos devem ter sido eliminadas
por seleção de purificação.
KA/KS > 1 indica seleção adaptativa ou positiva
51. NG: Nei, M. and Gojobori, T. (1986) - Faster
LWL: Li, W.H., et al. (1985)
LPB: Li, W.H. (1993) and Pamilo, P. and
Bianchi, N.O. (1993)
MLWL (Modified LWL), MLPB (Modified LPB):
Tzeng, Y.H., et al. (2004)
YN: Yang, Z. and Nielsen, R. (2000)
MYN (Modified YN): Zhang, Z., et al. (2006)
GY: Goldman, N. and Yang, Z. (1994)
MS (Model Selection), MA (Model Averaging)
52. A taxa de KAKS em humanos e chimpanzes é de
0,23.
Assumindo que mutações sinônimas são neutras,
esse resultado implica que 77% das alterações de
aminoácidos em genes hominideos são
suficientemente deletérias e são eliminadas por
seleção natural. Como mutações sinônimas não são
totalmente neutras, a proporção de alterações de
aminoácido neutras com consequências deletérias
deve ser maior
53.
54. Identificar e caracterizar SNPs em sequências
de EST
Identificar os haplótipos com base nos
padrões de SNPs
Identificar kaks
Foram utilizados dados de duas espécies de
café:
◦ Coffea arabica,
◦ Coffea canephora
55. Espécie diplóide
Polinização cruzada: Alógama.
Alta variabilidade
C. canephora é melhor adaptada ao clima
equatorial úmido e quente
Cultivada em baixas e médias altitudes
Qualidade de bebida inferior
Mais resistente a diversas condições do que
Coffea arabica, em particular a doenças e
pragas.
56. Allopoliploide (tetraplóide)
Autógama
Baixa variabilidade
Originada de um cruzamento recente
(1mya) entre Coffea eugenoides e Coffea
canephora
Espécie mais cultivada. Ocupa 75% das
plantações mundiais de café.
Qualidade da bebida excelente.
57.
58. CAP3 para montagem dos EST
QualitySNP
KaKs_calculator
Scripts PERL
59. 95% similaridade por 100bp
◦ Previnir agrupamento de parálogos
Remover clusters com menos de 4
ESTs
Remover clusters com mais de 500
ESTs
◦ Evitar contigs mal formados
60. Analisar informações do CAP3 (Arquivo ACE)
Detecção de SNPs
◦ Filtros
◦ Reconstrução de haplótipos
Detecção de polimorfismos sinônimos e não
sinônimos com o FASTY
Construir Banco de dados com os dados
gerados.
61. Detecta todos os SNPs bi, tri e tetra alélicos
Cada alelo é representado com mais de uma
sequencia.
◦ Excluindo SNPs singlets
Classificação dos SNPs como intra ou inter
espécies
62. Agrupa sequências que representam um
mesmo alelo
Tem os mesmos nucleotídeos nos sítios
polimorficos.
Utiliza métodos matemáticos para minimizar
falsas reconstruções de haplótipos
Exclui haplótipos formados por apenas uma
sequencia
63. É calculado de acordo com a ocorrencia do
SNP em cada alelo com relação às regiões de
alta e baixa qualidade
O score de confiabilidade é o menor valor
Descartados valores abaixo de 2
64.
65.
66. Fasty
◦ Produz menores alinhamentos em sequencias de
baixa qualidade
Detecção da ORF
Correção de frameshifts
Detecção de sSNP/nsSNP e SNPs ou INDELs
em regiões UTR
Kaks Calculator
67.
68. Identificação dos ancestrais haplótipos
Padrões diferentes de expressão dos
homeologos
Contribuição de cada ancestral de arabica no
transcriptoma relacionando ao fenótipo
Genes com maior pressão seletiva para
mudança
Genes com maior pressão seletiva para
estabilização
Artigo submetido e em revisão