Este documento discute estratégias de sequenciamento, análise de sequências e aplicações de genômica, transcritômica e metagenômica. Aborda tópicos como sequenciadores, formatos de arquivos, montagem, predição de genes, RNA-seq, análise diferencial de expressão genética e estudos funcionais e filogenéticos em metagenômica.
5. +
Arquivos de sequências
nAB1 e ESD - Sanger
nFastq - Illumina
nSFF - 454
nEsses arquivos tem que ser processados e a sequencia FASTA
gerada.
nAlguns programas disponibilizam também o arquivo de
qualidade das sequencias.
nPossível montagem sem a conversão em FASTA.
5
9. +
Análise de sequências?
nTransformar os dados do sequenciador em conhecimento
biológico.
nBase calling.
nMontagem.
nPredição de genes.
nIdentificação de promotores e marcadores.
nGenômica comparativa.
9
12. +
Análise Funcional
nAssocia uma função aos genes preditos.
nBaseada na homologia entre sequências.
nUtiliza bases de dados de sequências conhecidas e programas
de alinhamento.
12
13. +
Transcritoma
13
nConjunto de todas as moléculas de RNA encontradas em uma
população celular:
n mRNA
n tRNA
n rRNA
n miRNA
nTotal de transcritos encontrados em um organismo, tipo
celular, condição...
nReflete os genes que estão sendo expressos em um
determinado momento.
nSnapshot da função celular.
14. +
Métodos de estudo
nExpressed Sequence Tags.
nSequenciado por método de Sanger.
nClonagem dos fragmentos usando
vetores.
nNão funciona em procariotos.
nLow throughput.
14
19. +
Protocolo
nProtocolo para montagem da biblioteca pode variar de acordo
com a tecnologia e com o objetivo:
nRemoção de rRNA.
nAmplificação por PCR.
nConversão a cDNA.
nSingle read ou pair end.
19
20. +
Genoma referência vs. Montagem
de novo
nMapeamento dos reads a um genoma referência.
n Quantificação da expressão.
n Identificação de variantes de splicing.
nMontagem de novo do transcritoma.
n Caracterização dos genes expressos.
n Identificação de isoformas.
n Ausência de genoma referência.
20
21. +
O que sai do sequenciador?
nFormato padrão para análises é o FastQ.
n @SEQ_ID
GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCAC
+
!”*((((***+))%%%++)(%%%%).1***-+*”))**55CCF»»»CCCCCCC65
nPrimeira linha: identificador da sequência.
n Nome da sequência.
n Informação sobre filtros.
nTerceira linha: qualidade da chamada da base (em código).
21
23. +
Mapeamento e quantificação
nAs sequências produzidas são mapeadas a um genôma
referência.
nAlinhou em apenas uma região = ótimo.
nAlinhou em mais que uma região = dilema.
nO uso de replicatas é FUNDAMENTAL!
23
Repl. 1 Repl. 2 Repl. 3
Gene A 5 3 12
Gene B 16 25 35
Gene C 10 15 3
Gene D 750 500 500
Gene E 1504 1005 1030
24. +
Interpretando a contagem dos
genes
nNo exemplo da tabela, o Gene E tem duas vezes mais reads
que o Gene D:
n Gene E é expresso duas vezes mais que o Gene D.
n Ambos os genes se expressam na mesma intensidade, mas o Gene E é
duas vezes maior que o Gene D.
n Ambos os genes tem o mesmo tamanho e se expressam na mesma
intensidade, mas o Gene D tem um parálogo no genoma ao qual metade
dos seus reads foram mapeados.
nA causa é os três ao mesmo tempo.
nMas quando analisamos o mesmo gene em 2 condições
diferentes, os efeitos 2 e 3 são desconsiderados.
24
25. +
Identificando genes
diferencialmente expressos.
nComparar diferentes condições: controle com testes.
n Célula normal com célula tumoral.
n Planta sem e com estresse hídrico.
n Animal sem e com parasita...
nGenes em duas condições diferentes VÃO apresentar
quantidades de reads diferentes.
nEssa variação pode ser diferença biológica entre as duas
condições, ou ruído experimental.
nAplicação de testes estatísticos.
25
26. +
Identificando genes
diferencialmente expressos.
nPara identificar uma diferença estatisticamente significantes, é
necessário que a diferença de expressão entre as duas
condições seja maior que a imprecisão do nível de expressão
sob uma determinada condição.
26
27. +
Sou pobre, não vou usar replicata.
nLição de vida:
n Um Gene H, em uma célula normal extraída do Zé Moreno, tem 5 reads.
n O mesmo Gene H, em célula tumoral extraída do mesmo Zé Moreno,
tem 10 reads.
n Uoua! O Gene H é duas vezes mais expresso na célula tumoral!
n Ganhei uns trocados e fiz transcritoma da célula normal de mais 2
pacientes. De brinde, ganhei o sequenciamento do Zé moreno de novo.
n O Gene H teve 12 reads na célula do Zé Moreno, 17 reads na Maria Tolé,
e 22 reads na célula do Tião Torresmo.
nMoral da história: quanto mais medições fizer, mais vai ter
certeza dos níveis de expressão dos genes.
27
28. +
Replicata técnica vs. Replicata
biológica
nTécnica: explica a variação
encontrada que pode ter
sido causada por critérios
técnicos: preparação da
biblioteca, qualidade do
sequênciamento, cobertura
do gene...
nBiológica: explica a
variação encontrada que
pode ter sido causada pela
variabilidade de expressão
que não está associada à
mudança nas condições do
experimento.
28
29. +
Fontes de variação
Variância de Poisson
nÉ a incerteza existente em qualquer medição em que algo é
amostrado e contado.
nComo é baseado no valor da contagem em si, não é específico
do experimento.
nEssa variância está relacionada a quantidade total de reads.
nPor exemplo, a diferença na expressão de um gene medido
com 1 read versus 2 reads é inerentemente menos seguro do
que as diferenças na expressão de um gene medido com 100
reads versus 200 reads, apesar de ambas as diferenças serem,
nominalmente, uma mudança 2X.
29
31. +
Fontes de variação
Variação Técnica Não-Poisson
nAssociado à incapacidade da
técnica não conseguir medir
a expressão perfeitamente.
nVisto em replicatas técnicas.
nCausas:
n Seleção de miRNA.
n Depleção de rRNA.
n Amplificação por PCR.
n Armazenamento.
n RNA-later.
nMoral da história: Manipule
sua amostra o mínimo
possível.
31
32. +
Fontes de variação
Variação Biológica
nOcorre naturalmente nas amostras.
nA expressão naturalmente flutua
em células sob a mesma condição.
nCausas da variações biológicas
podem ser diferenças genéticas,
de maquinaria celular, ou de
resposta a variação do ambiente.
nVariação biológica também sofre a
influência das outras duas
variações vistas.
32
33. +
Filosofando...
nMais replicatas vs. Mais reads.
nComo lidar com batch-effects?
nPreciso validar com RT-PCR?
nEu considero como diferencialmente expresso genes com p-
value < 0.01.
nCalcular FDR (False discovery rate)
nLeia artigos que tenham usado benchmarks.
nConverse com o bioinformata que vai fazer as análises.
33
35. +
Metagenômica
nCerca de 99% das bactérias não são cultiváveis.
nPermite o estudo de organismos que não são facilmente
cultivados em laboratório.
nIdentificação de funções em espécies ainda não identificadas.
36. +
Análise do gene do rRNA 16s
nGene altamente conservado em bactérias e archaea.
nRegião hiper variável confere sequências com assinatura
específica.
nFornece um perfil da diversidade na amostra.
37. +
Whole Genome Shotgun e nova
geração de sequenciadores
nPermite uma visão mais global da comunidade.
nAnálise dos níveis da diversidade filogenética e
polimorfismos intraespecíficos.
nEstudo de genes completos e de vias metabólicas da
comunidade.
nReconstrução dos genomas.
nDemanda intensa análise bioinformática.
38. +
Etapas da análise metagenômica
nFatores influentes.
nInterdependências ocultas.
39. +
Métodos de estudo - Funcional
nIsolamento do DNA da amostra.
nClonagem do DNA em um
hospedeiro.
nExpressão do gene e análise
funcional.
nAnálise das sequências.
40. +
Métodos de estudo - Genômico
nDNA isolado pode ser submetido a
um sequenciamento aleatório ou
direcionado.
nPermite montagem de todo
metaboloma.
nAnálise filogenética.
nMetagenômica comparativa.
43. +
Assinatura filogenética
nCada read é associado a um organismo (espécie, gênero,
família…)
nUtiliza bases de dados de genômas referência ou base de dados
NT do NCBI.
nFerramenta de alinhamento.
nValores de identidade para definir o nível cladístico assinado.
88% 98% 99%
Bacteroides fragilis
Escherichia coli
70%
45. +
Análise filogenética
nQual clado prevalece na amostra?
nExiste um perfil filogenético?
nIdentificação de marcadores filogenéticos.
nAssociação da presença de um clado a uma determinada
característica.
46. +
Anotação funcional
nAvaliar o potencial genético da amostra.
nMontagem dos contigs.
nPredição dos genes.
nAlinhamento dos genes preditos a uma base de dados.
47. +
Análise funcional
nQual função está mais presente?
nExiste alguma função do seu interesse?
nMontagem do mapa metabólico do ambiente.
nRastrear a função e identificar o organismo que executa.