+
Bioinformática
Genômica,Transcritômica e Metagenômica
Gabriel da Rocha Fernandes
Universidade Católica de Brasília
gabrielf@ucb.br - fernandes.gabriel@gmail.com
+
Estratégia de sequenciamento
2
+
Estratégia de sequenciamento
3
+
Sequenciadores
4
+
Arquivos de sequências
nAB1 e ESD - Sanger
nFastq - Illumina
nSFF - 454
nEsses arquivos tem que ser processados e a sequencia FASTA
gerada.
nAlguns programas disponibilizam também o arquivo de
qualidade das sequencias.
nPossível montagem sem a conversão em FASTA.
5
+
FastQ
6
+
Qualidade
7
+
Montagem
8
+
Análise de sequências?
nTransformar os dados do sequenciador em conhecimento
biológico.
nBase calling.
nMontagem.
nPredição de genes.
nIdentificação de promotores e marcadores.
nGenômica comparativa.
9
+
Montagem do genoma
nAlinhamento das sequencias para geração de um consenso.
nIdentificação e eliminação dos gaps.
10
+
Predição de genes
11
+
Análise Funcional
nAssocia uma função aos genes preditos.
nBaseada na homologia entre sequências.
nUtiliza bases de dados de sequências conhecidas e programas
de alinhamento.
12
+
Transcritoma
13
nConjunto de todas as moléculas de RNA encontradas em uma
população celular:
n mRNA
n tRNA
n rRNA
n miRNA
nTotal de transcritos encontrados em um organismo, tipo
celular, condição...
nReflete os genes que estão sendo expressos em um
determinado momento.
nSnapshot da função celular.
+
Métodos de estudo
nExpressed Sequence Tags.
nSequenciado por método de Sanger.
nClonagem dos fragmentos usando
vetores.
nNão funciona em procariotos.
nLow throughput.
14
+
Métodos de estudo
15
nMicroarray.
nArranjos com os genes em locais
determinados.
nComparação de amostras par a par.
nHibridização.
+
Next Generation Sequencing
16
+
Custo do sequenciamento
17
+
RNA-seq
nUltra larga escala.
nNão necessita de clonagem.
nBaixo custo.
nValores absolutos.
nAnálise multi amostras.
nGrande cobertura.
18
+
Protocolo
nProtocolo para montagem da biblioteca pode variar de acordo
com a tecnologia e com o objetivo:
nRemoção de rRNA.
nAmplificação por PCR.
nConversão a cDNA.
nSingle read ou pair end.
19
+
Genoma referência vs. Montagem
de novo
nMapeamento dos reads a um genoma referência.
n Quantificação da expressão.
n Identificação de variantes de splicing.
nMontagem de novo do transcritoma.
n Caracterização dos genes expressos.
n Identificação de isoformas.
n Ausência de genoma referência.
20
+
O que sai do sequenciador?
nFormato padrão para análises é o FastQ.
n @SEQ_ID
GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCAC
+
!”*((((***+))%%%++)(%%%%).1***-+*”))**55CCF»»»CCCCCCC65
nPrimeira linha: identificador da sequência.
n Nome da sequência.
n Informação sobre filtros.
nTerceira linha: qualidade da chamada da base (em código).
21
+
Montagem
22
+
Mapeamento e quantificação
nAs sequências produzidas são mapeadas a um genôma
referência.
nAlinhou em apenas uma região = ótimo.
nAlinhou em mais que uma região = dilema.
nO uso de replicatas é FUNDAMENTAL!
23
Repl. 1 Repl. 2 Repl. 3
Gene A 5 3 12
Gene B 16 25 35
Gene C 10 15 3
Gene D 750 500 500
Gene E 1504 1005 1030
+
Interpretando a contagem dos
genes
nNo exemplo da tabela, o Gene E tem duas vezes mais reads
que o Gene D:
n Gene E é expresso duas vezes mais que o Gene D.
n Ambos os genes se expressam na mesma intensidade, mas o Gene E é
duas vezes maior que o Gene D.
n Ambos os genes tem o mesmo tamanho e se expressam na mesma
intensidade, mas o Gene D tem um parálogo no genoma ao qual metade
dos seus reads foram mapeados.
nA causa é os três ao mesmo tempo.
nMas quando analisamos o mesmo gene em 2 condições
diferentes, os efeitos 2 e 3 são desconsiderados.
24
+
Identificando genes
diferencialmente expressos.
nComparar diferentes condições: controle com testes.
n Célula normal com célula tumoral.
n Planta sem e com estresse hídrico.
n Animal sem e com parasita...
nGenes em duas condições diferentes VÃO apresentar
quantidades de reads diferentes.
nEssa variação pode ser diferença biológica entre as duas
condições, ou ruído experimental.
nAplicação de testes estatísticos.
25
+
Identificando genes
diferencialmente expressos.
nPara identificar uma diferença estatisticamente significantes, é
necessário que a diferença de expressão entre as duas
condições seja maior que a imprecisão do nível de expressão
sob uma determinada condição.
26
+
Sou pobre, não vou usar replicata.
nLição de vida:
n Um Gene H, em uma célula normal extraída do Zé Moreno, tem 5 reads.
n O mesmo Gene H, em célula tumoral extraída do mesmo Zé Moreno,
tem 10 reads.
n Uoua! O Gene H é duas vezes mais expresso na célula tumoral!
n Ganhei uns trocados e fiz transcritoma da célula normal de mais 2
pacientes. De brinde, ganhei o sequenciamento do Zé moreno de novo.
n O Gene H teve 12 reads na célula do Zé Moreno, 17 reads na Maria Tolé,
e 22 reads na célula do Tião Torresmo.
nMoral da história: quanto mais medições fizer, mais vai ter
certeza dos níveis de expressão dos genes.
27
+
Replicata técnica vs. Replicata
biológica
nTécnica: explica a variação
encontrada que pode ter
sido causada por critérios
técnicos: preparação da
biblioteca, qualidade do
sequênciamento, cobertura
do gene...
nBiológica: explica a
variação encontrada que
pode ter sido causada pela
variabilidade de expressão
que não está associada à
mudança nas condições do
experimento.
28
+
Fontes de variação
Variância de Poisson
nÉ a incerteza existente em qualquer medição em que algo é
amostrado e contado.
nComo é baseado no valor da contagem em si, não é específico
do experimento.
nEssa variância está relacionada a quantidade total de reads.
nPor exemplo, a diferença na expressão de um gene medido
com 1 read versus 2 reads é inerentemente menos seguro do
que as diferenças na expressão de um gene medido com 100
reads versus 200 reads, apesar de ambas as diferenças serem,
nominalmente, uma mudança 2X.
29
+
Fontes de variação
Variância de Poisson
30
+
Fontes de variação
Variação Técnica Não-Poisson
nAssociado à incapacidade da
técnica não conseguir medir
a expressão perfeitamente.
nVisto em replicatas técnicas.
nCausas:
n Seleção de miRNA.
n Depleção de rRNA.
n Amplificação por PCR.
n Armazenamento.
n RNA-later.
nMoral da história: Manipule
sua amostra o mínimo
possível.
31
+
Fontes de variação
Variação Biológica
nOcorre naturalmente nas amostras.
nA expressão naturalmente flutua
em células sob a mesma condição.
nCausas da variações biológicas
podem ser diferenças genéticas,
de maquinaria celular, ou de
resposta a variação do ambiente.
nVariação biológica também sofre a
influência das outras duas
variações vistas.
32
+
Filosofando...
nMais replicatas vs. Mais reads.
nComo lidar com batch-effects?
nPreciso validar com RT-PCR?
nEu considero como diferencialmente expresso genes com p-
value < 0.01.
nCalcular FDR (False discovery rate)
nLeia artigos que tenham usado benchmarks.
nConverse com o bioinformata que vai fazer as análises.
33
+
Metagenômica
nMetagenoma: material genético recuperado diretamente de
amostras ambientais.
nFornece informações sobre os organismos em seu habitat
natural.
+
Metagenômica
nCerca de 99% das bactérias não são cultiváveis.
nPermite o estudo de organismos que não são facilmente
cultivados em laboratório.
nIdentificação de funções em espécies ainda não identificadas.
+
Análise do gene do rRNA 16s
nGene altamente conservado em bactérias e archaea.
nRegião hiper variável confere sequências com assinatura
específica.
nFornece um perfil da diversidade na amostra.
+
Whole Genome Shotgun e nova
geração de sequenciadores
nPermite uma visão mais global da comunidade.
nAnálise dos níveis da diversidade filogenética e
polimorfismos intraespecíficos.
nEstudo de genes completos e de vias metabólicas da
comunidade.
nReconstrução dos genomas.
nDemanda intensa análise bioinformática.
+
Etapas da análise metagenômica
nFatores influentes.
nInterdependências ocultas.
+
Métodos de estudo - Funcional
nIsolamento do DNA da amostra.
nClonagem do DNA em um
hospedeiro.
nExpressão do gene e análise
funcional.
nAnálise das sequências.
+
Métodos de estudo - Genômico
nDNA isolado pode ser submetido a
um sequenciamento aleatório ou
direcionado.
nPermite montagem de todo
metaboloma.
nAnálise filogenética.
nMetagenômica comparativa.
+
Análise filogenética e funcional
+
Pipeline de análise
+
Assinatura filogenética
nCada read é associado a um organismo (espécie, gênero,
família…)
nUtiliza bases de dados de genômas referência ou base de dados
NT do NCBI.
nFerramenta de alinhamento.
nValores de identidade para definir o nível cladístico assinado.
88% 98% 99%
Bacteroides fragilis
Escherichia coli
70%
+
Assinatura filogenética
nComposição geral da amostra
nPrograma: MEGAN
nAgrupa multiplos alinhamentos
em um nível cladístico.
+
Análise filogenética
nQual clado prevalece na amostra?
nExiste um perfil filogenético?
nIdentificação de marcadores filogenéticos.
nAssociação da presença de um clado a uma determinada
característica.
+
Anotação funcional
nAvaliar o potencial genético da amostra.
nMontagem dos contigs.
nPredição dos genes.
nAlinhamento dos genes preditos a uma base de dados.
+
Análise funcional
nQual função está mais presente?
nExiste alguma função do seu interesse?
nMontagem do mapa metabólico do ambiente.
nRastrear a função e identificar o organismo que executa.
+
+
+
+
+
+
Visualização

Bioinfo - Grad - Aula 2

  • 1.
    + Bioinformática Genômica,Transcritômica e Metagenômica Gabrielda Rocha Fernandes Universidade Católica de Brasília gabrielf@ucb.br - fernandes.gabriel@gmail.com
  • 2.
  • 3.
  • 4.
  • 5.
    + Arquivos de sequências nAB1e ESD - Sanger nFastq - Illumina nSFF - 454 nEsses arquivos tem que ser processados e a sequencia FASTA gerada. nAlguns programas disponibilizam também o arquivo de qualidade das sequencias. nPossível montagem sem a conversão em FASTA. 5
  • 6.
  • 7.
  • 8.
  • 9.
    + Análise de sequências? nTransformaros dados do sequenciador em conhecimento biológico. nBase calling. nMontagem. nPredição de genes. nIdentificação de promotores e marcadores. nGenômica comparativa. 9
  • 10.
    + Montagem do genoma nAlinhamentodas sequencias para geração de um consenso. nIdentificação e eliminação dos gaps. 10
  • 11.
  • 12.
    + Análise Funcional nAssocia umafunção aos genes preditos. nBaseada na homologia entre sequências. nUtiliza bases de dados de sequências conhecidas e programas de alinhamento. 12
  • 13.
    + Transcritoma 13 nConjunto de todasas moléculas de RNA encontradas em uma população celular: n mRNA n tRNA n rRNA n miRNA nTotal de transcritos encontrados em um organismo, tipo celular, condição... nReflete os genes que estão sendo expressos em um determinado momento. nSnapshot da função celular.
  • 14.
    + Métodos de estudo nExpressedSequence Tags. nSequenciado por método de Sanger. nClonagem dos fragmentos usando vetores. nNão funciona em procariotos. nLow throughput. 14
  • 15.
    + Métodos de estudo 15 nMicroarray. nArranjoscom os genes em locais determinados. nComparação de amostras par a par. nHibridização.
  • 16.
  • 17.
  • 18.
    + RNA-seq nUltra larga escala. nNãonecessita de clonagem. nBaixo custo. nValores absolutos. nAnálise multi amostras. nGrande cobertura. 18
  • 19.
    + Protocolo nProtocolo para montagemda biblioteca pode variar de acordo com a tecnologia e com o objetivo: nRemoção de rRNA. nAmplificação por PCR. nConversão a cDNA. nSingle read ou pair end. 19
  • 20.
    + Genoma referência vs.Montagem de novo nMapeamento dos reads a um genoma referência. n Quantificação da expressão. n Identificação de variantes de splicing. nMontagem de novo do transcritoma. n Caracterização dos genes expressos. n Identificação de isoformas. n Ausência de genoma referência. 20
  • 21.
    + O que saido sequenciador? nFormato padrão para análises é o FastQ. n @SEQ_ID GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCAC + !”*((((***+))%%%++)(%%%%).1***-+*”))**55CCF»»»CCCCCCC65 nPrimeira linha: identificador da sequência. n Nome da sequência. n Informação sobre filtros. nTerceira linha: qualidade da chamada da base (em código). 21
  • 22.
  • 23.
    + Mapeamento e quantificação nAssequências produzidas são mapeadas a um genôma referência. nAlinhou em apenas uma região = ótimo. nAlinhou em mais que uma região = dilema. nO uso de replicatas é FUNDAMENTAL! 23 Repl. 1 Repl. 2 Repl. 3 Gene A 5 3 12 Gene B 16 25 35 Gene C 10 15 3 Gene D 750 500 500 Gene E 1504 1005 1030
  • 24.
    + Interpretando a contagemdos genes nNo exemplo da tabela, o Gene E tem duas vezes mais reads que o Gene D: n Gene E é expresso duas vezes mais que o Gene D. n Ambos os genes se expressam na mesma intensidade, mas o Gene E é duas vezes maior que o Gene D. n Ambos os genes tem o mesmo tamanho e se expressam na mesma intensidade, mas o Gene D tem um parálogo no genoma ao qual metade dos seus reads foram mapeados. nA causa é os três ao mesmo tempo. nMas quando analisamos o mesmo gene em 2 condições diferentes, os efeitos 2 e 3 são desconsiderados. 24
  • 25.
    + Identificando genes diferencialmente expressos. nComparardiferentes condições: controle com testes. n Célula normal com célula tumoral. n Planta sem e com estresse hídrico. n Animal sem e com parasita... nGenes em duas condições diferentes VÃO apresentar quantidades de reads diferentes. nEssa variação pode ser diferença biológica entre as duas condições, ou ruído experimental. nAplicação de testes estatísticos. 25
  • 26.
    + Identificando genes diferencialmente expressos. nParaidentificar uma diferença estatisticamente significantes, é necessário que a diferença de expressão entre as duas condições seja maior que a imprecisão do nível de expressão sob uma determinada condição. 26
  • 27.
    + Sou pobre, nãovou usar replicata. nLição de vida: n Um Gene H, em uma célula normal extraída do Zé Moreno, tem 5 reads. n O mesmo Gene H, em célula tumoral extraída do mesmo Zé Moreno, tem 10 reads. n Uoua! O Gene H é duas vezes mais expresso na célula tumoral! n Ganhei uns trocados e fiz transcritoma da célula normal de mais 2 pacientes. De brinde, ganhei o sequenciamento do Zé moreno de novo. n O Gene H teve 12 reads na célula do Zé Moreno, 17 reads na Maria Tolé, e 22 reads na célula do Tião Torresmo. nMoral da história: quanto mais medições fizer, mais vai ter certeza dos níveis de expressão dos genes. 27
  • 28.
    + Replicata técnica vs.Replicata biológica nTécnica: explica a variação encontrada que pode ter sido causada por critérios técnicos: preparação da biblioteca, qualidade do sequênciamento, cobertura do gene... nBiológica: explica a variação encontrada que pode ter sido causada pela variabilidade de expressão que não está associada à mudança nas condições do experimento. 28
  • 29.
    + Fontes de variação Variânciade Poisson nÉ a incerteza existente em qualquer medição em que algo é amostrado e contado. nComo é baseado no valor da contagem em si, não é específico do experimento. nEssa variância está relacionada a quantidade total de reads. nPor exemplo, a diferença na expressão de um gene medido com 1 read versus 2 reads é inerentemente menos seguro do que as diferenças na expressão de um gene medido com 100 reads versus 200 reads, apesar de ambas as diferenças serem, nominalmente, uma mudança 2X. 29
  • 30.
  • 31.
    + Fontes de variação VariaçãoTécnica Não-Poisson nAssociado à incapacidade da técnica não conseguir medir a expressão perfeitamente. nVisto em replicatas técnicas. nCausas: n Seleção de miRNA. n Depleção de rRNA. n Amplificação por PCR. n Armazenamento. n RNA-later. nMoral da história: Manipule sua amostra o mínimo possível. 31
  • 32.
    + Fontes de variação VariaçãoBiológica nOcorre naturalmente nas amostras. nA expressão naturalmente flutua em células sob a mesma condição. nCausas da variações biológicas podem ser diferenças genéticas, de maquinaria celular, ou de resposta a variação do ambiente. nVariação biológica também sofre a influência das outras duas variações vistas. 32
  • 33.
    + Filosofando... nMais replicatas vs.Mais reads. nComo lidar com batch-effects? nPreciso validar com RT-PCR? nEu considero como diferencialmente expresso genes com p- value < 0.01. nCalcular FDR (False discovery rate) nLeia artigos que tenham usado benchmarks. nConverse com o bioinformata que vai fazer as análises. 33
  • 34.
    + Metagenômica nMetagenoma: material genéticorecuperado diretamente de amostras ambientais. nFornece informações sobre os organismos em seu habitat natural.
  • 35.
    + Metagenômica nCerca de 99%das bactérias não são cultiváveis. nPermite o estudo de organismos que não são facilmente cultivados em laboratório. nIdentificação de funções em espécies ainda não identificadas.
  • 36.
    + Análise do genedo rRNA 16s nGene altamente conservado em bactérias e archaea. nRegião hiper variável confere sequências com assinatura específica. nFornece um perfil da diversidade na amostra.
  • 37.
    + Whole Genome Shotgune nova geração de sequenciadores nPermite uma visão mais global da comunidade. nAnálise dos níveis da diversidade filogenética e polimorfismos intraespecíficos. nEstudo de genes completos e de vias metabólicas da comunidade. nReconstrução dos genomas. nDemanda intensa análise bioinformática.
  • 38.
    + Etapas da análisemetagenômica nFatores influentes. nInterdependências ocultas.
  • 39.
    + Métodos de estudo- Funcional nIsolamento do DNA da amostra. nClonagem do DNA em um hospedeiro. nExpressão do gene e análise funcional. nAnálise das sequências.
  • 40.
    + Métodos de estudo- Genômico nDNA isolado pode ser submetido a um sequenciamento aleatório ou direcionado. nPermite montagem de todo metaboloma. nAnálise filogenética. nMetagenômica comparativa.
  • 41.
  • 42.
  • 43.
    + Assinatura filogenética nCada readé associado a um organismo (espécie, gênero, família…) nUtiliza bases de dados de genômas referência ou base de dados NT do NCBI. nFerramenta de alinhamento. nValores de identidade para definir o nível cladístico assinado. 88% 98% 99% Bacteroides fragilis Escherichia coli 70%
  • 44.
    + Assinatura filogenética nComposição geralda amostra nPrograma: MEGAN nAgrupa multiplos alinhamentos em um nível cladístico.
  • 45.
    + Análise filogenética nQual cladoprevalece na amostra? nExiste um perfil filogenético? nIdentificação de marcadores filogenéticos. nAssociação da presença de um clado a uma determinada característica.
  • 46.
    + Anotação funcional nAvaliar opotencial genético da amostra. nMontagem dos contigs. nPredição dos genes. nAlinhamento dos genes preditos a uma base de dados.
  • 47.
    + Análise funcional nQual funçãoestá mais presente? nExiste alguma função do seu interesse? nMontagem do mapa metabólico do ambiente. nRastrear a função e identificar o organismo que executa.
  • 48.
  • 49.
  • 50.
  • 51.
  • 52.
  • 53.