SlideShare uma empresa Scribd logo
1 de 7
A beginner's guide to
eukaryotic genome
annotation
Mark Yandell and Daniel Ence
Aluna: Amália Lobato
Graduanda em Biomedicina
Abstract
A baixa no custo do sequenciamento de genomas está tendo um impacto
marcante na comunidade de pesquisadores com respeito a quais genomas serão
sequenciados e como e onde serão anotados. Projetos de anotação de genomas
têm se tornado preocupações ordinárias de pequena escala que são
frequentemente realizados por um único laboratório. Ainda que a anotação de
um genoma eucarioto montado esteja dentro dos limites dos inexperientes, ela
ainda permanece uma tarefa desafiadora. Aqui nós fornecemos uma revisão do
processo de anotação genômica, das ferramentas disponíveis e das melhores
abordagens práticas.
Introduction
Apesar do sequenciamento estar mais acessível, a anotação de genomas se
tornou mais desafiadora, principalmente pelos fatores:
 O tamanho da leituras das NGS é mais curto, o que dificulta a montagem;
 O pioneirismo da montagem de alguns genomas traz consigo o desafio de sua
anotação, principalmente com relação a novos genes;
 A necessidade da atualização ou união de Data Sets.
Assembly and annotation: an overview
 É necessário verificar a qualidade da montagem para saber se o genoma está
pronto para a anotação. Várias estatísticas são usadas para descrever a
contiguidade e completude do genoma montado, porém o mais importante é
o N50. outras estatísticas são o tamanho médio de gaps no scaffold e o
número médio de gaps por scaffold.
 O N50 do scaffold é calculado pela ordenação todos os scaffolds gerados de
acordo com o tamanho do mais extenso ao menos extenso. Após, começando
do scaffold mais longo, o tamanho de cada scaffold será somado até que a
soma parcial se equipare a metade da extensão total de todos os scaffolds da
montagem. O N50 do scaffold do genoma montado é a extensão do menor
scaffold dessa lista.
Assembly and annotation: an overview
 Um N50 do tamanho do scaffold que e de tamanho aproximado de um gene é
um alvo decente para a anotação, porque cerca de 50% desses genes estarão
contidos em um único scaffold, que juntamente com o resto do genoma
proverão uma fonte considerável para a análise downstream.
 O CEGMA mostra a montagem contra um grupo de genes eucariotos universais
de cópia única, além da porcentagem de cada gene situado em um único
scaffold.
Annotation
 Embora as pipelines de anotação de genomas difiram nos seus detalhes, elas
dividem um conjunto básico de características. Geralmente, a notação de
estruturas gênica do genoma é dividida em duas fases:
 Fase computacional: ESTs, proteínas e outros são alinhados ao genoma e a
predição genica é gerada ab initio ou dirigida por evidência.
 Fase de anotação: os dados são sintetizados em anotações gênicas por
programas que são geralmente definidos como pipelines de anotação.
Fase computacional
Identificação de repetições
 Identificar e mascarar regiões de repetições é essencial para acurácia da
anotação do genoma.
 Essa repetições podem de baixa complexidade (série de nucleotídeos
homopoliméricos) ou elementos moveis (Vírus, LINEs, SINEs).
 Para a detecção dessas repetições deve-se criar uma biblioteca de repetições
para o genoma em questão.
 As ferramentas disponíveis para criação da biblioteca de repetições podem
ser por homologia ou ferramentas de novo (no caso da última os outputs
devem ser revisados).
 Após a criação da biblioteca de repetições, ela será usada com ferramentas
como o RepeatMasker para identificar os trechos das sequências no genoma
alvo que são homólogas a repetições conhecidas. O mascaramento consiste
em substituir os nucleotídeos das repetições por N.

Mais conteúdo relacionado

Semelhante a A beginner's guide to eukaryotic genome annotation

Expressão heteróloga
Expressão heterólogaExpressão heteróloga
Expressão heterólogaIvson Cassiano
 
Espectometria de Massas
Espectometria de MassasEspectometria de Massas
Espectometria de MassasLABIMUNO UFBA
 
Síntese proteica
Síntese proteicaSíntese proteica
Síntese proteicaDiogo Costa
 
Técnicas de análise de proteinas
Técnicas de análise de proteinasTécnicas de análise de proteinas
Técnicas de análise de proteinasPatrícia Kellen
 
Conceitos Básicos de Técnicas em Biologia Molecular - Embrapa
Conceitos Básicos de Técnicas em Biologia Molecular - EmbrapaConceitos Básicos de Técnicas em Biologia Molecular - Embrapa
Conceitos Básicos de Técnicas em Biologia Molecular - EmbrapaGregorio Leal da Silva
 
Aula4 endereçamento
Aula4 endereçamentoAula4 endereçamento
Aula4 endereçamentoAdila Trubat
 
Codigo genético "aula prática"
Codigo genético "aula prática"Codigo genético "aula prática"
Codigo genético "aula prática"rucadoida
 
Stabvida oportunidades profissionais
Stabvida oportunidades profissionaisStabvida oportunidades profissionais
Stabvida oportunidades profissionaisFrancisco Couto
 
Fundamentos de Engenharia Genética
Fundamentos de Engenharia GenéticaFundamentos de Engenharia Genética
Fundamentos de Engenharia GenéticaPedro Veiga
 
Engenharia Genética - Prof. Ana Paula Christ
Engenharia Genética - Prof. Ana Paula ChristEngenharia Genética - Prof. Ana Paula Christ
Engenharia Genética - Prof. Ana Paula ChristAna Paula Christ
 
Anotação funcional de genomas procariotos
Anotação funcional de genomas procariotosAnotação funcional de genomas procariotos
Anotação funcional de genomas procariotosEdivaldo Júnior
 
Aula3 sintese prtn
Aula3 sintese prtnAula3 sintese prtn
Aula3 sintese prtnAdila Trubat
 
Biologia 11 preparação para exame 1
Biologia 11   preparação para exame 1Biologia 11   preparação para exame 1
Biologia 11 preparação para exame 1Nuno Correia
 
Aula estrutura e_replicacao_do_dna_christian
Aula estrutura e_replicacao_do_dna_christianAula estrutura e_replicacao_do_dna_christian
Aula estrutura e_replicacao_do_dna_christianAndressa Souza
 

Semelhante a A beginner's guide to eukaryotic genome annotation (20)

RNA
RNARNA
RNA
 
Expressão heteróloga
Expressão heterólogaExpressão heteróloga
Expressão heteróloga
 
Espectometria de Massas
Espectometria de MassasEspectometria de Massas
Espectometria de Massas
 
Síntese proteica
Síntese proteicaSíntese proteica
Síntese proteica
 
Proteomica
ProteomicaProteomica
Proteomica
 
Técnicas de análise de proteinas
Técnicas de análise de proteinasTécnicas de análise de proteinas
Técnicas de análise de proteinas
 
Conceitos Básicos de Técnicas em Biologia Molecular - Embrapa
Conceitos Básicos de Técnicas em Biologia Molecular - EmbrapaConceitos Básicos de Técnicas em Biologia Molecular - Embrapa
Conceitos Básicos de Técnicas em Biologia Molecular - Embrapa
 
Aula 7 mi..(1)
Aula 7 mi..(1)Aula 7 mi..(1)
Aula 7 mi..(1)
 
Aula4 endereçamento
Aula4 endereçamentoAula4 endereçamento
Aula4 endereçamento
 
Codigo genético "aula prática"
Codigo genético "aula prática"Codigo genético "aula prática"
Codigo genético "aula prática"
 
Stabvida oportunidades profissionais
Stabvida oportunidades profissionaisStabvida oportunidades profissionais
Stabvida oportunidades profissionais
 
Biologia molecular
Biologia molecularBiologia molecular
Biologia molecular
 
Fundamentos de Engenharia Genética
Fundamentos de Engenharia GenéticaFundamentos de Engenharia Genética
Fundamentos de Engenharia Genética
 
Engenharia Genética - Prof. Ana Paula Christ
Engenharia Genética - Prof. Ana Paula ChristEngenharia Genética - Prof. Ana Paula Christ
Engenharia Genética - Prof. Ana Paula Christ
 
Montagem de Genomas
Montagem de GenomasMontagem de Genomas
Montagem de Genomas
 
Minicurso 2013
Minicurso 2013Minicurso 2013
Minicurso 2013
 
Anotação funcional de genomas procariotos
Anotação funcional de genomas procariotosAnotação funcional de genomas procariotos
Anotação funcional de genomas procariotos
 
Aula3 sintese prtn
Aula3 sintese prtnAula3 sintese prtn
Aula3 sintese prtn
 
Biologia 11 preparação para exame 1
Biologia 11   preparação para exame 1Biologia 11   preparação para exame 1
Biologia 11 preparação para exame 1
 
Aula estrutura e_replicacao_do_dna_christian
Aula estrutura e_replicacao_do_dna_christianAula estrutura e_replicacao_do_dna_christian
Aula estrutura e_replicacao_do_dna_christian
 

A beginner's guide to eukaryotic genome annotation

  • 1. A beginner's guide to eukaryotic genome annotation Mark Yandell and Daniel Ence Aluna: Amália Lobato Graduanda em Biomedicina
  • 2. Abstract A baixa no custo do sequenciamento de genomas está tendo um impacto marcante na comunidade de pesquisadores com respeito a quais genomas serão sequenciados e como e onde serão anotados. Projetos de anotação de genomas têm se tornado preocupações ordinárias de pequena escala que são frequentemente realizados por um único laboratório. Ainda que a anotação de um genoma eucarioto montado esteja dentro dos limites dos inexperientes, ela ainda permanece uma tarefa desafiadora. Aqui nós fornecemos uma revisão do processo de anotação genômica, das ferramentas disponíveis e das melhores abordagens práticas.
  • 3. Introduction Apesar do sequenciamento estar mais acessível, a anotação de genomas se tornou mais desafiadora, principalmente pelos fatores:  O tamanho da leituras das NGS é mais curto, o que dificulta a montagem;  O pioneirismo da montagem de alguns genomas traz consigo o desafio de sua anotação, principalmente com relação a novos genes;  A necessidade da atualização ou união de Data Sets.
  • 4. Assembly and annotation: an overview  É necessário verificar a qualidade da montagem para saber se o genoma está pronto para a anotação. Várias estatísticas são usadas para descrever a contiguidade e completude do genoma montado, porém o mais importante é o N50. outras estatísticas são o tamanho médio de gaps no scaffold e o número médio de gaps por scaffold.  O N50 do scaffold é calculado pela ordenação todos os scaffolds gerados de acordo com o tamanho do mais extenso ao menos extenso. Após, começando do scaffold mais longo, o tamanho de cada scaffold será somado até que a soma parcial se equipare a metade da extensão total de todos os scaffolds da montagem. O N50 do scaffold do genoma montado é a extensão do menor scaffold dessa lista.
  • 5. Assembly and annotation: an overview  Um N50 do tamanho do scaffold que e de tamanho aproximado de um gene é um alvo decente para a anotação, porque cerca de 50% desses genes estarão contidos em um único scaffold, que juntamente com o resto do genoma proverão uma fonte considerável para a análise downstream.  O CEGMA mostra a montagem contra um grupo de genes eucariotos universais de cópia única, além da porcentagem de cada gene situado em um único scaffold.
  • 6. Annotation  Embora as pipelines de anotação de genomas difiram nos seus detalhes, elas dividem um conjunto básico de características. Geralmente, a notação de estruturas gênica do genoma é dividida em duas fases:  Fase computacional: ESTs, proteínas e outros são alinhados ao genoma e a predição genica é gerada ab initio ou dirigida por evidência.  Fase de anotação: os dados são sintetizados em anotações gênicas por programas que são geralmente definidos como pipelines de anotação.
  • 7. Fase computacional Identificação de repetições  Identificar e mascarar regiões de repetições é essencial para acurácia da anotação do genoma.  Essa repetições podem de baixa complexidade (série de nucleotídeos homopoliméricos) ou elementos moveis (Vírus, LINEs, SINEs).  Para a detecção dessas repetições deve-se criar uma biblioteca de repetições para o genoma em questão.  As ferramentas disponíveis para criação da biblioteca de repetições podem ser por homologia ou ferramentas de novo (no caso da última os outputs devem ser revisados).  Após a criação da biblioteca de repetições, ela será usada com ferramentas como o RepeatMasker para identificar os trechos das sequências no genoma alvo que são homólogas a repetições conhecidas. O mascaramento consiste em substituir os nucleotídeos das repetições por N.