A beginner's guide to eukaryotic genome annotation
1. A beginner's guide to
eukaryotic genome
annotation
Mark Yandell and Daniel Ence
Aluna: Amália Lobato
Graduanda em Biomedicina
2. Abstract
A baixa no custo do sequenciamento de genomas está tendo um impacto
marcante na comunidade de pesquisadores com respeito a quais genomas serão
sequenciados e como e onde serão anotados. Projetos de anotação de genomas
têm se tornado preocupações ordinárias de pequena escala que são
frequentemente realizados por um único laboratório. Ainda que a anotação de
um genoma eucarioto montado esteja dentro dos limites dos inexperientes, ela
ainda permanece uma tarefa desafiadora. Aqui nós fornecemos uma revisão do
processo de anotação genômica, das ferramentas disponíveis e das melhores
abordagens práticas.
3. Introduction
Apesar do sequenciamento estar mais acessível, a anotação de genomas se
tornou mais desafiadora, principalmente pelos fatores:
O tamanho da leituras das NGS é mais curto, o que dificulta a montagem;
O pioneirismo da montagem de alguns genomas traz consigo o desafio de sua
anotação, principalmente com relação a novos genes;
A necessidade da atualização ou união de Data Sets.
4. Assembly and annotation: an overview
É necessário verificar a qualidade da montagem para saber se o genoma está
pronto para a anotação. Várias estatísticas são usadas para descrever a
contiguidade e completude do genoma montado, porém o mais importante é
o N50. outras estatísticas são o tamanho médio de gaps no scaffold e o
número médio de gaps por scaffold.
O N50 do scaffold é calculado pela ordenação todos os scaffolds gerados de
acordo com o tamanho do mais extenso ao menos extenso. Após, começando
do scaffold mais longo, o tamanho de cada scaffold será somado até que a
soma parcial se equipare a metade da extensão total de todos os scaffolds da
montagem. O N50 do scaffold do genoma montado é a extensão do menor
scaffold dessa lista.
5. Assembly and annotation: an overview
Um N50 do tamanho do scaffold que e de tamanho aproximado de um gene é
um alvo decente para a anotação, porque cerca de 50% desses genes estarão
contidos em um único scaffold, que juntamente com o resto do genoma
proverão uma fonte considerável para a análise downstream.
O CEGMA mostra a montagem contra um grupo de genes eucariotos universais
de cópia única, além da porcentagem de cada gene situado em um único
scaffold.
6. Annotation
Embora as pipelines de anotação de genomas difiram nos seus detalhes, elas
dividem um conjunto básico de características. Geralmente, a notação de
estruturas gênica do genoma é dividida em duas fases:
Fase computacional: ESTs, proteínas e outros são alinhados ao genoma e a
predição genica é gerada ab initio ou dirigida por evidência.
Fase de anotação: os dados são sintetizados em anotações gênicas por
programas que são geralmente definidos como pipelines de anotação.
7. Fase computacional
Identificação de repetições
Identificar e mascarar regiões de repetições é essencial para acurácia da
anotação do genoma.
Essa repetições podem de baixa complexidade (série de nucleotídeos
homopoliméricos) ou elementos moveis (Vírus, LINEs, SINEs).
Para a detecção dessas repetições deve-se criar uma biblioteca de repetições
para o genoma em questão.
As ferramentas disponíveis para criação da biblioteca de repetições podem
ser por homologia ou ferramentas de novo (no caso da última os outputs
devem ser revisados).
Após a criação da biblioteca de repetições, ela será usada com ferramentas
como o RepeatMasker para identificar os trechos das sequências no genoma
alvo que são homólogas a repetições conhecidas. O mascaramento consiste
em substituir os nucleotídeos das repetições por N.