AnotaçãoAnotaçãoMolecularMolecularDRA. ADRIANA DANTAS | BIOINFORMÁTICADRA. ADRIANA DANTAS | BIOINFORMÁTICA
Introdução A bioinformática: Imprescindível para a manipulação dos dados biológicos. Definida como uma modalidade que a...
DEFINIÇÕES DE GENOMA A palavra GENOMA foi inventada em 1920, pelo Dr. H. Winkler, que fundiu a palavra ‘GENes e cromossOM...
Bancos de dados Genômicos Grande quantidade de dados gerados em inúmeros laboratóriosde todo o mundo, faz-se necessário o...
GenBankGenBank O NCBI, ou Centro Nacional para Informação Biotecnológicados EUA, é considerado o banco de dados central s...
Bancos de dados secundários do NCBI UniGene agrupa todas as sequencias parciais do transcriptoma de um organismoem aglom...
Ferramentas para analise de dados no GenBank A ferramenta mais popular de comparação de sequencias de DNA com os bancosde...
Banco de Genes Um dos grandes desafios é o desenvolvimento de procedimentospelos quais esses dados podem ser “inseridos” ...
Mapas genômicos Em 1995, o primeiro genoma de um organismo celular foi decifrado por meio dosequenciamento da bactériada ...
Figura 2
Figura 3. sequenciamento de um genoma por biblioteca BACFigura 3. sequenciamento de um genoma por biblioteca BAC
Processo Shotgun Contigs são montados e geram a sequencia do grande fragmento e a informação édevolvida para a montagem f...
Análise e Montagem das SequenciasSequencias shotgun analisadas Phred, Phrap e Consed Resultado: Sequencias ordenadas com ...
Obtenção de Sequencias geradaspelo MegaBace 10 Base calling -Base calling - Dados brutos (medidas analógicas) de saída do...
Base CallingBase CallingPhred : http://www.phrap.com/phred/ Lê o arquivo do cromatograma da sequencia de DNA e analisa os...
Valores de qualidade gerados pelo PHRED Arquivos de sequencias de DNA analisados pelo phred: Cada base é assinada um val...
PHRAP (agrupamento) e Consed
Anotação de Genes Anotar é postular afunção ao produto deum ORF Utilizam-se diversosprogramas decomparação de dadosgenét...
Montagem de DNA Ordenação dostrechos de DNAsequenciados paraobtenção dasequencia original Inclui verificação dequalidade...
Mascaramento de Vetores Mascaramento das regiões que representam, normalmente, partes dos vetores declonagem onde as sequ...
Montagem feita pela superposição Para executar essa montagem feita pela superposição das sequencias dosvários clones, nov...
 Nos eucariotos, cadacromossomo possui umamolécula de DNA e, comohumanos têm 24 tipos decromossomos (1 a 22, X e Y),deve-...
Alinhamento de Sequencias Determinar se as sequencias apresentam similaridade. Uma similaridade significativa é um forte...
Genes HomólogosFigura 2. Representação dos genes Hox emdrosófila com seu posicionamento no DNAe seus respectivos locais de...
Distinção entre ortólogos e parólogosDistinção entre ortólogos e parólogosRichardson E J , and Watson M Brief Bioinform 20...
Anotação Postular função para produto de gene Predizer estruturas do genoma e suas funções Anotam-se: Genes que codifi...
Para que serve o pacote BLAST? São utilizados para buscas por similaridade de sequencias efetuadas contras bancosde dados...
BLASTBasic Local Alignment Search Tool - Ferramenta utilizada para realizaçãode alinhamento local entre sequencias; É um ...
Anotação BLASTBasic Local Aligment Search Tool Algoritmo BLAST (Alstchul et al., 1990 – J. Biolo., 215, 403-410) Impleme...
Bancos de dados BLASTwww.ncbi.nlm.nih.gov/BLAST/ De acordo com o tipo de dados em que se esteja interessado existem vário...
BLASTBLAST Várias regiões de DNA podem ser anotadas através do BLAST, cujo resultadopode servir para atribuir uma função ...
BLASTBLAST É interessante verificar que se utilizássemos um nucleotídeo, "A" porexemplo, para pesquisar sequencias humana...
Modalidades de BLAST A mais curiosa e de grande importância na descoberta gênica é aquela ondetanto a Query como a base d...
Modalidades do BLAST tBLASTxtBLASTx foi utilizado em descoberta gênica inúmeras vezes, como porexemplo na identificação d...
Anotação BLAST BDs – nucleotídeos, proteínas, domínios, genomas,específicos, dados particulares BLASTp – proteina / prot...
Modalidades do BLAST Input (Entrada do Programa) Query sequence (sequencia de busca) Subject (Banco de dados de sequenc...
 Query= formato da seq de entrada; BD= formato das seqs do BD; nt (trad)= seq em nt traduzida pelo programa; Compara= ...
Anotação BLAST nts (nucleotídeos) Vs. ntVs. nt MEGABLAST – identifica as sequencias BLASTn – identifica a sequencia ou ...
Anotação BLAST aas (aminoácidos) Vs. ProteínasVs. Proteínas Blastp – identifica a sequencia ou encontra similares PSI-B...
Anotação BLAST aas (aminoácidos) Vs. ntVs. nt Tblastn – busca proteínas similares Pequenas sequencia s de proteínas Se...
PSI-BLASTPosition-Specific Iterated BLAST Executa um BLAST normal para encontrar no DB um conjunto de sequenciasrelaciona...
PHI-BLAST (Pattern-Hit Initiated BLAST) Pesquisa que combina a busca por expressões regulares comalinhamento local em tor...
Anotação BLAST Alinhamentos Query / subject Low escore filter Gráfico Lista de alinhamentos Score e E-value Alinhame...
Anotação BLAST Alinhamentos
BLAST Alinhamentos
BLAST Alinhamentos
BLAST Alinhamentos
BLAST Alinhamentos
Anotação inicial
Anotação Metabólica
Anotação de tRNAs Programa tRNAscan-SE tRNAscan – COVE Show Structure TRNAscan-SE Servidor Web: http://www.genetics.w...
Anotação rRNAsrRNAsBlast nEstrutura secundaria
Anotação repetições Programa Tandem Repeat FinderPrograma Tandem Repeat Finder Programa REPuter Foward vs. Foward (F) –...
Anotação Conteúdo GC GC Clusters de GC Porcentagem de GC GC skew – (G-c) / (G + C) GC skew cumulativo
Anotação Genômica e Predição de GenesAnotação Genômica e Predição de Genes O processo de anotação genômica envolve a atri...
Anotação Genômica e PrediçãoAnotação Genômica e Prediçãode Genesde Genes Diferentes algoritmos (Ex: GenScan) empregam pro...
Genes Hipotéticos O conhecimento prévio da proteína e a sua função em qualquer outra espéciefacilita bastante o processo ...
Genoma Humano Para o genoma humano acreditava-se até bem poucotempo em um número estimado ao redor de 70-100 mil genesque...
Análise de Transcriptomas O estudo do transcriptoma de cada organismo é de grande importância para aidentificação de gene...
Análise de Transcriptomas É necessário sequenciar completamente todos os genes de um tecido ouorganismo. Grande parte do...
ORESTES, deORESTES, de Open Reading frames ESTsOpen Reading frames ESTs Tecnologia desenvolvida no Brasil (Dias-Neto et a...
 O transcriptoma pode revelar padrõesdistintos de expressão gênica. Uma das maneiras de se evidenciar aexpressão gênica ...
Microarranjos Todavia, nada se compara à inversão introduzida pelos microarranjos(microarrays ou biochips) na análise da ...
SAGE Metodologia que incorpora um nova técnica de biologia molecular eferramentas de bioinformática para análise de expre...
RNA-seq RNA-seq é uma abordagem recentemente desenvolvida,para analisar o perfil de transcriptoma, que utilizatecnologias...
O entendimento do transcriptoma é essencialO entendimento do transcriptoma é essencialpara:para: Interpretar os elementos...
Porquê estudar o transcriptoma? Para determinar a estrutura transcripcional dos genes, em termos deseus sítios de início ...
Criação da BibliotecaCriação da BibliotecaPode-se utilizar:Todo o RNA da célulaPossui 90-95% de rRNAApenas mRNA seleci...
Criação da BibliotecaCriação da Biblioteca Para a criação da biblioteca o RNA é transformado em cDNApor uma transcriptase...
 Cada molécula de cDNA, com ou sem amplificação, éentão sequenciada com um método de alto rendimentopara obter sequências...
Considerações Prioritárias na montagemConsiderações Prioritárias na montagemPara garantir uma alta qualidade na montagem ...
 Para evitar erros na montagem de RNA, é necessárioretirar o passo de amplificação por PCR Na etapa de amplificação por ...
Estratégias de Montagem do TranscriptomaEstratégias de Montagem do Transcriptoma Baseado em três categorias :- Etratégia ...
Estratégia baseada em ReferênciaEstratégia baseada em Referência Quando existe um genoma de referência o transcriptoma po...
 Após as leituras serem alinhadas ao genoma, dois métodos sãousados para a construção dos gráficos:- Cufflinks - cria um ...
Vantagens Pode montar transcritos de baixa abundância; Pode usar computação paralela Pode ser feita em máquinas com pou...
Desvantagens Não é possível sem um genoma de referência; Depende da qualidade do genoma de referência ; Genomas podem n...
EstratégiaEstratégia de novode novo Não utiliza um genoma de referência; Se utiliza da redundância das leituras para enc...
VantagensNão depende de um genoma de referência;Pode providenciar um novo conjunto de dados de transcritos paragenomas q...
Desvantagens A montagem de organismos eucariotos complexos pode consumir muitamemória RAM Grande quantidade de dados Co...
Estratégia combinadaEstratégia combinada• A combinação dos dois métodos pode ser utilizada• O alinhamento tem a vantagem d...
 Uma questão importante é a cobertura da sequência oua porcentagem dos transcritos pesquisados, os quaisimplicam no custo...
RNA-seqRNA-seqRNA-Seq revela a localização precisa dos limites da transcrição,com a resolução base a base.Além disso, pe...
Aplicações Descoberta de pequenos RNAs Quantificação da expressão em diferentesmomentos Fusão de genes em câncer Ident...
Nova Geração de Sequenciadores de DNA
Melhorias para o futuroMelhorias para o futuro Melhorias na anotação automática Embora não seja possível nem desejável e...
Anotação molecular
Anotação molecular
Anotação molecular
Anotação molecular
Anotação molecular
Anotação molecular
Anotação molecular
Anotação molecular
Anotação molecular
Anotação molecular
Anotação molecular
Anotação molecular
Anotação molecular
Anotação molecular
Anotação molecular
Anotação molecular
Próximos SlideShares
Carregando em…5
×

Anotação molecular

2.729 visualizações

Publicada em

Publicada em: Educação
0 comentários
0 gostaram
Estatísticas
Notas
  • Seja o primeiro a comentar

  • Seja a primeira pessoa a gostar disto

Sem downloads
Visualizações
Visualizações totais
2.729
No SlideShare
0
A partir de incorporações
0
Número de incorporações
3
Ações
Compartilhamentos
0
Downloads
125
Comentários
0
Gostaram
0
Incorporações 0
Nenhuma incorporação

Nenhuma nota no slide
  • A diagram displaying the processes that can lead to, and define, orthologs and paralogs. Gene duplication and speciation events create complex evolutionary relationships between genes.
  • Anotação molecular

    1. 1. AnotaçãoAnotaçãoMolecularMolecularDRA. ADRIANA DANTAS | BIOINFORMÁTICADRA. ADRIANA DANTAS | BIOINFORMÁTICA
    2. 2. Introdução A bioinformática: Imprescindível para a manipulação dos dados biológicos. Definida como uma modalidade que abrange todos os aspectos deaquisição, processamento, armazenamento, distribuição, análise einterpretação da informação biológica. Combinação de procedimentos e técnicas da matemática, estatísticae ciência da computação Elaboradas várias ferramentas que nos auxiliam a compreender osignificado biológico representado nos dados genômicos. Criação de bancos de dados com as informações já processadas,acelera a investigação em outras áreas como a medicina, abiotecnologia, a agronomia, etc
    3. 3. DEFINIÇÕES DE GENOMA A palavra GENOMA foi inventada em 1920, pelo Dr. H. Winkler, que fundiu a palavra ‘GENes e cromossOMASGENes e cromossOMAS’ O termo GENÔMICA foi estabelecido bem mais tarde, em 1986, quando foi proposta acriação de uma nova disciplina e de uma nova revista cientifica Definições: Coleção de genes de um organismo Casamento entre a biologia celular coma genética clássica e a adoção da ciência decomputação Biologia molecular em grande escala Rol de tecnologias capazes de decodificar a sequencia de DNA de qualquer organismo Uma nova ciência que estuda todo o genoma Integra disciplinas tradicionais como citologia, genética mendeliana, quantitativa, depopulações e molecular com novas tecnologias derivadas da informática e de sistemasrobóticos automatizados
    4. 4. Bancos de dados Genômicos Grande quantidade de dados gerados em inúmeros laboratóriosde todo o mundo, faz-se necessário organizá-los de maneiraacessível, de modo a evitar redundância na pesquisa científica epossibilitar a análise por um maior número possível de cientistas. A construção de bancos de dados para armazenamento deinformações de sequencias de DNA e genomas inteiros, proteínas esuas estruturas tridimensionais, bem como vários outros produtos daera genômica, tem sido um grande desafio, mas simultaneamenteextremamente importante.
    5. 5. GenBankGenBank O NCBI, ou Centro Nacional para Informação Biotecnológicados EUA, é considerado o banco de dados central sobreinformações genômicas. Vários outros bancos de dados similares estão distribuídos porpaíses da Europa e Japão, mas todos trocam dados em umintervalo de 24 horas com o NCBI. O GenBank é o principal banco de dados do NCBI e armazenatodas sequencias disponíveis publicamente de DNA (deseqüências pequenas a genomas inteiros), RNA e proteínas.
    6. 6. Bancos de dados secundários do NCBI UniGene agrupa todas as sequencias parciais do transcriptoma de um organismoem aglomerados ou clusters, onde cada aglomerado representa asequencia consenso de um gene. Banco de dados RefSeq reúne somente as sequencias de referência, ou seja, a maisrepresentativa sequencia de um transcrito, editada e inspecionada porum curador. É, frequentemente, o melhor banco de dados para seevitar a redundância natural num universo com tantas informações. OMIM (Online Mendelian Inheritance in Man) que foi criado para catalogar todos genes e alelos relacionados adoenças e outras características humanas, bem como proporcionar umdetalhamento técnico e bibliografia referente a cada característica.
    7. 7. Ferramentas para analise de dados no GenBank A ferramenta mais popular de comparação de sequencias de DNA com os bancosde dados genômicos é o BLASTBLAST ou Basic Local Alignment Search Tool. Através deste algoritmo podemos comparar uma sequencia de DNA ou proteína(Query) qualquer com todas sequencias genômicas de domínio público. O programa BLAST não procura conduzir uma comparação da extensão total dasO programa BLAST não procura conduzir uma comparação da extensão total dasmoléculas comparadas, mas apenas identificar, no banco de dados, a presença demoléculas comparadas, mas apenas identificar, no banco de dados, a presença deuma sequencia suficientemente parecida com a pesquisada.uma sequencia suficientemente parecida com a pesquisada. Descarta, assim, rapidamente, os resultados não produtivos e estende a vizinhança daDescarta, assim, rapidamente, os resultados não produtivos e estende a vizinhança daregião de homologia detectada até não mais conseguir.região de homologia detectada até não mais conseguir. O resultado desta busca, que é feita no GenBank ou em várias de suas subdivisões(pode-se facilmente limitar a pesquisa a sequencias de um dado organismo, porexemplo), retorna aquelas sequencias (DNA ou proteínas) depositadas (depositadas (Subject)Subject) commaior homologia.
    8. 8. Banco de Genes Um dos grandes desafios é o desenvolvimento de procedimentospelos quais esses dados podem ser “inseridos” e "extraídos" embancos de dados secundários. Ferramentas desenvolvidas recentemente incluem: Bancos de genes classificados de acordo com sua história evolutiva(COG-NCBICOG-NCBI), Algoritmos de comparação de genomas inteiros (ACT - ArtemisACT - ArtemisComparison ToolComparison Tool), Ferramentas de busca de similaridade estrutural de proteínas,independentemente da sequencia primária (VAST-NCBIVAST-NCBI), etc.
    9. 9. Mapas genômicos Em 1995, o primeiro genoma de um organismo celular foi decifrado por meio dosequenciamento da bactériada bactéria Haemophilus influenzaeHaemophilus influenzae utilizando umametodologia de “tiro no escuro" (do inglês shotgunshotgun). Esta estratégia envolve o sequenciamento totalmente ao acaso, para posteriormontagem numa sequencia contígua, ou contigcontig (figura 2) Tem-se mostrado extremamente útil para o sequenciamento de genomas simples,como o de bactérias e em genomas complexos, como o da drosófila (Adams et al.2000) e do homem (Venter et al. 2001). O sequenciamento executado pelo consórcio público do genoma humanotambém teve uma porção shotgun. Fragmentos grandes de DNA clonados em BAC (cromossomos artificial decromossomos artificial debactériabactéria), de cerca de 150 mil pb, previamente mapeados em lugaresespecíficos dos cromossomos (figura 3). Enviados para centros de sequenciamento ao redor do planeta e, em cada centro,fragmentos pequenos eram gerados por quebras físicas e sequenciados no escuro,com uma cobertura de até dez vezes.
    10. 10. Figura 2
    11. 11. Figura 3. sequenciamento de um genoma por biblioteca BACFigura 3. sequenciamento de um genoma por biblioteca BAC
    12. 12. Processo Shotgun Contigs são montados e geram a sequencia do grande fragmento e a informação édevolvida para a montagem final do genoma. Processo Shotgun utilizado pela empresa Celera foi diferente: o genoma é fragmentado em pedaços de 2 mil, 10 mil e 50 mil nucleotídeos,após são clonados, sequenciados as extremidades das moléculas. Cada extremidade sequenciada encontra alguma sobreposição com alguma outrasequencia da coleção, mas sabendo-se a sequencia das outras extremidades destasduas moléculas, é possível conferir duplamente o resultado das sobreposições. As moléculas longas funcionam como âncoras, onde as extremidades das moléculasmaiores podem ser utilizadas não apenas para comprovar a montagem mastambém para ligar e ordenar contigs bem como direcionar o sequenciamento paraalgumas áreas de descontinuidade entre os contigs.
    13. 13. Análise e Montagem das SequenciasSequencias shotgun analisadas Phred, Phrap e Consed Resultado: Sequencias ordenadas com consenso formam um “CONTIG”
    14. 14. Obtenção de Sequencias geradaspelo MegaBace 10 Base calling -Base calling - Dados brutos (medidas analógicas) de saída do seqüênciamento PHRED:PHRED: Transforma os dados brutos em sequencias de bases, atribuí valores dequalidade a cada base na sequencia e gera arquivos de saída FASTA e PHD PHRAP:PHRAP: Leitura Montagem dos pequenos fragmentos de DNA sequenciados emseqüências maiores: CONTIG CONSED:CONSED: Visualização e edição das montagens das seqüências de altaqualidade
    15. 15. Base CallingBase CallingPhred : http://www.phrap.com/phred/ Lê o arquivo do cromatograma da sequencia de DNA e analisa os picos paradescrever as bases, associando um valor de qualidade para cada base descrita
    16. 16. Valores de qualidade gerados pelo PHRED Arquivos de sequencias de DNA analisados pelo phred: Cada base é assinada um valor de qualidade, o qual é uma estimativa daprobabilidade de erro para essa base. Bases com um valor de qualidade de 20 são consideradas com um alto valor dequalidade: q = -10 log10(pe) onde pe= erro estimado q20 = 1/100 probabilidade de erro q30= 1/1000 probabilidade de erro q40= 1/10000 probabilidade de erro
    17. 17. PHRAP (agrupamento) e Consed
    18. 18. Anotação de Genes Anotar é postular afunção ao produto deum ORF Utilizam-se diversosprogramas decomparação de dadosgenéticos conhecidos
    19. 19. Montagem de DNA Ordenação dostrechos de DNAsequenciados paraobtenção dasequencia original Inclui verificação dequalidade de bases,marcação devetores,comparação entreclones e formaçãode contíguos ate seobter o final
    20. 20. Mascaramento de Vetores Mascaramento das regiões que representam, normalmente, partes dos vetores declonagem onde as sequencias de interesse foram inseridas ou pedaços de DNAadaptadores utilizados durante a construção das bibliotecas
    21. 21. Montagem feita pela superposição Para executar essa montagem feita pela superposição das sequencias dosvários clones, novas ferramentas da bioinformática foram construídas. Duas dessas ferramentas, o PHRED e o PHRAPPHRED e o PHRAP, possibilitam a análise dasmilhares de sequencias de DNA geradas pelo sequenciador automático(Figura 4). PHRED - verifica a qualidade do sequenciamento de cada base das váriassequencias e junto ao PHRAP faz o alinhamento de todos os clones,construindo uma sequencia contínua, ou contig. No final, váriosvários contigscontigs irão compor um grandeirão compor um grande contigcontig que pode ser a fita deDNA completa de um cromossomo de bactéria, que é na maioria dos casos oseu genoma completo. Para a montagem final várias outras ferramentas foram desenvolvidas paramanipulação e ordenamento de grandes contigs, bem como a visualizaçãodo mapa final com toda a anotação funcional (Ex: Mummy e Assembler doTIGR).
    22. 22.  Nos eucariotos, cadacromossomo possui umamolécula de DNA e, comohumanos têm 24 tipos decromossomos (1 a 22, X e Y),deve-se sequenciarcompletamente 24 dessasmoléculas, avançando-semuitas vezes por longostrechos de DNA repetitivo,que são praticamenteimpossíveis de sequenciarcom perfeição.
    23. 23. Alinhamento de Sequencias Determinar se as sequencias apresentam similaridade. Uma similaridade significativa é um forte argumento para homologia. Definição dos termos : SimilaridadeSimilaridade : é uma medida da qualidade do alinhamento entre assequencias, baseada em algum critério de comparação. HomologiaHomologia : refere-se à relação evolutiva entre as sequencias. Genes Homólogos :Genes Homólogos :pode ser divididos em: ortólogos e parálogos
    24. 24. Genes HomólogosFigura 2. Representação dos genes Hox emdrosófila com seu posicionamento no DNAe seus respectivos locais de expressãoCada animal possui um "Kit de ferramentas" que, quando unidos, são capazesde construir um animal. Não importa seu tamanho nem sua complexidade,todos animais são definidos a partir de um pool gênico compartilhado, compequenas alterações, cuja expressão diferencia-se por sua ativação oudesativação em determinadas espécies, e por pequenas mutações quepodem ocorrer durante a história evolutiva. 
    25. 25. Distinção entre ortólogos e parólogosDistinção entre ortólogos e parólogosRichardson E J , and Watson M Brief Bioinform 2012;bib.bbs007© The Author(s) 2012. Published by Oxford University Press.
    26. 26. Anotação Postular função para produto de gene Predizer estruturas do genoma e suas funções Anotam-se: Genes que codificam proteinas tRNAs rRNAs ORFs hipotéticos Clusters de GC Repetições GCsKew Codon usage Promotores
    27. 27. Para que serve o pacote BLAST? São utilizados para buscas por similaridade de sequencias efetuadas contras bancosde dados de DNA e proteína; Comparam proteínas com proteínas, DNA com DNA, Proteína com DNA ou DNA com proteínas; As sequencias de DNA utilizadas na comparação usualmente são traduzidas antes dacomparação; Utilizam valores limites (thresholds) que podem ser ajustados para alterar a velocidade eprobabilidade; O pacote pode utilizar várias matrizes de substituição como Blosum( Blocks SubstitutionMatrix) 62 ou PAM (Percent Accept Mutation) 250.
    28. 28. BLASTBasic Local Alignment Search Tool - Ferramenta utilizada para realizaçãode alinhamento local entre sequencias; É um algoritmo heurístico baseado no algoritmo de Smith-Waterman; É a ferramenta mais utilizada para realizar busca de sequencias contra banco dedados. • Quais as estratégias utilizadas pelo BLAST ? Calcula similaridade de sequencias; Executa alinhamento local; Utiliza busca por palavras (“words”) ao invés de buscas por caracteres individuais (N ou P); Utiliza cálculos estatísticos para validação do resultado.
    29. 29. Anotação BLASTBasic Local Aligment Search Tool Algoritmo BLAST (Alstchul et al., 1990 – J. Biolo., 215, 403-410) Implementações: NCBIBLAST e WU-BLAST Acesso via web / local Consulta de sequencias em BDs biológicos Alinhamento, similaridade e homologia
    30. 30. Bancos de dados BLASTwww.ncbi.nlm.nih.gov/BLAST/ De acordo com o tipo de dados em que se esteja interessado existem váriosbancos de dados contra os quais a sequencia de busca pode ser comparada : Sequencias caracterizadas de DNA ou proteína; Sub-DBs especializados; Genomas completos ou cromossomos; DBs definidos pelo usuário (cópia local).
    31. 31. BLASTBLAST Várias regiões de DNA podem ser anotadas através do BLAST, cujo resultadopode servir para atribuir uma função a qualquer segmento de DNA queapresenta homologia significativa a outras sequencias de DNA ou proteínaspreviamente depositadas no GenBank com função conhecidaexperimentalmente (figura 1).Figura 1 - Resultado da busca por similaridadecom o programa BLAST. O segmento de DNAsequenciado (Query) demonstrou altahomologia (100%) com o gene da Insulinahumana (Sbjct).
    32. 32. BLASTBLAST É interessante verificar que se utilizássemos um nucleotídeo, "A" porexemplo, para pesquisar sequencias humanas, a chance deencontrarmos uma região homóloga seria igual a 1 (100%). Se a nossa sequencia pesquisada fosse mais complexa, 144 basespor exemplo, a chance de encontrarmos uma sequenciaperfeitamente idêntica seria pequena. O valor de "E"O valor de "E" , um parâmetro calculado pelo BLAST, expressa essadificuldade e, quanto menor seu valor, menor a chance de talcomparação ter sido encontrada por pura coincidência.
    33. 33. Modalidades de BLAST A mais curiosa e de grande importância na descoberta gênica é aquela ondetanto a Query como a base de dados (Subject) são sequencias detanto a Query como a base de dados (Subject) são sequencias denucleotídios.nucleotídios. Antes de verificar a homologia, são feitas as seis traduções possíveis de cadasequencia de nucleotídeos, ou seja, tanto a sequencia pesquisada quantocada uma das presentes na base de dados são transformadas em seisproteínas (iniciando pela base 1, 2 ou 3 de cada fita). tBLASTxtBLASTx, permite que seja retornado o par proteína Query - proteína Subject e émuito válida pois as proteínas de dois organismos são mais parecidas entre sique os nucleotídios que as codificam. Nesta análise, apenas uma das seis leituras é de significado biológico, as demaisgeram resultados que são desprezados. conservadas.
    34. 34. Modalidades do BLAST tBLASTxtBLASTx foi utilizado em descoberta gênica inúmeras vezes, como porexemplo na identificação da subunidade catalítica da telomerasehumana assim que tal enzima foi identificada no protozoário Euplotes(Meyerson et al. 1997). BLASTn,BLASTn, buscam homologia entre sequencias de nucleotídeos BLASTpBLASTp, buscam homologia entre sequencias de proteínas BLASTxBLASTx, Buscam homologia entre sequencias de nucleotídeos e proteínas PSI-BLASTPSI-BLAST, que em uma primeira busca encontra as proteínas maishomólogas à pesquisada - Query; procede identificando as regiõesconservadas dentre os melhores resultados da pesquisa e, em buscassubsequentes, mascara as regiões não conservadas da Query e pesquisalevando em conta apenas as regiões conservadas.
    35. 35. Anotação BLAST BDs – nucleotídeos, proteínas, domínios, genomas,específicos, dados particulares BLASTp – proteina / proteina (distantes) Blastn – nt / nt (próximos) Blastx – nt traduzido / proteínas (novas sequencias) Tblastn – proteína / nt traduzido( regiões não anotadas) Tblastx – nt trad / nt traduzido (ESTs)
    36. 36. Modalidades do BLAST Input (Entrada do Programa) Query sequence (sequencia de busca) Subject (Banco de dados de sequencias biológicas) • Output (Saída do Programa) Uma lista ordenada de “hits” contendo sequencias do banco dedados que possuem similaridade local com a sequencia de busca (da qual a função desconhecida dasequencia de busca pode ser inferida). Significância estatística de cada “hit”
    37. 37.  Query= formato da seq de entrada; BD= formato das seqs do BD; nt (trad)= seq em nt traduzida pelo programa; Compara= o que é comparado, nt (nucleotídeo) ou aa (aminoácido); Programa= um dos cinco principais tipos de blast.
    38. 38. Anotação BLAST nts (nucleotídeos) Vs. ntVs. nt MEGABLAST – identifica as sequencias BLASTn – identifica a sequencia ou encontra similaridade Tblastx – comparação de proteínas (nts traduzidos) Vs. ProteínaVs. Proteína Blastx – comparação de proteinas (nts traduzidas) Pequenas sequencias de nt Search for short, nearly exact matches – busca para primers oumotivos
    39. 39. Anotação BLAST aas (aminoácidos) Vs. ProteínasVs. Proteínas Blastp – identifica a sequencia ou encontra similares PSI-BLAST – encontra membros da família da proteína PHI-BLAST – encontra proteínas similares a padrão Domínio ConservadoDomínio Conservado CD-search – encontra query CDART – encontra query e busca outras
    40. 40. Anotação BLAST aas (aminoácidos) Vs. ntVs. nt Tblastn – busca proteínas similares Pequenas sequencia s de proteínas Search for short, nearly exact matches – busca paramotivos Especializadas (nt ou proteínas)Especializadas (nt ou proteínas) Blast 2 sequences BDs específicos (genomas)
    41. 41. PSI-BLASTPosition-Specific Iterated BLAST Executa um BLAST normal para encontrar no DB um conjunto de sequenciasrelacionadas (um critério de corte de E-value é utilizado); Alinha essas sequencias para criar uma nova matriz de substituição P1 que échamada de “Position Specific Scoring Matrices” (PSSMs); Depois utiliza interativamente a nova matriz para encontrar novas seqüências, construiruma matriz P2 e executar a etapa 2 novamente; O número de iterações é definido pelo usuário.
    42. 42. PHI-BLAST (Pattern-Hit Initiated BLAST) Pesquisa que combina a busca por expressões regulares comalinhamento local em torno da expressão regular encontrada. – Procura por sequencias em um banco de dados que contenham omotivo estrutural dado pela expressão e, ao mesmo tempo, sãohomólogas à sequencia query nas vizinhas do motivo estrutural. – Muito similar ao PSI-BLAST, exceto que a sequencia query é primeiropesquisada por um padrão fornecido pelo pesquisador.
    43. 43. Anotação BLAST Alinhamentos Query / subject Low escore filter Gráfico Lista de alinhamentos Score e E-value Alinhamentos Identities Posição de inicio e fim
    44. 44. Anotação BLAST Alinhamentos
    45. 45. BLAST Alinhamentos
    46. 46. BLAST Alinhamentos
    47. 47. BLAST Alinhamentos
    48. 48. BLAST Alinhamentos
    49. 49. Anotação inicial
    50. 50. Anotação Metabólica
    51. 51. Anotação de tRNAs Programa tRNAscan-SE tRNAscan – COVE Show Structure TRNAscan-SE Servidor Web: http://www.genetics.wustl.edu/eddy/tRNAscan-SE/ Lowe, T.M. & Eddy, S.R. (1997). tRNAscan-SE: a program for improved detection oftransfers RNA genes in genomic sequence. Nucleic Acids Research 25: 955-964.
    52. 52. Anotação rRNAsrRNAsBlast nEstrutura secundaria
    53. 53. Anotação repetições Programa Tandem Repeat FinderPrograma Tandem Repeat Finder Programa REPuter Foward vs. Foward (F) – tandem Forward vs. Reverse (R) Forward vs. Complemt (C) Forward vs. Reverse complemet (P)
    54. 54. Anotação Conteúdo GC GC Clusters de GC Porcentagem de GC GC skew – (G-c) / (G + C) GC skew cumulativo
    55. 55. Anotação Genômica e Predição de GenesAnotação Genômica e Predição de Genes O processo de anotação genômica envolve a atribuição defunções e identificação de padrões e de genes na sequencialinear do DNA obtida do sequenciamento. Para se fazer a predição de genes vários parâmetros podemser avaliados tais como a existência de sequencias no DNAque possam funcionar como promotores seguidas porsequencias que possam gerar uma proteína funcional, ou quetenham similaridade com genes conhecidos, etc.
    56. 56. Anotação Genômica e PrediçãoAnotação Genômica e Prediçãode Genesde Genes Diferentes algoritmos (Ex: GenScan) empregam processos estatísticos diversos para se fazera busca por ORFsORFs (Open Reading Frames) ou fases de leitura aberta do código genético,identificadas por um códon iniciador e um terminador, que correspondem a sequenciascom possíveis regiões codificadoras. Oorrência no genoma de ORFs superiores a 100 bases é um evento raro, já que um dos 64códons (ATG) abre a fase de leitura e três são os terminadores (TAA, TAG e TGA), com altaprobabilidade (3/64) Programas que detectam o uso não aleatório de códons (codon usagecodon usage), o qual é típicopara cada organismo. Nos projetos de análise do transcriptoma frequentemente o códon iniciador nãonão estápresente e programas de análise do codon usage podem auxiliar no reconhecimento dafase de leitura da porção codificadora. O programa ESTScan é um dos mais usados para esses fins.
    57. 57. Genes Hipotéticos O conhecimento prévio da proteína e a sua função em qualquer outra espéciefacilita bastante o processo de anotação de genes. Grande parte dos genes são ainda hipotéticos, isto é, não se conhece a funçãonão se conhece a funçãobiológica destas sequencias.biológica destas sequencias. Exemplo, na bactéria Escherichia coli, na planta Arabidopsis thaliana e na moscadas frutas, Drosophila melanogaster, entre 40 e 60% dos genes anotados nãopossuem produto gênico ou função conhecida. Muitos dos supostos "genes hipotéticos" serão futuramente descartados enquantooutros segmentos gênicos serão identificados após terem passadodesapercebidos pelos atuais algoritmos de predição gênica. Aparente paradoxo resulta do fato de que não existe umaAparente paradoxo resulta do fato de que não existe umaidentificação inequívoca de um gene.identificação inequívoca de um gene.
    58. 58. Genoma Humano Para o genoma humano acreditava-se até bem poucotempo em um número estimado ao redor de 70-100 mil genesque foi reduzido para 30-40 mil genes com a publicação dosprimeiros rascunhos de nosso genoma em 2001 (Lander et al.2001 e Venter et al. 2001). Para facilitar a identificação e classificação funcional dosgenes foi criado o consórcio Gene OntologyGene Ontology que pretendefornecer um vocabulário padronizado para a descrição dosprodutos gênicos.
    59. 59. Análise de Transcriptomas O estudo do transcriptoma de cada organismo é de grande importância para aidentificação de genes, mas também incorpora informações sobre ofuncionamento do seu genoma. As sequencias produzidas pelos projetos de sequenciamento do transcriptomaconstituem-se em evidência direta da existência de genes com sua determinadaordem de éxons. A análise de transcriptomas de diferentes espécies, inclusive a humana, temevidenciado uma altíssima frequência de processamentos (splicing) diferenciaisaltíssima frequência de processamentos (splicing) diferenciaisdos transcritos primários.dos transcritos primários. Neste caso, um gene pode apresentar uma grande variação funcional devidosimplesmente ao sorteio de éxons promovido pelo processamento diferencial.
    60. 60. Análise de Transcriptomas É necessário sequenciar completamente todos os genes de um tecido ouorganismo. Grande parte dos genes podem ser identificados através da análise deGrande parte dos genes podem ser identificados através da análise depequenas sequencias que funcionam como etiquetas.pequenas sequencias que funcionam como etiquetas. Chamadas ESTs, ou Expressed Seqüence Tags, são resultado do sequenciamentoparcial de cDNAs (figura 6). O objetivo das ESTsESTs é identificar a presença de genes expressos em umtranscriptoma, associando a etiqueta ao gene (e sua função) através umprograma tal como o BLAST que faz busca por homologias. As sequencias parciais (ESTs) se originam de ambas as extremidades do cDNA,embora alguns projetos prefiram a extremidade 3 por facilitar a geração desequencias consenso através do agrupamento de vários ESTs, enquanto outrosescolhem a extremidade 5 por estar mais próxima da região codificadora daproteína, o que facilita a identificação por homologia.
    61. 61. ORESTES, deORESTES, de Open Reading frames ESTsOpen Reading frames ESTs Tecnologia desenvolvida no Brasil (Dias-Neto et al. 2000) permite osequenciamento da região central dos mRNAs.sequenciamento da região central dos mRNAs. A tecnologia, denominada ORESTES, de Open Reading frames ESTsORESTES, de Open Reading frames ESTs (figura 6)baseia-se na amplificação de cDNAs por PCR aleatório cujos produtos sãoutilizados para gerar uma biblioteca. O sequenciamento desta biblioteca, contendo fragmentos aleatórios derivadosde diferentes regiões de cada mRNA, favorece o reconhecimento da função dotranscrito por pesquisa de homologia, pois incorpora mais frequentemente a ORFno transcrito do que as ESTs convencionais (figura 6). Os ORESTES foram responsáveis pela identificação de 219 novos genes nocromossomo 22 humano (Souza et al. 2000) que não haviam sido detectadospreviamente por outras análises bioinformáticas. Agrupamento de sequencias para geração de consensos é facilitado quandosão utilizados ESTs convencionais associados aos ORESTES.
    62. 62.  O transcriptoma pode revelar padrõesdistintos de expressão gênica. Uma das maneiras de se evidenciar aexpressão gênica diferencial é analisara freqüência de ocorrência de umdeterminado transcrito numapreparação de cDNA de um tecido oufase de desenvolvimento. Apesar da construção de bibliotecasde cDNA sempre trazer um viés,incorrendo na redundância de algunstranscritos, a análise de váriasbibliotecas permite algumaaproximação do padrão de expressãode um tecido ou fase dedesenvolvimento de um organismo.
    63. 63. Microarranjos Todavia, nada se compara à inversão introduzida pelos microarranjos(microarrays ou biochips) na análise da expressão gênica. Em uma lâmina de microscópio podem ser depositados por um robô cerca de10 a 100 mil sequencias de genes conhecidos. Sondas com fluorescências distintas podem ser preparadas a partir de mRNAisolado de duas populações de células, normais ou transformadas porexemplo, e através da análise da intensidade de hibridização pode-secomparar a expressão gênica diferencial desses múltiplos genes em um tempoextremamente reduzido. Ferramentas bioinformáticas, voltadas ao processamento de imagens em umaescala micro e nanométrica, estão surgindo para analisar a expressão conjuntade genes, detectadas em microarranjos.
    64. 64. SAGE Metodologia que incorpora um nova técnica de biologia molecular eferramentas de bioinformática para análise de expressão gênica diferencial. O SAGE, ou Serial Analysis of Gene ExpressionSAGE, ou Serial Analysis of Gene Expression (Velculescu et al. 1995), sebaseia no uso de pequenas sequencias chamadas tagschamadas tags (10 a 14 pb), únicasde cada gene, que são obtidas por etapas de clivagens e ligações com ocDNA e posteriormente co-amplificadas por PCR, formando umconcatâmero de tags. A quantificação da expressão gênica se dá pela análise dosequenciamento dos concatâmeros através ferramentas específicas debioinformática. Desta forma puderam ser identificados vários genes provavelmenterelacionados ao processo de transformação celular nos tumores.
    65. 65. RNA-seq RNA-seq é uma abordagem recentemente desenvolvida,para analisar o perfil de transcriptoma, que utilizatecnologias de deep-sequencing. O transcriptoma é o conjunto completo de transcritos(RNAs) em uma célula, e sua quantidade, para umestágio de desenvolvimento específico ou condiçãofisiológica. * deep-sequencing = indica que a cobertura do processo é muito maior que ocomprimento da sequencia em estudo.
    66. 66. O entendimento do transcriptoma é essencialO entendimento do transcriptoma é essencialpara:para: Interpretar os elementos funcionais do genoma Revelar os constituintes moleculares de células e tecidos nosdiferentes estágios de desenvolvimento Compreender os elementos presentes no desenvolvimentode doenças O transcriptoma pretende catalogar todos os tipos detranscritos: mRNAs RNAs não codificadores pequenos RNAs.
    67. 67. Porquê estudar o transcriptoma? Para determinar a estrutura transcripcional dos genes, em termos deseus sítios de início 5’ e final 3’; Padrões de splicing e outras modificações pós-traducionais; Quantificar os níveis de mudanças de expressão de cada transcritodurante o desenvolvimento e sob condições diferentes. Encontrar microRNAs que possuem função reguladora Metagenômica* Splicing = é um processo que remove os íntrons e junta os éxons depoisda transcrição do RNA. O splicing só ocorre em células eucarióticas, jáque o DNA das células eucarióticas não possui íntrons.
    68. 68. Criação da BibliotecaCriação da BibliotecaPode-se utilizar:Todo o RNA da célulaPossui 90-95% de rRNAApenas mRNA selecionado pela cauda de poli-APerde-se microRNAs e mRNAs sem poli-ARetirando o rRNAPor hibridização com sequencias específicas ligadas a biotina quesão retiradas com esferas ligadas a streptovidinaQuebra por uma exonuclease que age sobre RNAs que possuemfosfato na extremidade 5 (apenas rRNAs possuem esse fosfato)A remoção de rRNAs aumenta a detecção e a montagem de transcritosraros.Mas se o objetivo do estudo é a quantificação, é necessário umabiblioteca não depletada.
    69. 69. Criação da BibliotecaCriação da Biblioteca Para a criação da biblioteca o RNA é transformado em cDNApor uma transcriptase reversa Para não se perder a direcionalidade do transcrito podem seracrescentados adaptadores a uma extremidade do RNAisso é muito importante no estudo de espécies degenoma muito compactado onde o transcrito pode sesobrepor em fitas opostas O RNA pode ser fragmentado antes da formação de cDNAevitando a formação de estrutura secundária
    70. 70.  Cada molécula de cDNA, com ou sem amplificação, éentão sequenciada com um método de alto rendimentopara obter sequências curtas de um final (sequenciamentosingle-end) ou de ambos os lados (sequenciamento pair-end). As leituras são tipicamente 30 – 400 bp, dependendo datecnologia usada para sequenciamento do DNA. Para esse método tem se usado plataformas tipo: Illumina IG,SOLiD e 454.
    71. 71. Considerações Prioritárias na montagemConsiderações Prioritárias na montagemPara garantir uma alta qualidade na montagem dotranscriptoma, cuidados particulares devem sertomados nos experimentos de RNA-Seq.• Na fase de análise de dados, as leituras curtas são pré-processadas para remover erros de sequenciamento eoutros artefatos.• As leituras são subsequentemente montadas nos RNAsoriginais e então sua abundância é avaliada.
    72. 72.  Para evitar erros na montagem de RNA, é necessárioretirar o passo de amplificação por PCR Na etapa de amplificação por PCR alguns fragmentospodem ser melhor amplificados que outros prejudicando osdados Já é possível fazer o sequenciamento sem amplificaçãousando as plataformas Helicos e Pacific Biosciences, O sequenciamento através de uma única molécula épossível, porém essas tecnologias ainda sofrem com aalta taxa de erro
    73. 73. Estratégias de Montagem do TranscriptomaEstratégias de Montagem do Transcriptoma Baseado em três categorias :- Etratégia baseada em referência- Estratégia de novo- Estratégia combinada
    74. 74. Estratégia baseada em ReferênciaEstratégia baseada em Referência Quando existe um genoma de referência o transcriptoma pode serconstruido a partir dele. Esse método inclui três passos: Alinhamento das leituras sobre o genoma de referência As leituras sobrepostas em cada locus são agrupadas paraconstruir um gráfico de todas as isoformas possíveis. O gráfico é analisado para resolver isoformas individuais. Programas: Blat, TopHat, SpliceMap, MapSplice, GSNAP
    75. 75.  Após as leituras serem alinhadas ao genoma, dois métodos sãousados para a construção dos gráficos:- Cufflinks - cria um gráfico de sobreposição de todas as leiturasque alinham com um único locus para montar isoformasencontrando o mínimo de transcritos que explicam os intronsdentro da leitura.- é mais conservativo na escolha de quais os transcritos são re-construidos- Scripture - cria um gráfico que une cada base de umcromossomo e adiciona nas laterais (conexões) entre as bases seexiste uma leitura que liga duas bases.- pode produzir um grande conjunto de transcritos de um locus.
    76. 76. Vantagens Pode montar transcritos de baixa abundância; Pode usar computação paralela Pode ser feita em máquinas com poucos gb de RAM; Descobrir novos transcritos que não estão em anotações jáexistentes; Descarta artefatos e contaminantes (que não alinham) Usado para transcriptomas simples: bactérias, archeaeal, eucarióticos simples com poucos introns pouco splicing alternativo
    77. 77. Desvantagens Não é possível sem um genoma de referência; Depende da qualidade do genoma de referência ; Genomas podem não ser completos, ter regiões não agrupadas eparcialmente montadas. Genes que se encontram muito próximos ou sobrepostos podemser interpretados com um único transcrito Não une leituras que esteja muito distantes no genoma ou emcromossomos diferentes
    78. 78. EstratégiaEstratégia de novode novo Não utiliza um genoma de referência; Se utiliza da redundância das leituras para encontrar sobreposiçõesentre as leituras Programas usam o gráfico De Brujin para reconstruir transcritos deuma ampla faixa de níveis de expressão e então processar amontagem de contigs e remover redundancias. Semelhante à montagem de genoma
    79. 79. VantagensNão depende de um genoma de referência;Pode providenciar um novo conjunto de dados de transcritos paragenomas que não apresenta alta qualidade;Pode ser usado para encontrar transcritos exógenos ou que estãofaltando no genoma;Não é influenciado por longos intronsEncontra transcritos trans-spliced, resultantes de rearranjoscromossomaisPode ser utilizado para o transcriptoma de organismos complexos
    80. 80. Desvantagens A montagem de organismos eucariotos complexos pode consumir muitamemória RAM Grande quantidade de dados Complexidade dos gráficos de Brujin nescessários para analizar os possíveissplicings Consome dias ou semanasde processamento Exige maior cobertura(30x) Suscetível a erros de leitura, pode não diferenciar um erro dosequenciamento de um splicing Trechos similares(como parálogos) ainda podem ser considerados um sótranscrito
    81. 81. Estratégia combinadaEstratégia combinada• A combinação dos dois métodos pode ser utilizada• O alinhamento tem a vantagem da sensibilidade• O De Novo para encontrar transcritos novos e trans-spliced• Realizando o alinhamento primeiro podemos descartar as sequências jáconhecidas• Fazendo a montagem De Novo com uma quantidade muito menor de dados• Quando o genoma de referência tem baixa qualidade a montagem DeNovo pode ser feita primeiro• Os contigs e singlets são alinhados no genoma e as lacunas podem serpreenchidas com informações do genoma
    82. 82.  Uma questão importante é a cobertura da sequência oua porcentagem dos transcritos pesquisados, os quaisimplicam no custo. Grandes coberturas requerem mais sequenciamento. Em transcriptomas simples, como da levedura S.cerevisiae, que não tem evidência de splicingalternativo, 30 milhões de leituras de 35 nucleotídeos sãosuficientes para observar a transcrição de mais de 90%dos genes de células em crescimento sob uma condiçãounica
    83. 83. RNA-seqRNA-seqRNA-Seq revela a localização precisa dos limites da transcrição,com a resolução base a base.Além disso, pequenas leituras de 30 pb de RNA-Seq nos mostrainformação como 2 exons estão conectados, enquanto leituraslongas ou leituras curtas por pair-ends poderiam revelarconectividade entre exons múltiplos.Os resultados de RNA-Seq também mostram alto nível dereprodutibilidade, para ambas as técnicas e replicatas biológicas.
    84. 84. Aplicações Descoberta de pequenos RNAs Quantificação da expressão em diferentesmomentos Fusão de genes em câncer Identificação de mutações Metagenômica
    85. 85. Nova Geração de Sequenciadores de DNA
    86. 86. Melhorias para o futuroMelhorias para o futuro Melhorias na anotação automática Embora não seja possível nem desejável eliminar a anotaçãomanual. Há alguns passos que podem ser melhorados naanotação automática: Deteção de erros ortográficos comuns por exemplo ou inclusão de maisinformação disponível ou anotação com os termos GO Novos tipos de dados Dados de expressão de micro-arrays e RNA-Seq. Melhorias nos sofwares que permitam a visualização eintegração de todos estes dados são fundamentais.

    ×