3. ANOS 70 - THE CENTRAL DOGMA & BIOLOGICAL DATA
Expressed DNA sequences
( = mRNA Sequences
= cDNA sequences)
Expressed Sequence Tags
(ESTs)
Protein structures
-Experiments
-Models (homologues)
Literature information
Original DNA Sequences
(Genomes)
Protein Sequences
-Inferred
-Direct sequencing
7. PRIMARY VS. DERIVATIVE SEQUENCE
DATABASES
Sequencing
Centers
TATATGACTCAGGTCACTGAGTCACTGAGCCG
GenBank
Labs
Algorithms
TATAGCCG
AGCTCCGATA
CCGATGACAA
UniGene
Curators
RefSeq
Genome
Assembly
Updated
continually
by NCBI
Updated ONLY
by submitters
8. TRADITIONAL GENBANK RECORD
ACCESSION U07418
VERSION U07418.1 GI:466461
Accession
•Stable
•Reportable
•Universal
Version
Tracks changes in sequence
GI number
NCBI internal use
well annotated
the sequence is the data
10. UTILIDADE
• A COMPARAÇÃO DE SEQUÊNCIAS BIOLÓGICAS É
UMA DAS MAIS IMPORTANTES OPERAÇÕES DA
BIOINFORMÁTICA. ORGANISMOS RECÉM-SEQUENCIADOS
SÃO COMPARADOS COM
ORGANISMOS JÁ SEQUENCIADOS, A FIM DE SE
DETERMINAR AS SUAS FUNÇÕES E
PROPRIEDADES.
• SE DUAS SEQUÊNCIAS DE DNA SÃO SIMILARES, A
CHANCE DE ELAS TEREM FUNÇÕES GENÉTICAS
SEMELHANTES SÃO MAIORES.
11. MECANISMO
• EM TERMOS MATEMÁTICOS, PODEMOS DIZER QUE A DISTÂNCIA D (X, Y) É O MENOR NÚMERO DE
OPERAÇÕES DE INSERÇÃO, REMOÇÃO, SUBSTITUIÇÃO, CAPAZES DE TRANSFORMAR A SEQUÊNCIA X
NA SEQUÊNCIA Y.
• O PROGRAMA BLAST NÃO PROCURA CONDUZIR UMA COMPARAÇÃO DA EXTENSÃO TOTAL DAS
MOLÉCULAS COMPARADAS, MAS APENAS IDENTIFICAR, NO BANCO DE DADOS, A PRESENÇA DE UMA
SEQUÊNCIA SUFICIENTEMENTE PARECIDA COM A PESQUISADA.
12. EXEMPLO
• É INTERESSANTE VERIFICAR QUE SE UTILIZÁSSEMOS UM NUCLEOTÍDEO, "A" POR EXEMPLO, PARA
PESQUISAR SEQUÊNCIAS HUMANAS, A CHANCE DE ENCONTRARMOS UMA REGIÃO HOMÓLOGA SERIA
IGUAL A 1 (100%).
• SE A NOSSA SEQUÊNCIA PESQUISADA FOSSE MAIS COMPLEXA, 144 BASES POR EXEMPLO, A CHANCE
DE ENCONTRARMOS UMA SEQUÊNCIA PERFEITAMENTE IDÊNTICA SERIA PEQUENA.
• O VALOR DE "E" , UM PARÂMETRO CALCULADO PELO BLAST, EXPRESSA ESSA DIFICULDADE E, QUANTO
MENOR SEU VALOR, MENOR A CHANCE DE TAL COMPARAÇÃO TER SIDO ENCONTRADA POR PURA
COINCIDÊNCIA.
13. ALINHAMENTO GLOBAL
• O ALINHAMENTO GLOBAL CONSISTE EM ALINHAR DUAS SEQUÊNCIAS POR INTEIRO, NA QUAL OS
ALINHAMENTOS COM MAIORES ESCORES SÃO CONSIDERADOS OS MELHORES.
14. ALINHAMENTO LOCAL
• POR OUTRO LADO, O ALINHAMENTO LOCAL PROCURA POR REGIÕES DE ALTA SIMILARIDADE DENTRO
DAS SEQUÊNCIAS, MOSTRANDO COM ISSO, REGIÕES QUE POSSAM TER SE CONSERVADO AO LONGO DA
EVOLUÇÃO, BEM COMO REGIÕES QUE POSSAM TER FUNÇÕES SEMELHANTES EM GENES DIFERENTES DE
DIFERENTES ESPÉCIES.
17. CRIAÇÃO
CRIADA POR LARRY WALL EM 1987
ORIGINÁRIA DO SHELL SCRIPTING,
AWK, SED E A LINGUAGEM C
18. PONTOS FORTES
ESTÁVEL E MULTIPLATAFORMA
ARRAYS INDEXADOS E ASSOCIATIVOS
PROCESSAMENTO DE CADEIA (STRINGS) E PATTERN MATCHING ATRAVÉS DE
EXPRESSÕES REGULARES
ADEQUADA PARA O DESENVOLVIMENTO UTILIZANDO METODOLOGIAS ÁGEIS.
ALOCAÇÃO DE MEMÓRIA AUTOMÁTICA
GENERAL PUBLIC LICENSE
MULTIPARADIGMA
19. PONTOS FRACOS
O CÓDIGO É DIFÍCIL DE LER/PERCEBER E PODE TORNAR-SE DEMASIADO
OBSCURO
ESCALAR ARRAY HASH
NÃO TEM SUPORTE FÁCIL PARA ESTRUTURAS
21. BIBLIOGRAFIA
• CASEY, R. M. (2005). "BLAST SEQUENCES AID IN GENOMICS AND PROTEOMICS". BUSINESS INTELLIGENCE
NETWORK.
• ALTSCHUL, STEPHEN; GISH, WARREN; MILLER, WEBB; MYERS, EUGENE; LIPMAN, DAVID (1990)."BASIC
LOCAL ALIGNMENT SEARCH TOOL".JOURNAL OF MOLECULAR BIOLOGY 215 (3): 403–410.
• MOODY, GLYN (2004). DIGITAL CODE OF LIFE: HOW BIOINFORMATICS IS REVOLUTIONIZING SCIENCE,
MEDICINE, AND BUSINESS.
• DESCARTES, ALLIGATOR; BUNCE, TIM (2000).PROGRAMMING THE PERL DBI : [DATABASE PROGRAMMING
WITH PERL] (1 ED.). BEIJING [U.A.]: O'REILLY.