Bioinformática e computação
científica aplicadas à pesquisa
agropecuária
Wagner Arbex
arbex@cnpgl.embrapa.br
Seminários da Computação
Universidade Federal de Juiz de Fora
Juiz de Fora – 26/4/2012
A Embrapa
• Empresa Brasileira de Pesquisa Agropecuária:
• ~ 45 centros serviços e de pesquisa de
produtos, temas básicos e ecorregionais país;
• ~ 12 projetos ou laboratórios de pesquisa,
prospecção e articulação no exterior;
• Embrapa Gado de Leite
• Centro Nacional de Pesquisa de Gado de Leite;
O que é computação científica?
• Algumas vezes é chamada de ciência computacional e
não deve ser confundida com ciência da computação;
• Desenvolve modelos matemáticos e computacionais
para tratar problemas científicos e tecnológicos;
• Promove/Possibilita a computação massiva e/ou
complexa, o que é um “novo” paradigma de pesquisa
científica;
• É comum...
• ... basear-se em software livre;
• ... exigir recursos de computação de alto desempenho;
• ... não apresentar padrão para demanda de processamento
ou para uso de recursos computacionais;
• ... pagar pra ver. Ou seja, testar inovações, novas
tecnologias e/ou recursos tecnológicos - algumas vezes, sem
comprovação de eficiência - para buscar alguma nova
solução;
O que é computação científica?
O que é bioinformática?
O que é bioinformática?
Biologia
computacional
Bioinformática
Proteoma
Genoma
• Bioinformática:
• Surgiu da necessidade de identificar, tratar, organizar,
armazenar, pesquisar e recuperar dados genômicos;
• O que são dados genômicos?
• Era uma vez, em 1953...
O que é bioinformática?
• Elizabeth II foi coroada rainha da Inglaterra... e
continua sendo até hoje!
Era uma vez, em 1953...
• Foi publicado o primeiro
livro com uma novel de
Bond... James Bond...
Era uma vez, em 1953...
• Já nas bancas a primeira
Playboy!
Era uma vez, em 1953...
• James Watson e Francis
Crick descobrem a molé-
cula de DNA, o ácido
desoxirribonucleico;
Era uma vez, em 1953...
• Em 1958, Francis Crick descreve o dogma central
da biologia molecular;
O que são dados genômicos?
• Em 1975, Frederick
Sanger desenvolve os
fundamentos para os
métodos de sequencia-
mento automático;
O que são dados genômicos?
Sequenciamento “a mil”
GCTAGGATCGATAGGGAACTAC
GATACGTATACGACTAGAGTAGAGC
TAGGATCGATATATATAGAAGCTAGC
TAGGATCGATAGGGAGGATATGCGT
AGCTGACGAGAAGCTAGCTAGGATC
GATATTAAACTACGATACGTATAGCT
AGGATCGATAGGATACGTATACGAC
TAGAGTAGAGCTAGGATCGATATATA
TAGAAGCTACTAGGATCGATAGG
Sequenciamento “a mil”
• Em 2000:
• Genoma da Xylella fastidiosa, a
bactéria causadora da “praga
do amarelinho”;
• Primeiro trabalho brasileiro, em
130 anos, na capa da Nature,
em 13/7/2000;
Sequenciamento “a mil”
• Em 2000, o anúncio oficial da primeira versão do
genoma humano, em 26/7/2000;
Projeto Genoma Humano
• PGH – 1990-2001/2003:
• Projeto Genoma
Humano;
• Desenvolvido por um
consórcio entre empresas
privadas e públicas;
• Francis Collins e Craig
Venter;
Transforma a biologia em
ciência exata...
O que são dados genômicos?
• O PGH mostrou que o genoma humano tem:
• Cerca de 3.000.000.000 de nucleotídeos;
• Entre 20.000 e 25.000 genes – “mas, só isso?”
...GCTAGGATCGATAGGGAACTACGATACGTATACGACTAGAGTAGAGCTAGGATCGATATA
TATAGAAGCTAGCTAGGATCGATAGGGAGGATATGCGTAGCTGACGAGAAGCTAGCTAGG
ATCGATATTAAACTACGATACGTATAGCTAGGATCGATAGGATACGTATACGACTAGAGTAG
AGCTAGGATCGATATATATAGAAGCTAGCTAGGATCGATAGGG…
O que são dados genômicos?
...AGCTAGGATCGATATATATAGAAGCTAGCTAGGATCGATAGGGAGGATATGCGTAGCTG
ACGAGAAGCTAGCTAGGATCGATATTAAACTACGATACGTATACGACTAGAGTAGAAGCT
AGCTAGGATCGATAGGGAACTACGATACGTATACGACTAGAGTAGAGCTAGGATCGATAT
ATATAGAAGCTAGCTAGGATCGATAGGGAGGATATGCGTAGCTGACGAGAAGCTAGCTA
GGATCGATATTAAACTACGATACGTATACGACTAGAGTAGAAGCTAGCTAGGATCGATAG
GGAACTACGATACGTATACGACTAGAGTAGACCATCGACTACGATACGTATACGACTAGA
GTAGAAGCTAGCTAGGATCGATAGGGAGGATATGCCTAGCTAGGATCGATATATATAGAA
GCTAGCTAGGATCGATAGGGAGGATATGCGTAGCTGACGAGAAGCTAGCTAGGATCGAT
ATTAATAGAAGCTAGCTAGGATCGATAGGGAGGATATGCCAAAAGAGCTCGCATACGGA
CTAGACTACGCATACGACTACGACGTATACGACTAGAGTAGAAGCTAGCTAGGATCGAT
AGGGAGGATATGCCTAGCTAGGATCGATATATATAGAAGCTAGCTAGGATCGATAGGGAG
GATATGCGTAGCTGACGAGAAGCTAGCTAGGATCGATATTAAACTACGATACGTATACGA
CTAGAGTAGAAGCTAGCTAGGATCGATAGGGAACTACGATACGTATACGACTAGAGTAG
AAGCTAGCTAGGATCGATAGGGAACTACGATACGTATACGACTAGAGTAGAAGCTAGCT
AGGATCGATAGGGA…
O que são dados genômicos?
...AGCTAGGATCGATATATATAGAAGCTAGCTAGGATCGATAGGGAGGATATGCGTAGCTG
ACGAGAAGCTAGCTAGGATCGATATTAAACTACGATACGTATACGACTAGAGTAGAAGCT
AGCTAGGATCGATAGGGAACTACGATACGTATACGACTAGAGTAGAGCTAGGATCGATAT
ATATAGAAGCTAGCTAGGATCGATAGGGAGGATATGCGTAGCTGACGAGAAGCTAGCTA
GGATCGATATTAAACTACGATACGTATACGACTAGAGTAGAAGCTAGCTAGGATCGATAG
GGAACTACGATACGTATACGACTAGAGTAGACCATCGACTACGATACGTATACGACTAGA
GTAGAAGCTAGCTAGGATCGATAGGGAGGATATGCCTAGCTAGGATCGATATATATAGAA
GCTAGCTAGGATCGATAGGGAGGATATGCGTAGCTGACGAGAAGCTAGCTAGGATCGAT
ATTAATAGAAGCTAGCTAGGATCGATAGGGAGGATATGCCAAAAGAGCTCGCATACGGA
CTAGACTACGCATACGACTACGACGTATACGACTAGAGTAGAAGCTAGCTAGGATCGAT
AGGGAGGATATGCCTAGCTAGGATCGATATATATAGAAGCTAGCTAGGATCGATAGGGAG
GATATGCGTAGCTGACGAGAAGCTAGCTAGGATCGATATTAAACTACGATACGTATACGA
CTAGAGTAGAAGCTAGCTAGGATCGATAGGGAACTACGATACGTATACGACTAGAGTAG
AAGCTAGCTAGGATCGATAGGGAACTACGATACGTATACGACTAGAGTAGAAGCTAGCT
AGGATCGATAGGGA…
O que são dados genômicos?
...AGCTAGGATCGATATATATAGAAGCTAGCTAGGATCGATAGGGAGGATATGCGTAGAA
GCTAGCTAGGATCGATAGGGAACTACGATACGTATACGACTAGAGTAGAGCTAGGATCG
ATATATATAGAAGCTAGCTAGGATCGATAGGGAGGATATGCGTAGCTGACGAGAAGCTA
GCTAGGATCGATATTAAACTACGATACGTATACGACTAGAGTAGAAGCTAGCTAGGATCG
ATAGGGAACTACGATACGTATACGACTAGAGTAGACCATCGACTACGATACGTATACGAC
TAGAGTAGAAGCTAGCTAGGATCGATAGGGAGGATATGCCTA
GCTAGGATCGATATATATAGAAGCTAGCTAGGATC
GATAGGGAGGATATGCGTAGCTGACGAGAAGCTAGCTAGGAT
CGATATTAATAGAAGCTAGCTAGGATCGATAGGGAGGATATGCCAAAAGAGC
TCGCATACGGACTAGACTACGCATACGACTACGACGTATACGACTAGAGTAGAAGCTAG
CTAGGATCGATAGGGAGGATATGCCTAGCTAGGATCGATATATATAGAAGCTAGCTAGGA
TCGATAGGGAGGATACTAGAGTAGAAGCTAGCTAGGATCGATAGGGAACTACGATACGT
ATACGACTAGAGTAGAAGCTAGCTAGGATCGATAGGGAACTACGATACGTATACGACTA
GAGTAGAAGCTAGCTAGGATCGATAGGGA…
O que são dados genômicos?
...AGCTAGGATCGATATATATAGAAGCTAGCTAGGATCGATAGGGAGGATATGCGTATAGA
ACTAGCTAGGATCGATAGGGAACTACGATACGTATACGACTAGAGTAGAGCTAGGATCG
ATATATATAGAAGCTAGCTAGGATCGATAGGAGGATATGCGTAGCTGACGAGAAGCTAGC
TAGGATCGATATTAAACTACGATACGTATACGACTAGAGTAGAAGCTAGCTAGGATCGAT
AGGGAACTACGATACGTATACGACTAGAGTAGACCATCGACTACGATACGTATACGACTA
GAGTAGAAGCTAGCTAGGATCGATAGGGAGCGCGATATG
CCTAGCTAGGATCGATATATATAGAAGCT
AGCTAGGATCGATAGGGAGGATATGCGTAGCTGACGAG
AAGCTAGCTAGGATCGATATTAATAGAAGCTAGCTAGGATCGATAGGG
AGGATATGCCAAAAGAGCTCGCATACGGACTAGACTACGCATACGACTACGACGTATAC
GACTAGAGTAGAAGCTAGCTAGGATCGATAGGGAGGATATGCCTAGCTAGGATCGATAT
ATATAGAAGCTAGCTAGGATCGATAGGGAGGATATGCGTAGCTGACGAGAAGCTAGCTA
GGATCGATATTAAACTACGATACGACTAGAGTAGAAGCTAGCTAGGATCGATAGGGAAC
TACGATACGTATACGACTAGAGTAGAAGCTAGCTAGGATCGATAGGGA…
O que são dados genômicos?
...AGCTAGGATCGATATATATAGAAGCTAGCTAGGATCGATAGGGAGGATATGCGTATAGA
AGCTAGCTAGGATCGATAGGGAACTACGATACGTATACGACTAGAGTAGAGCTAGGATC
GATATATATAGAAGCGCTAGGATCGATAGGGAGGATATGCGTAGCTGACGAGAAGCTAG
CTAGGATCGATATTAAACTACGATACGTATACGACTAGAGTAGAAGCTAGCTAGGATCGA
TAGGGAACTACGATACGTATACGACTAGAGTAGACCATCGACTACGATACGTATACGACT
AGAGTAGAAGCTAGCTAGGATCGATAGGGAGCGCGATATG
CCTAGCTAGGATCGATATATATAGAAGCT
AGCTAGGATCGATAGGGAGGATATGCGTAGCTGACGAG
AAGCTAGCTAGGATCGATATTAATAGAAGCTAGCTAGGATCGATAGGG
AGGATATGCCAAAAGAGCTCGCATACGGACTAGACTACGCATACGACTACGACGTATAC
GACTAGAGTAGAAGCTAGCTAGGATCGATAGGGAGGATATGCCTAGCTAGGATCGATAT
ATATAGAAGCTAGCTAGGATCGATACGTATACGACTAGAGTAGAAGCTAGCTAGGATCGA
TAGGGAACTACGATACGTATACGACTAGAGTAGAAGCTAGCTAGGATCGATAGGGAACT
ACGATACGTATACGACTAGAGTAGAAGCTAGCTAGGATCGATAGGGA…
O que são dados genômicos?
...AGCTAGGATCGATATATATAGAAGCTAGCTAGGATCGATAGGGAGGATATGCGTAGCTG
ACGAGAAGCTAGCTAGGATCGATATTAAACTACGATACGTATACGACTAGAGTAGAAGCT
AGCTAGGATCGATAGGGAACTACGATACGTATACGACTAGAGTAGAGCTAGGATCGATAT
ATATAGAAGCTAGCTAGGATCGATAGGGAGGATATGCGTAGCTGACGAGAAGCTAGCTA
GGATCGATATTAAACTACGATACGTATACGACTAGAGTAGAAGCTAGCTAGGATCGATAG
GGAACTACGATACGTATACGACTAGAGTAGACCATCGACTACGATACGTATACGACTAGA
GTAGAAGCTAGCTAGGATCGATAGGGAGGATATGCCTAGCTAGGATCGATATATATAGAA
GCTAGCTAGGATCGATAGGGAGGATATGCGTAGCTGACGAGAAGCTAGCTAGGATCGAT
ATTAATAGAAGCTAGCTAGGATCGATAGGGAGGATATGCCAAAAGAGCTCGCATACGGA
CTAGACTACGCATACGACTACGACGTATACGACTAGAGTAGAAGCTAGCTAGGATCGAT
AGGGAGGATATGCCTAGCTAGGATCGATATATATAGAAGCTAGCTAGGATCGATAGGGAG
GATATGCGTAGCTGACGAGAAGCTAGCTAGGATCGATATTAAACTACGATACGTATACGA
CTAGAGTAGAAGCTAGCTAGGATCGATAGGGAACTACGATACGTATACGACTAGAGTAG
AAGCTAGCTAGGATCGATAGGGAACTACGATACGTATACGACTAGAGTAGAAGCTAGCT
AGGATCGATAGGGA…
Mas, o que eu faço com isso?
seq 1 - 600 bases
. ... 1.. . .. .
1:
 
 TCGGCACTGTCTCATCTCTGCTGTTGCTCCTGC
S A L S H L C C C S C
.................................
121:

 GCACAGGATGGCAAGACGCAGTAGCTGGGACTG
A Q D G K T Q X L G L
.................................
241:

 CGGTTTCTTCCTCGGCTTCCCGGACATACCCTG
R F L P R L P G H T L
.......2.........................
361:

 CTGTGCCTGGGCCCCAGCTCTTGGTCTGAGCGC
L C L G P S S W S E R
1 - 
 ATC/I: 1 50%
 TCG/S: 1 50%
2 - 
 GCA/A: 1 50%
 TTT/F: 1 50%
3 - 
 CTG/L: 1 50%
 CCT/P: 1 50%
4 - 
 TCT/S: 2 100%
5 - 
 TCC/S: 1 50%
 CAT/H: 1 50%
6 - 
 TTC/F: 1 50%
 CTC/L: 1 50%
7 - 
 TGC/C: 1 50%
 AGG/R: 1 50%
8 - 
 TGT/C: 1 50%
 ATT/I: 1 50%
9 - 
 TGC/C: 1 50%
 TCA/S: 1 50%
10 - 
 AAC/N: 1 50%
 TCC/S: 1 50%
11 - 
 TGC/C: 1 50%
 ACA/T: 1 50%
12 - 
 TGT/C: 1 50%
 ACA/T: 1 50%
13 - 
 GTG/V: 1 50%
 CTC/L: 1 50%
Mas, o que eu faço com isso?
Mas, o que eu faço com isso?
Muito Obrigado!
Bioinformática e computação científica
aplicadas à pesquisa agropecuária
Wagner Arbex
arbex@cnpgl.embrapa.br
Seminários da Computação
Universidade Federal de Juiz de Fora
Juiz de Fora – 26/4/2012

Seminários da Computação do Programa de Pós-graduação de Ciência da Computação da UFJF