SlideShare uma empresa Scribd logo
1 de 29
Baixar para ler offline
Neural Networks Predict Protein Structure and Function
Bruna Zamith
Elaine Cecilia Gatto
Universidade Federal de S˜ao Carlos
9 de maio de 2018
B.Z; E.C.G. (UFSCar) NNs Predict Protein Structure and Function 9 de maio de 2018 1 / 29
Sum´ario
1 Publica¸c˜ao
Resumo e
Introdu¸c˜ao
2 Prote´ınas
Estruturas
Fun¸c˜oes
Homologia
3 Materiais
4 M´etodos
Estruturas
Secund´arias
Datasets
Selecionando
Sequˆencias
Evitando
Overfitting
Rotula¸c˜ao dos
dados
Codifica¸c˜ao de
Sequˆencia de
Prote´ınas
Arquitetura NN
5 Estima¸c˜ao de
Performance
Hold Out
Cross Validation
Medidas de
Avalia¸c˜ao
B.Z; E.C.G. (UFSCar) NNs Predict Protein Structure and Function 9 de maio de 2018 2 / 29
1.1 Publica¸c˜ao
T´ıtulo: ”Neural Networks Predict Protein Structure and Function”
Autores: Marco Punta e Burkhard Rost
Ano: 2009
Livro: ”Artificial Neural Networks: Methods and Applications”
Editora: Humana Press
B.Z; E.C.G. (UFSCar) NNs Predict Protein Structure and Function 9 de maio de 2018 3 / 29
1.2 Resumo e Introdu¸c˜ao
Foco em Redes Neurais Feedforward:
Dados complexos/ru´ıdos
Problemas de Classifica¸c˜ao/Regress˜ao
Conhecimento pr´evio: necess´ario ou n˜ao
Tolerˆancia a Erros
Estudo detalhado do problema, n˜ao prop˜oe m´etodos novos
Aspectos discutidos:
Como aplicar Redes Neurais na predi¸c˜ao de estruturas e fun¸c˜oes de
prote´ınas
Como escolher o dataset adequado: extrair dados relevantes de bancos
de dados existentes
Como selecionar, rotular e codificar atributos das sequˆencias de
prote´ınas em entradas da Rede Neural (NN):
Como calcular a performance do classificador
B.Z; E.C.G. (UFSCar) NNs Predict Protein Structure and Function 9 de maio de 2018 4 / 29
2. Prote´ınas
Cadeia polipept´ıdica formada por combina¸c˜ao ´unica de 20
amino´acidos
Respons´aveis por fun¸c˜oes importantes no organismo de qualquer ser
vivo
Cat´alise de rea¸c˜oes qu´ımicas
Transporte de nutrientes
Reconhecimento e transmiss˜ao de sinais
Glicosila¸c˜ao e Acetila¸c˜ao
Dentre outros
Sintetizadas pelas c´elulas: DNA − > RNA − > Prote´ınas
Uma mesma prote´ına pode se organizar em diferentes estruturas
tri-dimensionais, sendo cada estrutura atribu´ıda a uma fun¸c˜ao de
prote´ına diferente
B.Z; E.C.G. (UFSCar) NNs Predict Protein Structure and Function 9 de maio de 2018 5 / 29
2.1 Estruturas
Estrutura tri-dimensional: Elemento chave na determina¸c˜ao da
capacidade de uma prote´ına se realizar com o ambiente e realizar
determinadas fun¸c˜oes de prote´ına
M´etodos experimentais: X-Ray Cristalografia e NMR
Sequenciamento do genoma: Mais de 5 milh˜oes de prote´ınas, apenas
50.000 estruturas dispon´ıveis (2008 - Protein Data Bank, PDB)
M´etodos computacionais fundamentais na predi¸c˜ao de caracter´ısticas:
Estrutura secund´aria, aa acessibilidade de solvente, aa flexibilidade e
contatos aa intra-cadeia
B.Z; E.C.G. (UFSCar) NNs Predict Protein Structure and Function 9 de maio de 2018 6 / 29
2.2 Fun¸c˜oes
Estruturas n˜ao s˜ao suficientes para determinar a fun¸c˜ao da prote´ına
Condi¸c˜oes ambientais diversas (localiza¸c˜ao subcelular e temperatura,
p.e) podem levar a diferentes fun¸c˜oes
Mais de 350.000 fun¸c˜oes de prote´ınas de sequˆencias anotadas (2008 -
Swiss-Prot)
Para v´arias entradas, ainda temos conhecimento funcional parcial
B.Z; E.C.G. (UFSCar) NNs Predict Protein Structure and Function 9 de maio de 2018 7 / 29
2.3 Homologia
Teoria da Evolu¸c˜ao: Ancestral comum, genes comuns (mas que se
diferenciaram ao longo das gera¸c˜oes)
Assim, v´arios genes possuem mult´ıplos parentes (hom´ologos)
Hom´ologos podem ser identificados por similaridade de sequˆencias:
Threshold
> 30% de similaridade em uma regi˜ao maior que 100 aa
Prote´ınas hom´ologas possuem estruturas e, frequentemente, fun¸c˜oes
similares
Fator a ser considerado no desenvolvimento das NNs
B.Z; E.C.G. (UFSCar) NNs Predict Protein Structure and Function 9 de maio de 2018 8 / 29
3. Materiais
Bancos de Dados de Sequˆencias de DNA:
UniProt =TrEMBL + Swiss-Prot
NCBI GenBank, EMBL Database, DNA DataBank of Japan (DDBJ),
TrEMBL (anota¸c˜oes autom´aticas), InterPro
Bancos de Dados de Estruturas de Prote´ınas:
Protein DataBank
Esquemas de Classifica¸c˜ao Hier´arquica de Estruturas de Prote´ınas:
SCOP e CATH
Bancos de Dados de Fun¸c˜oes de Prote´ınas
Swiss-Prot
Esquema para Classifica¸c˜ao:
GeneOntology (Processos biol´ogicos, componentes celulares e fun¸c˜oes
moleculares)
B.Z; E.C.G. (UFSCar) NNs Predict Protein Structure and Function 9 de maio de 2018 9 / 29
3. Materiais
Banco de Dados n˜ao redundantes
NCBInr: mais b´asico
UniRef90: duas prote´ınas quaisquer n˜ao compartilham > 90% de
identidade de sequˆencia
UniRef50: duas prote´ınas quaisquer n˜ao compartilham > 50% de
identidade de sequˆencia
nrdb90: reduz a redundˆancia em > 90% de identidade
Conjunto de sequˆencias ´unicas:
PDB usando UniqueProt e CD-HIT
Redu¸c˜ao do n´umero de sequˆencias hom´ologas
B.Z; E.C.G. (UFSCar) NNs Predict Protein Structure and Function 9 de maio de 2018 10 / 29
4. M´etodos
B.Z; E.C.G. (UFSCar) NNs Predict Protein Structure and Function 9 de maio de 2018 11 / 29
4.1 Estruturas Secund´arias
Predi¸c˜ao de estruturas secund´arias (Secundary Structures - SS) em
prote´ınas globulares sol´uveis em ´agua
A maioria das prote´ınas se organizam em estruturas tri-dimensionais
est´aveis
Parte delas podem ser vistas como combina¸c˜oes de motifs
tri-dimensionais recorrentes e locais, os SS
Motifs s˜ao pequenos padr˜oes recorrentes no DNA
Alpha-helices e beta-strands
Classifica¸c˜ao: SS (helix ou strand) ou N˜ao-SS (outros)
B.Z; E.C.G. (UFSCar) NNs Predict Protein Structure and Function 9 de maio de 2018 12 / 29
4.1 Estruturas Secund´arias
B.Z; E.C.G. (UFSCar) NNs Predict Protein Structure and Function 9 de maio de 2018 13 / 29
4.2.1 Datasets - Selecionando Sequˆencias
Necessidade de anota¸c˜oes para Helix e Strands
PDB: 50.000 prote´ınas
Remover as que n˜ao s˜ao sol´uveis em ´agua e n˜ao s˜ao globulares
Considerar somente estruturas com alta resolu¸c˜ao (exclus˜ao das NMR)
Restam ∼34.000 prote´ınas
B.Z; E.C.G. (UFSCar) NNs Predict Protein Structure and Function 9 de maio de 2018 14 / 29
4.2.2 Datasets - Evitando Overfitting
Underfitting e Overfitting: NNs com baixo desempenho em padr˜oes
novos
N´umero de parˆametros livres (NPL) na NN
Cada conex˜ao aprendida em uma NN feedforward ´e um parˆametro
Se a diferen¸ca entre NPL e n´umero de exemplos de treino ´e alta, a NN
acaba se ajustando t˜ao bem aos dados que perde sua capacidade de
generaliza¸c˜ao - Overfitting
Se a diferen¸c˜ao ´e baixa, a NN perde a capacidade de classificar padr˜oes
in´editos - Underfitting
Aumentar o n´umero de NPL = Aumentar o n´umero de Hidden
Nodes, em caso de Underfitting
B.Z; E.C.G. (UFSCar) NNs Predict Protein Structure and Function 9 de maio de 2018 15 / 29
4.2.2 Datasets - Evitando Overfitting
Evitar Overfitting ´e um pouco mais complexo
Ver a perfomance do algoritmo no dataset de treino n˜ao ´e suficiente
para saber se est´a havendo overfitting ou n˜ao
Pequena diferen¸ca entre NPL e numero de exemplos de treinamento
(< 1/10) ajuda, mas n˜ao garante
Biologia computacional: ”Stop training”
Divide o conjunto de dados em dois grupos: 1. Treino; 2. Verifica¸c˜ao
de overfitting
Para quando o desempenho do segundo conjunto de dados come¸ca a
deterioriar
B.Z; E.C.G. (UFSCar) NNs Predict Protein Structure and Function 9 de maio de 2018 16 / 29
4.3 Rotula¸c˜ao dos dados
Extrair short-sequences e rotular exemplos em SS ou N˜ao-SS
M´etodos autom´aticos: DSSP e o STRIDE
DSSP atribui as classes
H (alpha helix)
B (residue in an isolated beta bridge)
E (extended strand)
G (3-helix)
I (pi-helix)
T (hydrogen bonded turn)
S(bend)
Redu¸c˜ao:
SS = H e E
N˜ao SS = o resto
B.Z; E.C.G. (UFSCar) NNs Predict Protein Structure and Function 9 de maio de 2018 17 / 29
4.4 Codifica¸c˜ao de Sequˆencia de Prote´ınas
Transformar as sequˆencias de prote´ınas em entradas para as NNs a
fim de predizer estruturas e fun¸c˜oes de prote´ınas (no caso da
pesquisa, SSs)
Tipo de amino´acido: Tipos de aa diferentes correspondem a
diferentes propens˜oes SS.
Existem diversas maneiras de transformar aa’s em entrada num´erica. A
mais famosa ´e a esparsa (ou one-hot encoding).
B.Z; E.C.G. (UFSCar) NNs Predict Protein Structure and Function 9 de maio de 2018 18 / 29
4.4 Codifica¸c˜ao de Sequˆencia de Prote´ınas
Windows: Usar informa¸c˜ao de aa’s vizinhas.
Uma SS n˜ao ´e formada por apenas uma aa isolada.
Para que uma aa seja uma SS, ´e necess´ario que pelo menos um dos
seus dois vizinhos tenha boa propens˜ao para SS.
Vetor 20 x (2w+1) de elementos, sendo w largura da window
Neste exemplo 8 vizinhos `a direita e `a esquerda, totalizando 340
elementos
B.Z; E.C.G. (UFSCar) NNs Predict Protein Structure and Function 9 de maio de 2018 19 / 29
4.4 Codifica¸c˜ao de Sequˆencia de Prote´ınas
Informa¸c˜ao Evolucion´aria:
Produzir uma lista de hom´ologos para cada prote´ına com PSI-Blast
Retorna:
Alinhamentos pareados
Matriz de pontua¸c˜ao para cada posi¸c˜ao espec´ıfica
Frequˆencia de ocorrˆencia de cada uma das 20 aa em cada posi¸c˜ao do
alinhamento
Cada um dos 20 n´os recebe o valor retornado da frequˆencia do aa
naquela posi¸c˜ao
B.Z; E.C.G. (UFSCar) NNs Predict Protein Structure and Function 9 de maio de 2018 20 / 29
4.5 Arquitetura NN
w = 19 (w ´e janela de comprimento e, lembrando, s˜ao 20 aa)
N´os de entrada necess´arios: 19 * 20 = 380
N´os de entrada usados: 398 (pois considera tamb´em os terminais C- e
N-)
1 N´o de Sa´ıda = SS ou N˜ao-SS
N´umero de Hidden Nodes (NHN):
3.500 prote´ınas, cada uma com centenas de exemplos = ∼ 106
A raz˜ao entre o n´umero de parˆametros livres e o n´umero de exemplos
de treino deve ser menor que 1/10
106
/ (103
∗ 4) = 250
N´umero m´ınimo de n´os: 2
N´umero m´aximo de n´os: 250
B.Z; E.C.G. (UFSCar) NNs Predict Protein Structure and Function 9 de maio de 2018 21 / 29
5.1 Estima¸c˜ao de Performance - Hold Out
Training set = produ¸c˜ao de diferentes modelos (ou conjunto de
parˆametros da NN)
Cross-Training set = decis˜ao do modelo ´otimo
Validation set = estimativa de performance
B.Z; E.C.G. (UFSCar) NNs Predict Protein Structure and Function 9 de maio de 2018 22 / 29
5.1 Estima¸c˜ao de Performance - Hold Out
B.Z; E.C.G. (UFSCar) NNs Predict Protein Structure and Function 9 de maio de 2018 23 / 29
5.2 Estima¸c˜ao de Performance - Cross Validation
N-fold-cross-validation: Split em N subsets
Treinado N vezes
Treino: Dataset original - Fold n
Teste: Fold n
Estimativa de performance: M´edia aritm´etica
Vantagem em rela¸c˜ao ao Hold Out: Usa mais exemplos para
treinamento
Desvantagem em rela¸c˜ao ao Hold Out: Consumo de tempo
B.Z; E.C.G. (UFSCar) NNs Predict Protein Structure and Function 9 de maio de 2018 24 / 29
5.3 Estima¸c˜ao de Performance - Medidas de Avalia¸c˜ao
Defini¸c˜oes:
True Positives (TP)
True Negatives (TN)
False Positives (FP)
False Negatives (FN)
FPR = FP/(FP + TN)
TRP = TP/(TP + FN)
Plotar FRP contra TRP: Curva ROC
Indica qual a fra¸c˜ao de TP contra a fra¸c˜ao de FN
Area Under The ROC Curve (AUC)
B.Z; E.C.G. (UFSCar) NNs Predict Protein Structure and Function 9 de maio de 2018 25 / 29
5.3 Estima¸c˜ao de Performance - Medidas de Avalia¸c˜ao
B.Z; E.C.G. (UFSCar) NNs Predict Protein Structure and Function 9 de maio de 2018 26 / 29
5.3 Estima¸c˜ao de Performance - Medidas de Avalia¸c˜ao
Q-Measures
Qk = 100x i=1,k Ci /N
k = n´umero de classes
Ci = n´umero de exemplos corretamente preditos na classe i
N = n´umero total de exemplos
0 a 100
Ruim para dados n˜ao balanceados
B.Z; E.C.G. (UFSCar) NNs Predict Protein Structure and Function 9 de maio de 2018 27 / 29
Referˆencias
Marco Punta e Burkhard Rost (2009)
Neural Networks Predict Protein Structure and Function
Artificial Neural Networks: Methods and Applications 198–225.
B.Z; E.C.G. (UFSCar) NNs Predict Protein Structure and Function 9 de maio de 2018 28 / 29
Fim
B.Z; E.C.G. (UFSCar) NNs Predict Protein Structure and Function 9 de maio de 2018 29 / 29

Mais conteúdo relacionado

Semelhante a Como aprender inglês online

Avanços e perspectivas em Bioinformática
Avanços e perspectivas em BioinformáticaAvanços e perspectivas em Bioinformática
Avanços e perspectivas em BioinformáticaLeandro Lima
 
Anotação molecular
Anotação molecularAnotação molecular
Anotação molecularUERGS
 
Dogma central e periférico
Dogma central e periféricoDogma central e periférico
Dogma central e periféricoUERGS
 
AVALIAÇÃO DO ESPAÇO CONFORMACIOAL DO RECEPTOR μ-OPIOIDE COM LIGANTES ENVIESA...
AVALIAÇÃO DO ESPAÇO CONFORMACIOAL DO RECEPTOR  μ-OPIOIDE COM LIGANTES ENVIESA...AVALIAÇÃO DO ESPAÇO CONFORMACIOAL DO RECEPTOR  μ-OPIOIDE COM LIGANTES ENVIESA...
AVALIAÇÃO DO ESPAÇO CONFORMACIOAL DO RECEPTOR μ-OPIOIDE COM LIGANTES ENVIESA...Rubem Francisco Silva Bezerra
 
Bioinformática arquivo de dados
Bioinformática arquivo de dadosBioinformática arquivo de dados
Bioinformática arquivo de dadosUERGS
 
Ciência de dados para a saúde: a importância da interdisciplinaridade e da in...
Ciência de dados para a saúde: a importância da interdisciplinaridade e da in...Ciência de dados para a saúde: a importância da interdisciplinaridade e da in...
Ciência de dados para a saúde: a importância da interdisciplinaridade e da in...Fabrício A. B. da Silva
 
InfoPI 2013 - Minicurso - A Bioinformática na Cura de Doenças
InfoPI 2013 - Minicurso - A Bioinformática na Cura de DoençasInfoPI 2013 - Minicurso - A Bioinformática na Cura de Doenças
InfoPI 2013 - Minicurso - A Bioinformática na Cura de DoençasCarlos Carvalho
 
Aula Biologia de Sistemas e ferramentas ômicas
Aula Biologia de Sistemas e ferramentas ômicasAula Biologia de Sistemas e ferramentas ômicas
Aula Biologia de Sistemas e ferramentas ômicasSandraMuxel
 
Bioinformática - Bases de dados
Bioinformática - Bases de dadosBioinformática - Bases de dados
Bioinformática - Bases de dadosGabriel Fernandes
 

Semelhante a Como aprender inglês online (14)

Avanços e perspectivas em Bioinformática
Avanços e perspectivas em BioinformáticaAvanços e perspectivas em Bioinformática
Avanços e perspectivas em Bioinformática
 
A ciência das redes complexas
A ciência das redes complexasA ciência das redes complexas
A ciência das redes complexas
 
WorkshopMaxtera_RevDados_11mar15
WorkshopMaxtera_RevDados_11mar15WorkshopMaxtera_RevDados_11mar15
WorkshopMaxtera_RevDados_11mar15
 
Anotação molecular
Anotação molecularAnotação molecular
Anotação molecular
 
Dogma central e periférico
Dogma central e periféricoDogma central e periférico
Dogma central e periférico
 
AVALIAÇÃO DO ESPAÇO CONFORMACIOAL DO RECEPTOR μ-OPIOIDE COM LIGANTES ENVIESA...
AVALIAÇÃO DO ESPAÇO CONFORMACIOAL DO RECEPTOR  μ-OPIOIDE COM LIGANTES ENVIESA...AVALIAÇÃO DO ESPAÇO CONFORMACIOAL DO RECEPTOR  μ-OPIOIDE COM LIGANTES ENVIESA...
AVALIAÇÃO DO ESPAÇO CONFORMACIOAL DO RECEPTOR μ-OPIOIDE COM LIGANTES ENVIESA...
 
Slides correção
Slides correçãoSlides correção
Slides correção
 
Bioinformática arquivo de dados
Bioinformática arquivo de dadosBioinformática arquivo de dados
Bioinformática arquivo de dados
 
Ciência de dados para a saúde: a importância da interdisciplinaridade e da in...
Ciência de dados para a saúde: a importância da interdisciplinaridade e da in...Ciência de dados para a saúde: a importância da interdisciplinaridade e da in...
Ciência de dados para a saúde: a importância da interdisciplinaridade e da in...
 
InfoPI 2013 - Minicurso - A Bioinformática na Cura de Doenças
InfoPI 2013 - Minicurso - A Bioinformática na Cura de DoençasInfoPI 2013 - Minicurso - A Bioinformática na Cura de Doenças
InfoPI 2013 - Minicurso - A Bioinformática na Cura de Doenças
 
Aula Biologia de Sistemas e ferramentas ômicas
Aula Biologia de Sistemas e ferramentas ômicasAula Biologia de Sistemas e ferramentas ômicas
Aula Biologia de Sistemas e ferramentas ômicas
 
Defesa Dissertação Fambrini
Defesa Dissertação FambriniDefesa Dissertação Fambrini
Defesa Dissertação Fambrini
 
Montagem de Genomas
Montagem de GenomasMontagem de Genomas
Montagem de Genomas
 
Bioinformática - Bases de dados
Bioinformática - Bases de dadosBioinformática - Bases de dados
Bioinformática - Bases de dados
 

Mais de Elaine Cecília Gatto

A influência da Tecnologia em cada faixa etaria
A influência da Tecnologia em cada faixa etariaA influência da Tecnologia em cada faixa etaria
A influência da Tecnologia em cada faixa etariaElaine Cecília Gatto
 
Inteligência Artificial Aplicada à Medicina
Inteligência Artificial Aplicada à MedicinaInteligência Artificial Aplicada à Medicina
Inteligência Artificial Aplicada à MedicinaElaine Cecília Gatto
 
Além do Aprendizado Local e Global: Particionando o espaço de classes em prob...
Além do Aprendizado Local e Global: Particionando o espaço de classes em prob...Além do Aprendizado Local e Global: Particionando o espaço de classes em prob...
Além do Aprendizado Local e Global: Particionando o espaço de classes em prob...Elaine Cecília Gatto
 
Apresentação da minha tese de doutorado no EPPC
Apresentação da minha tese de doutorado no EPPCApresentação da minha tese de doutorado no EPPC
Apresentação da minha tese de doutorado no EPPCElaine Cecília Gatto
 
Como a pesquisa científica impacta o mundo real.pptx
Como a pesquisa científica impacta o mundo real.pptxComo a pesquisa científica impacta o mundo real.pptx
Como a pesquisa científica impacta o mundo real.pptxElaine Cecília Gatto
 
Explorando correlações entre rótulos para o particionamento do espaço de rótu...
Explorando correlações entre rótulos para o particionamento do espaço de rótu...Explorando correlações entre rótulos para o particionamento do espaço de rótu...
Explorando correlações entre rótulos para o particionamento do espaço de rótu...Elaine Cecília Gatto
 
Community Detection for Multi-Label Classification - Seminários UFSCar
Community Detection for Multi-Label Classification - Seminários UFSCarCommunity Detection for Multi-Label Classification - Seminários UFSCar
Community Detection for Multi-Label Classification - Seminários UFSCarElaine Cecília Gatto
 
Classificação Multirrótulo: Aprendizado de Correlações
Classificação Multirrótulo: Aprendizado de CorrelaçõesClassificação Multirrótulo: Aprendizado de Correlações
Classificação Multirrótulo: Aprendizado de CorrelaçõesElaine Cecília Gatto
 
EXPLORANDO CORRELAÇÕES PARA O PARTICIONAMENTO DO ESPAÇO DE RÓTULOS EM PROBLEM...
EXPLORANDO CORRELAÇÕES PARA O PARTICIONAMENTO DO ESPAÇO DE RÓTULOS EM PROBLEM...EXPLORANDO CORRELAÇÕES PARA O PARTICIONAMENTO DO ESPAÇO DE RÓTULOS EM PROBLEM...
EXPLORANDO CORRELAÇÕES PARA O PARTICIONAMENTO DO ESPAÇO DE RÓTULOS EM PROBLEM...Elaine Cecília Gatto
 
Community Detection Method for Multi-Label Classification
Community Detection Method for Multi-Label ClassificationCommunity Detection Method for Multi-Label Classification
Community Detection Method for Multi-Label ClassificationElaine Cecília Gatto
 
Mulheres na Campus Party assumir o feminismo ou não – Blogueiras Feministas.pdf
Mulheres na Campus Party assumir o feminismo ou não – Blogueiras Feministas.pdfMulheres na Campus Party assumir o feminismo ou não – Blogueiras Feministas.pdf
Mulheres na Campus Party assumir o feminismo ou não – Blogueiras Feministas.pdfElaine Cecília Gatto
 
Explorando Correlações entre Rótulos usando Métodos de Detecção de Comu...
Explorando Correlações entre Rótulos usando Métodos de Detecção de Comu...Explorando Correlações entre Rótulos usando Métodos de Detecção de Comu...
Explorando Correlações entre Rótulos usando Métodos de Detecção de Comu...Elaine Cecília Gatto
 
EXPLORANDO CORRELAÇÕES PARA O PARTICIONAMENTO DO ESPAÇO DE RÓTULOS EM PROBLEM...
EXPLORANDO CORRELAÇÕES PARA O PARTICIONAMENTO DO ESPAÇO DE RÓTULOS EM PROBLEM...EXPLORANDO CORRELAÇÕES PARA O PARTICIONAMENTO DO ESPAÇO DE RÓTULOS EM PROBLEM...
EXPLORANDO CORRELAÇÕES PARA O PARTICIONAMENTO DO ESPAÇO DE RÓTULOS EM PROBLEM...Elaine Cecília Gatto
 
Pipeline desdobramento escalonamento
Pipeline desdobramento escalonamentoPipeline desdobramento escalonamento
Pipeline desdobramento escalonamentoElaine Cecília Gatto
 
Resumo das Instruções de Desvio Incondicionais MIPS 32 bits
Resumo das Instruções de Desvio Incondicionais MIPS 32 bitsResumo das Instruções de Desvio Incondicionais MIPS 32 bits
Resumo das Instruções de Desvio Incondicionais MIPS 32 bitsElaine Cecília Gatto
 
Como descobrir e classificar coisas usando machine learning sem compilcação
Como descobrir e classificar coisas usando machine learning sem compilcaçãoComo descobrir e classificar coisas usando machine learning sem compilcação
Como descobrir e classificar coisas usando machine learning sem compilcaçãoElaine Cecília Gatto
 

Mais de Elaine Cecília Gatto (20)

A influência da Tecnologia em cada faixa etaria
A influência da Tecnologia em cada faixa etariaA influência da Tecnologia em cada faixa etaria
A influência da Tecnologia em cada faixa etaria
 
Inteligência Artificial Aplicada à Medicina
Inteligência Artificial Aplicada à MedicinaInteligência Artificial Aplicada à Medicina
Inteligência Artificial Aplicada à Medicina
 
Além do Aprendizado Local e Global: Particionando o espaço de classes em prob...
Além do Aprendizado Local e Global: Particionando o espaço de classes em prob...Além do Aprendizado Local e Global: Particionando o espaço de classes em prob...
Além do Aprendizado Local e Global: Particionando o espaço de classes em prob...
 
Apresentação da minha tese de doutorado no EPPC
Apresentação da minha tese de doutorado no EPPCApresentação da minha tese de doutorado no EPPC
Apresentação da minha tese de doutorado no EPPC
 
entrevista r7.pdf
entrevista r7.pdfentrevista r7.pdf
entrevista r7.pdf
 
Como a pesquisa científica impacta o mundo real.pptx
Como a pesquisa científica impacta o mundo real.pptxComo a pesquisa científica impacta o mundo real.pptx
Como a pesquisa científica impacta o mundo real.pptx
 
Empoderamento Feminino
Empoderamento FemininoEmpoderamento Feminino
Empoderamento Feminino
 
Explorando correlações entre rótulos para o particionamento do espaço de rótu...
Explorando correlações entre rótulos para o particionamento do espaço de rótu...Explorando correlações entre rótulos para o particionamento do espaço de rótu...
Explorando correlações entre rótulos para o particionamento do espaço de rótu...
 
Community Detection for Multi-Label Classification - Seminários UFSCar
Community Detection for Multi-Label Classification - Seminários UFSCarCommunity Detection for Multi-Label Classification - Seminários UFSCar
Community Detection for Multi-Label Classification - Seminários UFSCar
 
Classificação Multirrótulo: Aprendizado de Correlações
Classificação Multirrótulo: Aprendizado de CorrelaçõesClassificação Multirrótulo: Aprendizado de Correlações
Classificação Multirrótulo: Aprendizado de Correlações
 
EXPLORANDO CORRELAÇÕES PARA O PARTICIONAMENTO DO ESPAÇO DE RÓTULOS EM PROBLEM...
EXPLORANDO CORRELAÇÕES PARA O PARTICIONAMENTO DO ESPAÇO DE RÓTULOS EM PROBLEM...EXPLORANDO CORRELAÇÕES PARA O PARTICIONAMENTO DO ESPAÇO DE RÓTULOS EM PROBLEM...
EXPLORANDO CORRELAÇÕES PARA O PARTICIONAMENTO DO ESPAÇO DE RÓTULOS EM PROBLEM...
 
Community Detection Method for Multi-Label Classification
Community Detection Method for Multi-Label ClassificationCommunity Detection Method for Multi-Label Classification
Community Detection Method for Multi-Label Classification
 
Mulheres na Campus Party assumir o feminismo ou não – Blogueiras Feministas.pdf
Mulheres na Campus Party assumir o feminismo ou não – Blogueiras Feministas.pdfMulheres na Campus Party assumir o feminismo ou não – Blogueiras Feministas.pdf
Mulheres na Campus Party assumir o feminismo ou não – Blogueiras Feministas.pdf
 
Curtinhas de sábado.pdf
Curtinhas de sábado.pdfCurtinhas de sábado.pdf
Curtinhas de sábado.pdf
 
Explorando Correlações entre Rótulos usando Métodos de Detecção de Comu...
Explorando Correlações entre Rótulos usando Métodos de Detecção de Comu...Explorando Correlações entre Rótulos usando Métodos de Detecção de Comu...
Explorando Correlações entre Rótulos usando Métodos de Detecção de Comu...
 
EXPLORANDO CORRELAÇÕES PARA O PARTICIONAMENTO DO ESPAÇO DE RÓTULOS EM PROBLEM...
EXPLORANDO CORRELAÇÕES PARA O PARTICIONAMENTO DO ESPAÇO DE RÓTULOS EM PROBLEM...EXPLORANDO CORRELAÇÕES PARA O PARTICIONAMENTO DO ESPAÇO DE RÓTULOS EM PROBLEM...
EXPLORANDO CORRELAÇÕES PARA O PARTICIONAMENTO DO ESPAÇO DE RÓTULOS EM PROBLEM...
 
Pipeline desdobramento escalonamento
Pipeline desdobramento escalonamentoPipeline desdobramento escalonamento
Pipeline desdobramento escalonamento
 
Cheat sheet Mips 32 bits
Cheat sheet Mips 32 bitsCheat sheet Mips 32 bits
Cheat sheet Mips 32 bits
 
Resumo das Instruções de Desvio Incondicionais MIPS 32 bits
Resumo das Instruções de Desvio Incondicionais MIPS 32 bitsResumo das Instruções de Desvio Incondicionais MIPS 32 bits
Resumo das Instruções de Desvio Incondicionais MIPS 32 bits
 
Como descobrir e classificar coisas usando machine learning sem compilcação
Como descobrir e classificar coisas usando machine learning sem compilcaçãoComo descobrir e classificar coisas usando machine learning sem compilcação
Como descobrir e classificar coisas usando machine learning sem compilcação
 

Último

PROVA - ESTUDO CONTEMPORÂNEO E TRANSVERSAL: LEITURA DE IMAGENS, GRÁFICOS E MA...
PROVA - ESTUDO CONTEMPORÂNEO E TRANSVERSAL: LEITURA DE IMAGENS, GRÁFICOS E MA...PROVA - ESTUDO CONTEMPORÂNEO E TRANSVERSAL: LEITURA DE IMAGENS, GRÁFICOS E MA...
PROVA - ESTUDO CONTEMPORÂNEO E TRANSVERSAL: LEITURA DE IMAGENS, GRÁFICOS E MA...azulassessoria9
 
ATIVIDADE - CHARGE.pptxDFGHJKLÇ~ÇLJHUFTDRSEDFGJHKLÇ
ATIVIDADE - CHARGE.pptxDFGHJKLÇ~ÇLJHUFTDRSEDFGJHKLÇATIVIDADE - CHARGE.pptxDFGHJKLÇ~ÇLJHUFTDRSEDFGJHKLÇ
ATIVIDADE - CHARGE.pptxDFGHJKLÇ~ÇLJHUFTDRSEDFGJHKLÇJaineCarolaineLima
 
DeClara n.º 75 Abril 2024 - O Jornal digital do Agrupamento de Escolas Clara ...
DeClara n.º 75 Abril 2024 - O Jornal digital do Agrupamento de Escolas Clara ...DeClara n.º 75 Abril 2024 - O Jornal digital do Agrupamento de Escolas Clara ...
DeClara n.º 75 Abril 2024 - O Jornal digital do Agrupamento de Escolas Clara ...IsabelPereira2010
 
Slides sobre as Funções da Linguagem.pptx
Slides sobre as Funções da Linguagem.pptxSlides sobre as Funções da Linguagem.pptx
Slides sobre as Funções da Linguagem.pptxMauricioOliveira258223
 
PROJETO DE EXTENSÃO I - SERVIÇOS JURÍDICOS, CARTORÁRIOS E NOTARIAIS.pdf
PROJETO DE EXTENSÃO I - SERVIÇOS JURÍDICOS, CARTORÁRIOS E NOTARIAIS.pdfPROJETO DE EXTENSÃO I - SERVIÇOS JURÍDICOS, CARTORÁRIOS E NOTARIAIS.pdf
PROJETO DE EXTENSÃO I - SERVIÇOS JURÍDICOS, CARTORÁRIOS E NOTARIAIS.pdfHELENO FAVACHO
 
Projeto de Extensão - ENGENHARIA DE SOFTWARE - BACHARELADO.pdf
Projeto de Extensão - ENGENHARIA DE SOFTWARE - BACHARELADO.pdfProjeto de Extensão - ENGENHARIA DE SOFTWARE - BACHARELADO.pdf
Projeto de Extensão - ENGENHARIA DE SOFTWARE - BACHARELADO.pdfHELENO FAVACHO
 
PROJETO DE EXTENSÃO - EDUCAÇÃO FÍSICA BACHARELADO.pdf
PROJETO DE EXTENSÃO - EDUCAÇÃO FÍSICA BACHARELADO.pdfPROJETO DE EXTENSÃO - EDUCAÇÃO FÍSICA BACHARELADO.pdf
PROJETO DE EXTENSÃO - EDUCAÇÃO FÍSICA BACHARELADO.pdfHELENO FAVACHO
 
Currículo - Ícaro Kleisson - Tutor acadêmico.pdf
Currículo - Ícaro Kleisson - Tutor acadêmico.pdfCurrículo - Ícaro Kleisson - Tutor acadêmico.pdf
Currículo - Ícaro Kleisson - Tutor acadêmico.pdfTutor de matemática Ícaro
 
ENSINO RELIGIOSO 7º ANO INOVE NA ESCOLA.pdf
ENSINO RELIGIOSO 7º ANO INOVE NA ESCOLA.pdfENSINO RELIGIOSO 7º ANO INOVE NA ESCOLA.pdf
ENSINO RELIGIOSO 7º ANO INOVE NA ESCOLA.pdfLeloIurk1
 
Rota das Ribeiras Camp, Projeto Nós Propomos!
Rota das Ribeiras Camp, Projeto Nós Propomos!Rota das Ribeiras Camp, Projeto Nós Propomos!
Rota das Ribeiras Camp, Projeto Nós Propomos!Ilda Bicacro
 
INTERVENÇÃO PARÁ - Formação de Professor
INTERVENÇÃO PARÁ - Formação de ProfessorINTERVENÇÃO PARÁ - Formação de Professor
INTERVENÇÃO PARÁ - Formação de ProfessorEdvanirCosta
 
Construção (C)erta - Nós Propomos! Sertã
Construção (C)erta - Nós Propomos! SertãConstrução (C)erta - Nós Propomos! Sertã
Construção (C)erta - Nós Propomos! SertãIlda Bicacro
 
COMPETÊNCIA 2 da redação do enem prodção textual professora vanessa cavalcante
COMPETÊNCIA 2 da redação do enem prodção textual professora vanessa cavalcanteCOMPETÊNCIA 2 da redação do enem prodção textual professora vanessa cavalcante
COMPETÊNCIA 2 da redação do enem prodção textual professora vanessa cavalcanteVanessaCavalcante37
 
PRÁTICAS PEDAGÓGICAS GESTÃO DA APRENDIZAGEM
PRÁTICAS PEDAGÓGICAS GESTÃO DA APRENDIZAGEMPRÁTICAS PEDAGÓGICAS GESTÃO DA APRENDIZAGEM
PRÁTICAS PEDAGÓGICAS GESTÃO DA APRENDIZAGEMHELENO FAVACHO
 
5 bloco 7 ano - Ensino Relogioso- Lideres Religiosos _ Passei Direto.pdf
5 bloco 7 ano - Ensino Relogioso- Lideres Religiosos _ Passei Direto.pdf5 bloco 7 ano - Ensino Relogioso- Lideres Religiosos _ Passei Direto.pdf
5 bloco 7 ano - Ensino Relogioso- Lideres Religiosos _ Passei Direto.pdfLeloIurk1
 
PROJETO DE EXTENSÃO I - Radiologia Tecnologia
PROJETO DE EXTENSÃO I - Radiologia TecnologiaPROJETO DE EXTENSÃO I - Radiologia Tecnologia
PROJETO DE EXTENSÃO I - Radiologia TecnologiaHELENO FAVACHO
 
Historia da Arte europeia e não só. .pdf
Historia da Arte europeia e não só. .pdfHistoria da Arte europeia e não só. .pdf
Historia da Arte europeia e não só. .pdfEmanuel Pio
 
PROJETO DE EXTENSÃO I - TERAPIAS INTEGRATIVAS E COMPLEMENTARES.pdf
PROJETO DE EXTENSÃO I - TERAPIAS INTEGRATIVAS E COMPLEMENTARES.pdfPROJETO DE EXTENSÃO I - TERAPIAS INTEGRATIVAS E COMPLEMENTARES.pdf
PROJETO DE EXTENSÃO I - TERAPIAS INTEGRATIVAS E COMPLEMENTARES.pdfHELENO FAVACHO
 
A QUATRO MÃOS - MARILDA CASTANHA . pdf
A QUATRO MÃOS  -  MARILDA CASTANHA . pdfA QUATRO MÃOS  -  MARILDA CASTANHA . pdf
A QUATRO MÃOS - MARILDA CASTANHA . pdfAna Lemos
 

Último (20)

PROVA - ESTUDO CONTEMPORÂNEO E TRANSVERSAL: LEITURA DE IMAGENS, GRÁFICOS E MA...
PROVA - ESTUDO CONTEMPORÂNEO E TRANSVERSAL: LEITURA DE IMAGENS, GRÁFICOS E MA...PROVA - ESTUDO CONTEMPORÂNEO E TRANSVERSAL: LEITURA DE IMAGENS, GRÁFICOS E MA...
PROVA - ESTUDO CONTEMPORÂNEO E TRANSVERSAL: LEITURA DE IMAGENS, GRÁFICOS E MA...
 
ATIVIDADE - CHARGE.pptxDFGHJKLÇ~ÇLJHUFTDRSEDFGJHKLÇ
ATIVIDADE - CHARGE.pptxDFGHJKLÇ~ÇLJHUFTDRSEDFGJHKLÇATIVIDADE - CHARGE.pptxDFGHJKLÇ~ÇLJHUFTDRSEDFGJHKLÇ
ATIVIDADE - CHARGE.pptxDFGHJKLÇ~ÇLJHUFTDRSEDFGJHKLÇ
 
DeClara n.º 75 Abril 2024 - O Jornal digital do Agrupamento de Escolas Clara ...
DeClara n.º 75 Abril 2024 - O Jornal digital do Agrupamento de Escolas Clara ...DeClara n.º 75 Abril 2024 - O Jornal digital do Agrupamento de Escolas Clara ...
DeClara n.º 75 Abril 2024 - O Jornal digital do Agrupamento de Escolas Clara ...
 
Slides sobre as Funções da Linguagem.pptx
Slides sobre as Funções da Linguagem.pptxSlides sobre as Funções da Linguagem.pptx
Slides sobre as Funções da Linguagem.pptx
 
PROJETO DE EXTENSÃO I - SERVIÇOS JURÍDICOS, CARTORÁRIOS E NOTARIAIS.pdf
PROJETO DE EXTENSÃO I - SERVIÇOS JURÍDICOS, CARTORÁRIOS E NOTARIAIS.pdfPROJETO DE EXTENSÃO I - SERVIÇOS JURÍDICOS, CARTORÁRIOS E NOTARIAIS.pdf
PROJETO DE EXTENSÃO I - SERVIÇOS JURÍDICOS, CARTORÁRIOS E NOTARIAIS.pdf
 
Aula sobre o Imperialismo Europeu no século XIX
Aula sobre o Imperialismo Europeu no século XIXAula sobre o Imperialismo Europeu no século XIX
Aula sobre o Imperialismo Europeu no século XIX
 
Projeto de Extensão - ENGENHARIA DE SOFTWARE - BACHARELADO.pdf
Projeto de Extensão - ENGENHARIA DE SOFTWARE - BACHARELADO.pdfProjeto de Extensão - ENGENHARIA DE SOFTWARE - BACHARELADO.pdf
Projeto de Extensão - ENGENHARIA DE SOFTWARE - BACHARELADO.pdf
 
PROJETO DE EXTENSÃO - EDUCAÇÃO FÍSICA BACHARELADO.pdf
PROJETO DE EXTENSÃO - EDUCAÇÃO FÍSICA BACHARELADO.pdfPROJETO DE EXTENSÃO - EDUCAÇÃO FÍSICA BACHARELADO.pdf
PROJETO DE EXTENSÃO - EDUCAÇÃO FÍSICA BACHARELADO.pdf
 
Currículo - Ícaro Kleisson - Tutor acadêmico.pdf
Currículo - Ícaro Kleisson - Tutor acadêmico.pdfCurrículo - Ícaro Kleisson - Tutor acadêmico.pdf
Currículo - Ícaro Kleisson - Tutor acadêmico.pdf
 
ENSINO RELIGIOSO 7º ANO INOVE NA ESCOLA.pdf
ENSINO RELIGIOSO 7º ANO INOVE NA ESCOLA.pdfENSINO RELIGIOSO 7º ANO INOVE NA ESCOLA.pdf
ENSINO RELIGIOSO 7º ANO INOVE NA ESCOLA.pdf
 
Rota das Ribeiras Camp, Projeto Nós Propomos!
Rota das Ribeiras Camp, Projeto Nós Propomos!Rota das Ribeiras Camp, Projeto Nós Propomos!
Rota das Ribeiras Camp, Projeto Nós Propomos!
 
INTERVENÇÃO PARÁ - Formação de Professor
INTERVENÇÃO PARÁ - Formação de ProfessorINTERVENÇÃO PARÁ - Formação de Professor
INTERVENÇÃO PARÁ - Formação de Professor
 
Construção (C)erta - Nós Propomos! Sertã
Construção (C)erta - Nós Propomos! SertãConstrução (C)erta - Nós Propomos! Sertã
Construção (C)erta - Nós Propomos! Sertã
 
COMPETÊNCIA 2 da redação do enem prodção textual professora vanessa cavalcante
COMPETÊNCIA 2 da redação do enem prodção textual professora vanessa cavalcanteCOMPETÊNCIA 2 da redação do enem prodção textual professora vanessa cavalcante
COMPETÊNCIA 2 da redação do enem prodção textual professora vanessa cavalcante
 
PRÁTICAS PEDAGÓGICAS GESTÃO DA APRENDIZAGEM
PRÁTICAS PEDAGÓGICAS GESTÃO DA APRENDIZAGEMPRÁTICAS PEDAGÓGICAS GESTÃO DA APRENDIZAGEM
PRÁTICAS PEDAGÓGICAS GESTÃO DA APRENDIZAGEM
 
5 bloco 7 ano - Ensino Relogioso- Lideres Religiosos _ Passei Direto.pdf
5 bloco 7 ano - Ensino Relogioso- Lideres Religiosos _ Passei Direto.pdf5 bloco 7 ano - Ensino Relogioso- Lideres Religiosos _ Passei Direto.pdf
5 bloco 7 ano - Ensino Relogioso- Lideres Religiosos _ Passei Direto.pdf
 
PROJETO DE EXTENSÃO I - Radiologia Tecnologia
PROJETO DE EXTENSÃO I - Radiologia TecnologiaPROJETO DE EXTENSÃO I - Radiologia Tecnologia
PROJETO DE EXTENSÃO I - Radiologia Tecnologia
 
Historia da Arte europeia e não só. .pdf
Historia da Arte europeia e não só. .pdfHistoria da Arte europeia e não só. .pdf
Historia da Arte europeia e não só. .pdf
 
PROJETO DE EXTENSÃO I - TERAPIAS INTEGRATIVAS E COMPLEMENTARES.pdf
PROJETO DE EXTENSÃO I - TERAPIAS INTEGRATIVAS E COMPLEMENTARES.pdfPROJETO DE EXTENSÃO I - TERAPIAS INTEGRATIVAS E COMPLEMENTARES.pdf
PROJETO DE EXTENSÃO I - TERAPIAS INTEGRATIVAS E COMPLEMENTARES.pdf
 
A QUATRO MÃOS - MARILDA CASTANHA . pdf
A QUATRO MÃOS  -  MARILDA CASTANHA . pdfA QUATRO MÃOS  -  MARILDA CASTANHA . pdf
A QUATRO MÃOS - MARILDA CASTANHA . pdf
 

Como aprender inglês online

  • 1. Neural Networks Predict Protein Structure and Function Bruna Zamith Elaine Cecilia Gatto Universidade Federal de S˜ao Carlos 9 de maio de 2018 B.Z; E.C.G. (UFSCar) NNs Predict Protein Structure and Function 9 de maio de 2018 1 / 29
  • 2. Sum´ario 1 Publica¸c˜ao Resumo e Introdu¸c˜ao 2 Prote´ınas Estruturas Fun¸c˜oes Homologia 3 Materiais 4 M´etodos Estruturas Secund´arias Datasets Selecionando Sequˆencias Evitando Overfitting Rotula¸c˜ao dos dados Codifica¸c˜ao de Sequˆencia de Prote´ınas Arquitetura NN 5 Estima¸c˜ao de Performance Hold Out Cross Validation Medidas de Avalia¸c˜ao B.Z; E.C.G. (UFSCar) NNs Predict Protein Structure and Function 9 de maio de 2018 2 / 29
  • 3. 1.1 Publica¸c˜ao T´ıtulo: ”Neural Networks Predict Protein Structure and Function” Autores: Marco Punta e Burkhard Rost Ano: 2009 Livro: ”Artificial Neural Networks: Methods and Applications” Editora: Humana Press B.Z; E.C.G. (UFSCar) NNs Predict Protein Structure and Function 9 de maio de 2018 3 / 29
  • 4. 1.2 Resumo e Introdu¸c˜ao Foco em Redes Neurais Feedforward: Dados complexos/ru´ıdos Problemas de Classifica¸c˜ao/Regress˜ao Conhecimento pr´evio: necess´ario ou n˜ao Tolerˆancia a Erros Estudo detalhado do problema, n˜ao prop˜oe m´etodos novos Aspectos discutidos: Como aplicar Redes Neurais na predi¸c˜ao de estruturas e fun¸c˜oes de prote´ınas Como escolher o dataset adequado: extrair dados relevantes de bancos de dados existentes Como selecionar, rotular e codificar atributos das sequˆencias de prote´ınas em entradas da Rede Neural (NN): Como calcular a performance do classificador B.Z; E.C.G. (UFSCar) NNs Predict Protein Structure and Function 9 de maio de 2018 4 / 29
  • 5. 2. Prote´ınas Cadeia polipept´ıdica formada por combina¸c˜ao ´unica de 20 amino´acidos Respons´aveis por fun¸c˜oes importantes no organismo de qualquer ser vivo Cat´alise de rea¸c˜oes qu´ımicas Transporte de nutrientes Reconhecimento e transmiss˜ao de sinais Glicosila¸c˜ao e Acetila¸c˜ao Dentre outros Sintetizadas pelas c´elulas: DNA − > RNA − > Prote´ınas Uma mesma prote´ına pode se organizar em diferentes estruturas tri-dimensionais, sendo cada estrutura atribu´ıda a uma fun¸c˜ao de prote´ına diferente B.Z; E.C.G. (UFSCar) NNs Predict Protein Structure and Function 9 de maio de 2018 5 / 29
  • 6. 2.1 Estruturas Estrutura tri-dimensional: Elemento chave na determina¸c˜ao da capacidade de uma prote´ına se realizar com o ambiente e realizar determinadas fun¸c˜oes de prote´ına M´etodos experimentais: X-Ray Cristalografia e NMR Sequenciamento do genoma: Mais de 5 milh˜oes de prote´ınas, apenas 50.000 estruturas dispon´ıveis (2008 - Protein Data Bank, PDB) M´etodos computacionais fundamentais na predi¸c˜ao de caracter´ısticas: Estrutura secund´aria, aa acessibilidade de solvente, aa flexibilidade e contatos aa intra-cadeia B.Z; E.C.G. (UFSCar) NNs Predict Protein Structure and Function 9 de maio de 2018 6 / 29
  • 7. 2.2 Fun¸c˜oes Estruturas n˜ao s˜ao suficientes para determinar a fun¸c˜ao da prote´ına Condi¸c˜oes ambientais diversas (localiza¸c˜ao subcelular e temperatura, p.e) podem levar a diferentes fun¸c˜oes Mais de 350.000 fun¸c˜oes de prote´ınas de sequˆencias anotadas (2008 - Swiss-Prot) Para v´arias entradas, ainda temos conhecimento funcional parcial B.Z; E.C.G. (UFSCar) NNs Predict Protein Structure and Function 9 de maio de 2018 7 / 29
  • 8. 2.3 Homologia Teoria da Evolu¸c˜ao: Ancestral comum, genes comuns (mas que se diferenciaram ao longo das gera¸c˜oes) Assim, v´arios genes possuem mult´ıplos parentes (hom´ologos) Hom´ologos podem ser identificados por similaridade de sequˆencias: Threshold > 30% de similaridade em uma regi˜ao maior que 100 aa Prote´ınas hom´ologas possuem estruturas e, frequentemente, fun¸c˜oes similares Fator a ser considerado no desenvolvimento das NNs B.Z; E.C.G. (UFSCar) NNs Predict Protein Structure and Function 9 de maio de 2018 8 / 29
  • 9. 3. Materiais Bancos de Dados de Sequˆencias de DNA: UniProt =TrEMBL + Swiss-Prot NCBI GenBank, EMBL Database, DNA DataBank of Japan (DDBJ), TrEMBL (anota¸c˜oes autom´aticas), InterPro Bancos de Dados de Estruturas de Prote´ınas: Protein DataBank Esquemas de Classifica¸c˜ao Hier´arquica de Estruturas de Prote´ınas: SCOP e CATH Bancos de Dados de Fun¸c˜oes de Prote´ınas Swiss-Prot Esquema para Classifica¸c˜ao: GeneOntology (Processos biol´ogicos, componentes celulares e fun¸c˜oes moleculares) B.Z; E.C.G. (UFSCar) NNs Predict Protein Structure and Function 9 de maio de 2018 9 / 29
  • 10. 3. Materiais Banco de Dados n˜ao redundantes NCBInr: mais b´asico UniRef90: duas prote´ınas quaisquer n˜ao compartilham > 90% de identidade de sequˆencia UniRef50: duas prote´ınas quaisquer n˜ao compartilham > 50% de identidade de sequˆencia nrdb90: reduz a redundˆancia em > 90% de identidade Conjunto de sequˆencias ´unicas: PDB usando UniqueProt e CD-HIT Redu¸c˜ao do n´umero de sequˆencias hom´ologas B.Z; E.C.G. (UFSCar) NNs Predict Protein Structure and Function 9 de maio de 2018 10 / 29
  • 11. 4. M´etodos B.Z; E.C.G. (UFSCar) NNs Predict Protein Structure and Function 9 de maio de 2018 11 / 29
  • 12. 4.1 Estruturas Secund´arias Predi¸c˜ao de estruturas secund´arias (Secundary Structures - SS) em prote´ınas globulares sol´uveis em ´agua A maioria das prote´ınas se organizam em estruturas tri-dimensionais est´aveis Parte delas podem ser vistas como combina¸c˜oes de motifs tri-dimensionais recorrentes e locais, os SS Motifs s˜ao pequenos padr˜oes recorrentes no DNA Alpha-helices e beta-strands Classifica¸c˜ao: SS (helix ou strand) ou N˜ao-SS (outros) B.Z; E.C.G. (UFSCar) NNs Predict Protein Structure and Function 9 de maio de 2018 12 / 29
  • 13. 4.1 Estruturas Secund´arias B.Z; E.C.G. (UFSCar) NNs Predict Protein Structure and Function 9 de maio de 2018 13 / 29
  • 14. 4.2.1 Datasets - Selecionando Sequˆencias Necessidade de anota¸c˜oes para Helix e Strands PDB: 50.000 prote´ınas Remover as que n˜ao s˜ao sol´uveis em ´agua e n˜ao s˜ao globulares Considerar somente estruturas com alta resolu¸c˜ao (exclus˜ao das NMR) Restam ∼34.000 prote´ınas B.Z; E.C.G. (UFSCar) NNs Predict Protein Structure and Function 9 de maio de 2018 14 / 29
  • 15. 4.2.2 Datasets - Evitando Overfitting Underfitting e Overfitting: NNs com baixo desempenho em padr˜oes novos N´umero de parˆametros livres (NPL) na NN Cada conex˜ao aprendida em uma NN feedforward ´e um parˆametro Se a diferen¸ca entre NPL e n´umero de exemplos de treino ´e alta, a NN acaba se ajustando t˜ao bem aos dados que perde sua capacidade de generaliza¸c˜ao - Overfitting Se a diferen¸c˜ao ´e baixa, a NN perde a capacidade de classificar padr˜oes in´editos - Underfitting Aumentar o n´umero de NPL = Aumentar o n´umero de Hidden Nodes, em caso de Underfitting B.Z; E.C.G. (UFSCar) NNs Predict Protein Structure and Function 9 de maio de 2018 15 / 29
  • 16. 4.2.2 Datasets - Evitando Overfitting Evitar Overfitting ´e um pouco mais complexo Ver a perfomance do algoritmo no dataset de treino n˜ao ´e suficiente para saber se est´a havendo overfitting ou n˜ao Pequena diferen¸ca entre NPL e numero de exemplos de treinamento (< 1/10) ajuda, mas n˜ao garante Biologia computacional: ”Stop training” Divide o conjunto de dados em dois grupos: 1. Treino; 2. Verifica¸c˜ao de overfitting Para quando o desempenho do segundo conjunto de dados come¸ca a deterioriar B.Z; E.C.G. (UFSCar) NNs Predict Protein Structure and Function 9 de maio de 2018 16 / 29
  • 17. 4.3 Rotula¸c˜ao dos dados Extrair short-sequences e rotular exemplos em SS ou N˜ao-SS M´etodos autom´aticos: DSSP e o STRIDE DSSP atribui as classes H (alpha helix) B (residue in an isolated beta bridge) E (extended strand) G (3-helix) I (pi-helix) T (hydrogen bonded turn) S(bend) Redu¸c˜ao: SS = H e E N˜ao SS = o resto B.Z; E.C.G. (UFSCar) NNs Predict Protein Structure and Function 9 de maio de 2018 17 / 29
  • 18. 4.4 Codifica¸c˜ao de Sequˆencia de Prote´ınas Transformar as sequˆencias de prote´ınas em entradas para as NNs a fim de predizer estruturas e fun¸c˜oes de prote´ınas (no caso da pesquisa, SSs) Tipo de amino´acido: Tipos de aa diferentes correspondem a diferentes propens˜oes SS. Existem diversas maneiras de transformar aa’s em entrada num´erica. A mais famosa ´e a esparsa (ou one-hot encoding). B.Z; E.C.G. (UFSCar) NNs Predict Protein Structure and Function 9 de maio de 2018 18 / 29
  • 19. 4.4 Codifica¸c˜ao de Sequˆencia de Prote´ınas Windows: Usar informa¸c˜ao de aa’s vizinhas. Uma SS n˜ao ´e formada por apenas uma aa isolada. Para que uma aa seja uma SS, ´e necess´ario que pelo menos um dos seus dois vizinhos tenha boa propens˜ao para SS. Vetor 20 x (2w+1) de elementos, sendo w largura da window Neste exemplo 8 vizinhos `a direita e `a esquerda, totalizando 340 elementos B.Z; E.C.G. (UFSCar) NNs Predict Protein Structure and Function 9 de maio de 2018 19 / 29
  • 20. 4.4 Codifica¸c˜ao de Sequˆencia de Prote´ınas Informa¸c˜ao Evolucion´aria: Produzir uma lista de hom´ologos para cada prote´ına com PSI-Blast Retorna: Alinhamentos pareados Matriz de pontua¸c˜ao para cada posi¸c˜ao espec´ıfica Frequˆencia de ocorrˆencia de cada uma das 20 aa em cada posi¸c˜ao do alinhamento Cada um dos 20 n´os recebe o valor retornado da frequˆencia do aa naquela posi¸c˜ao B.Z; E.C.G. (UFSCar) NNs Predict Protein Structure and Function 9 de maio de 2018 20 / 29
  • 21. 4.5 Arquitetura NN w = 19 (w ´e janela de comprimento e, lembrando, s˜ao 20 aa) N´os de entrada necess´arios: 19 * 20 = 380 N´os de entrada usados: 398 (pois considera tamb´em os terminais C- e N-) 1 N´o de Sa´ıda = SS ou N˜ao-SS N´umero de Hidden Nodes (NHN): 3.500 prote´ınas, cada uma com centenas de exemplos = ∼ 106 A raz˜ao entre o n´umero de parˆametros livres e o n´umero de exemplos de treino deve ser menor que 1/10 106 / (103 ∗ 4) = 250 N´umero m´ınimo de n´os: 2 N´umero m´aximo de n´os: 250 B.Z; E.C.G. (UFSCar) NNs Predict Protein Structure and Function 9 de maio de 2018 21 / 29
  • 22. 5.1 Estima¸c˜ao de Performance - Hold Out Training set = produ¸c˜ao de diferentes modelos (ou conjunto de parˆametros da NN) Cross-Training set = decis˜ao do modelo ´otimo Validation set = estimativa de performance B.Z; E.C.G. (UFSCar) NNs Predict Protein Structure and Function 9 de maio de 2018 22 / 29
  • 23. 5.1 Estima¸c˜ao de Performance - Hold Out B.Z; E.C.G. (UFSCar) NNs Predict Protein Structure and Function 9 de maio de 2018 23 / 29
  • 24. 5.2 Estima¸c˜ao de Performance - Cross Validation N-fold-cross-validation: Split em N subsets Treinado N vezes Treino: Dataset original - Fold n Teste: Fold n Estimativa de performance: M´edia aritm´etica Vantagem em rela¸c˜ao ao Hold Out: Usa mais exemplos para treinamento Desvantagem em rela¸c˜ao ao Hold Out: Consumo de tempo B.Z; E.C.G. (UFSCar) NNs Predict Protein Structure and Function 9 de maio de 2018 24 / 29
  • 25. 5.3 Estima¸c˜ao de Performance - Medidas de Avalia¸c˜ao Defini¸c˜oes: True Positives (TP) True Negatives (TN) False Positives (FP) False Negatives (FN) FPR = FP/(FP + TN) TRP = TP/(TP + FN) Plotar FRP contra TRP: Curva ROC Indica qual a fra¸c˜ao de TP contra a fra¸c˜ao de FN Area Under The ROC Curve (AUC) B.Z; E.C.G. (UFSCar) NNs Predict Protein Structure and Function 9 de maio de 2018 25 / 29
  • 26. 5.3 Estima¸c˜ao de Performance - Medidas de Avalia¸c˜ao B.Z; E.C.G. (UFSCar) NNs Predict Protein Structure and Function 9 de maio de 2018 26 / 29
  • 27. 5.3 Estima¸c˜ao de Performance - Medidas de Avalia¸c˜ao Q-Measures Qk = 100x i=1,k Ci /N k = n´umero de classes Ci = n´umero de exemplos corretamente preditos na classe i N = n´umero total de exemplos 0 a 100 Ruim para dados n˜ao balanceados B.Z; E.C.G. (UFSCar) NNs Predict Protein Structure and Function 9 de maio de 2018 27 / 29
  • 28. Referˆencias Marco Punta e Burkhard Rost (2009) Neural Networks Predict Protein Structure and Function Artificial Neural Networks: Methods and Applications 198–225. B.Z; E.C.G. (UFSCar) NNs Predict Protein Structure and Function 9 de maio de 2018 28 / 29
  • 29. Fim B.Z; E.C.G. (UFSCar) NNs Predict Protein Structure and Function 9 de maio de 2018 29 / 29