1. Neural Networks Predict Protein Structure and Function
Bruna Zamith
Elaine Cecilia Gatto
Universidade Federal de S˜ao Carlos
9 de maio de 2018
B.Z; E.C.G. (UFSCar) NNs Predict Protein Structure and Function 9 de maio de 2018 1 / 29
2. Sum´ario
1 Publica¸c˜ao
Resumo e
Introdu¸c˜ao
2 Prote´ınas
Estruturas
Fun¸c˜oes
Homologia
3 Materiais
4 M´etodos
Estruturas
Secund´arias
Datasets
Selecionando
Sequˆencias
Evitando
Overfitting
Rotula¸c˜ao dos
dados
Codifica¸c˜ao de
Sequˆencia de
Prote´ınas
Arquitetura NN
5 Estima¸c˜ao de
Performance
Hold Out
Cross Validation
Medidas de
Avalia¸c˜ao
B.Z; E.C.G. (UFSCar) NNs Predict Protein Structure and Function 9 de maio de 2018 2 / 29
3. 1.1 Publica¸c˜ao
T´ıtulo: ”Neural Networks Predict Protein Structure and Function”
Autores: Marco Punta e Burkhard Rost
Ano: 2009
Livro: ”Artificial Neural Networks: Methods and Applications”
Editora: Humana Press
B.Z; E.C.G. (UFSCar) NNs Predict Protein Structure and Function 9 de maio de 2018 3 / 29
4. 1.2 Resumo e Introdu¸c˜ao
Foco em Redes Neurais Feedforward:
Dados complexos/ru´ıdos
Problemas de Classifica¸c˜ao/Regress˜ao
Conhecimento pr´evio: necess´ario ou n˜ao
Tolerˆancia a Erros
Estudo detalhado do problema, n˜ao prop˜oe m´etodos novos
Aspectos discutidos:
Como aplicar Redes Neurais na predi¸c˜ao de estruturas e fun¸c˜oes de
prote´ınas
Como escolher o dataset adequado: extrair dados relevantes de bancos
de dados existentes
Como selecionar, rotular e codificar atributos das sequˆencias de
prote´ınas em entradas da Rede Neural (NN):
Como calcular a performance do classificador
B.Z; E.C.G. (UFSCar) NNs Predict Protein Structure and Function 9 de maio de 2018 4 / 29
5. 2. Prote´ınas
Cadeia polipept´ıdica formada por combina¸c˜ao ´unica de 20
amino´acidos
Respons´aveis por fun¸c˜oes importantes no organismo de qualquer ser
vivo
Cat´alise de rea¸c˜oes qu´ımicas
Transporte de nutrientes
Reconhecimento e transmiss˜ao de sinais
Glicosila¸c˜ao e Acetila¸c˜ao
Dentre outros
Sintetizadas pelas c´elulas: DNA − > RNA − > Prote´ınas
Uma mesma prote´ına pode se organizar em diferentes estruturas
tri-dimensionais, sendo cada estrutura atribu´ıda a uma fun¸c˜ao de
prote´ına diferente
B.Z; E.C.G. (UFSCar) NNs Predict Protein Structure and Function 9 de maio de 2018 5 / 29
6. 2.1 Estruturas
Estrutura tri-dimensional: Elemento chave na determina¸c˜ao da
capacidade de uma prote´ına se realizar com o ambiente e realizar
determinadas fun¸c˜oes de prote´ına
M´etodos experimentais: X-Ray Cristalografia e NMR
Sequenciamento do genoma: Mais de 5 milh˜oes de prote´ınas, apenas
50.000 estruturas dispon´ıveis (2008 - Protein Data Bank, PDB)
M´etodos computacionais fundamentais na predi¸c˜ao de caracter´ısticas:
Estrutura secund´aria, aa acessibilidade de solvente, aa flexibilidade e
contatos aa intra-cadeia
B.Z; E.C.G. (UFSCar) NNs Predict Protein Structure and Function 9 de maio de 2018 6 / 29
7. 2.2 Fun¸c˜oes
Estruturas n˜ao s˜ao suficientes para determinar a fun¸c˜ao da prote´ına
Condi¸c˜oes ambientais diversas (localiza¸c˜ao subcelular e temperatura,
p.e) podem levar a diferentes fun¸c˜oes
Mais de 350.000 fun¸c˜oes de prote´ınas de sequˆencias anotadas (2008 -
Swiss-Prot)
Para v´arias entradas, ainda temos conhecimento funcional parcial
B.Z; E.C.G. (UFSCar) NNs Predict Protein Structure and Function 9 de maio de 2018 7 / 29
8. 2.3 Homologia
Teoria da Evolu¸c˜ao: Ancestral comum, genes comuns (mas que se
diferenciaram ao longo das gera¸c˜oes)
Assim, v´arios genes possuem mult´ıplos parentes (hom´ologos)
Hom´ologos podem ser identificados por similaridade de sequˆencias:
Threshold
> 30% de similaridade em uma regi˜ao maior que 100 aa
Prote´ınas hom´ologas possuem estruturas e, frequentemente, fun¸c˜oes
similares
Fator a ser considerado no desenvolvimento das NNs
B.Z; E.C.G. (UFSCar) NNs Predict Protein Structure and Function 9 de maio de 2018 8 / 29
9. 3. Materiais
Bancos de Dados de Sequˆencias de DNA:
UniProt =TrEMBL + Swiss-Prot
NCBI GenBank, EMBL Database, DNA DataBank of Japan (DDBJ),
TrEMBL (anota¸c˜oes autom´aticas), InterPro
Bancos de Dados de Estruturas de Prote´ınas:
Protein DataBank
Esquemas de Classifica¸c˜ao Hier´arquica de Estruturas de Prote´ınas:
SCOP e CATH
Bancos de Dados de Fun¸c˜oes de Prote´ınas
Swiss-Prot
Esquema para Classifica¸c˜ao:
GeneOntology (Processos biol´ogicos, componentes celulares e fun¸c˜oes
moleculares)
B.Z; E.C.G. (UFSCar) NNs Predict Protein Structure and Function 9 de maio de 2018 9 / 29
10. 3. Materiais
Banco de Dados n˜ao redundantes
NCBInr: mais b´asico
UniRef90: duas prote´ınas quaisquer n˜ao compartilham > 90% de
identidade de sequˆencia
UniRef50: duas prote´ınas quaisquer n˜ao compartilham > 50% de
identidade de sequˆencia
nrdb90: reduz a redundˆancia em > 90% de identidade
Conjunto de sequˆencias ´unicas:
PDB usando UniqueProt e CD-HIT
Redu¸c˜ao do n´umero de sequˆencias hom´ologas
B.Z; E.C.G. (UFSCar) NNs Predict Protein Structure and Function 9 de maio de 2018 10 / 29
11. 4. M´etodos
B.Z; E.C.G. (UFSCar) NNs Predict Protein Structure and Function 9 de maio de 2018 11 / 29
12. 4.1 Estruturas Secund´arias
Predi¸c˜ao de estruturas secund´arias (Secundary Structures - SS) em
prote´ınas globulares sol´uveis em ´agua
A maioria das prote´ınas se organizam em estruturas tri-dimensionais
est´aveis
Parte delas podem ser vistas como combina¸c˜oes de motifs
tri-dimensionais recorrentes e locais, os SS
Motifs s˜ao pequenos padr˜oes recorrentes no DNA
Alpha-helices e beta-strands
Classifica¸c˜ao: SS (helix ou strand) ou N˜ao-SS (outros)
B.Z; E.C.G. (UFSCar) NNs Predict Protein Structure and Function 9 de maio de 2018 12 / 29
14. 4.2.1 Datasets - Selecionando Sequˆencias
Necessidade de anota¸c˜oes para Helix e Strands
PDB: 50.000 prote´ınas
Remover as que n˜ao s˜ao sol´uveis em ´agua e n˜ao s˜ao globulares
Considerar somente estruturas com alta resolu¸c˜ao (exclus˜ao das NMR)
Restam ∼34.000 prote´ınas
B.Z; E.C.G. (UFSCar) NNs Predict Protein Structure and Function 9 de maio de 2018 14 / 29
15. 4.2.2 Datasets - Evitando Overfitting
Underfitting e Overfitting: NNs com baixo desempenho em padr˜oes
novos
N´umero de parˆametros livres (NPL) na NN
Cada conex˜ao aprendida em uma NN feedforward ´e um parˆametro
Se a diferen¸ca entre NPL e n´umero de exemplos de treino ´e alta, a NN
acaba se ajustando t˜ao bem aos dados que perde sua capacidade de
generaliza¸c˜ao - Overfitting
Se a diferen¸c˜ao ´e baixa, a NN perde a capacidade de classificar padr˜oes
in´editos - Underfitting
Aumentar o n´umero de NPL = Aumentar o n´umero de Hidden
Nodes, em caso de Underfitting
B.Z; E.C.G. (UFSCar) NNs Predict Protein Structure and Function 9 de maio de 2018 15 / 29
16. 4.2.2 Datasets - Evitando Overfitting
Evitar Overfitting ´e um pouco mais complexo
Ver a perfomance do algoritmo no dataset de treino n˜ao ´e suficiente
para saber se est´a havendo overfitting ou n˜ao
Pequena diferen¸ca entre NPL e numero de exemplos de treinamento
(< 1/10) ajuda, mas n˜ao garante
Biologia computacional: ”Stop training”
Divide o conjunto de dados em dois grupos: 1. Treino; 2. Verifica¸c˜ao
de overfitting
Para quando o desempenho do segundo conjunto de dados come¸ca a
deterioriar
B.Z; E.C.G. (UFSCar) NNs Predict Protein Structure and Function 9 de maio de 2018 16 / 29
17. 4.3 Rotula¸c˜ao dos dados
Extrair short-sequences e rotular exemplos em SS ou N˜ao-SS
M´etodos autom´aticos: DSSP e o STRIDE
DSSP atribui as classes
H (alpha helix)
B (residue in an isolated beta bridge)
E (extended strand)
G (3-helix)
I (pi-helix)
T (hydrogen bonded turn)
S(bend)
Redu¸c˜ao:
SS = H e E
N˜ao SS = o resto
B.Z; E.C.G. (UFSCar) NNs Predict Protein Structure and Function 9 de maio de 2018 17 / 29
18. 4.4 Codifica¸c˜ao de Sequˆencia de Prote´ınas
Transformar as sequˆencias de prote´ınas em entradas para as NNs a
fim de predizer estruturas e fun¸c˜oes de prote´ınas (no caso da
pesquisa, SSs)
Tipo de amino´acido: Tipos de aa diferentes correspondem a
diferentes propens˜oes SS.
Existem diversas maneiras de transformar aa’s em entrada num´erica. A
mais famosa ´e a esparsa (ou one-hot encoding).
B.Z; E.C.G. (UFSCar) NNs Predict Protein Structure and Function 9 de maio de 2018 18 / 29
19. 4.4 Codifica¸c˜ao de Sequˆencia de Prote´ınas
Windows: Usar informa¸c˜ao de aa’s vizinhas.
Uma SS n˜ao ´e formada por apenas uma aa isolada.
Para que uma aa seja uma SS, ´e necess´ario que pelo menos um dos
seus dois vizinhos tenha boa propens˜ao para SS.
Vetor 20 x (2w+1) de elementos, sendo w largura da window
Neste exemplo 8 vizinhos `a direita e `a esquerda, totalizando 340
elementos
B.Z; E.C.G. (UFSCar) NNs Predict Protein Structure and Function 9 de maio de 2018 19 / 29
20. 4.4 Codifica¸c˜ao de Sequˆencia de Prote´ınas
Informa¸c˜ao Evolucion´aria:
Produzir uma lista de hom´ologos para cada prote´ına com PSI-Blast
Retorna:
Alinhamentos pareados
Matriz de pontua¸c˜ao para cada posi¸c˜ao espec´ıfica
Frequˆencia de ocorrˆencia de cada uma das 20 aa em cada posi¸c˜ao do
alinhamento
Cada um dos 20 n´os recebe o valor retornado da frequˆencia do aa
naquela posi¸c˜ao
B.Z; E.C.G. (UFSCar) NNs Predict Protein Structure and Function 9 de maio de 2018 20 / 29
21. 4.5 Arquitetura NN
w = 19 (w ´e janela de comprimento e, lembrando, s˜ao 20 aa)
N´os de entrada necess´arios: 19 * 20 = 380
N´os de entrada usados: 398 (pois considera tamb´em os terminais C- e
N-)
1 N´o de Sa´ıda = SS ou N˜ao-SS
N´umero de Hidden Nodes (NHN):
3.500 prote´ınas, cada uma com centenas de exemplos = ∼ 106
A raz˜ao entre o n´umero de parˆametros livres e o n´umero de exemplos
de treino deve ser menor que 1/10
106
/ (103
∗ 4) = 250
N´umero m´ınimo de n´os: 2
N´umero m´aximo de n´os: 250
B.Z; E.C.G. (UFSCar) NNs Predict Protein Structure and Function 9 de maio de 2018 21 / 29
22. 5.1 Estima¸c˜ao de Performance - Hold Out
Training set = produ¸c˜ao de diferentes modelos (ou conjunto de
parˆametros da NN)
Cross-Training set = decis˜ao do modelo ´otimo
Validation set = estimativa de performance
B.Z; E.C.G. (UFSCar) NNs Predict Protein Structure and Function 9 de maio de 2018 22 / 29
23. 5.1 Estima¸c˜ao de Performance - Hold Out
B.Z; E.C.G. (UFSCar) NNs Predict Protein Structure and Function 9 de maio de 2018 23 / 29
24. 5.2 Estima¸c˜ao de Performance - Cross Validation
N-fold-cross-validation: Split em N subsets
Treinado N vezes
Treino: Dataset original - Fold n
Teste: Fold n
Estimativa de performance: M´edia aritm´etica
Vantagem em rela¸c˜ao ao Hold Out: Usa mais exemplos para
treinamento
Desvantagem em rela¸c˜ao ao Hold Out: Consumo de tempo
B.Z; E.C.G. (UFSCar) NNs Predict Protein Structure and Function 9 de maio de 2018 24 / 29
25. 5.3 Estima¸c˜ao de Performance - Medidas de Avalia¸c˜ao
Defini¸c˜oes:
True Positives (TP)
True Negatives (TN)
False Positives (FP)
False Negatives (FN)
FPR = FP/(FP + TN)
TRP = TP/(TP + FN)
Plotar FRP contra TRP: Curva ROC
Indica qual a fra¸c˜ao de TP contra a fra¸c˜ao de FN
Area Under The ROC Curve (AUC)
B.Z; E.C.G. (UFSCar) NNs Predict Protein Structure and Function 9 de maio de 2018 25 / 29
26. 5.3 Estima¸c˜ao de Performance - Medidas de Avalia¸c˜ao
B.Z; E.C.G. (UFSCar) NNs Predict Protein Structure and Function 9 de maio de 2018 26 / 29
27. 5.3 Estima¸c˜ao de Performance - Medidas de Avalia¸c˜ao
Q-Measures
Qk = 100x i=1,k Ci /N
k = n´umero de classes
Ci = n´umero de exemplos corretamente preditos na classe i
N = n´umero total de exemplos
0 a 100
Ruim para dados n˜ao balanceados
B.Z; E.C.G. (UFSCar) NNs Predict Protein Structure and Function 9 de maio de 2018 27 / 29
28. Referˆencias
Marco Punta e Burkhard Rost (2009)
Neural Networks Predict Protein Structure and Function
Artificial Neural Networks: Methods and Applications 198–225.
B.Z; E.C.G. (UFSCar) NNs Predict Protein Structure and Function 9 de maio de 2018 28 / 29