Tópicos em Materiais I Quimioinformática como ferramenta no desenvolvimento de novos materiais Programa de Pós-graduação em Ciências de Materiais (PPGMAt) Universidade Federal de Mato Grosso Prof. Dr. Ricardo Stefani ICET/CUA Baseado em Kier et al., 2009
Informática vs. Computação Programa de Pós-graduação em Ciências de Materiais (PPGMAt) Universidade Federal de Mato Grosso Informática: Tratamento automatizado da informação Computação: Resolução de problemas numéricos ou não numéricos através de algoritmos Algoritmo: Sequência de passos lógicos para a  resolução de um problema
Quimioinformática Programa de Pós-graduação em Ciências de Materiais (PPGMAt) Universidade Federal de Mato Grosso Segundo Brown (1999): “ Quimioinformática é o uso da informática para a resolução de problemas  Envolvendo química” Área Interdisciplinar: Química, informática, matemática,  Ciência da Computação Bioinformática: Uso da informática para resolver problemas envolvendo Macromoléculas biológicas
Quimioinformática Programa de Pós-graduação em Ciências de Materiais (PPGMAt) Universidade Federal de Mato Grosso Muitas vezes chamada de técnica  in silico Principais usos: Descoberta de novas drogas (Drug Design and Discovery) Entendimento da relação entre estrutura e atividade biológica (QSAR) Entendimento entre a relação entre estrutura e propriedades físico-químicas (QSPR) Desenvolvimento de bibliotecas de substâncias químicas Prospecção virtual (virtual screening) Planejamento racional de novas moléculas Reduzir necessidade de testes in vivo e in vitro
Quimioinformática Programa de Pós-graduação em Ciências de Materiais (PPGMAt) Universidade Federal de Mato Grosso O que a Quimioinformática não é ? Química Computacional Química Quântica Bioinformática Bioinformática lida com macromoléculas biológicas Quimioinformática lida com micromoléculas (mesmo as biológicas) e macromoléculas sintéticas Estatística Inteligência artificial aplicada à química
Quimioinformática Programa de Pós-graduação em Ciências de Materiais (PPGMAt) Universidade Federal de Mato Grosso
Tópicos Programa de Pós-graduação em Ciências de Materiais (PPGMAt) Universidade Federal de Mato Grosso Descritores Moleculares Espaço químico Diversidade molecular Similaridade Molecular Classificação e seleção de substâncias Aprendizagem por máquina Desenvolvimento de bibliotecas QSPR Prospecção virtual Desenvolvimento de novos materiais
Descritores moleculares Programa de Pós-graduação em Ciências de Materiais (PPGMAt) Universidade Federal de Mato Grosso “ Estrutura determina a propriedade”  “ Uma propriedade da molécula depende de outras” Descritor molecular é a descrição numérica de certa propriedade da molécula Tipos: 0D (Ponto de fusão, ebulição, peso e volume molecular, etc.) 1D (Numero de ligações, de átomos, cargas totais, momento de dipolo.etc.) 2D (distância entre átomos, número de grafos, conectividade,etc) 3D (Volume molecular, raio de van der Waals, TPSA, WASA, SAA, etc.) 4D (volume do sítio ativos, número de interações intermoleculares, etc.) 5D (Tipos de interações com o sistema)
Espaço Químico Programa de Pós-graduação em Ciências de Materiais (PPGMAt) Universidade Federal de Mato Grosso Banco que contém as moléculas e os dados a serem analisados.  Bons dados geram boas análises  Gera-se descritores moleculares para cada molécula no ChemSpace
Descritores Moleculares Programa de Pós-graduação em Ciências de Materiais (PPGMAt) Universidade Federal de Mato Grosso Cada tipo de problema requer uma classe de descritor diferente, ou mesmo vários tipos de descritores
Descritores Moleculares Programa de Pós-graduação em Ciências de Materiais (PPGMAt) Universidade Federal de Mato Grosso Cada tipo de problema requer uma classe de descritor diferente, ou mesmo vários tipos de descritores
Descritores Moleculares Programa de Pós-graduação em Ciências de Materiais (PPGMAt) Universidade Federal de Mato Grosso Descritores Consititucionais Descritores Topológicos Descritores geométricos Descritores eletrostáticos Descritores quânticos Descritores Termodinâmicos Descritores de reatividade
Programa de Pós-graduação em Ciências de Materiais (PPGMAt) Universidade Federal de Mato Grosso Topological 2-D (Kier & Hall indices) Electrostatic Charge distribution (partial charges, H-bond donors/acceptors) Geometric 3-D ( I ,  SA , Molecular Volume) Quantum-chemical Molecular orbital structure (HOMO-LUMO energies, dipole moment)
Descritores Constitucionais Programa de Pós-graduação em Ciências de Materiais (PPGMAt) Universidade Federal de Mato Grosso Número total de átomos Número total ou relativo de certos elementos na molécula (C, H, N, O, F, etc.) Número total ou relativo de certos grupos funcionais na molécula (C=O, -NH, -OH, etc.) Tipo e total de ligações na molécula Tamanho e número total de anéis na molécula Tipo de anéis presentes na molécula Peso molecular
Descritores Topológicos Programa de Pós-graduação em Ciências de Materiais (PPGMAt) Universidade Federal de Mato Grosso Índice de conectividade Índice de valência Índice de formas Índice de flexibilidade Índices topológicos eletrônicos
Descritores Geométricos Programa de Pós-graduação em Ciências de Materiais (PPGMAt) Universidade Federal de Mato Grosso Área de superfície Superfície acessível ao solvente Volume molecular Índice gravitacional (RDF) Áreas de sombra da molécula
Descritores Eletrostáticos Programa de Pós-graduação em Ciências de Materiais (PPGMAt) Universidade Federal de Mato Grosso Cargas parciais atômicas Parâmetros de polaridade Momento de dipolo Polarizabilidade  Potenciais eletrostáticos na superfície molecular
Descritores Quânticos Programa de Pós-graduação em Ciências de Materiais (PPGMAt) Universidade Federal de Mato Grosso Energia total da molécula Energia de repulsão eletron-eletron Energia de ressonância Cinética eletrônica Energia total de cinética
Problemas com descritores Programa de Pós-graduação em Ciências de Materiais (PPGMAt) Universidade Federal de Mato Grosso Substâncias com descritores semelhantes deveriam mostrar propriedades semelhantes O fato é que elas podem ser semelhantes em um contexto e totalmente diferente em outro É difícil encontrar linearidade entre os descritores Como comparar diversos tipos de descritores e encontrar uma relação entre eles ?
Problemas com descritores Programa de Pós-graduação em Ciências de Materiais (PPGMAt) Universidade Federal de Mato Grosso Quanto maior a similaridade estrutural entre as moléculas, mais próximas serão as suas propriedades
Geração de descritores Programa de Pós-graduação em Ciências de Materiais (PPGMAt) Universidade Federal de Mato Grosso
Similaridade Molecular Programa de Pós-graduação em Ciências de Materiais (PPGMAt) Universidade Federal de Mato Grosso Quanto maior a similaridade estrutural entre as moléculas, mais próximas serão as suas propriedades
Medidas de similaridade Programa de Pós-graduação em Ciências de Materiais (PPGMAt) Universidade Federal de Mato Grosso Sequencia de vetores ou bits que podem ser comparadas por funções geométricas de distância. Medidas Quantitativas numéricas Descritores moleculares, impressão digital, bits, etc
Tanimoto (padrão) Programa de Pós-graduação em Ciências de Materiais (PPGMAt) Universidade Federal de Mato Grosso ( , ) = 0.68 ( , ) = 21.93
Impressão digital  (bits) Programa de Pós-graduação em Ciências de Materiais (PPGMAt) Universidade Federal de Mato Grosso Codificar a conectividade bit-a-bit Permite a comparação rápida de duas moléculas Construção: Encontrar todos os caminhos do grafo Gerar um vetor de bits para cada caminho Gerar apenas um vetor através da operação  OU length walk bit array 0 C 1010000000 1 C – H 0001010000 1 C – C 0001000100 2 C – C – H 0001000010 2 C – C – O 0100010000 3 C – C – O – H 0000011000 ALL 1111011110 C C O H H H H H H
Impressão digital  (bits) Programa de Pós-graduação em Ciências de Materiais (PPGMAt) Universidade Federal de Mato Grosso 0100010100010100010000000001101010011010100000010100000000100000 01000101000101000100000000011010100110101000000 0 0100000000100000
Pequenas diferenças estruturais podem alterar muito as propriedades Programa de Pós-graduação em Ciências de Materiais (PPGMAt) Universidade Federal de Mato Grosso
Como descobrir os melhores descritores ? Programa de Pós-graduação em Ciências de Materiais (PPGMAt) Universidade Federal de Mato Grosso e.g. Comparação de faces requer a identificação de características chaves.  Como as identificamos? O mesmo se aplica a moléculas.
Quais as características (descritores) mais relevantes ? Programa de Pós-graduação em Ciências de Materiais (PPGMAt) Universidade Federal de Mato Grosso Ninguém sabe. Depende do problema a ser abordado Os descritores ideais dependem do contexto. Muitas vezes um descritor 0D é melhor para resolver um problema do que um 3D. Para selecionar descritores pode-se usar IA
Seleção de descritores (variáveis) Programa de Pós-graduação em Ciências de Materiais (PPGMAt) Universidade Federal de Mato Grosso Análise de regressão linear e criação de modelo matemático. NADA DE RETA !!!!! R 2  >= 0,3 e <= 0,95 Descritores pouco correlacionados: levam a um modelo matemático não confiável Descritores muito correlacionados: Sobrecarga do modelo. Falsos positivos e modelo “viciado”
Seleção de descritores (variáveis) por IA Programa de Pós-graduação em Ciências de Materiais (PPGMAt) Universidade Federal de Mato Grosso Quando existe milhares de descritores, análise estatística pode levar a erros. Usa-se técnicas de IA para a seleção de descritores Reconhecimento de padrões Supoort Vector Machines Algoritmos genéticos Redes neurais
Seleção de descritores (variáveis) por IA Programa de Pós-graduação em Ciências de Materiais (PPGMAt) Universidade Federal de Mato Grosso Assim IA facilita a seleção de descritores Exemplo: Clustering
Programa de Pós-graduação em Ciências de Materiais (PPGMAt) Universidade Federal de Mato Grosso Rede Neural Artificial (ANN) Camada escondida Saída Parâmetros Funções Previsão Input Input Input Input Input Input Input Input Input
Programa de Pós-graduação em Ciências de Materiais (PPGMAt) Universidade Federal de Mato Grosso Suport Vector Machines (SVM) Método supervisionado de aprendizado de máquina Classificação em dois grupos Classificação de múltiplas classes não é uma limitação, pois pode-se construir uma SVM para cada classe Apresenta resultados melhores que muitos métodos populares de classificação
Programa de Pós-graduação em Ciências de Materiais (PPGMAt) Universidade Federal de Mato Grosso Suport Vector Machines (SVM) 1968: base matemática Teoria de Lagrange [Vapnik et al, 1992] Primeiro artigo [Vapnik et al, 1998] Definição detalhada Última década Série de artigos com aplicações de SVM Série de artigos com otimizações de SVM SMO, por exemplo
Programa de Pós-graduação em Ciências de Materiais (PPGMAt) Universidade Federal de Mato Grosso Suport Vector Machines (SVM) SVM são utilizadas em diversas áreas: Quimio- e Bioinformática Reconhecimento de assinaturas Classificação de texto e imagens Identificação de spams Reconhecimento de padrões diversos Identificação de dados replicados
Programa de Pós-graduação em Ciências de Materiais (PPGMAt) Universidade Federal de Mato Grosso Motivação da SVM Como separar as duas classes? Como separar as duas classes?
Programa de Pós-graduação em Ciências de Materiais (PPGMAt) Universidade Federal de Mato Grosso Conceitos de SVM Qual o  hiperplano  ótimo? Menor erro de classificação Maior  margem Distância entre  vetores de suporte  e o hiperplano
Programa de Pós-graduação em Ciências de Materiais (PPGMAt) Universidade Federal de Mato Grosso Conceitos de SVM Qual o  hiperplano  ótimo? Menor erro de classificação Maior  margem Distância entre  vetores de suporte  e o hiperplano
Programa de Pós-graduação em Ciências de Materiais (PPGMAt) Universidade Federal de Mato Grosso Virtual Screening Triagem virtual Substâncias ótimas protótipos Seleção  de substâncias biblioteca
Programa de Pós-graduação em Ciências de Materiais (PPGMAt) Universidade Federal de Mato Grosso
Programa de Pós-graduação em Ciências de Materiais (PPGMAt) Universidade Federal de Mato Grosso Método: Virtual Screening 3D Filtering 3D Fitting 1D Filtering 2D Filtering e.g. MW 200-500 Lipinsky
Programa de Pós-graduação em Ciências de Materiais (PPGMAt) Universidade Federal de Mato Grosso Quantitative Structure-Properties-Relationship (QSPR) Encontrar  correlações  entre estrutura química e determinadas propriedades  Predizer a característica de novas moléculas e materiais a partir de substâncias conhecidas
Programa de Pós-graduação em Ciências de Materiais (PPGMAt) Universidade Federal de Mato Grosso Extrair e organizar descritores Quantitative Structure-Properties Relationship (QSPR) Dados
Programa de Pós-graduação em Ciências de Materiais (PPGMAt) Universidade Federal de Mato Grosso Construindo modelos QSPR  (propriedades)      (Descritores) Y =  f (X i ) Multiple Linear Regression (MLR)   pK i  = a o  + a 1  (Mol Vol i ) + a 2  (logP) + a 3  (  i ) + ... Hansch, 1969 Partial Least-Squares (PLS) Regression pK i  = a o  + a 1  (PC1) + a 2  (PC2) + a 3  (PC3) + ... Wold, et al. 1984 Simple (Univariate) Linear Regression Hammett, 1939 pK i  = a o  + a 1  (Mol Vol i )
Programa de Pós-graduação em Ciências de Materiais (PPGMAt) Universidade Federal de Mato Grosso Quantitative Structure-Performance Relationship (QSPR) Models Conjunto de polímeros In vitro/In vivo Data (Y) Molecular Descriptors (X i )  QSPR Y =  f (X i ) Interpretação Predição
Programa de Pós-graduação em Ciências de Materiais (PPGMAt) Universidade Federal de Mato Grosso Biblioteca  combinatória Y or R Size of library Explosão Combinatória n diacid  component diphenol  component R O C C NH O O CH 2 CH 2 C O CH 2 O CH C O Y O
Programa de Pós-graduação em Ciências de Materiais (PPGMAt) Universidade Federal de Mato Grosso Planejamento racional de materiais Gerar biblioteca virtual Gerar subconjunto de materiais representativos Construir os modelos computacionais Prever as propriedades desejadas dos polímeros Fazer previsões para toda a biblioteca e além
Programa de Pós-graduação em Ciências de Materiais (PPGMAt) Universidade Federal de Mato Grosso
Programa de Pós-graduação em Ciências de Materiais (PPGMAt) Universidade Federal de Mato Grosso
Programa de Pós-graduação em Ciências de Materiais (PPGMAt) Universidade Federal de Mato Grosso Cluster representatives Predicted value Synthesis-> Biol. testing->  QSPR model Dipole Molecular volume  Rotatable bonds Good  diversity Double bonds Moment of inertia  Density Poor diversity
Programa de Pós-graduação em Ciências de Materiais (PPGMAt) Universidade Federal de Mato Grosso Do modelo QSPR, selecionar os melhores descritos e valores que se relacionam com a propriedade desejada Sintesizar polímeros conhecidos e testar Planejar e sintestizar novos polímeros 1 2 3 Dos modelos para o  planejamento racional e síntese n diacid  component diphenol  component R O C C NH O O CH 2 CH 2 C O CH 2 O CH C O Y O
Programa de Pós-graduação em Ciências de Materiais (PPGMAt) Universidade Federal de Mato Grosso 1
Programa de Pós-graduação em Ciências de Materiais (PPGMAt) Universidade Federal de Mato Grosso 1 Ferramentas: ChemAxon:  http://www.chemaxon.com Virtual Chemistry Lab:  http://www.vcclab.org Weka:  www.cs.waikato.ac.nz/ml/ weka /   libSVM: An integrated and easy-to-use tool for support vector classification  and regression. ww w.csie.ntu.edu.tw/~cjlin/ libsvm /   ADRIANA:  http://www.molecular-networks.com/products/adrianacode THERESA: http://www.molecular-networks.com/products/theresa
Programa de Pós-graduação em Ciências de Materiais (PPGMAt) Universidade Federal de Mato Grosso 1 Referências Comp. Mat. Sci, 2009, 45, 52-59. Biosensors and Bioeletronics, 2009, 25, 543-52. Biomaterials, 2007, 28, 4171-4177. Adv. Matr., 2001, 13, 1713-1717.

Quimioinformatica

  • 1.
    Tópicos em MateriaisI Quimioinformática como ferramenta no desenvolvimento de novos materiais Programa de Pós-graduação em Ciências de Materiais (PPGMAt) Universidade Federal de Mato Grosso Prof. Dr. Ricardo Stefani ICET/CUA Baseado em Kier et al., 2009
  • 2.
    Informática vs. ComputaçãoPrograma de Pós-graduação em Ciências de Materiais (PPGMAt) Universidade Federal de Mato Grosso Informática: Tratamento automatizado da informação Computação: Resolução de problemas numéricos ou não numéricos através de algoritmos Algoritmo: Sequência de passos lógicos para a resolução de um problema
  • 3.
    Quimioinformática Programa dePós-graduação em Ciências de Materiais (PPGMAt) Universidade Federal de Mato Grosso Segundo Brown (1999): “ Quimioinformática é o uso da informática para a resolução de problemas Envolvendo química” Área Interdisciplinar: Química, informática, matemática, Ciência da Computação Bioinformática: Uso da informática para resolver problemas envolvendo Macromoléculas biológicas
  • 4.
    Quimioinformática Programa dePós-graduação em Ciências de Materiais (PPGMAt) Universidade Federal de Mato Grosso Muitas vezes chamada de técnica in silico Principais usos: Descoberta de novas drogas (Drug Design and Discovery) Entendimento da relação entre estrutura e atividade biológica (QSAR) Entendimento entre a relação entre estrutura e propriedades físico-químicas (QSPR) Desenvolvimento de bibliotecas de substâncias químicas Prospecção virtual (virtual screening) Planejamento racional de novas moléculas Reduzir necessidade de testes in vivo e in vitro
  • 5.
    Quimioinformática Programa dePós-graduação em Ciências de Materiais (PPGMAt) Universidade Federal de Mato Grosso O que a Quimioinformática não é ? Química Computacional Química Quântica Bioinformática Bioinformática lida com macromoléculas biológicas Quimioinformática lida com micromoléculas (mesmo as biológicas) e macromoléculas sintéticas Estatística Inteligência artificial aplicada à química
  • 6.
    Quimioinformática Programa dePós-graduação em Ciências de Materiais (PPGMAt) Universidade Federal de Mato Grosso
  • 7.
    Tópicos Programa dePós-graduação em Ciências de Materiais (PPGMAt) Universidade Federal de Mato Grosso Descritores Moleculares Espaço químico Diversidade molecular Similaridade Molecular Classificação e seleção de substâncias Aprendizagem por máquina Desenvolvimento de bibliotecas QSPR Prospecção virtual Desenvolvimento de novos materiais
  • 8.
    Descritores moleculares Programade Pós-graduação em Ciências de Materiais (PPGMAt) Universidade Federal de Mato Grosso “ Estrutura determina a propriedade” “ Uma propriedade da molécula depende de outras” Descritor molecular é a descrição numérica de certa propriedade da molécula Tipos: 0D (Ponto de fusão, ebulição, peso e volume molecular, etc.) 1D (Numero de ligações, de átomos, cargas totais, momento de dipolo.etc.) 2D (distância entre átomos, número de grafos, conectividade,etc) 3D (Volume molecular, raio de van der Waals, TPSA, WASA, SAA, etc.) 4D (volume do sítio ativos, número de interações intermoleculares, etc.) 5D (Tipos de interações com o sistema)
  • 9.
    Espaço Químico Programade Pós-graduação em Ciências de Materiais (PPGMAt) Universidade Federal de Mato Grosso Banco que contém as moléculas e os dados a serem analisados. Bons dados geram boas análises Gera-se descritores moleculares para cada molécula no ChemSpace
  • 10.
    Descritores Moleculares Programade Pós-graduação em Ciências de Materiais (PPGMAt) Universidade Federal de Mato Grosso Cada tipo de problema requer uma classe de descritor diferente, ou mesmo vários tipos de descritores
  • 11.
    Descritores Moleculares Programade Pós-graduação em Ciências de Materiais (PPGMAt) Universidade Federal de Mato Grosso Cada tipo de problema requer uma classe de descritor diferente, ou mesmo vários tipos de descritores
  • 12.
    Descritores Moleculares Programade Pós-graduação em Ciências de Materiais (PPGMAt) Universidade Federal de Mato Grosso Descritores Consititucionais Descritores Topológicos Descritores geométricos Descritores eletrostáticos Descritores quânticos Descritores Termodinâmicos Descritores de reatividade
  • 13.
    Programa de Pós-graduaçãoem Ciências de Materiais (PPGMAt) Universidade Federal de Mato Grosso Topological 2-D (Kier & Hall indices) Electrostatic Charge distribution (partial charges, H-bond donors/acceptors) Geometric 3-D ( I , SA , Molecular Volume) Quantum-chemical Molecular orbital structure (HOMO-LUMO energies, dipole moment)
  • 14.
    Descritores Constitucionais Programade Pós-graduação em Ciências de Materiais (PPGMAt) Universidade Federal de Mato Grosso Número total de átomos Número total ou relativo de certos elementos na molécula (C, H, N, O, F, etc.) Número total ou relativo de certos grupos funcionais na molécula (C=O, -NH, -OH, etc.) Tipo e total de ligações na molécula Tamanho e número total de anéis na molécula Tipo de anéis presentes na molécula Peso molecular
  • 15.
    Descritores Topológicos Programade Pós-graduação em Ciências de Materiais (PPGMAt) Universidade Federal de Mato Grosso Índice de conectividade Índice de valência Índice de formas Índice de flexibilidade Índices topológicos eletrônicos
  • 16.
    Descritores Geométricos Programade Pós-graduação em Ciências de Materiais (PPGMAt) Universidade Federal de Mato Grosso Área de superfície Superfície acessível ao solvente Volume molecular Índice gravitacional (RDF) Áreas de sombra da molécula
  • 17.
    Descritores Eletrostáticos Programade Pós-graduação em Ciências de Materiais (PPGMAt) Universidade Federal de Mato Grosso Cargas parciais atômicas Parâmetros de polaridade Momento de dipolo Polarizabilidade Potenciais eletrostáticos na superfície molecular
  • 18.
    Descritores Quânticos Programade Pós-graduação em Ciências de Materiais (PPGMAt) Universidade Federal de Mato Grosso Energia total da molécula Energia de repulsão eletron-eletron Energia de ressonância Cinética eletrônica Energia total de cinética
  • 19.
    Problemas com descritoresPrograma de Pós-graduação em Ciências de Materiais (PPGMAt) Universidade Federal de Mato Grosso Substâncias com descritores semelhantes deveriam mostrar propriedades semelhantes O fato é que elas podem ser semelhantes em um contexto e totalmente diferente em outro É difícil encontrar linearidade entre os descritores Como comparar diversos tipos de descritores e encontrar uma relação entre eles ?
  • 20.
    Problemas com descritoresPrograma de Pós-graduação em Ciências de Materiais (PPGMAt) Universidade Federal de Mato Grosso Quanto maior a similaridade estrutural entre as moléculas, mais próximas serão as suas propriedades
  • 21.
    Geração de descritoresPrograma de Pós-graduação em Ciências de Materiais (PPGMAt) Universidade Federal de Mato Grosso
  • 22.
    Similaridade Molecular Programade Pós-graduação em Ciências de Materiais (PPGMAt) Universidade Federal de Mato Grosso Quanto maior a similaridade estrutural entre as moléculas, mais próximas serão as suas propriedades
  • 23.
    Medidas de similaridadePrograma de Pós-graduação em Ciências de Materiais (PPGMAt) Universidade Federal de Mato Grosso Sequencia de vetores ou bits que podem ser comparadas por funções geométricas de distância. Medidas Quantitativas numéricas Descritores moleculares, impressão digital, bits, etc
  • 24.
    Tanimoto (padrão) Programade Pós-graduação em Ciências de Materiais (PPGMAt) Universidade Federal de Mato Grosso ( , ) = 0.68 ( , ) = 21.93
  • 25.
    Impressão digital (bits) Programa de Pós-graduação em Ciências de Materiais (PPGMAt) Universidade Federal de Mato Grosso Codificar a conectividade bit-a-bit Permite a comparação rápida de duas moléculas Construção: Encontrar todos os caminhos do grafo Gerar um vetor de bits para cada caminho Gerar apenas um vetor através da operação OU length walk bit array 0 C 1010000000 1 C – H 0001010000 1 C – C 0001000100 2 C – C – H 0001000010 2 C – C – O 0100010000 3 C – C – O – H 0000011000 ALL 1111011110 C C O H H H H H H
  • 26.
    Impressão digital (bits) Programa de Pós-graduação em Ciências de Materiais (PPGMAt) Universidade Federal de Mato Grosso 0100010100010100010000000001101010011010100000010100000000100000 01000101000101000100000000011010100110101000000 0 0100000000100000
  • 27.
    Pequenas diferenças estruturaispodem alterar muito as propriedades Programa de Pós-graduação em Ciências de Materiais (PPGMAt) Universidade Federal de Mato Grosso
  • 28.
    Como descobrir osmelhores descritores ? Programa de Pós-graduação em Ciências de Materiais (PPGMAt) Universidade Federal de Mato Grosso e.g. Comparação de faces requer a identificação de características chaves. Como as identificamos? O mesmo se aplica a moléculas.
  • 29.
    Quais as características(descritores) mais relevantes ? Programa de Pós-graduação em Ciências de Materiais (PPGMAt) Universidade Federal de Mato Grosso Ninguém sabe. Depende do problema a ser abordado Os descritores ideais dependem do contexto. Muitas vezes um descritor 0D é melhor para resolver um problema do que um 3D. Para selecionar descritores pode-se usar IA
  • 30.
    Seleção de descritores(variáveis) Programa de Pós-graduação em Ciências de Materiais (PPGMAt) Universidade Federal de Mato Grosso Análise de regressão linear e criação de modelo matemático. NADA DE RETA !!!!! R 2 >= 0,3 e <= 0,95 Descritores pouco correlacionados: levam a um modelo matemático não confiável Descritores muito correlacionados: Sobrecarga do modelo. Falsos positivos e modelo “viciado”
  • 31.
    Seleção de descritores(variáveis) por IA Programa de Pós-graduação em Ciências de Materiais (PPGMAt) Universidade Federal de Mato Grosso Quando existe milhares de descritores, análise estatística pode levar a erros. Usa-se técnicas de IA para a seleção de descritores Reconhecimento de padrões Supoort Vector Machines Algoritmos genéticos Redes neurais
  • 32.
    Seleção de descritores(variáveis) por IA Programa de Pós-graduação em Ciências de Materiais (PPGMAt) Universidade Federal de Mato Grosso Assim IA facilita a seleção de descritores Exemplo: Clustering
  • 33.
    Programa de Pós-graduaçãoem Ciências de Materiais (PPGMAt) Universidade Federal de Mato Grosso Rede Neural Artificial (ANN) Camada escondida Saída Parâmetros Funções Previsão Input Input Input Input Input Input Input Input Input
  • 34.
    Programa de Pós-graduaçãoem Ciências de Materiais (PPGMAt) Universidade Federal de Mato Grosso Suport Vector Machines (SVM) Método supervisionado de aprendizado de máquina Classificação em dois grupos Classificação de múltiplas classes não é uma limitação, pois pode-se construir uma SVM para cada classe Apresenta resultados melhores que muitos métodos populares de classificação
  • 35.
    Programa de Pós-graduaçãoem Ciências de Materiais (PPGMAt) Universidade Federal de Mato Grosso Suport Vector Machines (SVM) 1968: base matemática Teoria de Lagrange [Vapnik et al, 1992] Primeiro artigo [Vapnik et al, 1998] Definição detalhada Última década Série de artigos com aplicações de SVM Série de artigos com otimizações de SVM SMO, por exemplo
  • 36.
    Programa de Pós-graduaçãoem Ciências de Materiais (PPGMAt) Universidade Federal de Mato Grosso Suport Vector Machines (SVM) SVM são utilizadas em diversas áreas: Quimio- e Bioinformática Reconhecimento de assinaturas Classificação de texto e imagens Identificação de spams Reconhecimento de padrões diversos Identificação de dados replicados
  • 37.
    Programa de Pós-graduaçãoem Ciências de Materiais (PPGMAt) Universidade Federal de Mato Grosso Motivação da SVM Como separar as duas classes? Como separar as duas classes?
  • 38.
    Programa de Pós-graduaçãoem Ciências de Materiais (PPGMAt) Universidade Federal de Mato Grosso Conceitos de SVM Qual o hiperplano ótimo? Menor erro de classificação Maior margem Distância entre vetores de suporte e o hiperplano
  • 39.
    Programa de Pós-graduaçãoem Ciências de Materiais (PPGMAt) Universidade Federal de Mato Grosso Conceitos de SVM Qual o hiperplano ótimo? Menor erro de classificação Maior margem Distância entre vetores de suporte e o hiperplano
  • 40.
    Programa de Pós-graduaçãoem Ciências de Materiais (PPGMAt) Universidade Federal de Mato Grosso Virtual Screening Triagem virtual Substâncias ótimas protótipos Seleção de substâncias biblioteca
  • 41.
    Programa de Pós-graduaçãoem Ciências de Materiais (PPGMAt) Universidade Federal de Mato Grosso
  • 42.
    Programa de Pós-graduaçãoem Ciências de Materiais (PPGMAt) Universidade Federal de Mato Grosso Método: Virtual Screening 3D Filtering 3D Fitting 1D Filtering 2D Filtering e.g. MW 200-500 Lipinsky
  • 43.
    Programa de Pós-graduaçãoem Ciências de Materiais (PPGMAt) Universidade Federal de Mato Grosso Quantitative Structure-Properties-Relationship (QSPR) Encontrar correlações entre estrutura química e determinadas propriedades Predizer a característica de novas moléculas e materiais a partir de substâncias conhecidas
  • 44.
    Programa de Pós-graduaçãoem Ciências de Materiais (PPGMAt) Universidade Federal de Mato Grosso Extrair e organizar descritores Quantitative Structure-Properties Relationship (QSPR) Dados
  • 45.
    Programa de Pós-graduaçãoem Ciências de Materiais (PPGMAt) Universidade Federal de Mato Grosso Construindo modelos QSPR  (propriedades)   (Descritores) Y = f (X i ) Multiple Linear Regression (MLR) pK i = a o + a 1 (Mol Vol i ) + a 2 (logP) + a 3 (  i ) + ... Hansch, 1969 Partial Least-Squares (PLS) Regression pK i = a o + a 1 (PC1) + a 2 (PC2) + a 3 (PC3) + ... Wold, et al. 1984 Simple (Univariate) Linear Regression Hammett, 1939 pK i = a o + a 1 (Mol Vol i )
  • 46.
    Programa de Pós-graduaçãoem Ciências de Materiais (PPGMAt) Universidade Federal de Mato Grosso Quantitative Structure-Performance Relationship (QSPR) Models Conjunto de polímeros In vitro/In vivo Data (Y) Molecular Descriptors (X i )  QSPR Y = f (X i ) Interpretação Predição
  • 47.
    Programa de Pós-graduaçãoem Ciências de Materiais (PPGMAt) Universidade Federal de Mato Grosso Biblioteca combinatória Y or R Size of library Explosão Combinatória n diacid component diphenol component R O C C NH O O CH 2 CH 2 C O CH 2 O CH C O Y O
  • 48.
    Programa de Pós-graduaçãoem Ciências de Materiais (PPGMAt) Universidade Federal de Mato Grosso Planejamento racional de materiais Gerar biblioteca virtual Gerar subconjunto de materiais representativos Construir os modelos computacionais Prever as propriedades desejadas dos polímeros Fazer previsões para toda a biblioteca e além
  • 49.
    Programa de Pós-graduaçãoem Ciências de Materiais (PPGMAt) Universidade Federal de Mato Grosso
  • 50.
    Programa de Pós-graduaçãoem Ciências de Materiais (PPGMAt) Universidade Federal de Mato Grosso
  • 51.
    Programa de Pós-graduaçãoem Ciências de Materiais (PPGMAt) Universidade Federal de Mato Grosso Cluster representatives Predicted value Synthesis-> Biol. testing-> QSPR model Dipole Molecular volume Rotatable bonds Good diversity Double bonds Moment of inertia Density Poor diversity
  • 52.
    Programa de Pós-graduaçãoem Ciências de Materiais (PPGMAt) Universidade Federal de Mato Grosso Do modelo QSPR, selecionar os melhores descritos e valores que se relacionam com a propriedade desejada Sintesizar polímeros conhecidos e testar Planejar e sintestizar novos polímeros 1 2 3 Dos modelos para o planejamento racional e síntese n diacid component diphenol component R O C C NH O O CH 2 CH 2 C O CH 2 O CH C O Y O
  • 53.
    Programa de Pós-graduaçãoem Ciências de Materiais (PPGMAt) Universidade Federal de Mato Grosso 1
  • 54.
    Programa de Pós-graduaçãoem Ciências de Materiais (PPGMAt) Universidade Federal de Mato Grosso 1 Ferramentas: ChemAxon: http://www.chemaxon.com Virtual Chemistry Lab: http://www.vcclab.org Weka: www.cs.waikato.ac.nz/ml/ weka / libSVM: An integrated and easy-to-use tool for support vector classification and regression. ww w.csie.ntu.edu.tw/~cjlin/ libsvm / ADRIANA: http://www.molecular-networks.com/products/adrianacode THERESA: http://www.molecular-networks.com/products/theresa
  • 55.
    Programa de Pós-graduaçãoem Ciências de Materiais (PPGMAt) Universidade Federal de Mato Grosso 1 Referências Comp. Mat. Sci, 2009, 45, 52-59. Biosensors and Bioeletronics, 2009, 25, 543-52. Biomaterials, 2007, 28, 4171-4177. Adv. Matr., 2001, 13, 1713-1717.