GTM: Generative Topographic Mapping

1.287 visualizações

Publicada em

Publicada em: Tecnologia
0 comentários
0 gostaram
Estatísticas
Notas
  • Seja o primeiro a comentar

  • Seja a primeira pessoa a gostar disto

Sem downloads
Visualizações
Visualizações totais
1.287
No SlideShare
0
A partir de incorporações
0
Número de incorporações
618
Ações
Compartilhamentos
0
Downloads
1
Comentários
0
Gostaram
0
Incorporações 0
Nenhuma incorporação

Nenhuma nota no slide

GTM: Generative Topographic Mapping

  1. 1. O que é GTM?GTM – Mapeamento Topográfico Gerativo – é uma ferramenta da Mineração de Dados e um modelo algorítmico/computacional adaptativo e o uso desse modelo se aplica na recuperação de informação (representação, armazenamento e acesso aos dados).
  2. 2. O que é GTM? O modelo GTM (BISHOP, SVENSÉN & WILLIAMS, 1998) é um modelo que executa um mapeamento paramétrico não linear de um espaço L-dimensional de variáveis (chamadas latentes) para um espaço D-dimensional de dados de entrada onde, normalmente, L<D. Este mapeamento define um subespaço S (contido no espaço de entrada) que representa o espaço de variáveis latentes segundo a transformação y(x,W), a qual mapeia pontos x do espaço latente para pontos v no espaço de dados, como ilustrado na Figura 5 para o caso em que o espaço latente reside em R² (L=2) e o espaço de dados, em R³ (D=3).
  3. 3. Como é? Cada ponto do espaço latente (X-espaço, à esquerda) é levado ao espaço de dados (Vespaço, à direita) através de um mapeamento paramétrico não linear y(x,W), o qual define um subespaço S contido no espaço de dados. Cada ponto pertencente a S é resultante da aplicação de y(x,W) sobre um ponto pertencente ao X-espaço. Assim, a transformação y(x,W) leva um ponto xa residente no espaço latente e definido pelas suas coordenadas (x1(a), x2(a)), para um ponto y(xa,W), pertencente ao espaço S e definido por suas coordenadas (v1(a), v2(a), v3(a)) no espaço de dados. A hipótese feita pelo modelo GTM é a de que o comportamento do conjunto de dados no espaço D- dimensional pode de fato ser expresso por um conjunto menor de atributos 2 (as variáveis latentes) através de um mapeamento paramétrico não linear y(x,W). Uma aproximação para esse raciocínio é imaginar que, embora a dimensão do conjunto de entrada possa ser elevada, muitas das variáveis são correlacionadas entre si, resultando num conjunto potencialmente mais simples que pode representar o comportamento dos dados no espaço original (BISHOP, SVENSÉN & WILLIAMS, 1998). Os modelos baseados nesta ideia são chamados modelos de variáveis latentes (BARTHOLOMEW, 1987). O mapeamento realizado pelo GTM utiliza-se normalmente de um modelo de probabilidade baseado em mistura de gaussianas, o qual é adaptado pelo algoritmo EM (Expectation Maximization) (DEMPSTER, LAIRD & RUBIN, 1987; BISHOP, SVENSÉN & WILLIAMS, 1996, 1998; SVENSÉN, 1998).
  4. 4. Características do modelo GTM Capacidade de operar com conjuntos volumosos de dados; Capacidade de operar com dados representados por um grande número de características (alta dimensionalidade) Utilização de aprendizado não supervisionado; Capacidade de realizar projeção de dados, reduzindo assim a dimensionalidade do conjunto de dados Capacidade de realizar redução de dados, diminuindo a quantidade de dados exibidos e pela ferramenta; Possibilidade de avaliação gráfica dos resultados obtidos; Algoritmos relativamente simples e rápidos; Capacidade de generalização dos modelos, de forma a possibilitar a representação de dados não disponíveis no momento do treinamento.
  5. 5. Para que serve?GTM oferece recursos consistentes para análise de dados, onde há variação de dimensionalidade, quantidade e tipo de dados disponíveis (discretos, contínuos, binários etc.).Há uma grande variedade de bancos de dados disponíveis(Glass, Ionosphere, Letter, Zoo) para utilização com o método GTM passíveis de uso em mineração de dados.http://parati.dca.fee.unicamp.br/media/Attachments/course IA368Q1S2012/Monografia/zuchini_mest.pdf (pag 102)
  6. 6. Quem usa / Onde se aplica?A rede de lojas Walmart na década de 90, fez um grande investimento em mineração de dados, com uma pergunta básica: Que produto está relacionado a qual? Uma pessoa que compra cervejas compraria mais o que?”. Investiram em hardware com super processadores para buscar essa informação e com os ferramentas da mineração de dados, descobriram que quem compra cervejas, também comprava fraldas, o perfil da pessoa era: homem com filho pequeno, normalmente o primogênito, com habito de tomar cerveja as sextas-feiras e finais de semana. O Walmart com essa informação fazia promoções na quinta ou sexta feira com esses produtos.Banco Itaú com as malas diretas, através da mineração de dados, eles traçaram o perfil das pessoas que respondiam essas malas diretas e a partir das informações começaram a investir num determinado perfil.Bank of America utilizou a mineração de dados para verificar para quem o banco deveria fornecer crédito/empréstimo e saber qual perfil de usuário é inadimplente, com isso para quem o banco deveria oferecer esse empréstimo.O banco Nossa Caixa, Nosso Banco em 2008 desenvolveu um data mining para detecção de fraudes.Um site de poker que promove partidas online com grandes profissionais suspendeu um jogador, porque o mesmo utilizava a mineração de dados para traçar o perfil dos seus adversários.
  7. 7. Referências Bibliográficashttp://parati.dca.fee.unicamp.br/media/Attachments /courseIA368Q1S2012/Monografia/zuchini_mest.pdfhttp://www.anchieta.br/unianchieta/revistas/ubiquid ade/Site/ubiquidade/pdf/Artigo1.pdfCPBR10 - Software Livre. Oficina: Data Mining Weka (http://youtu.be/sDD8nsZ1fQo)
  8. 8. GTM: Generative Topographic Mapping Élide Matos de Oliveira Fábio Martins da Silva Lidiane Cristina de Moraes Marcelo Henrique Fernandes Ribeiro

×