PGDay Campinas 2013 - Mineração de Dados com MADlib

619 visualizações

Publicada em

"Mineração de Dados com MADlib"

O estudo de caso sobre o uso da biblioteca Madlib abordará técnicas para minerar dados no próprio PostgreSQL. Esta poderosa ferramenta possibilita a implementação de métodos matemáticos, estatísticos e machine learning; recursos que elevam o PostgreSQL a outro patamar nas aplicações modernas.

O Madlib é uma biblioteca open-source de funções analíticas para o PostgreSQL e Greenplum. Esta poderosa ferramenta possibilita a implementação de métodos matemáticos, estatísticos e machine learning no banco de dados. Durante a palestra vamos apresentar as principais técnicas de aprendizado de máquina e como elas podem ser utilizadas para realizar mineração de dados em ambientes de Business Intelligence (BI). Utilizaremos o MADlib para demonstrar as técnicas de mineração de dados.


PALESTRANTE
Everton Gago é engenheiro de software na Dextra e leciona nos cursos de graduação e pós-graduação em engenharia, na Faculdade Anhanguera. Possui ampla experiência no desenvolvimento de sistemas baseados em machine learning e atualmente pesquisa modelos matemáticos e físicos capazes de reproduzir artificialmente aspéctos biológicos para aprendizado de máquina. Em seu último estudo, Everton propôs um modelo de Rede Neural Artificial capaz de analisar grandes volumes de dados de forma autônoma e evolutiva. Everton é Doutorando e Mestre em Engenharia Elétrica pela Unicamp (FEEC).

--
Palestra apresentada no PGDay Campinas 2013

Publicada em: Software
0 comentários
0 gostaram
Estatísticas
Notas
  • Seja o primeiro a comentar

  • Seja a primeira pessoa a gostar disto

Sem downloads
Visualizações
Visualizações totais
619
No SlideShare
0
A partir de incorporações
0
Número de incorporações
4
Ações
Compartilhamentos
0
Downloads
3
Comentários
0
Gostaram
0
Incorporações 0
Nenhuma incorporação

Nenhuma nota no slide

PGDay Campinas 2013 - Mineração de Dados com MADlib

  1. 1. Everton Gago - Doutorando e Mestre em Eng. Elétrica – UNICAMP; - Eng. de Software – Dextra; - Pesquiso novos métodos numéricos e analíticos para aprendizado de máquina.
  2. 2. MINERAÇÃO DE DADOS COM MADLIB Everton Gago
  3. 3. Por que minerar?
  4. 4. O que minerar?
  5. 5. Padrão associativo
  6. 6. Ex Padrão Associativo: 1:{Pão, Leite, Manteiga, Macarrão, Cebola} 2:{Cenoura, Manteiga, Tomate, Leite, Pão} 3:{Feijão, Leite, Laranja, Pão, Manteiga} ...
  7. 7. Ex Padrão Associativo: 1:{Pão, Leite, Manteiga, Macarrão, Cebola} 2:{Cenoura, Manteiga, Tomate, Leite, Pão} 3:{Feijão, Leite, Laranja, Pão, Manteiga} ...
  8. 8. Padrão sequencial
  9. 9. Agrupamentos
  10. 10. Ex Agrupamento: - Clientes de uma empresa de telefonia
  11. 11. Predição/ classificação
  12. 12. Ex Predição / Classificação: - Classificar indícios de fraude (Receita Federal); - Predição de vendas;
  13. 13. Técnicas??? Muitas!
  14. 14. Apriori
  15. 15. Ex de utilização com MADlib: SELECT * FROM assoc_rules(.25, .5,  'benef_social', 'combinado',  'habitacional','public', true); SELECT * FROM assoc_rules;
  16. 16. K-Means
  17. 17. Ex de utilização com MADlib: ALTER TABLE cadastro_social ADD COLUMN row_id  SERIAL; CREATE TABLE input_points AS SELECT  row_id,array[genero,raca,freq_escola,grau_instrucao, deficiente,benef_social,reg_cidade]::float8[] AS  points FROM cadastro_social; SELECT * FROM kmeanspp('input_points','points',  11,'squared_dist_norm2','avg', 100, 0.00000);
  18. 18. Regressão Logística
  19. 19. Ex de utilização com MADlib: CREATE TABLE cadsocial_convertido (     benef_social text,     grau_instrucao text,     reg_cidade text,     benef_socialnr numeric,     grau_instrucaonr numeric,     reg_cidadenr numeric,     prioritario boolean ); SELECT * FROM  logregr_train('conjunto_treinamento','conhecimento', 'prioritario','caracteristicas');
  20. 20. Qual utilizar? Pode combinar?
  21. 21. Fácil aplicar?
  22. 22. Não sem uma boa ferramenta!
  23. 23. MADLIB
  24. 24. Requisitos: ­ Instalação PostgreSQL com PL/Python ­ Cmake ­ M4 ­ Python Setup Tools ­ apt­get install cmake m4 python­setuptools ­ pgxn install madlib ­ createdb pgday_cps ­ pgday_cps#= CREATE EXTENSION plpythonu; ­ pgday_cps#= CREATE EXTENSION madlib;
  25. 25. Dados gerais: ­ Versão mais recente: 1.2 ­ Projeto open source ­  Desenvolvido  por  pesquisadores  da  Universidade  de  Berkeley  e  cientistas  de  dados do Greenplum (EMC) ­ Plataforma 64 bits ­ Suporte para: ­ Greenplum 4.1, 4.2  ­ PostgreSQL 9.0, 9.1, 9.2
  26. 26. O que achamos do MADLIB?
  27. 27. - Fácil de usar; - Eficiente e tem bom desempenho; - Facilita processamento paralelo; - Mas.... Precisa de algumas melhorias para as apresentações;
  28. 28. Comunidade Acadêmica: - Cohen, J et al. MAD Skills: New Analysis Practices for Big Data. VLDB, France, 2009. - Dernoncourt, F et al. Machine Learning Algorithms for In- Databases Analytics. Spring 2013. - Hellerstein, J. M et al. The MADlib Analytics Library. Technical Report, Electrical Engineering and Computer Sciences University of California at Berkeley. 2012.
  29. 29. Exemplo...
  30. 30. Ex de utilização com MADlib: SELECT * FROM assoc_rules(.25, .5,  'benef_social', 'combinado',  'habitacional','public', true); SELECT * FROM assoc_rules;
  31. 31. Obrigado!
  32. 32. Contatos: - Everton Gago <everton.gago@dextra-sw.com> - Matheus Espanhol <matheus.espanhol@dextra-sw.com> Mais informações: madlib.net

×