Área, dia/mês/ano
Mineração de Dados
com Apache Mahout
P&D – 26/06/2013
by
Fabíola Souza Fernandes Pereira
Área, dia/mês/anoThe Financial Times of London (1996)
Área, dia/mês/anoThe Financial Times of London (1996)
Área, dia/mês/anoThe NY Times (2012)
Área, dia/mês/anoThe NY Times (2012)
Área, dia/mês/anoScience Daily (2009)
Área, dia/mês/anoScience Daily (2009)
Área, dia/mês/ano
Área, dia/mês/ano
Área, dia/mês/ano
Roteiro
Área, dia/mês/ano
O que é Mineração de Dados?
(em 6 slides)
Área, dia/mês/ano
Área, dia/mês/ano
KDD (Knowledge
Discovery on Databases)
Área, dia/mês/ano
Área, dia/mês/ano
“É a transformação de dados em
conhecimento, através da
descoberta de padrões”
Área, dia/mês/ano
1960 1970 1980 1990 2000
Coleção
de
Dados
e
Arm
azenam
ento
SG
BDs
Sistem
as
de
BD
Avançados
M
ineração
...
Área, dia/mês/ano
DM é interdisciplinar
Área, dia/mês/ano
Quais tipos de dados
são minerados?
Área, dia/mês/ano
Bancos de Dados Relacionais
Análise dos dados de
clientes (idade, salário) para
prever o risco de crédit...
Área, dia/mês/ano
Bancos de Dados Espaciais
Descobrir o comportamento
do clima em áreasmontanhosas
Área, dia/mês/ano
Bancos de Dados Temporais
Qual a melhor forma de
renovar o estoque? Quais
produtos para determinada
époc...
Área, dia/mês/ano
Bancos de Dados de Textos
Minerar especificações,
relatórios de erros, tweets,
posts, reviews
Área, dia/mês/ano
Bancos de Dados de Áudio,
Vídeo e Imagens
Segmentação de imagens
Reconhecimento de fala
Área, dia/mês/ano
“É a transformação de dados em
conhecimento, através da
descoberta de padrões”
Texto, áudio, imagem,
rel...
Área, dia/mês/ano
CONHECIMENTO
Meu cliente está ansioso com a vinda da
concorrência.
O Coreo está sendo utilizado para tro...
Área, dia/mês/ano
Roteiro
Área, dia/mês/ano
Data MiningWeb
Social
HTML
Opiniões/Sentimentos
Vídeos
Áudio
Imagens
Streams
Área, dia/mês/ano
BIG DATA MINING
Social
HTML
Opiniões/Sentimentos
Vídeos
Áudio
Imagens
Streams
Área, dia/mês/ano
Roteiro
Área, dia/mês/ano
O que é o Mahout?O que é o Mahout?
Área, dia/mês/ano
Mahout é um software de
“Machine Learning” e
Mineração de Dados
Área, dia/mês/ano
Mahout é um software de
“Machine Learning” e
Mineração de Dados
Área, dia/mês/ano
Mahout é um software de
“Machine Learning” e
Mineração de Dados
Área, dia/mês/ano
Ficha técnica:
 Projeto Apache
 Open Source
 Última versão: 0.7
 API Java
 Diversos exemplos pronto...
Área, dia/mês/ano
Técnicas de Mineração de Dados
RecomendaçãoRecomendação
ClusterizaçãoClusterização
ClassificaçãoClassifi...
Área, dia/mês/ano
RecomendaçãoRecomendação
Área, dia/mês/ano
Recomendação ou Filtro ColaborativoRecomendação ou Filtro Colaborativo
Área, dia/mês/ano
Recomendação ou Filtro ColaborativoRecomendação ou Filtro Colaborativo
Área, dia/mês/ano
ClassificaçãoClassificação
Área, dia/mês/ano
SPAM!!
ClassificaçãoClassificação
Área, dia/mês/ano
SPAM!!
ClassificaçãoClassificação
Área, dia/mês/ano
ClassificaçãoClassificação
Área, dia/mês/ano
ClassificaçãoClassificação
MODELO
Classificador
Amostras
Classificadas Banco de
Testes
MODELO COM REGRAS...
Área, dia/mês/ano
Clusterização ou AgrupamentoClusterização ou Agrupamento
Área, dia/mês/ano
Clusterização ou AgrupamentoClusterização ou Agrupamento
Área, dia/mês/ano
Clusterização ou AgrupamentoClusterização ou Agrupamento
??
Área, dia/mês/ano
$MAHOUT_HOME/bin/mahout wikipediaXMLSplitter -d
$MAHOUT_HOME/examples/temp/enwiki-latest-pages-
articles...
Área, dia/mês/ano
Roteiro
Área, dia/mês/ano
PoC Mahout
 Objetivo: separar textos em SPAM ou NÃO SPAM
 Tipos de dados: texto
 Técnica: classificaç...
Área, dia/mês/ano
Roteiro
Área, dia/mês/ano
Inserir mineração de dados e
machine learning no BI da
empresa
Minerar dados reais
Área, dia/mês/ano
Obrigada
Próximos SlideShares
Carregando em…5
×

Mineração de Dados com Apache Mahout

957 visualizações

Publicada em

Breve introdução ao tema Mineração de Dados e definição da ferramenta Apache Mahout

0 comentários
2 gostaram
Estatísticas
Notas
  • Seja o primeiro a comentar

Sem downloads
Visualizações
Visualizações totais
957
No SlideShare
0
A partir de incorporações
0
Número de incorporações
2
Ações
Compartilhamentos
0
Downloads
103
Comentários
0
Gostaram
2
Incorporações 0
Nenhuma incorporação

Nenhuma nota no slide

Mineração de Dados com Apache Mahout

  1. 1. Área, dia/mês/ano Mineração de Dados com Apache Mahout P&D – 26/06/2013 by Fabíola Souza Fernandes Pereira
  2. 2. Área, dia/mês/anoThe Financial Times of London (1996)
  3. 3. Área, dia/mês/anoThe Financial Times of London (1996)
  4. 4. Área, dia/mês/anoThe NY Times (2012)
  5. 5. Área, dia/mês/anoThe NY Times (2012)
  6. 6. Área, dia/mês/anoScience Daily (2009)
  7. 7. Área, dia/mês/anoScience Daily (2009)
  8. 8. Área, dia/mês/ano
  9. 9. Área, dia/mês/ano
  10. 10. Área, dia/mês/ano Roteiro
  11. 11. Área, dia/mês/ano O que é Mineração de Dados? (em 6 slides)
  12. 12. Área, dia/mês/ano
  13. 13. Área, dia/mês/ano KDD (Knowledge Discovery on Databases)
  14. 14. Área, dia/mês/ano
  15. 15. Área, dia/mês/ano “É a transformação de dados em conhecimento, através da descoberta de padrões”
  16. 16. Área, dia/mês/ano 1960 1970 1980 1990 2000 Coleção de Dados e Arm azenam ento SG BDs Sistem as de BD Avançados M ineração de D ados Nova G eração de Sistem as Integrados Histórico
  17. 17. Área, dia/mês/ano DM é interdisciplinar
  18. 18. Área, dia/mês/ano Quais tipos de dados são minerados?
  19. 19. Área, dia/mês/ano Bancos de Dados Relacionais Análise dos dados de clientes (idade, salário) para prever o risco de crédito para novos clientes
  20. 20. Área, dia/mês/ano Bancos de Dados Espaciais Descobrir o comportamento do clima em áreasmontanhosas
  21. 21. Área, dia/mês/ano Bancos de Dados Temporais Qual a melhor forma de renovar o estoque? Quais produtos para determinada época do ano?
  22. 22. Área, dia/mês/ano Bancos de Dados de Textos Minerar especificações, relatórios de erros, tweets, posts, reviews
  23. 23. Área, dia/mês/ano Bancos de Dados de Áudio, Vídeo e Imagens Segmentação de imagens Reconhecimento de fala
  24. 24. Área, dia/mês/ano “É a transformação de dados em conhecimento, através da descoberta de padrões” Texto, áudio, imagem, relacionais, temporais, espaciais, … Anomalias, grupos, classes, tendências, regras, …
  25. 25. Área, dia/mês/ano CONHECIMENTO Meu cliente está ansioso com a vinda da concorrência. O Coreo está sendo utilizado para trotes. Este cartão de crédito foi clonado.
  26. 26. Área, dia/mês/ano Roteiro
  27. 27. Área, dia/mês/ano Data MiningWeb Social HTML Opiniões/Sentimentos Vídeos Áudio Imagens Streams
  28. 28. Área, dia/mês/ano BIG DATA MINING Social HTML Opiniões/Sentimentos Vídeos Áudio Imagens Streams
  29. 29. Área, dia/mês/ano Roteiro
  30. 30. Área, dia/mês/ano O que é o Mahout?O que é o Mahout?
  31. 31. Área, dia/mês/ano Mahout é um software de “Machine Learning” e Mineração de Dados
  32. 32. Área, dia/mês/ano Mahout é um software de “Machine Learning” e Mineração de Dados
  33. 33. Área, dia/mês/ano Mahout é um software de “Machine Learning” e Mineração de Dados
  34. 34. Área, dia/mês/ano Ficha técnica:  Projeto Apache  Open Source  Última versão: 0.7  API Java  Diversos exemplos prontos  Diversos algoritmos de DM prontos: K-Means, CF, Naïve Bayes, …
  35. 35. Área, dia/mês/ano Técnicas de Mineração de Dados RecomendaçãoRecomendação ClusterizaçãoClusterização ClassificaçãoClassificação
  36. 36. Área, dia/mês/ano RecomendaçãoRecomendação
  37. 37. Área, dia/mês/ano Recomendação ou Filtro ColaborativoRecomendação ou Filtro Colaborativo
  38. 38. Área, dia/mês/ano Recomendação ou Filtro ColaborativoRecomendação ou Filtro Colaborativo
  39. 39. Área, dia/mês/ano ClassificaçãoClassificação
  40. 40. Área, dia/mês/ano SPAM!! ClassificaçãoClassificação
  41. 41. Área, dia/mês/ano SPAM!! ClassificaçãoClassificação
  42. 42. Área, dia/mês/ano ClassificaçãoClassificação
  43. 43. Área, dia/mês/ano ClassificaçãoClassificação MODELO Classificador Amostras Classificadas Banco de Testes MODELO COM REGRAS CONFIÁVEIS
  44. 44. Área, dia/mês/ano Clusterização ou AgrupamentoClusterização ou Agrupamento
  45. 45. Área, dia/mês/ano Clusterização ou AgrupamentoClusterização ou Agrupamento
  46. 46. Área, dia/mês/ano Clusterização ou AgrupamentoClusterização ou Agrupamento ??
  47. 47. Área, dia/mês/ano $MAHOUT_HOME/bin/mahout wikipediaXMLSplitter -d $MAHOUT_HOME/examples/temp/enwiki-latest-pages- articles10.xml -o wikipedia/chunks -c 64 $MAHOUT_HOME/bin/mahout trainclassifier -i wikipediainput -o wikipediamodel $MAHOUT_HOME/bin/mahout testclassifier -m wikipediamodel -d wikipediainput Na prática…
  48. 48. Área, dia/mês/ano Roteiro
  49. 49. Área, dia/mês/ano PoC Mahout  Objetivo: separar textos em SPAM ou NÃO SPAM  Tipos de dados: texto  Técnica: classificação  Algoritmo: Naïve Bayes  Base: 20news group (spamassassin.apache.org/publiccorpus/20021010_spam.tar.bz2)  3050 arquivos
  50. 50. Área, dia/mês/ano Roteiro
  51. 51. Área, dia/mês/ano Inserir mineração de dados e machine learning no BI da empresa Minerar dados reais
  52. 52. Área, dia/mês/ano Obrigada

×