Clustering

293 visualizações

Publicada em

Apresentação feita em 29/03/2010 sobre o tema Clustering.

Publicada em: Tecnologia
  • Seja o primeiro a comentar

Clustering

  1. 1. Clustering “Uma técnica de Data Mining para agrupamentos de dados segundo seu grau de semelhança.” - Wikipedia Fernando Machado fm@fmachado.com http://twitter.com/fmachado
  2. 2. Agenda • Por que este tema? • Data Mining – Exemplos de casos reais – Processo de descoberta de conhecimento (KDD) • Clustering – Algoritmo K-means
  3. 3. Por que Clustering? • Primeiros contatos – 1999 a 2002 • Extração de notícias da web – Versões até 2002 • Supervisão humana permanente • Manutenção constante • Alta taxa de erros • Falhas na arquitetura
  4. 4. Por que Clustering? • Extração de notícias da web – Versão 2009 - ... • Supervisão humana mínima – Exceto no início onde houve treinamento • Manutenção mínima – Infraestrutura • Taxa de erros < 5% – Inteligência Artificial básica • Escalável e alto desempenho – Horizontal e vertical – Seach-engine alta performance
  5. 5. www.guianews.com.br em 02/dez/2000
  6. 6. www.guianews.com.br em 19/mar/2010
  7. 7. Afinal, o que é e para que serve Clustering?
  8. 8. Afinal, o que é e para que serve Clustering Data Mining?
  9. 9. Data Mining É o processo de descoberta automática de informações úteis em grandes depósitos de dados.
  10. 10. Data Mining Grandes depósitos de dados? Quão grande são esses depósitos?
  11. 11. Data Mining Yahoo! Groups 40 TB de dados para indexar
  12. 12. Data Mining Possui aproximadamente 19 PB de dados transferidos através de sua rede a cada dia
  13. 13. 1 petabyte = 1.024 terabytes 19 petabytes = 19.456 terabytes
  14. 14. Data Mining • Em maio de 2009, o Brasil chegou à 157.501.813 acessos no Serviço Móvel Pessoal (...). • A Vivo ainda lidera o mercado com 29,38% de participação (...). • Como a Vivo faz para identificar tendências ou o comportamento de seus ~45.675.525 clientes?
  15. 15. Data Mining • Atua sobre grandes bancos de dados; • Visa descobrir padrões úteis e recentes; • Envolve estatística e algoritmos sofisticados;
  16. 16. Data Mining – Padrões? • Esta é uma compra fraudulenta? • Que tipo de produto devo oferecer para este cliente? • Como as mudanças nas sequências do DNA de um indivíduo afetam o risco do desenvolvimento de novas doenças?
  17. 17. Data Mining • Data mining é uma parte integral da descoberta de conhecimento em banco de dados (KDD); • KDD Knowledge Discovery in Database – Processo geral de conversão de dados brutos em informações úteis.
  18. 18. Afinal, o que é e para que serve Clustering?
  19. 19. Clustering • Uma técnica de Data Mining para agrupamentos de dados segundo seu grau de semelhança. • Você consegue identificar visualmente agrupamentos?
  20. 20. Clustering
  21. 21. Clustering
  22. 22. Clustering
  23. 23. Clustering
  24. 24. Clustering • Em Data Mining, uma das atividades obrigatórias é o pré-processamento. • Verificação dos dados: – Ignorar registros errados? • É possível alguém ter filhos aos 10 anos de idade? • É possível que ela esteja trabalhando nesta empresa? – Que valores adotar quando um atributo não estiver preenchido?
  25. 25. Clustering
  26. 26. Visualmente é fácil? Vamos ver usando matemática...

×