Ferramentas para Mineração de Dados
                                    Manoel de Albuquerque Lira Amaro




quinta-feira, 6 de dezembro de 12
Agenda
                     •      Introdução                      •   Mahout

                     •      Weka                                •   Introdução ao Mahout

                            •       Interface Gráfica        •   Conclusão/Referências

                            •       Arquivos ARFF

                            •       Ferramentas para ARFF

                            •       Exemplos




quinta-feira, 6 de dezembro de 12
Introdução

                     • Softwares:
                      • Weka
                      • Mahout
                     • OpenSource
                     • Utilizados pela academia

quinta-feira, 6 de dezembro de 12
Weka

                         • Software de aprendizagem
                                    de máquina
                                • Pré-processamento
                                • Mineração de Dados
                         • Escrito em JAVA

quinta-feira, 6 de dezembro de 12
Weka
                     • Algoritmos de:
                      • Classificação
                      • Clusterização
                      • Regras de Associação
                     • Permite
                      • Seleção de Atributos
                      • Visualização de Dados
quinta-feira, 6 de dezembro de 12
Interface




quinta-feira, 6 de dezembro de 12
Interface

                     •      Simple CLI

                            •       Command Line
                                    Interface

                            •       Simples e útil

                            •       Para sistemas sem
                                    interface gráfica

                           •        java weka.associations.Appriori -t veiculos.arff



quinta-feira, 6 de dezembro de 12
Explorer




quinta-feira, 6 de dezembro de 12
Entrada de dados



                                        Arquivo ARFF
                                        Por uma URL
                                        Banco de Dados JDBC



quinta-feira, 6 de dezembro de 12
Arquivo ARFF

                     • Arquivo de texto com todos os dados,
                             precedido de um cabeçalho
                            • Semelhante ao CSV
                     • O cabeçalho define a estrutura dos dados
                      • Nome, domínio, tipo, etc.

quinta-feira, 6 de dezembro de 12
Arquivo ARFF

                     •      Cabeçalho




                     •      Dados




quinta-feira, 6 de dezembro de 12
Arquivo ARFF
                     • @relation
                       • nome do arquivo
                     • @attribute [nome] [tipo|{valores}]
                       • Declaração de atributos
                       • Colunas de uma tabela


quinta-feira, 6 de dezembro de 12
Arquivo ARFF

                     • @data
                       • Segue a sequência definida
                                    pelos atributos

                            •       Linhas de uma tabela




quinta-feira, 6 de dezembro de 12
Ferramentas para ARFF

                     • Formato pouco utilizado
                     • Ferramentas para conversão
                      • CSV > ARFF (online)
                                    •   http://slavnik.fe.uni-lj.si/markot/csv2arff/csv2arff.php




quinta-feira, 6 de dezembro de 12
Ferramentas para ARFF

                     •      Programa em JAVA para
                            conversão

                     •      API do Weka

                     •      Fácil adaptação para
                            outras fontes de dados




quinta-feira, 6 de dezembro de 12
Exemplo 1

                     •      ARFF

                            •       Venda de veículos

                            •       Atributos

                                    •   idade, renda, carro




quinta-feira, 6 de dezembro de 12
Exemplo 1
                     • Classificação
                      • Base de dados precisa conter:
                        • Um ou mais atributos preditivos;
                          • Idade e Renda
                        • Um atributo especial, denominado
                                    atributo classe (ou atributo alvo).
                                    • Carro
quinta-feira, 6 de dezembro de 12
Exemplo 1




quinta-feira, 6 de dezembro de 12
Exemplo 1




quinta-feira, 6 de dezembro de 12
Exemplo 1




quinta-feira, 6 de dezembro de 12
Exemplo 1- Resultados




quinta-feira, 6 de dezembro de 12
Exemplo 2

                     •      Dataset de vendas do
                            supermercado

                            •       Carrinho de compras

                            •       Departamentos do
                                    supermercado




quinta-feira, 6 de dezembro de 12
Exemplo 2

                     • Uso de um algoritmo de associação
                     • Descobrir relações entre os
                             departamentos, a partir do histórico de
                             compras dos clientes.




quinta-feira, 6 de dezembro de 12
Exemplo 2




quinta-feira, 6 de dezembro de 12
Weka
                     • Software bem didático
                     • Alguns papers utilizaram para mineração de
                             dados reais
                     • Permite integração a aplicações JAVA via
                             API (não tão simples assim)
                     • Independente de plataforma
                     • Atualizações frequentes
quinta-feira, 6 de dezembro de 12
Apache Mahout

                     • Biblioteca para Aprendizagem de Máquina
                     • Licença OpenSource
                     • Escalável
                     • Paradigma Map/Reduce
                      • Plataforma Hadoop

quinta-feira, 6 de dezembro de 12
Hadoop




quinta-feira, 6 de dezembro de 12
Referências

                     • http://www.cs.waikato.ac.nz/ml/weka/
                     • http://www.metaemotion.com/
                             diego.garcia.morate/download/weka.pdf
                     • http://mahout.apache.org/
                     • http://hadoop.apache.org/

quinta-feira, 6 de dezembro de 12

Ferramentas para Mineração de Dados

  • 1.
    Ferramentas para Mineraçãode Dados Manoel de Albuquerque Lira Amaro quinta-feira, 6 de dezembro de 12
  • 2.
    Agenda • Introdução • Mahout • Weka • Introdução ao Mahout • Interface Gráfica • Conclusão/Referências • Arquivos ARFF • Ferramentas para ARFF • Exemplos quinta-feira, 6 de dezembro de 12
  • 3.
    Introdução • Softwares: • Weka • Mahout • OpenSource • Utilizados pela academia quinta-feira, 6 de dezembro de 12
  • 4.
    Weka • Software de aprendizagem de máquina • Pré-processamento • Mineração de Dados • Escrito em JAVA quinta-feira, 6 de dezembro de 12
  • 5.
    Weka • Algoritmos de: • Classificação • Clusterização • Regras de Associação • Permite • Seleção de Atributos • Visualização de Dados quinta-feira, 6 de dezembro de 12
  • 6.
  • 7.
    Interface • Simple CLI • Command Line Interface • Simples e útil • Para sistemas sem interface gráfica • java weka.associations.Appriori -t veiculos.arff quinta-feira, 6 de dezembro de 12
  • 8.
  • 9.
    Entrada de dados Arquivo ARFF Por uma URL Banco de Dados JDBC quinta-feira, 6 de dezembro de 12
  • 10.
    Arquivo ARFF • Arquivo de texto com todos os dados, precedido de um cabeçalho • Semelhante ao CSV • O cabeçalho define a estrutura dos dados • Nome, domínio, tipo, etc. quinta-feira, 6 de dezembro de 12
  • 11.
    Arquivo ARFF • Cabeçalho • Dados quinta-feira, 6 de dezembro de 12
  • 12.
    Arquivo ARFF • @relation • nome do arquivo • @attribute [nome] [tipo|{valores}] • Declaração de atributos • Colunas de uma tabela quinta-feira, 6 de dezembro de 12
  • 13.
    Arquivo ARFF • @data • Segue a sequência definida pelos atributos • Linhas de uma tabela quinta-feira, 6 de dezembro de 12
  • 14.
    Ferramentas para ARFF • Formato pouco utilizado • Ferramentas para conversão • CSV > ARFF (online) • http://slavnik.fe.uni-lj.si/markot/csv2arff/csv2arff.php quinta-feira, 6 de dezembro de 12
  • 15.
    Ferramentas para ARFF • Programa em JAVA para conversão • API do Weka • Fácil adaptação para outras fontes de dados quinta-feira, 6 de dezembro de 12
  • 16.
    Exemplo 1 • ARFF • Venda de veículos • Atributos • idade, renda, carro quinta-feira, 6 de dezembro de 12
  • 17.
    Exemplo 1 • Classificação • Base de dados precisa conter: • Um ou mais atributos preditivos; • Idade e Renda • Um atributo especial, denominado atributo classe (ou atributo alvo). • Carro quinta-feira, 6 de dezembro de 12
  • 18.
    Exemplo 1 quinta-feira, 6de dezembro de 12
  • 19.
    Exemplo 1 quinta-feira, 6de dezembro de 12
  • 20.
    Exemplo 1 quinta-feira, 6de dezembro de 12
  • 21.
  • 22.
    Exemplo 2 • Dataset de vendas do supermercado • Carrinho de compras • Departamentos do supermercado quinta-feira, 6 de dezembro de 12
  • 23.
    Exemplo 2 • Uso de um algoritmo de associação • Descobrir relações entre os departamentos, a partir do histórico de compras dos clientes. quinta-feira, 6 de dezembro de 12
  • 24.
    Exemplo 2 quinta-feira, 6de dezembro de 12
  • 25.
    Weka • Software bem didático • Alguns papers utilizaram para mineração de dados reais • Permite integração a aplicações JAVA via API (não tão simples assim) • Independente de plataforma • Atualizações frequentes quinta-feira, 6 de dezembro de 12
  • 26.
    Apache Mahout • Biblioteca para Aprendizagem de Máquina • Licença OpenSource • Escalável • Paradigma Map/Reduce • Plataforma Hadoop quinta-feira, 6 de dezembro de 12
  • 27.
  • 28.
    Referências • http://www.cs.waikato.ac.nz/ml/weka/ • http://www.metaemotion.com/ diego.garcia.morate/download/weka.pdf • http://mahout.apache.org/ • http://hadoop.apache.org/ quinta-feira, 6 de dezembro de 12