Weka – Ferramenta Livre para Mineração de Dados
Acadêmico: Rubem Ventura
Agenda
● O que é Weka?
● Introdução
● Vantagens de Weka
● Sistemas Operacionais
● O Livro da Weka
● Alguns Algorítimos
● Formato .ARFF
● Weka Explorer
O que é Weka?
O que é Weka?
Weka é um Software livre do tipo open source
para mineração de dados, desenvolvido em Java,
dentro das especificações da GPL
(General Public License).
Introdução
Desenvolvido por um grupo de pesquisadores da
Universidade de Waikato, Nova Zelândia em 1993.
Sigla WEKA(Waikato Environment for Knowledge
Analysis) criada por Geoff Holmes .
Em 1997, foi tomada a decisão de reconstruir Weka
do zero em Java, incluindo implementações de
algoritmos de modelagem.
Introdução
Em 2005, Weka recebeu o SIGKDD Data Mining e o
prêmio de serviço de descoberta de conhecimento.
Em 2006, Pentaho Corporation adquiriu a licença
exclusiva para usar o Weka para business intelligence.
Forma a mineração de dados e a componente de análise
preditiva da suíte Pentaho de inteligência empresarial.
Versão Atual: 3.7.12
Introdução
Seu ponto forte é a tarefa de classificação, mas também
é capaz de minerar regras de associação e clusters de
dados.
Pode ser utilizada no modo console ou através da
interface gráfica Weka Explorer.
Ao longo dos anos se consolidou como a ferramenta de
data mining mais utilizada em ambiente acadêmico.
Vantagens de Weka
● Software Livre.
● Portabilidade.
● Uma coleção completa de dados de pré-
processamento e técnicas de modelagem.
● Facilidade de utilização com sua interfaces
gráficas de usuário.
Sistemas Operacionais
● Windows x86
● Mac OS X
● Linux
● Link para Download
http://www.cs.waikato.ac.nz/ml/weka/downloading.html
O Livro da Weka
As características da Weka e as
técnicas nela implementadas são
apresentadas no livro “Data Mining:
Practical Machine Learning Tools and
Techniques”.
• Os autores do livro são os
idealizadores da ferramenta.
Alguns Algorítimos
● Aprendizagem de máquina
● Classificação baseados em redes neurais
● Estatística
● Outros
Formato .ARFF
Um arquivo no formato .ARFF é um arquivo de texto puro,
composto de três partes:
● Relação
● Atributos
● Dados
Formato .ARFF
%comentário
@relation pessoa
@attribute sexo {M,F}
@attribute idade real
@attribute doente {sim, não}
@data
M,17,não
F,15,sim
M,25,nao
F,18,nao
M,22,sim
Weka Explorer
Interface gráfica que permite a execução dos algoritmos
de data mining da Weka de forma interativa.
Weka Explorer
Interface
Onde conseguir mais informações?
● http://weka.pentaho.com/
● http://www.cs.waikato.ac.nz/ml/weka/
● Mineração de Dados - Conceitos, Aplicações e Experimentos com Weka
– http://www.lbd.dcc.ufmg.br/colecoes/erirjes/2004/004.pdf
● Sítio da IBM
– Mineração de dados com WEKA, Parte 1: Introdução e regressão
● http://www.ibm.com/developerworks/br/opensource/library/os-weka1/
– Mineração de dados com o WEKA, Parte 2: Classificação e
armazenamento em cluster
● http://www.ibm.com/developerworks/br/opensource/library/os-weka2/
Considerações finais
Weka é uma ferramenta Flexível
● Diversos Algorítimos
● Permite a descoberta de conhecimento tanto via interface com o usuário
quanto embutida na aplicação do desenvolvedor.
● Pode ser utilizada não somente para Data Mining.
Referências
● Weka 3 - Data Mining with Open Source Machine Learning Software in Java
<http://www.cs.waikato.ac.nz/ml/weka/index.html>
Ian H. Witten; Eibe Frank; Mark A. Hall (2011). "Data Mining: Practical
machine learning tools and techniques, 3rd Edition"
Obrigado =)

Weka – Ferramenta Livre para Mineração de Dados

  • 1.
    Weka – FerramentaLivre para Mineração de Dados Acadêmico: Rubem Ventura
  • 2.
    Agenda ● O queé Weka? ● Introdução ● Vantagens de Weka ● Sistemas Operacionais ● O Livro da Weka ● Alguns Algorítimos ● Formato .ARFF ● Weka Explorer
  • 3.
    O que éWeka?
  • 4.
    O que éWeka? Weka é um Software livre do tipo open source para mineração de dados, desenvolvido em Java, dentro das especificações da GPL (General Public License).
  • 5.
    Introdução Desenvolvido por umgrupo de pesquisadores da Universidade de Waikato, Nova Zelândia em 1993. Sigla WEKA(Waikato Environment for Knowledge Analysis) criada por Geoff Holmes . Em 1997, foi tomada a decisão de reconstruir Weka do zero em Java, incluindo implementações de algoritmos de modelagem.
  • 6.
    Introdução Em 2005, Wekarecebeu o SIGKDD Data Mining e o prêmio de serviço de descoberta de conhecimento. Em 2006, Pentaho Corporation adquiriu a licença exclusiva para usar o Weka para business intelligence. Forma a mineração de dados e a componente de análise preditiva da suíte Pentaho de inteligência empresarial. Versão Atual: 3.7.12
  • 7.
    Introdução Seu ponto forteé a tarefa de classificação, mas também é capaz de minerar regras de associação e clusters de dados. Pode ser utilizada no modo console ou através da interface gráfica Weka Explorer. Ao longo dos anos se consolidou como a ferramenta de data mining mais utilizada em ambiente acadêmico.
  • 8.
    Vantagens de Weka ●Software Livre. ● Portabilidade. ● Uma coleção completa de dados de pré- processamento e técnicas de modelagem. ● Facilidade de utilização com sua interfaces gráficas de usuário.
  • 9.
    Sistemas Operacionais ● Windowsx86 ● Mac OS X ● Linux ● Link para Download http://www.cs.waikato.ac.nz/ml/weka/downloading.html
  • 10.
    O Livro daWeka As características da Weka e as técnicas nela implementadas são apresentadas no livro “Data Mining: Practical Machine Learning Tools and Techniques”. • Os autores do livro são os idealizadores da ferramenta.
  • 11.
    Alguns Algorítimos ● Aprendizagemde máquina ● Classificação baseados em redes neurais ● Estatística ● Outros
  • 12.
    Formato .ARFF Um arquivono formato .ARFF é um arquivo de texto puro, composto de três partes: ● Relação ● Atributos ● Dados
  • 13.
    Formato .ARFF %comentário @relation pessoa @attributesexo {M,F} @attribute idade real @attribute doente {sim, não} @data M,17,não F,15,sim M,25,nao F,18,nao M,22,sim
  • 14.
    Weka Explorer Interface gráficaque permite a execução dos algoritmos de data mining da Weka de forma interativa.
  • 15.
  • 16.
    Onde conseguir maisinformações? ● http://weka.pentaho.com/ ● http://www.cs.waikato.ac.nz/ml/weka/ ● Mineração de Dados - Conceitos, Aplicações e Experimentos com Weka – http://www.lbd.dcc.ufmg.br/colecoes/erirjes/2004/004.pdf ● Sítio da IBM – Mineração de dados com WEKA, Parte 1: Introdução e regressão ● http://www.ibm.com/developerworks/br/opensource/library/os-weka1/ – Mineração de dados com o WEKA, Parte 2: Classificação e armazenamento em cluster ● http://www.ibm.com/developerworks/br/opensource/library/os-weka2/
  • 17.
    Considerações finais Weka éuma ferramenta Flexível ● Diversos Algorítimos ● Permite a descoberta de conhecimento tanto via interface com o usuário quanto embutida na aplicação do desenvolvedor. ● Pode ser utilizada não somente para Data Mining.
  • 18.
    Referências ● Weka 3- Data Mining with Open Source Machine Learning Software in Java <http://www.cs.waikato.ac.nz/ml/weka/index.html> Ian H. Witten; Eibe Frank; Mark A. Hall (2011). "Data Mining: Practical machine learning tools and techniques, 3rd Edition"
  • 19.