Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Weka Framework
1. Weka - Um framework para
Mineração de Dados
fé
GMF Café
22/04/2009
Fábio de Sousa Leal 1
GMF/DSC/CEEI/UFCG
2. Apresentação da palestra
• Introdução a KDD e Data Mining
• Weka
• ARFF
• Explorer
• Preprocess
• Classify
• Associate
• Visualize
• Experimenter
• Knowledge Flow
• Simple CLI
GMF - Café Fábio de Sousa Leal 2
25/04/2009 GMF/DSC/CEEI/UFCG
3. KDD – Knowledge Discovery in
Databases
• Definição:
• “KDD é todo o processo de transformação de dados
puros em informação valiosa.”
Introduction to Data Mining
Tan,Steinbach, Kumar.
Input Data Data Information
Postprocessing
Data Preprocessing Mining
Processo de KDD
GMF - Café Fábio de Sousa Leal 3
25/04/2009 GMF/DSC/CEEI/UFCG
4. KDD – Knowledge Discovery in
Databases
GMF - Café Fábio de Sousa Leal 4
25/04/2009 GMF/DSC/CEEI/UFCG
5. Data Mining
• Data Mining é uma parte integral da KDD.
• Data Mining != Information retrieval
• Definições:
• “É o processo de descoberta automática de
informações úteis em grandes repositórios de dados.”
Introduction to Data Mining
Tan,Steinbach, Kumar.
• “Mineração de Dados é uma tecnologia capaz de descobrir
padrões de informação ‘escondidos’ em um BD”
Marcus Sampaio – Professor da
disciplina de Mineração de Dados
da UFCG – 2008.2
GMF - Café Fábio de Sousa Leal 5
25/04/2009 GMF/DSC/CEEI/UFCG
6. Aplicações de Data Mining
• Comércio e Indústria
• Biologia
…Em quase todas
• Física
as áreas da ciência
podemos perceber
• Química alguma aplicação
de DM.
• Medicina
• GMF
GMF - Café Fábio de Sousa Leal 6
25/04/2009 GMF/DSC/CEEI/UFCG
7. Data Mining
IA
Aprendizagem de
Máquina
Reconhecimento
Data de padrões
Mining
Computação
BD’s Paralela e
Distribuída
GMF - Café Fábio de Sousa Leal 7
25/04/2009 GMF/DSC/CEEI/UFCG
8. Weka
• Ferramenta para mineração de dados/aprendizagem de
máquina escrita em Java (Multiplataforma)
• Usada para pesquisas, educação e aplicações
• É descrita detalhadamente no livro “Data Mining” de
Witten & Frank.
• Boa documentação (JavaDoc)
• Várias versões
GMF - Café Fábio de Sousa Leal 8
25/04/2009 GMF/DSC/CEEI/UFCG
9. Formatos de dados no Weka
• Vários formatos aceitos:
• .arff
• .csv
• .bsi
• .names
• Formato padrão: .ARFF
GMF - Café Fábio de Sousa Leal 9
25/04/2009 GMF/DSC/CEEI/UFCG
10. ARFF
• Exemplo de arquivo ARFF:
@RELATION GmfExample
#Os comentarios sao escritos assim
@ATTRIBUTE idade numeric
@ATTRIBUTE classe {graduando, mestrando, doutorando,professor titular, professor adjunto}
@ATTRIBUTE sexo {masculino,feminino}
@ATTRIBUTE remuneracao numeric
#Comentarios podem vir em qualquer parte do ARFF.
@DATA
18,graduando,masculino,300
20,graduando,feminino,450
24,mestrando,feminino,1500
28,doutorando,masculino,3000
35,”professor titular”,masculino,12000
GMF - Café Fábio de Sousa Leal 10
25/04/2009 GMF/DSC/CEEI/UFCG
12. Weka – Simple CLI
• Simple CLI: Simple Command Line Interpreter
• Muitos parâmetros nas chamadas dos algoritmos.
• Tudo é feito manualmente, via linha de comando.
• Ferramenta útil, pois “adaptamos” o algoritmo para
trabalhar da melhor maneira para cada caso.
GMF - Café Fábio de Sousa Leal 12
25/04/2009 GMF/DSC/CEEI/UFCG
13. Weka - Explorer
• Módulo Principal do programa.
• Possibilidade de importar os dados via URL ou de um BD SQL
(através do JDBC).
• As ferramentas para pré-processamento são chamadas “filters”.
• Filtros Disponíveis:
• Discretização
• Normalização
• Seleção de atributos específicos
• Combinação de atributos
• Além de vários outros
GMF - Café Fábio de Sousa Leal 13
25/04/2009 GMF/DSC/CEEI/UFCG