Criando e aplicando modelos de redes neurais e árvores de decisão                                           Danilo Dias1, ...
nominais e com maior número de valores. Existem também alguns valores faltandoem 5% dos exemplos. 44% dos exemplos são pos...
Como podemos constatar analisando nossa tabela e nossos gráficos nosso melhor modelo tem a
seguinte configuração com taxa de aprendizagem(learningRate) 0.1 e épocas(TrainingTime) 100.Nosso melhor modelo apresenta ...
Na execução de nosso conjunto de teste sobre nosso melhor modelo os seguintes resultados sãoencontrados, como podemos obse...
para a relação do número de instancias mínimas nas folhas obtivemos um tamanho de árvore e umataxa de erro associada, cons...
Nosso melhor modelo apresenta os seguintes resultados, como podemos observar: 152 instanciasclassificadas corretamente e 2...
classificadas incorretamente com taxa de erro de 13.9535%, sendo uma taxa inaceitável, pois olimite para o card1 é de 13.3...
Como podemos constatar analisando nossa tabela e nossos gráficos nosso melhor modelo tem aseguinte configuração com taxa d...
Nosso melhor modelo apresenta os seguintes resultados, como podemos observar: 141 instanciasclassificadas corretamente e 3...
18.0233%. Em nossa matriz confusão podemos verificar que tivemos 58 verdadeiros positivos, 15falsos positivos, 16 falsos n...
Ainda para o card2 usamos o algoritmo J4.8, nossa configuração segue a tabela abaixo, sendo quepara a relação do número de...
Nosso melhor modelo apresenta os seguintes resultados, como podemos observar: 143 instanciasclassificadas corretamente e 2...
para o card2 é de 19.24 segundo padrões. Em nossa matriz confusão podemos verificar que tivemos72 verdadeiros positivos, 1...
Como podemos constatar analisando nossa tabela e nossos gráficos nosso melhor modelo tem aseguinte configuração com taxa d...
Nosso melhor modelo apresenta os seguintes resultados, como podemos observar: 144 instanciasclassificadas corretamente e 2...
Ainda para o card3 usamos o algoritmo J4.8, nossa configuração segue a tabela abaixo, sendo quepara a relação do número de...
Como podemos constatar analisando nossa tabela e nosso gráfico, nosso melhor modelo tem aseguinte configuração com número ...
Na execução de nosso conjunto de teste sobre nosso melhor modelo os seguintes resultados sãoencontrados, como podemos obse...
ReferenciasAlan Turing. Computing Machinery and Intelligence , visita em 24 de novembro de 2010.http://www.filewatcher.com...
Criando e aplicando modelos de redes neurais e árvores de decisão
Próximos SlideShares
Carregando em…5
×

Criando e aplicando modelos de redes neurais e árvores de decisão

3.431 visualizações

Publicada em

Este artigo pretende criar modelos de redes neurais e árvores de decisão para problemas reais de nossa sociedade, neste caso usaremos o problema que aborda a análise de credito, problemática relacionada a operadoras de cartões de credito e outras instituições financeiras, os respectivos arquivos usados serão: card1, card2 e card3, da coleção de dados reais Proben1, o simulador usado será o Weka 3.7.

0 comentários
1 gostou
Estatísticas
Notas
  • Seja o primeiro a comentar

Sem downloads
Visualizações
Visualizações totais
3.431
No SlideShare
0
A partir de incorporações
0
Número de incorporações
207
Ações
Compartilhamentos
0
Downloads
100
Comentários
0
Gostaram
1
Incorporações 0
Nenhuma incorporação

Nenhuma nota no slide

Criando e aplicando modelos de redes neurais e árvores de decisão

  1. 1. Criando e aplicando modelos de redes neurais e árvores de decisão Danilo Dias1, Faculdade de Sistemas de Informação – Universidade Federal do Oeste do Pará (UFOPA) Santarém – PA – Brasil ¹danilohdds@gmail.com Abstract. This article aims to build neural network and tree models to real problems of our society, in this case we used the problem that deals with the analysis of credit, problems related to credit card companies and other financial institutions, their files will be used: card1, card2 and Card3, collection Proben1 real data, the simulator will be used Weka 3.7. Resumo. Este artigo pretende criar modelos de redes neurais e árvores de decisão para problemas reais de nossa sociedade, neste caso usaremos o problema que aborda a análise de credito, problemática relacionada a operadoras de cartões de credito e outras instituições financeiras, os respectivos arquivos usados serão: card1, card2 e card3, da coleção de dados reais Proben1, o simulador usado será o Weka 3.7.1. IntroduçãoO uso de tecnologia sempre deve servir para realizar uma função em nossa sociedade, ao longo denossa história vimos surgir diversas formas de tecnologias, uma delas surgiu logo após a segundaguerra mundial, com o artigo "Computing Machinery and Intelligence" do matemático inglês AlanTuring[1] e teve como seus principais idealizadores os cientistas Herbert Simon, Allen Newell, JohnMcCarthy, Warren McCulloch, Walter Pitts e Marvin Minsky, entre outros. O conceito propõe ouso de computadores simulando inteligência humana, baseado nisto surgi o termo InteligenciaArtificial, com o aparecimento de computadores modernos o conceito passou a se tornar umaciência cada vez mais divulgada e usada para resoluções de problemas reais de nossa sociedade.Neste artigo pretendemos usar de conceitos de Inteligencia Artificial em nosso experimento, criaçãode modelos de redes neurais e árvores de decisão, escolhemos a problemática de análise de credito,neste caso vamos realizar uma série de simulações em banco de dados relacionado ao problema,procurando achar modelos mais eficientes com o uso de comparação entre eles. Na segunda partedeste artigo veremos a descrição da problemática em questão, num terceiro momento iremosabordar a metodologia que usaremos no experimento, na quarta etapa deste artigo iremos realizar oexperimento com o uso de ferramenta apropriada, neste caso o Weka 3.7, apresentaremos nossosresultados através de gráficos e tabelas, e por último apresentamos nossas conclusões acerca denosso trabalho.2. Descrição da problemáticaEm nosso caso resolvemos escolher uma aplicação de classificação de padrões do Proben1, que éuma coleção de dados reais disponível na internet através dolink:http://www.filewatcher.com/b/ftp/ftp.cs.cuhk.hk/pub/proben1.0.0.html ,neste diretório podemosencontrar várias bases de dados relacionadas a problemas como: diagnose de problemas do coração- heart; diagnose de diabetes - diabetes; diagnose de câncer da mama - cancer; análise de crédito -card entre outros. Em nosso caso escolhemos a problemática Card, que dispõe sobre a análise decredito, mas especificamente prever a aprovação ou não de um cartão de credito a um cliente, cadaum representa um exemplo real de pedido de cartão de crédito e a saída descreve se o banco (ouinstituição similar)deferiu o cartão de crédito ou não. O significado dos atributos individuais não éexplicada por razões de incidência com 51 entradas, 2 saídas de 690 exemplos. Este conjunto dedados tem uma boa mistura de atributos: contínuo, nominal com um pequeno número de valores
  2. 2. nominais e com maior número de valores. Existem também alguns valores faltandoem 5% dos exemplos. 44% dos exemplos são positivos; entropia 0,99 bits por exemplo.Este conjunto de dados foi criado com base em "dados da análise de crédito " problema conjunto daUCI repositório de bases de dados de aprendizagem de máquina.3. Metodologia usada no experimentoPara nosso trabalho a prática mais aconselhada será investigar um conjunto de topologias da redeMLP e com diferentes valores de parâmetros na solução do problema e criação de árvores dedecisão com o algoritmo J4.8 , usaremos o simulador Weka 3.7 para este experimento. Iremos pegarnossa base com 690 linhas de dados pra cada Card e a quebraremos em 50% para treinamento, 25%para validação e 25% para testes, após esta etapa faremos o uso de tabelas e gráficos para análise denossas configurações, elegeremos então o nosso melhor modelo, ou seja nossa melhor configuraçãoresultada da execução de nosso arquivo de validação sobre nosso arquivo de treinamento, isso seráfeito para os dois algoritmos. Só então faremos a validação de nosso melhor modelo através daexecução de nosso conjunto de teste usando nosso melhor exemplar, ao final iremos efetuar acomparação entre nosso melhor modelo de rede neural com o de árvore de decisão.4. Simulações e resultadosEm nossa simulação usamos o Weka 3.7, para o nosso problema fizemos a separação do conjuntode dados para o card1, card2 e card3, para cada um deles configuramos três arquivos:treinamento.arff com 345 linhas de dados, validacao.arff com 173 e teste.arff com 172.4.1 Card1Para o card1 usamos o algoritmo MultlayerPerceptron, camada escondida "a" e finalizamos nossaconfiguração segundo a tabela abaixo, sendo que para a relação época/tempo de aprendizagemobtivemos uma taxa de erro associada, consideremos esta taxa em porcentagem(% de erro).Épocas Temp. Ap. 0.1 Temp. Ap. 0.2 Temp. Ap. 0.3 Temp. Ap. 0.4100 9.8266 13.8728 12.1387 12.1387200 15.0289 12.7168 15.0289 15.0289300 15.6069 12.7168 15.0289 16.185400 16.763 15.0289 14.4509 16.185500 17.9191 18.4971 12.7168 16.185600 16.763 17.341 13.8728 15.6069700 17.341 16.763 15.0289 15.0289800 17.341 16.763 15.6069 14.4509900 16.185 16.763 15.0289 14.45091000 16.185 16.763 15.0289 13.8728Em relação aos respectivos tempos de aprendizagem obtivemos os seguintes gráficos.
  3. 3. Como podemos constatar analisando nossa tabela e nossos gráficos nosso melhor modelo tem a
  4. 4. seguinte configuração com taxa de aprendizagem(learningRate) 0.1 e épocas(TrainingTime) 100.Nosso melhor modelo apresenta os seguintes resultados, como podemos observar: 156 instanciasclassificadas corretamente e 17 instancias classificadas incorretamente com taxa de erro de9.8266%. Em nossa matriz confusão podemos verificar que tivemos 87 verdadeiros positivos, 11falsos positivos, 6 falsos negativos e 69 verdadeiros negativos.
  5. 5. Na execução de nosso conjunto de teste sobre nosso melhor modelo os seguintes resultados sãoencontrados, como podemos observar: 150 instancias classificadas corretamente e 22 instanciasclassificadas incorretamente com taxa de erro de 12.7907%, sendo uma taxa aceitável, pois o limitepara o card1 é de 13.37 segundo padrões. Em nossa matriz confusão podemos verificar que tivemos79 verdadeiros positivos, 13 falsos positivos, 9 falsos negativos e 71 verdadeiros negativos.Ainda para o card1 usamos o algoritmo J4.8, nossa configuração segue a tabela abaixo, sendo que
  6. 6. para a relação do número de instancias mínimas nas folhas obtivemos um tamanho de árvore e umataxa de erro associada, consideremos esta taxa em porcentagem(% de erro).Card1Mínimo de instancias nas Tamanho da árvore Erro associadofolhas1 43 13.87282 39 12.13873 35 14.45094 27 12.71685 21 12.1387Em relação aos respectivos números mínimos de instancias nas folhas obtivemos o seguinte gráfico.Como podemos constatar analisando nossa tabela e nosso gráfico, nosso melhor modelo tem aseguinte configuração com número mínimo de instancias por folha igual a 5.
  7. 7. Nosso melhor modelo apresenta os seguintes resultados, como podemos observar: 152 instanciasclassificadas corretamente e 21 instancias classificadas incorretamente com taxa de erro de12.1387%. Em nossa matriz confusão podemos verificar que tivemos 85 verdadeiros positivos, 13falsos positivos, 8 falsos negativos e 67 verdadeiros negativos.Na execução de nosso conjunto de teste sobre nosso melhor modelo os seguintes resultados sãoencontrados, como podemos observar: 148 instancias classificadas corretamente e 24 instancias
  8. 8. classificadas incorretamente com taxa de erro de 13.9535%, sendo uma taxa inaceitável, pois olimite para o card1 é de 13.37 segundo padrões. Em nossa matriz confusão podemos verificar quetivemos 79 verdadeiros positivos, 13 falsos positivos, 11 falsos negativos e 69 verdadeirosnegativos. Sendo assim, nosso melhor modelo continua sendo o de redes neurais para o Card1.4.2 Card2Para o card2 usamos o algoritmo MultlayerPerceptron, camada escondida "a" e finalizamos nossaconfiguração segundo a tabela abaixo, sendo que para a relação época/tempo de aprendizagemobtivemos uma taxa de erro associada, consideremos esta taxa em porcentagem(% de erro).Épocas Temp. Ap. 0.1 Temp. Ap. 0.2 Temp. Ap. 0.3 Temp. Ap. 0.4100 20.3488 19.7674 21.5116 18.0233200 20.9302 20.9302 21.5116 19.7674300 21.5116 22.6744 22.093 18.6047400 20.9302 22.6744 20.3488 19.7674500 19.7674 23.2558 20.3488 19.186600 20.3488 22.6744 20.9302 19.7674700 20.3488 22.6744 20.9302 20.3488800 20.3488 22.093 20.9302 21.5116900 20.3488 21.5116 20.9302 23.25581000 20.3488 22.093 20.9302 23.2558Em relação aos respectivos tempos de aprendizagem obtivemos os seguintes gráficos.
  9. 9. Como podemos constatar analisando nossa tabela e nossos gráficos nosso melhor modelo tem aseguinte configuração com taxa de aprendizagem(learningRate) 0.4 e épocas(TrainingTime) 100.
  10. 10. Nosso melhor modelo apresenta os seguintes resultados, como podemos observar: 141 instanciasclassificadas corretamente e 31 instancias classificadas incorretamente com taxa de erro de
  11. 11. 18.0233%. Em nossa matriz confusão podemos verificar que tivemos 58 verdadeiros positivos, 15falsos positivos, 16 falsos negativos e 83 verdadeiros negativos.Na execução de nosso conjunto de teste sobre nosso melhor modelo os seguintes resultados sãoencontrados, como podemos observar: 149 instancias classificadas corretamente e 24 instanciasclassificadas incorretamente com taxa de erro de 13.8728%, sendo uma taxa aceitável, pois o limitepara o card2 é de 19.24 segundo padrões. Em nossa matriz confusão podemos verificar que tivemos72 verdadeiros positivos, 15 falsos positivos, 9 falsos negativos e 77 verdadeiros negativos.
  12. 12. Ainda para o card2 usamos o algoritmo J4.8, nossa configuração segue a tabela abaixo, sendo quepara a relação do número de instancias mínimas nas folhas obtivemos um tamanho de árvore e umataxa de erro associada, consideremos esta taxa em porcentagem(% de erro).Card2Mínimo de instancias nas Tamanho da árvore Erro associadofolhas1 45 16.86052 27 18.60473 15 19.1864 11 19.1865 9 19.186Em relação aos respectivos números mínimos de instancias nas folhas obtivemos o seguinte gráfico.Como podemos constatar analisando nossa tabela e nosso gráfico, nosso melhor modelo tem aseguinte configuração com número mínimo de instancias por folha igual a 1.
  13. 13. Nosso melhor modelo apresenta os seguintes resultados, como podemos observar: 143 instanciasclassificadas corretamente e 29 instancias classificadas incorretamente com taxa de erro de16.8605%. Em nossa matriz confusão podemos verificar que tivemos 59 verdadeiros positivos, 14falsos positivos, 15 falsos negativos e 84 verdadeiros negativos.Na execução de nosso conjunto de teste sobre nosso melhor modelo os seguintes resultados sãoencontrados, como podemos observar: 152 instancias classificadas corretamente e 21 instanciasclassificadas incorretamente com taxa de erro de 12.1387%, sendo uma taxa aceitável, pois o limite
  14. 14. para o card2 é de 19.24 segundo padrões. Em nossa matriz confusão podemos verificar que tivemos72 verdadeiros positivos, 15 falsos positivos, 6 falsos negativos e 80 verdadeiros negativos. Sendoassim, nosso melhor modelo é o de árvore de decisão para o Card2.4.3 Card3Para o card3 usamos o algoritmo MultlayerPerceptron, camada escondida "t" e finalizamos nossaconfiguração segundo a tabela abaixo, sendo que para a relação época/tempo de aprendizagemobtivemos uma taxa de erro associada, consideremos esta taxa em porcentagem(% de erro).Épocas Temp. Ap. 0.1 Temp. Ap. 0.2 Temp. Ap. 0.3 Temp. Ap. 0.4100 19.186 19.7674 19.186 22.093200 19.7674 19.186 19.7674 21.5116300 20.3488 18.0233 18.0233 21.5116400 19.186 16.2791 16.2791 22.093500 18.0233 16.8605 18.0233 23.2558600 17.4419 17.4419 18.6047 21.5116700 17.4419 16.8605 19.186 20.9302800 17.4419 18.0233 20.9302 20.9302900 17.4419 18.0233 20.3488 21.51161000 18.0233 18.0233 22.093 22.093Em relação aos respectivos tempos de aprendizagem obtivemos os seguintes gráficos.
  15. 15. Como podemos constatar analisando nossa tabela e nossos gráficos nosso melhor modelo tem aseguinte configuração com taxa de aprendizagem(learningRate) 0.2 e épocas(TrainingTime) 400.
  16. 16. Nosso melhor modelo apresenta os seguintes resultados, como podemos observar: 144 instanciasclassificadas corretamente e 28 instancias classificadas incorretamente com taxa de erro de16.2791%. Em nossa matriz confusão podemos verificar que tivemos 62 verdadeiros positivos, 17falsos positivos, 11 falsos negativos e 82 verdadeiros negativos.Na execução de nosso conjunto de teste sobre nosso melhor modelo os seguintes resultados sãoencontrados, como podemos observar: 152 instancias classificadas corretamente e 21 instanciasclassificadas incorretamente com taxa de erro de 12.1387%, sendo uma taxa aceitável, pois o limitepara o card3 é de 14.42 segundo padrões. Em nossa matriz confusão podemos verificar que tivemos67 verdadeiros positivos, 9 falsos positivos, 12 falsos negativos e 85 verdadeiros negativos.
  17. 17. Ainda para o card3 usamos o algoritmo J4.8, nossa configuração segue a tabela abaixo, sendo quepara a relação do número de instancias mínimas nas folhas obtivemos um tamanho de árvore e umataxa de erro associada, consideremos esta taxa em porcentagem(% de erro).Card3Mínimo de instancias nas Tamanho da árvore Erro associadofolhas1 47 18.60472 39 18.02333 25 19.1864 29 17.44195 21 18.0233Em relação aos respectivos números mínimos de instancias nas folhas obtivemos o seguinte gráfico.
  18. 18. Como podemos constatar analisando nossa tabela e nosso gráfico, nosso melhor modelo tem aseguinte configuração com número mínimo de instancias por folha igual a 4.Nosso melhor modelo apresenta os seguintes resultados, como podemos observar: 142 instanciasclassificadas corretamente e 30 instancias classificadas incorretamente com taxa de erro de17.4419%. Em nossa matriz confusão podemos verificar que tivemos 63 verdadeiros positivos, 16falsos positivos, 14 falsos negativos e 79 verdadeiros negativos.
  19. 19. Na execução de nosso conjunto de teste sobre nosso melhor modelo os seguintes resultados sãoencontrados, como podemos observar: 156 instancias classificadas corretamente e 17 instanciasclassificadas incorretamente com taxa de erro de 9.8266%, sendo uma taxa aceitável, pois o limitepara o card3 é de 14.42 segundo padrões. Em nossa matriz confusão podemos verificar que tivemos69 verdadeiros positivos, 7 falsos positivos, 10 falsos negativos e 87 verdadeiros negativos. Sendoassim, nosso melhor modelo é o de árvore de decisão para o Card3.5. ConclusãoEm nosso trabalho abordamos a problemática de classificação de padrões, escolhemos o problemade análise de credito para executarmos nosso experimento, sendo que usamos as técnicas deInteligencia Artificial para resolvermos a identificação de quem estaria apto a receber credito ou nãoatravés da criação de redes neurais e árvores de decisão, desenvolvemos nossa metodologia e aaplicamos ao nosso problema com o uso da ferramenta Weka 3.7, criamos nossos modelos, geramostabelas e gráficos para efetuarmos análise e por fim elegemos nosso melhor modelo para o card1,card2 e card3 e executamos nossos aquivos de teste sobre os modelos eleitos e depois comparamosnossos resultados, conseguindo validar nossos modelos segundo os padrões de erro para cada card,enfim obtivemos sucesso em nosso experimento, portanto este trabalho nos incentiva a continuarestudando IA e seus incríveis métodos e conceitos usados para a resolução de problemas reais denossa sociedade.
  20. 20. ReferenciasAlan Turing. Computing Machinery and Intelligence , visita em 24 de novembro de 2010.http://www.filewatcher.com/b/ftp/ftp.cs.cuhk.hk/pub/proben1.0.0.html, visita em 8 de novembrode 2010.http://www.cs.waikato.ac.nz/ml/weka/, visita em 9 de novembro de 2010.Prechelt, Lutz, Proben1 A Set of Neural Network Benchmark Problems and Benchmarking Rules,September 30, 1994.

×