UNIVERSIDADE FEDERAL DO VALE DO SÃO FRANCISCO
Engenharia da Computação
Docente: Rosalvo Neto
Equipe: Raymundo Saraiva
Tall...
Especificação do projeto e critérios de avaliação
1- Explicação do Problema (O que é? Quais são as variáveis?) (...
A primeira etapa consistiu-se no pré-processamento dos dados, assim, os missing values
foram eliminados através do próprio...
Figura 1: Gráfico Taxa de Aprendizado pela Área sob a Curva
Figura 2: Maior área atingida
2.2- KNN -> Número de vizinhos ...
medida discriminativa da eficácia do teste KNN em classificar pacientes com ou sem cancer de
mama. A maior área foi verifi...
de 66%, os valores apresentam a mesma configuração quanto LR, TT e HL. Os resultados
encontrados foram similares, mas o CV...
Figura5: KNN com Cross Validation
Note que o cross validation foi menos eficaz ao classificar os casos de cancer de mama
u...
Referências
http://research.ijcaonline.org/volume101/number10/pxc3897611.pdf
http://www.csie.ntu.edu.tw/~p88012/AI-final.p...
Cancer de mama usando Weka e MLP/KNN
Cancer de mama usando Weka e MLP/KNN
Próximos SlideShares
Carregando em…5
×

Cancer de mama usando Weka e MLP/KNN

421 visualizações

Publicada em

Cancer de mama usando Weka e MLP/KNN, Holdout and cross validation

Publicada em: Software
0 comentários
0 gostaram
Estatísticas
Notas
  • Seja o primeiro a comentar

  • Seja a primeira pessoa a gostar disto

Sem downloads
Visualizações
Visualizações totais
421
No SlideShare
0
A partir de incorporações
0
Número de incorporações
5
Ações
Compartilhamentos
0
Downloads
7
Comentários
0
Gostaram
0
Incorporações 0
Nenhuma incorporação

Nenhuma nota no slide

Cancer de mama usando Weka e MLP/KNN

  1. 1. UNIVERSIDADE FEDERAL DO VALE DO SÃO FRANCISCO Engenharia da Computação Docente: Rosalvo Neto Equipe: Raymundo Saraiva Talles Nascimento Thaminne Felix Simulação WEKA- Câncer de mama Conclusão Atualmente, a segunda maior causa de morte entre as mulheres é o cancer de mama, perdendo apenas para o cancer de pulmao. Muitos experimentos usando mineração de dados e aprendizado de máquina são realizados em conjuntos de dados médicos com múltiplos classificadores e técnicas de seleção de recursos. O uso de mineração de dados na medicina está aumentando devido à melhora na eficiência das abordagens dos sistemas de classificação e previsão. Para cada caso e grupo de dados deve-se encontrar o melhor classificador e sua melhor configuração, o que não é uma tarefa fácil, pois deve-se simular as várias situações possíveis para encontrar um valor de melhor precisão. Algo que merece atenção logo de início são os missing values. Se eles não forem tratados, a simulação pode sofrer uma variação perceptível. Por exemplo, no KNN com Cross- validation e K=1, com missing values AUC_ROC = 0.628, tratando os missing values AUC_ROC = 0,621. Os dados então devem ser tratados no início de qualquer conjunto de simulações. Nessa simulação foram utilizados dois classificadores, O MLP (Multi Layer Perceptron) e o KNN (K-Nearest Neighbors), ambos com o houldout de 66% e o Cross-validation com 10 folds. Com o auxílio da matriz de confusão, ferramenta usada para descrever a precisão dos classificadores ou a quantidade de previsões corretas, algumas observações são tomadas. Primeiramente, nota-se que a melhor precisão é obtida usando-se o KNN com Cross-validation para K=8 (melhor configuração) com 73.7762%, apesar dele possuir a menor área na curva ROC dentre as melhores configurações para os outros classificadores (ROC = 0.664), como por exemplo o MLP com holdout que possui a maior área na curva ROC dentre todos os outros (ROC = 0.719). Isso mostra que para esse caso e esse conjunto de dados, o classificador KNN usando Cross-validation é superior. Contudo os algoritmos usados, MLP e KNN não obtiveram uma taxa de precisão alta, dificultando a confiança nesses métodos e nas configurações apresentadas. Talvez, essa taxa de precisão tenha sido baixa pelo pequeno tamanho da amostra utilizada para treinamento.
  2. 2. Especificação do projeto e critérios de avaliação 1- Explicação do Problema (O que é? Quais são as variáveis?) (1,0 ponto) A segunda maior causa de morte entre as mulheres é o cancer de mama, perdendo apenas para o cancer de pulmao. O uso de mineração de dados na medicina está aumentando devido à melhora na eficiência das abordagens dos sistemas de classificação e previsão. Além da importância em ajudar os médicos a tomarem decisões, encontrar maneiras para melhorar o quadro do paciente, diminuir custos com tratamento e aprimorar os estudos clinicos. Esse conjunto de dados de cancer de mama é um conjunto de aprendizado de máquina padrão. Ele contém 10 atributos que descrevem os casos de 286 mulheres que tiveram cancer de mama e sobreviveram. Dentre estas, em 85 delas o cancer retornou dentro de 5 anos. Variável Descrição Age Idade do paciente em anos Menopaus e Período na vida em que a mulher cessa a mensturação Tumor- size Tamanho do tumor na mama inv-nodes Tamanho do nódulo na parte principal de mama Node- caps Presença ou não do nódulo no seio Deg- malig Estágio do cancer Brest Indica em qual mama o cancer está se desenvolvendo Breast quad Porção do seio com cancer: central, inferior/superior direita/esquerda Irradiate Presença ou ausência de cancer class Cancer recorrente ou não recorrente 2- Influência dos parâmetros 2.1- RNA: Taxa de aprendizado. Utilizar 10 taxas com holdout. Avaliar AUC_ROC. (1,5 pontos)
  3. 3. A primeira etapa consistiu-se no pré-processamento dos dados, assim, os missing values foram eliminados através do próprio software WEKA. A segunda parte foi a seleção do RNA para avaliar a amostra, fixou-se então os valores de HL (hidden layers - camadas ocultas) igual a 1, TT (training time - tempo de treinamento) de 100 e holdout de 66%. Iniciou-se, então, a etapa de tentativa e erro para encontrar o LR (learning rate - taxa de aprendizado) com a maior área. Percebeu-se que os valores eram consideravelmente próximos, variando na segunda casa decimal apenas. O LR foi variado de 0,1 a 1,0. Os resultados mantiveram bem próximos, sem anormalidades visíveis, a maior área encontrada, foi de 0,719 com LR de 0,7. Concluiu-se assim, que os valores não trabalham com proporcionalidade, pois a maior taxa estava ao redor dos valores médios de LR. Para melhor vizualização dos resultados e ainda na busca de um padrão, outras simulações foram feitas com diferentes TT e variando o LR. Os resultados são mostrados abaixo em forma de tabela (Tabela 1) e gráficos (Figura 1 e 2). Tabela 1: Testes com HL = 1 variando o tempo de treinamento (TT)
  4. 4. Figura 1: Gráfico Taxa de Aprendizado pela Área sob a Curva Figura 2: Maior área atingida 2.2- KNN -> Número de vizinhos - K. Utilizar 10 valores de K com holdout. Avaliar AUC_ROC. (1,5 pontos) A área sobre a curva ROC resultante da classificação k-Nearest Neighbors algorithm - KNN com Holdout 66% da amostra para treinamento foi analisada para diferentes valores de k, que representa o número de elementos “próximos” a serem comparados. A área ROC é uma
  5. 5. medida discriminativa da eficácia do teste KNN em classificar pacientes com ou sem cancer de mama. A maior área foi verificada para k = 1 na qual cada novo indivíduo do treinamento é comparado com aquele com maior valor dentre as caracteristicas similares, isto é, idade (age), menopausa (menopause), etc. Este novo elemento terá o mesmo diagnóstico que seu “vizinho” mais próximo. Assim, a classificação foi mais eficaz para k = 1. Os resultados obtidos experimentalmente estão dispostos na tabela abaixo. K 1 2 3 4 5 6 7 8 9 10 AUC_RO C 0.678 0.652 0.651 0.659 0.652 0.656 0.643 0.632 0.644 0.662 Tabela 2: KNN com Holdout 66% Figura 3: KNN com Holdout 3- Diferença da estimativas do erro 3.1 - Para a melhor configuração da RNA, avaliar a AUC_ROC com holdout e cross validation 10. (1,5 pontos) Com as simulações da questão anterior foi possível entender que os parâmetros não obedecem uma lógica visível. O intuito agora é verificar se a melhor configuração se aplica para os dois métodos. O primeiro passo foi escolher os maiores valores de área da configuração passada e aplicá-las com o Cross Validation (CV) de 10. Os valores são mostrados nas figuras a seguir. A figura 5 mostra o gráfico da área encontrada com o CV fixado pela área com holdout
  6. 6. de 66%, os valores apresentam a mesma configuração quanto LR, TT e HL. Os resultados encontrados foram similares, mas o CV não auxiliou no crescimento da curva, provando o método da questão anterior mais aceitável. Tabela 3: Área do Cross Validation dos melhores resultados da questão anterior (2.1) Figura 4: Gráfico Área com CV por Área RNA 3.2 - Para a melhor configuração do KNN, avaliar a AUC_ROC com holdout e cross validation 10. (1,5 pontos) A área AUC_ROC decorrente do classificação KNN mais uma vez foi analisada, mas com técnica de cross validation com 9 partições para treinamento e 1 para teste. Os valores obtidos estão listados abaixo. K 1 2 3 4 5 6 7 8 9 10 AUC_RO C 0.621 0.647 0.644 0.657 0.663 0.656 0.659 0.664 0.655 0.663 Tabela 4: KNN com Cross validation
  7. 7. Figura5: KNN com Cross Validation Note que o cross validation foi menos eficaz ao classificar os casos de cancer de mama utilizando o KNN do que com o Holdout. Mesmo 90% da amostra sendo a base de treinamento, o índice pessoas diagnosticadas corretamente foi menor. Para a melhor configuração com holdout o valor da área ROC foi de 0.678, k = 1, enquanto que com cross validation 0.664, k = 8
  8. 8. Referências http://research.ijcaonline.org/volume101/number10/pxc3897611.pdf http://www.csie.ntu.edu.tw/~p88012/AI-final.pdf http://ijcit.com/archives/volume1/issue1/Paper010105.pdf McLachlan, Geoffrey J.; Do, Kim-Anh; Ambroise, Christophe (2004). Analyzing microarray gene expression data. Wiley.

×