2. A base de dados
Nome: Breast Cancer
Fonte: Instituto de Oncologia, Iuguslávia.
Objetivo: Mostrar pacientes com câncer de mama que
possuem ou não, recorrência de sintomas após o tratamento.
286 instâncias e nove atributos.
2 / 21
3. Class: Não-Recorrência ou Recorrência de sintomas do câncer
de mama nos pacientes após o tratamento.
age: Idade do paciente no momento do diagnóstico.
menopause: Estado de menopausa do paciente no momento
do diagnóstico.
tumor-size: O tamanho do tumor em milímetros.
inv-nodes: Faixa de 0 a 39 linfonodos auxiliares, que mostram
o câncer de mama no momento do exame histológico.
nodes-cap: A penetração do tumor na cápsula do linfonodo
ou não.
3 / 21
4. deg-malign: Faixa de grau 1 a 3, que define o grau
histológico do tumor, o nível de malignidade do tumor.
breast: O câncer poder ocorrer em qualquer mama.
breast-quad: Se for considerado o mamilo como um ponto
central, a mama pode ser dividida em quatro quadrantes.
irradiat: Se o paciente possui ou não histórico de terapia de
radiação (raio-x).
4 / 21
10. J48
minNumObj = 2 e fator de confiança = 0.3
214 classificadas corretamente e 72 incorretamente.
Figura : Árvore gerada pela ferramenta Weka após a execução do J48.
10 / 21
11. Seja c: fator de confiança e f (c) qualidade da classificação.
Hipótese: limc→0 f (c) = 75.52. A ferramenta Weka não
permitiu valores muito pequenos para c.
69 70 71 72 73 74 75 76
0
0.2
0.4
0.6
quantidade de instâncias corretamente classificadas (%)
valordoconfidencefactor
11 / 21
13. Figura : Desempenho local dos classificadores em relação a classe
no-recurrence-events
13 / 21
14. Regras de Associação
Abordagem Apriori
1o Teste: Modelo Suporte/Confiança
supMin=0.5 Confiança=0.9
1. R1: inv − nodes = 0 − 2, irradiat = no,
Class = no − recurrence − events ⇒ node − caps = no
confiança:(0.99)
2. R2: inv − nodes = 0 − 2, irradiat = no ⇒ node − caps = no
confiança:(0.97)
3. R3: node − caps = no, irradiat = no,
Class = no − recurrence − events ⇒ inv − nodes = 0 − 2
confiança:(0.96)
Obs.: Dificuldade de extrair classe como consequente.
Confiança=0.5
14 / 21
15. Lift
1. R4: inv − nodes = 0 − 2 ⇒ node − caps = no, irradiat = no
conf:(0.83) lift:(1.26)
2. R5: node − caps = no, irradiat = no ⇒ inv − nodes = 0 − 2
conf:(0.94) lift:(1.26)
3. R6: node − caps = no ⇒ inv − nodes = 0 − 2, irradiat = no
conf:(0.8) lift:(1.25)
Lift > 1
Da regra R4: os itens inv − nodes = 0 − 2 e
node − caps = no, irradiat = no possuem dependência
positiva (o suporte real da regra é 1.26 vezes maior que o
suporte esperado).
15 / 21
16. Leverage, Conviction
leverage: 0 a 0.25, Conviction: min=0.9
1. R7: inv − nodes = 0 − 2 ⇒ node − caps = no, irradiat = no
conf:(0.83) lift:(1.26) < lev:(0.13)> conv:(1.97)
2. R8: node − caps = no, irradiat = no ⇒ inv − nodes = 0 − 2
conf:(0.94) lift:(1.26) < lev:(0.13)> conv:(4)
3. R9: inv − nodes = 0 − 2 ⇒ node − caps = no conf:(0.94)
lift:(1.22) <lev:(0.12)> conv:(3.67)
Dependência mais frequente: inv − nodes = 0 − 2 e
node − caps = no
R7=R4, R8=R5 e a regra R9 tomou a posição que era de R6
16 / 21
17. Clusterização: SimpleKmeans
Número de clusters (K=2).
Distância Euclidiana. (Distância de Manhattan não alterou os
resultados)
Alguns atributos não distinguiram bem os clusters
17 / 21
18. 1 1.5 2 2.5 3 3.5 4
80
100
120
140
160
valor do parâmetro K
instânciasincorretamenteclusterizadas
Figura : Qualidade da clusterização em função da variância do K.
Conclusão: Execuções com K=2 clusterizam pior que K=2. A
medida que se aproxima de K=2, a clusterização melhora. 18 / 21
19. DBSCAN
Após alguns testes, o melhor valor para epsilon foi 1.5
1a Conclusão Parcial: A medida que se incrementa o
minPoints, menos instâncias são clusterizadas incorretamente.
2 3 4 5 6 7
50
60
70
80
valor do minPoints
instânciasincorretamenteclusterizadas
19 / 21
20. 2a Conclusão Parcial: Menos instâncias foram clusterizadas
2 3 4 5 6 7
10
20
30
40
50
60
valor do minPoints
instânciasnãoclusterizadas
Figura : Instâncias não clusterizadas com epsilon fixo em 1.5.
20 / 21
21. DBSCAN: Conclusão Final
1. A clusterização realmente melhora com o incremento dos
minPoints?
2. o Método garante a qualidade das clusterizadas e não
clusteriza outras?
21 / 21