Este documento apresenta um exemplo prático de clustering usando o programa Orange. O professor Seiji quer analisar os dados de alunos que abandonaram ou continuaram um curso para identificar padrões. Usando a técnica de k-means no Orange, é possível visualizar os clusters formados e analisar que um grupo sem computador e reprovado teve mais evasão, enquanto um com computador e aprovado teve mais continuidade.
4. Nesta aula, aprenderemos alguns
conceitos básicos sobre Clustering e
como usá-los no Orange
Início
5. Clustering é uma técnica de Mineração de Dados (MD) que
visa encontrar grupos de dados (em um determinado
conjunto de dados) de forma automática, segundo um certo
grau de semelhança. Cada grupo de dados formado pode ser
chamado de cluster.
Clustering
6. Existem diversos algoritmos de clustering e cada um visa
maximizar a similaridade de dados dentro de um mesmo
cluster e minimizar a similaridade entre dados de clusters
diferentes. Cada algoritmo calcula a silhueta (Silhouette
score) para verificar a distância entre os elementos no
cluster. Os clusters formados podem então ser validados,
interpretados e analisados por um especialista da área.
Clustering
7. Neste curso, focaremos no algoritmo K-means por ser um
dos mais difundidos e utilizados. O agrupamento pode ser
utilizado para encontrar padrões em conjuntos de dados e
nos permite explorar diversas características
simultaneamente, diferente das RAs e ABs.
Clustering
8. Consideramos que o professor Seiji quer saber as
características dos alunos que abandonaram ou continuaram
com o curso de uma determinada turma. Para isso, ele criou
uma planilha com 3 variáveis sendo: Se o aluno tem
computador em casa (Sim / Não), a situação do aluno
(Aprovado / Reprovado) e o status do curso (Continuou /
Abandonou)
Exemplo prático
9. Considerando isso, como podemos ajudar o professor Seiji a
encontrar as seguintes informações:
Que grupos poderiam ser formados usando o agrupamento?
Exemplo prático
10. Vamos utilizar o Orange e as funções
k-Means e Visualize para resolver esse
problema
Início
11. É hora de praticar
Na interface padrão do Orange,
vamos criar um novo workflow
clicando na opção NEW
12. É hora de praticar
Na interface inicial, cliquem
na opção FILE.
13. É hora de praticar
O arquivo irá aparecer no
nosso workflow. Ao colocar
o mouse por cima,
podemos verificar que ele
não possui nenhum input.
14. É hora de praticar
Ao clicar no FILE dentro do
nosso workflow, uma nova
tela irá aparecer onde
iremos abrir o arquivo
desejado (no nosso caso, o
arquivo a ser aberto será o
que está em anexo nos
exemplos ORANGE -
FREQUÊNCIA E
NOTAS.XLSX).
15. É hora de praticar
Agora vamos abrir a aba
Unsupervised, e chamar o
item k-Means, fazendo a
ligação com o nosso File
16. É hora de praticar
A função k-Means por
padrão define um número
fixo de clusters como 3,
mas isso pode ser alterado
pelo usuário.
17. É hora de praticar
Também é possível
escolher a quantidade de
cluster e visualizar, em
tempo real, a silhueta de
cada cluster a fim de
identificar o número de
clusters ideal para serem
analisados.
18. É hora de praticar
Informação importante sobre a silhueta do cluster:
- Pode variar entre [-1,1] onde:
- -1 significa que os dados estão
incorretos ou errados
- 0 significa sobreposição dos
dados
- 1 significa que os conjuntos estão
bem distintos
Neste exemplo, podemos ver que com 3 clusters a
silhueta já está num valor aceitável para análise
(> 0,6)
19. É hora de praticar
A visualização dos clusters pode ser
feita de duas formas: textual ou
gráfica. De forma textual, podemos
chamar a função Data Table, onde é
possível visualizar uma tabela
contendo o Cluster e a silhueta
daquele dado.
20. É hora de praticar
A visualização gráfica pode ser feita
por meio de um Scatter Plot (aba
Visualize)
21. É hora de praticar
Uma vez que não temos valores
numéricos nos dados que estão
sendo analisados atualmente,
podemos classificar os clusters de
acordo com a silhueta. Também
podemos pintar, modificar a forma e
as legendas com base nos clusters
(Color, Shape, Label), assim como
visualizar o tamanho do cluster
através da sua silhueta.
22. É hora de praticar
Também é possível fazer uma
análise mais aprofundada, através
de sentenças lógicas através da
função Select Rows, da aba Data.
23. É hora de praticar
Nesta função, podemos definir
diversas condições lógicas como,
por exemplo, verificar as colunas
onde: Tem computador em casa =
Sim; Situação = Aprovado; e Status
do curso = Continuou (Podemos
adicionar mais condições no botão
Add Condition).
24. É hora de praticar
Em seguida, fazemos a ligação da
função Select Rows com o Scatter
Plot e...
25. É hora de praticar
Podemos verificar os grupos e qual o
Cluster, que atende as nossas
condições, está marcado no gráfico
26. É hora de praticar
A partir disso, o professor Seiji
conseguiu identificar que um grupo
de alunos que abandonou a
disciplina foi reprovado e não tinham
computador em casa e foram
reprovados (C2); enquanto outro
grupo de alunos que continuaram o
curso era formado majoritariamente
por alunos que possuem computador
em casa e foram aprovados (C3)