Clustering na educação com Orange

Inteligência Artiﬁcial
na Educação
Prof. Dr. Seiji Isotani

Nesta aula, aprenderemos alguns
conceitos básicos sobre Clustering e
como usá-los no Orange
Início

Clustering é uma técnica de Mineração de Dados (MD) que
visa encontrar grupos de dados (em um determinado
conjunto de dados) de forma automática, segundo um certo
grau de semelhança. Cada grupo de dados formado pode ser
chamado de cluster.
Clustering

Existem diversos algoritmos de clustering e cada um visa
maximizar a similaridade de dados dentro de um mesmo
cluster e minimizar a similaridade entre dados de clusters
diferentes. Cada algoritmo calcula a silhueta (Silhouette
score) para veriﬁcar a distância entre os elementos no
cluster. Os clusters formados podem então ser validados,
interpretados e analisados por um especialista da área.
Clustering

Neste curso, focaremos no algoritmo K-means por ser um
dos mais difundidos e utilizados. O agrupamento pode ser
utilizado para encontrar padrões em conjuntos de dados e
nos permite explorar diversas características
simultaneamente, diferente das RAs e ABs.
Clustering

Consideramos que o professor Seiji quer saber as
características dos alunos que abandonaram ou continuaram
com o curso de uma determinada turma. Para isso, ele criou
uma planilha com 3 variáveis sendo: Se o aluno tem
computador em casa (Sim / Não), a situação do aluno
(Aprovado / Reprovado) e o status do curso (Continuou /
Abandonou)
Exemplo prático

Considerando isso, como podemos ajudar o professor Seiji a
encontrar as seguintes informações:
Que grupos poderiam ser formados usando o agrupamento?
Exemplo prático

Vamos utilizar o Orange e as funções
k-Means e Visualize para resolver esse
problema
Início

É hora de praticar
Na interface padrão do Orange,
vamos criar um novo workflow
clicando na opção NEW

É hora de praticar
Na interface inicial, cliquem
na opção FILE.

É hora de praticar
O arquivo irá aparecer no
nosso workflow. Ao colocar
o mouse por cima,
podemos verificar que ele
não possui nenhum input.

É hora de praticar
Ao clicar no FILE dentro do
nosso workflow, uma nova
tela irá aparecer onde
iremos abrir o arquivo
desejado (no nosso caso, o
arquivo a ser aberto será o
que está em anexo nos
exemplos ORANGE -
FREQUÊNCIA E
NOTAS.XLSX).

É hora de praticar
Agora vamos abrir a aba
Unsupervised, e chamar o
item k-Means, fazendo a
ligação com o nosso File

É hora de praticar
A função k-Means por
padrão define um número
fixo de clusters como 3,
mas isso pode ser alterado
pelo usuário.

É hora de praticar
Também é possível
escolher a quantidade de
cluster e visualizar, em
tempo real, a silhueta de
cada cluster a fim de
identificar o número de
clusters ideal para serem
analisados.

É hora de praticar
Informação importante sobre a silhueta do cluster:
- Pode variar entre [-1,1] onde:
- -1 significa que os dados estão
incorretos ou errados
- 0 significa sobreposição dos
dados
- 1 significa que os conjuntos estão
bem distintos
Neste exemplo, podemos ver que com 3 clusters a
silhueta já está num valor aceitável para análise
(> 0,6)

É hora de praticar
A visualização dos clusters pode ser
feita de duas formas: textual ou
gráfica. De forma textual, podemos
chamar a função Data Table, onde é
possível visualizar uma tabela
contendo o Cluster e a silhueta
daquele dado.

É hora de praticar
A visualização gráfica pode ser feita
por meio de um Scatter Plot (aba
Visualize)

É hora de praticar
Uma vez que não temos valores
numéricos nos dados que estão
sendo analisados atualmente,
podemos classificar os clusters de
acordo com a silhueta. Também
podemos pintar, modificar a forma e
as legendas com base nos clusters
(Color, Shape, Label), assim como
visualizar o tamanho do cluster
através da sua silhueta.

É hora de praticar
Também é possível fazer uma
análise mais aprofundada, através
de sentenças lógicas através da
função Select Rows, da aba Data.

É hora de praticar
Nesta função, podemos definir
diversas condições lógicas como,
por exemplo, verificar as colunas
onde: Tem computador em casa =
Sim; Situação = Aprovado; e Status
do curso = Continuou (Podemos
adicionar mais condições no botão
Add Condition).

É hora de praticar
Em seguida, fazemos a ligação da
função Select Rows com o Scatter
Plot e...

É hora de praticar
Podemos verificar os grupos e qual o
Cluster, que atende as nossas
condições, está marcado no gráfico

É hora de praticar
A partir disso, o professor Seiji
conseguiu identificar que um grupo
de alunos que abandonou a
disciplina foi reprovado e não tinham
computador em casa e foram
reprovados (C2); enquanto outro
grupo de alunos que continuaram o
curso era formado majoritariamente
por alunos que possuem computador
em casa e foram aprovados (C3)

Com isto, aprendemos como criar e
analisar clusters utilizando o Orange
Início

Clustering na educação com Orange

Clustering na educação com Orange

Recomendados

Recomendados

Mais conteúdo relacionado

Último

Último (20)

Destaque

Destaque (20)

Clustering na educação com Orange