Métodos de clustering para dados intervalares e do tipo histograma
1. Métodos de clustering para dados intervalares e
do tipo histograma
Anderson Berg
absd@cin.ufpe.br
Anderson Berg Métodos de clustering para dados do tipo histograma 1 / 63
2. Introdução
Índice
1 Introdução
2 Dynamic Cluster Algorithm
3 Dois novos métodos de clustering
4 Unsupervised pattern recognition models
5 Medida de Wasserstein
Anderson Berg Métodos de clustering para dados do tipo histograma 2 / 63
3. Introdução
Introdução
• Duas abordagens de clustering baseadas no algoritmo DCA -
Dynamic Cluster Algorithm
• Primeira abordagem:
Protótipos descritos por vetores de intervalos
Dissimilaridade baseada na distância de Hausdorff
• Segunda abordagem:
Protótipos e objetos descritos de maneiras diferentes
Função matching
Anderson Berg Métodos de clustering para dados do tipo histograma 3 / 63
4. Introdução
Notações
• E = {1, ..., s, ..., n} conjunto de n objetos descritos por p variáveis
intervalares Y1 , ..., Yj , ..., Yp
1 p
• xs = (xs , ..., xs ) vetor de intervalos que descrevem o objeto s
• P = (C1 , ..., Ci , ..., Ck ) uma partição em k clusters de E
• Gi = (gi1 , ..., gij , ..., gip ) um protótipo do cluster Ci
• Λ uma representação do espaço do protótipo Gi
Anderson Berg Métodos de clustering para dados do tipo histograma 4 / 63
5. Dynamic Cluster Algorithm
Índice
1 Introdução
2 Dynamic Cluster Algorithm
3 Dois novos métodos de clustering
4 Unsupervised pattern recognition models
5 Medida de Wasserstein
Anderson Berg Métodos de clustering para dados do tipo histograma 5 / 63
6. Dynamic Cluster Algorithm
Objetivo
Encontrar uma partição P ∗ = (C1 , ..., Ck ) de E em k clusters
não-vazios e um vetor L∗ = (G1 , ..., Gi , ...Gk ) tal que P ∗ e L∗ otimizem
o critério:
∆(P ∗ , L∗ ) = Min{∆(P, L)/P ∈ Pk , L ∈ Λk }
Anderson Berg Métodos de clustering para dados do tipo histograma 6 / 63
7. Dynamic Cluster Algorithm
Objetivo
Encontrar uma partição P ∗ = (C1 , ..., Ck ) de E em k clusters
não-vazios e um vetor L∗ = (G1 , ..., Gi , ...Gk ) tal que P ∗ e L∗ otimizem
o critério:
∆(P ∗ , L∗ ) = Min{∆(P, L)/P ∈ Pk , L ∈ Λk }
k
∆(P, L) = D(xs , Gi )
i=1 s∈Ci
Anderson Berg Métodos de clustering para dados do tipo histograma 6 / 63
8. Dynamic Cluster Algorithm
Algoritmo
1 Inicialização: Inicia de uma partição aleatória
P = (C1 , ..., Ci , ..., Ck ) ou de um vetor (G1 , ..., Gi , ..., Gk ) de k
protótipos aleatórios escolhidos entre os elementos de E. Neste
caso:
Ci = ∅ para i = 1, ..., k
Para s = 1 até n faça:
Atribua s ao cluster Cl , l = argmini=1,...,k D(xs , Gi )
Cl = Cl ∪ {s}
Anderson Berg Métodos de clustering para dados do tipo histograma 7 / 63
9. Dynamic Cluster Algorithm
Algoritmo
2 Etapa de representação: i = 1 até k , obter o protótipo Gi que
minimiza o critério:
fCi (G) = D(xs , G), G ∈ Λ
s∈Ci
3 Etapa de alocação:
test ← 0
para s = 1 até n faça:
Encontre o cluster Cm ao qual s pertence
Encontre o índice l tal que: l = argmini=1,...,k D(xs , Gi )
Se l = m:
test ← 1
Cl = Cl ∪ {s} e Cm = Cm − {s}
4 Se test = 0 pare, senão vá para 2
Anderson Berg Métodos de clustering para dados do tipo histograma 8 / 63
10. Dois novos métodos de clustering O primeiro método O segundo método Interpretação
Índice
1 Introdução
2 Dynamic Cluster Algorithm
3 Dois novos métodos de clustering
O primeiro método
O segundo método
Interpretação
4 Unsupervised pattern recognition models
5 Medida de Wasserstein
Anderson Berg Métodos de clustering para dados do tipo histograma 9 / 63
11. Dois novos métodos de clustering O primeiro método O segundo método Interpretação
O primeiro método
• Compara dois vetores de intervalos x1 e x2
• Comparação baseada na distância de Hausdorff
• É usada a soma das distâncias de Hausdorff entre intervalos
Anderson Berg Métodos de clustering para dados do tipo histograma 10 / 63
12. Dois novos métodos de clustering O primeiro método O segundo método Interpretação
Definição da distância de Hausdorff
• Frequentemente utilizada em processamento de imagem
• Usada para comparar dois conjuntos de objetos A e B
j j j
• A distância de Hausdorff entre dois intervalos x1 = [a1 , b1 ] e
j j j
x2 = [a2 , b2 ] :
j j j j j j
dH (x1 , x2 ) = max(|a1 − a2 )|, |b1 − b2 |)
Anderson Berg Métodos de clustering para dados do tipo histograma 11 / 63
13. Dois novos métodos de clustering O primeiro método O segundo método Interpretação
Definição da distância de Hausdorff
• Frequentemente utilizada em processamento de imagem
• Usada para comparar dois conjuntos de objetos A e B
j j j
• A distância de Hausdorff entre dois intervalos x1 = [a1 , b1 ] e
j j j
x2 = [a2 , b2 ] :
j j j j j j
dH (x1 , x2 ) = max(|a1 − a2 )|, |b1 − b2 |)
A distância d1 entre dois vetores de intervalos x1 e x2 é a soma das p
variáveis das distâncias de Hausdorff entre os intervalos:
p j j j j
d1 (x1 , x2 ) = j=1 max(|a1 − a2 |, |b1 − b2 |)
Anderson Berg Métodos de clustering para dados do tipo histograma 11 / 63
14. Dois novos métodos de clustering O primeiro método O segundo método Interpretação
O protótipo
O protótipo G = (g 1 , ..., g p ) de um cluster C é um vetor de p intervalos
que minimizam o critério de adequação:
p
j
fC (G) = d1 (xs , G) = dH (xs , g j )
s∈C s∈C j=1
Ou:
f˜ (g j )
C
p
j
fC (G) = dH (xs , g j )
j=1 s∈C
Anderson Berg Métodos de clustering para dados do tipo histograma 12 / 63
15. Dois novos métodos de clustering O primeiro método O segundo método Interpretação
O protótipo
o problema agora é encontrar o intervalo g j = [αj , β j ] para (j = 1, ..., p)
que minimiza:
j j j
f˜ (g j ) =
C dH (xs , g j ) = max(|αj − as |, |β j − bs |)
s∈C s∈C
Anderson Berg Métodos de clustering para dados do tipo histograma 13 / 63
16. Dois novos métodos de clustering O primeiro método O segundo método Interpretação
O protótipo
Vamos resolver o problema da minimização transformando em dois
j
problemas de minimização bem conhecidos. Seja ms o ponto médio
j j j j
de um intervalo xs = [as , bs ] e ls metade do seu tamanho:
j j j j
j as + bs j bs − as
ms = e ls =
2 2
e seja µj e λj o ponto médio e a metade do tamanho do intervalo
g j = [αj , β j ], respectivamente.
De acordo com a seguinte propriedade definida para
x e y em :
max(|x − y |, |x + y |) = |x| + |y |
Anderson Berg Métodos de clustering para dados do tipo histograma 14 / 63
17. Dois novos métodos de clustering O primeiro método O segundo método Interpretação
O protótipo
j j j j
f˜ (g j ) =
C max(|(µj − λj ) − (ms − ls )|, |(µj + λj ) − (ms + ls )|)
s∈C
j j
= |µj − ms | + |λj − ls |
s∈C s∈C
Anderson Berg Métodos de clustering para dados do tipo histograma 15 / 63
18. Dois novos métodos de clustering O primeiro método O segundo método Interpretação
O protótipo
Isto leva a dois problemas de minimização bem conhecidos: encontrar
µj ∈ e λj ∈ que minimizam, respectivamente:
j j
|µj − ms | e |λj − ls |
s∈C s∈C
ˆ j
• µj : a mediana de {ms , s ∈ C}, que são os pontos médios dos
j j j
intervalos xs = [as , bs ], s ∈ C
ˆ
• λj : a mediana do conjunto {l j , s ∈ C} s
ˆ ˆ ˆ ˆ ˆ ˆ ˆ
• g j = [αj , β j ] o intervalo [µj − λj , µj + λj ]
• G = (g 1 , ..., g p ): o protótipo de C
ˆ ˆ
Anderson Berg Métodos de clustering para dados do tipo histograma 16 / 63
19. Dois novos métodos de clustering O primeiro método O segundo método Interpretação
O segundo método
j j j j
• Compara duas duplas p1 = (x1 , q1 ) e p2 = (x2 , q2 )
j j
• q1 e q2 são pesos associados a x1 e x2
j j
• Uma etapa de pré-processamento discretiza x1 e x2 em intervalos
elementares
Anderson Berg Métodos de clustering para dados do tipo histograma 17 / 63
20. Dois novos métodos de clustering O primeiro método O segundo método Interpretação
Pré-processamento
j j j
• xs é discretizado para obter intervalos elementares {I1 , ..., IHj } e
j
seus pesos correspondentes qs
j j j
• A partir de um conjunto {x1 , ..., xs , ..., xn } de n intervalos outro
j j j
conjunto de Hj intervalos disjuntos {I1 , ..., Ih , ..., IHj } é formado
• Ordena-se o conjunto de limites inferiores e superiores dos n
j j j
intervalos {x1 , ..., xs , ..., xn } para obter os intervalos elementares
j
• Os intervalos elementares Ih devem obedecer as seguintes
propriedades:
Anderson Berg Métodos de clustering para dados do tipo histograma 18 / 63
21. Dois novos métodos de clustering O primeiro método O segundo método Interpretação
Pré-processamento
j j j
• xs é discretizado para obter intervalos elementares {I1 , ..., IHj } e
j
seus pesos correspondentes qs
j j j
• A partir de um conjunto {x1 , ..., xs , ..., xn } de n intervalos outro
j j j
conjunto de Hj intervalos disjuntos {I1 , ..., Ih , ..., IHj } é formado
• Ordena-se o conjunto de limites inferiores e superiores dos n
j j j
intervalos {x1 , ..., xs , ..., xn } para obter os intervalos elementares
j
• Os intervalos elementares Ih devem obedecer as seguintes
propriedades:
Hj j j n
i) h=1 Ih = s=1 xs
j j
ii) Ih ∩ Ih = ∅ se h = h
j j j j
iii) ∀s ∈ E, ∀h Ih ⊆ xs ou Ih ∩ xs = ∅
j j j j j j j j j
iv) ∀s ∈ E, ∃Ss ⊂ {I1 , ..., IHj } : I j ∈S j Ih = xs e ∀Ih ∈ Ss , Ih ⊆ xs
h s
Anderson Berg Métodos de clustering para dados do tipo histograma 18 / 63
22. Dois novos métodos de clustering O primeiro método O segundo método Interpretação
Pré-processamento
j j j j
Ss = {Ih : Ih ⊆ xs } é um subconjunto de intervalos elementares
A Função peso qs é definida como:
j
qs : Ss → [0, 1]
j
j j j |Ih |
Ih ∈ Ss → qs (Ih ) = j j
bs − as
j j
|Ih | é o tamanho do intervalo Ih
j j j
∀Ih ∈ Ss , qs (Ih ) ≥ 0
j
j j qs (I ) = 1
h I ∈S
s h
Anderson Berg Métodos de clustering para dados do tipo histograma 19 / 63
23. Dois novos métodos de clustering O primeiro método O segundo método Interpretação
Construção de intervalos elementares
Anderson Berg Métodos de clustering para dados do tipo histograma 20 / 63
24. Dois novos métodos de clustering O primeiro método O segundo método Interpretação
Definição da dissimilaridade de "dois componentes"
j j j j
Duas duplas p1 = (x1 , q1 ) e p2 = (x2 , q2 ) são comparadas por:
j j j j
d2c (p1 , p2 ) = dci (x1 , x2 ) + dcd (q1 , q2 )
Anderson Berg Métodos de clustering para dados do tipo histograma 21 / 63
25. Dois novos métodos de clustering O primeiro método O segundo método Interpretação
O primeiro componente
j j j j j j
Dissimilaridade dci entre dois intervalos x1 = [a1 , b1 ] e x2 = [a2 , b2 ]:
j j ¯j ¯j j j
|(x1 ∩ x2 ) ∩ (x1 ⊕ x2 )|
dci (x1 , x2 ) = j j
|x1 ⊕ x2 |
onde:
• |.| o tamanho de um intervalo
j j j j j j
• x1 ⊕ x2 = [min(a1 , a2 ), max(b1 , b2 )]
¯j j j j
• xs =] − ∞, as [∪]bs , +∞[ o conjunto complementar de xs em
Anderson Berg Métodos de clustering para dados do tipo histograma 22 / 63
26. Dois novos métodos de clustering O primeiro método O segundo método Interpretação
O primeiro componente
Alternativamente:
j j j j
|min(b1 ,b2 )−max(a1 ,a2 )| j j
se x1 ∩ x2 = ∅
j j j j j j
dci (x1 , x2 ) = max(b1 ,b2 )−min(a1 ,a2 )
0 senão
Anderson Berg Métodos de clustering para dados do tipo histograma 23 / 63
27. Dois novos métodos de clustering O primeiro método O segundo método Interpretação
O segundo componente
Dissimilaridade dcd entre duas funções peso:
1 j j
dcd (q1 , q2 ) = ( q1 (Ih ) + q2 (Ih ))
2 j j j j j j j j j j
{Ih :Ih ∈S1 ,Ih ∈S2 }
/ {Ih :Ih ∈S2 ,Ih ∈S1 }
/
j j j j
0 ≤ dcd ≤ 1, com dcd = 0 se x1 = x2 e dcd = 1 se x1 ∩ x2 = ∅
Anderson Berg Métodos de clustering para dados do tipo histograma 24 / 63
28. Dois novos métodos de clustering O primeiro método O segundo método Interpretação
O segundo componente
Dissimilaridade dcd entre duas funções peso:
1 j j
dcd (q1 , q2 ) = ( q1 (Ih ) + q2 (Ih ))
2 j j j j j j j j j j
{Ih :Ih ∈S1 ,Ih ∈S2 }
/ {Ih :Ih ∈S2 ,Ih ∈S1 }
/
j j j j
0 ≤ dcd ≤ 1, com dcd = 0 se x1 = x2 e dcd = 1 se x1 ∩ x2 = ∅
p p
j j j j
d2 (p1 , p2 ) = d2c (p1 , p2 ) = (dci (x1 , x2 ) + dcd (q1 , q2 ))
j=1 j=1
Anderson Berg Métodos de clustering para dados do tipo histograma 24 / 63
29. Dois novos métodos de clustering O primeiro método O segundo método Interpretação
O protótipo
O protótipo G de um cluster C é agora um vetor de p duplas (Γj , q):
j j
(a) Γj = [mins∈C as , maxs∈C bs ] é um intervalo que generaliza os
j j j
intervalos xs = [as , bs ] para s ∈ C;
j
(b) Γj = xs : s ∈ C é um conjunto de intervalos
1 j
q= card(C) {h,s:Ih ∈Ss
j
e s∈C} qs (Ih )
0, senão
Anderson Berg Métodos de clustering para dados do tipo histograma 25 / 63
30. Dois novos métodos de clustering O primeiro método O segundo método Interpretação
O protótipo
Como a definição (b) de Γj não é um intervalo
∗ j ¯j
|(xs ∩ ( ¯j j
s ∈C xs )) ∩ (xs ⊕ ( s ∈C
j
xs ))|
dci (xs , Γj ) = j j
|xs ⊕ ( s ∈C xs )|
j j j j j j
xs ⊕ ( s ∈C xs ) = [min(as , mins ∈C as ), max(bs , maxs ∈C bs )]
Anderson Berg Métodos de clustering para dados do tipo histograma 26 / 63
31. Dois novos métodos de clustering O primeiro método O segundo método Interpretação
O protótipo
Como a definição (b) de Γj não é um intervalo
∗ j ¯j
|(xs ∩ ( ¯j j
s ∈C xs )) ∩ (xs ⊕ ( s ∈C
j
xs ))|
dci (xs , Γj ) = j j
|xs ⊕ ( s ∈C xs )|
j j j j j j
xs ⊕ ( s ∈C xs ) = [min(as , mins ∈C as ), max(bs , maxs ∈C bs )]
p
∗ ∗ j
d2 (ps , G) = (dci (xs , Γj ) + dcd (qs , q))
j=1
Anderson Berg Métodos de clustering para dados do tipo histograma 26 / 63
32. Dois novos métodos de clustering O primeiro método O segundo método Interpretação
O algoritmo
a) Inicialização: Inicia de uma partição aleatória P = (C1 , ..., Ci , ..., Ck )
b) Etapa de alocação:
test ← 0
para s = 1 até n faça:
Encontre o cluster Cm ao qual s pertence
Se card(Cm ) = 1 para l = 1, ..., k e l = m
calcula novos protótipos Gm de Cm − {s} e Gl de Cl ∪ {s}
calcula o critério ∆l = k i=1
∗
s ∈Ci D(ps ,Gi ) onde D = d2 ou d2
Encontre o cluster Cl · tal que
l ∗ = argminl=1,...,k ∆l
Se l ∗ = m move s para Cl ·
test ← 1
Cl · = Cl · ∪{s} e Cm = Cm − {s}
c) se test = 0 então pare, senão vá para b)
Anderson Berg Métodos de clustering para dados do tipo histograma 27 / 63
33. Dois novos métodos de clustering O primeiro método O segundo método Interpretação
Interpretação
n k k
2 2
d (xs , G) = d (xs , Gi ) + ni d 2 (Gi , G)
s=1 i=1 s∈Ci i=1
TSS WSS BSS
• d a distância Euclidiana quadrada
• G a média dos n pontos xs ∈ E
• Gi a média dos pontos xs ∈ Ci
• ni = card(Ci )
Anderson Berg Métodos de clustering para dados do tipo histograma 28 / 63
34. Dois novos métodos de clustering O primeiro método O segundo método Interpretação
Interpretação
A média G de um cluster C é o ponto g ∈ p que minimiza o critério:
fC (g) = d 2 (xs , g)
s∈C
No primeiro método, a média G é generalizada para protótipo G, que
minimiza:
fC (g) = D(xs , g)
s∈C
Anderson Berg Métodos de clustering para dados do tipo histograma 29 / 63
35. Dois novos métodos de clustering O primeiro método O segundo método Interpretação
Interpretação
TSS e WSS podem ser generalizados usando o protótipo Gi de um
cluster Ci :
• WSS = k i=1 s∈Ci D(xs , Gi ) = k
i=1 fCi (Gi ), que é igual ao
critério ∆(P, L)
• TSS = n D(xs , GE ), que é o critério fE (GE ), com GE o
s=1
protótipo de todo o conjunto E
Anderson Berg Métodos de clustering para dados do tipo histograma 30 / 63
36. Dois novos métodos de clustering O primeiro método O segundo método Interpretação
Interpretação
Três critérios serão utilizados para interpretar uma partição e seus
clusters:
• fCi (Gi ) que é a medida de homogeneidade do cluster Ci ;
• ∆(P, L) que é a medida da homogeneidade intra-cluster
(within-cluster) da partição P;
• fE (GE ) que é a medida da homogeneidade total do conjunto E.
Anderson Berg Métodos de clustering para dados do tipo histograma 31 / 63
37. Dois novos métodos de clustering O primeiro método O segundo método Interpretação
Interpretação da partição
Qualidade de uma partição:
∆(P, L)
Q(P) = 1 −
fE (GE )
Qualidade da partição para cada variável Yj :
k ˜
ˆj
i=1 fCi (gi )
Qj (P) = 1 −
˜E (g j )
f ˆE
Anderson Berg Métodos de clustering para dados do tipo histograma 32 / 63
38. Dois novos métodos de clustering O primeiro método O segundo método Interpretação
Interpretação dos clusters
A qualidade de um cluster Ci de E é definida por:
fCi (Gi )
Q(Ci ) = 1 −
fCi (GE )
A contribuição de um cluster Ci à homogeneidade intra-cluster de P é
definida por:
fC (Gi )
K (Ci ) = i
∆(P, L)
A soma de k contribuições é 1
Anderson Berg Métodos de clustering para dados do tipo histograma 33 / 63
39. Dois novos métodos de clustering O primeiro método O segundo método Interpretação
Interpretação dos clusters
Um critério final que é útil para interpretar um cluster de acordo com
uma variável Yj é:
˜C (g j )
f ˆ
Qj (Ci ) = 1 − i ij
˜C (g
f ˆ i E
Anderson Berg Métodos de clustering para dados do tipo histograma 34 / 63
40. Unsupervised pattern recognition models Introdução Pré-processamento Distâncias adaptativas Algori
Índice
1 Introdução
2 Dynamic Cluster Algorithm
3 Dois novos métodos de clustering
4 Unsupervised pattern recognition models
Introdução
Pré-processamento
Distâncias adaptativas
Algoritmo
Interpretação
5 Medida de Wasserstein
Anderson Berg Métodos de clustering para dados do tipo histograma 35 / 63
41. Unsupervised pattern recognition models Introdução Pré-processamento Distâncias adaptativas Algori
Partitioning dynamical cluster algorithm
• Algoritmos iterativos de duas etapas
• Construção de clusters e representações de protótipos
• Critério de adequação
• Clustering dinâmico adaptativo
• Análise de dados simbólicos
• Pré-processamento
Anderson Berg Métodos de clustering para dados do tipo histograma 36 / 63
42. Unsupervised pattern recognition models Introdução Pré-processamento Distâncias adaptativas Algori
Tipos de dados
Dada uma variável simbólica Xj , ela é:
• set-valued se, dado um item i, Xj (i) = xij ⊆ Aj onde
j j
Aj = {t1 , ..., tHj } é um conjunto de categorias
• ordered list-valued se, dado um item i, Xj (i) = xij , onde xij é uma
j j
sub-lista de uma lista ordenada de categorias Aj = [t1 , ..., tHj ]
• interval-valued se, dado um item i, Xj (i) = xij = [aij , bij ] ∈ [a, b],
onde [a, b] ∈ e é o conjunto de intervalos fechados definidos
em
• histogram-valued se, dado um item i, Xj (i) = xij = (S j (i), qj (i))
j j
onde qj (i) = (qi1 , ..., qiHij ) é um vetor de pesos definido em S j (i),
tal que um peso q(m) corresponde a cada categoria m ∈ S j (i)
Anderson Berg Métodos de clustering para dados do tipo histograma 37 / 63
43. Unsupervised pattern recognition models Introdução Pré-processamento Distâncias adaptativas Algori
Tabela de dados
City X1 X2 X3
1 [70,100] ((D,C,S,N),(0.4,0.3,0.2,0.1)) {F,I}
2 [50,70] ((D,C,S,N),(0.3,0.3,0.3,0.1)) {S,G}
3 [20,40] ((D,C,S,N),(0.2,0.2,0.2,0.4)) {GB,G}
4 [60,100] ((D,C,S,N),(0.1,0.3,0.4,0.2)) {B,GB}
Anderson Berg Métodos de clustering para dados do tipo histograma 38 / 63
44. Unsupervised pattern recognition models Introdução Pré-processamento Distâncias adaptativas Algori
Set-valued
Xj (i) = xij = (Aj , qj (i))
˜ ˜
j j
onde Aj = {t1 , ..., tHj }
j j
O peso qh (i)(h = 1, ..., Hj ) da categoria th ∈ Aj é definido como:
j
1
j , se th ∈ xij ,
j
qh (i) = c(xi )
0, se th ∈ xij ,
j
/
onde c(A) é a cardinalidade de um conjunto finito de categorias A.
Anderson Berg Métodos de clustering para dados do tipo histograma 39 / 63
45. Unsupervised pattern recognition models Introdução Pré-processamento Distâncias adaptativas Algori
Ordered list-valued
Xj (i) = xij = (Aj , Qj (i))
˜ ˜
j j
onde Aj = [t1 , ..., tHj ]
j j
O peso cumulativo Qh (i)(h = 1, ..., Hj ) da categoria th da lista
ordenada Aj é definido como:
se a categoria trj está na
1
h j ,
l(xi )
j
Qh (i) = qrj (i), onde qrj (i) = j
sub-lista xi ,
r =1
0, senão
onde l(A) é o tamanho de uma lista ordenada de categorias A
Anderson Berg Métodos de clustering para dados do tipo histograma 40 / 63
46. Unsupervised pattern recognition models Introdução Pré-processamento Distâncias adaptativas Algori
Interval-valued
˜
Xj (i) = xij = (Aj , Q j (i))
˜ ˜
˜ j j
onde Aj = {I1 , ..., IHj }
j j
Os pesos cumulativos Qh (i)(h = 1, ..., Hj ) do intervalo elementar Ih é
definido como:
h
j l(Irj ∩ xij )
Qh (i) = qrj (i), onde qrj (i) = ,
r =1 l(xij )
onde l(I) é o tamanho do intervalo fechado I
Anderson Berg Métodos de clustering para dados do tipo histograma 41 / 63
47. Unsupervised pattern recognition models Introdução Pré-processamento Distâncias adaptativas Algori
Intervalos elementares
Propriedades dos intervalos elementares:
Hj j
(1) h=1 Ih = [a, b]
j j
(2) Ih ∩ Ih = ∅ se h=h
j
(3) ∀h∃i ∈ Ω tal que Ih ∩ xij = ∅
(4) ∀i∃Sij ⊂ {1, ..., Hj } : ∪h∈S j Ih = xij
j
i
Anderson Berg Métodos de clustering para dados do tipo histograma 42 / 63
48. Unsupervised pattern recognition models Introdução Pré-processamento Distâncias adaptativas Algori
Exemplo
Country X1 X2
1 [10,30] {A,Co}
2 [25,35] {C,Co,E}
3 [90,130] {A,C,E}
4 [125,140] {A,C,Co,E}
• X1 é o mínimo e o máximo do produto nacional bruto (em milhões)
• X2 indica as principais indústrias a partir do conjunto
A2 = {A = agricultura , C = chemistry, Co = commerce, E =
engineering, En = energy, I = informatic}
Anderson Berg Métodos de clustering para dados do tipo histograma 43 / 63
50. Unsupervised pattern recognition models Introdução Pré-processamento Distâncias adaptativas Algori
Representação dos dados
Depois do pré-processamento:
xi = (xi1 , . . . , xip ), xij = (Dj , u j (i))
˜ ˜ ˜ ˜
j j j
˜
e u (i) = (u1 (i), . . . , uHj (i))
O protótipo do cluster Ck (k = 1, ..., K ) é representado por um vetor de
histogram-valued symbolic data:
p j
gk = (gk , . . . , gk ), gk = (Dj , vj (k ))(j = 1, . . . , p)
1
j j
vj (k ) = (v1 (k ), . . . , vhj (k ))
Anderson Berg Métodos de clustering para dados do tipo histograma 45 / 63
51. Unsupervised pattern recognition models Introdução Pré-processamento Distâncias adaptativas Algori
Esquema geral
Encontrar a partição P ∗ = {C1 , . . . , CK } de Ω em K clusters, os K
∗ ∗
∗ ∗ ∗
protótipos correspondentes G = (g1 , . . . , gK ) representando os
clusters em P ∗ e K distâncias Euclidianas quadradas adaptativas
parametrizadas por K vetores de pesos D∗ = (λ∗ , . . . , λ∗ )
1 K
Critério de adequação:
K
W (G, D, P) = ˜
d(xi , gk | λk )
k =1 i∈Ck
Anderson Berg Métodos de clustering para dados do tipo histograma 46 / 63
52. Unsupervised pattern recognition models Introdução Pré-processamento Distâncias adaptativas Algori
Distâncias Euclidianas adaptativas
(a) Distância única: λk = λ(k = 1, . . . , K ), onde λ = (λ1 , . . . , λp )
p Hj
j j
˜
d(xi , gk | λ) = λj (uh (i) − vh (k ))2
j=1 h=1
(b) Distância por cluster: λk = (λ1 , . . . , λp )
k k
p Hj
˜
d(xi , gk | λk ) = λjk j j
(uh (i) − vh (k ))2
j=1 h=1
Anderson Berg Métodos de clustering para dados do tipo histograma 47 / 63
53. Unsupervised pattern recognition models Introdução Pré-processamento Distâncias adaptativas Algori
Pré-processamento: homogenização dos dados
Para todos os objetos i = 1, . . . , n e todas as variáveis j = 1, . . . , p
calcular xij = (Dj , u j (i))
˜
Anderson Berg Métodos de clustering para dados do tipo histograma 48 / 63
54. Unsupervised pattern recognition models Introdução Pré-processamento Distâncias adaptativas Algori
Etapa de inicialização
(0) (0)
Escolher aleatoriamente uma partição P (0) = (C1 , . . . , CK ) de Ω ou
(0) (0)
K objetos distintos g1 , . . . , gK pertencentes a Ω e atribua cada
(0)
objeto i ao protótipo gk ∗ mais próximo, onde
p Hj j j
k ∗ = argmink =1,...,K { j=1 h=1 ((uh (i))
(0) − (vh (k ))(0) )2 }. t = 1.
Anderson Berg Métodos de clustering para dados do tipo histograma 49 / 63
55. Unsupervised pattern recognition models Introdução Pré-processamento Distâncias adaptativas Algori
Passo 1: Definição dos protótipos
P = {C1 , . . . , CK } e D = (λ1 , . . . , λK ) fixos
1 p
O vetor de protótipos G = (g1 , . . . , gK ), onde gk = (gk , . . . , gk ) com
j
gk = (Dj , v j (k )) que minimiza o critério W , onde o vetor
j j
v j (k ) = (v1 (k ), . . . , vHj (k )) é calculado por:
j 1 j
vh (k ) = uh (i)
nk
i∈Ck
onde nk é a cardinalidade da classe Ck
Anderson Berg Métodos de clustering para dados do tipo histograma 50 / 63
56. Unsupervised pattern recognition models Introdução Pré-processamento Distâncias adaptativas Algori
Passo 2: Definição das distâncias
P = {C1 , . . . , CK } e G = (g1 , . . . , gk ) fixos
(a) Para distância única: λk = λ(k = 1, . . . , K ), onde λ = (λ1 , . . . , λp ),
λj > 0 e p λj = η
j=1
1
p K Hl l l 2
j
{η l=1 ( k =1 [ i∈Ck ( h=1 (uh (i) − vh (k )) )])}
p
λ = Hj
K j j 2
k =1 [ i∈Ck ( h=1 uh (i) − vh (k )) )]
Anderson Berg Métodos de clustering para dados do tipo histograma 51 / 63
57. Unsupervised pattern recognition models Introdução Pré-processamento Distâncias adaptativas Algori
Passo 2: Definição das distâncias
(b) Para distância por cluster: λk = (λ1 , . . . , λp )λjk > 0 e
k k
p j
j=1 λk =χ
Hj 1
p l l 2
{χ l=1 ( i∈Ck ( h=1 (uh (i) − vh (k )) ))}
p
λjk = Hj j j 2
i∈Ck ( h=1 uh (i) − vh (k )) )
Anderson Berg Métodos de clustering para dados do tipo histograma 52 / 63
58. Unsupervised pattern recognition models Introdução Pré-processamento Distâncias adaptativas Algori
Passo 3: Definição da partição
G = (g1 , . . . , gk ) e D = (λ1 , . . . , λK ) fixos
˜ ˜
Ck = {i ∈ Ω : d(xi , gk | λk ) < d(xi , gm | λm ) e quando
˜ ˜
dk (xi , gk | λk ) = dk (xi , gm | λm ) então
i ∈ Ck se k < m∀m = k (m = 1, . . . , K )}
Anderson Berg Métodos de clustering para dados do tipo histograma 53 / 63
59. Unsupervised pattern recognition models Introdução Pré-processamento Distâncias adaptativas Algori
Soma dos quadrados global
n K
T = ˜
d(xi , g | λk ) = ˜
d(xi , g | λk )
i=1 k =1 i∈Ck
onde g = (g 1 , . . . , g p ), g j = (Dj , vj )(j = 1, . . . , p) e o vetor de pesos
j j
vj = (v1 , . . . , vHj ) é calculado por:
n
j 1 j
vh = uh (i)
n
i=1
Anderson Berg Métodos de clustering para dados do tipo histograma 54 / 63
60. Unsupervised pattern recognition models Introdução Pré-processamento Distâncias adaptativas Algori
Soma dos quadrados intra-classe: W
K
W = ˜
d(xi , gk | λk )
k =1 i∈Ck
Anderson Berg Métodos de clustering para dados do tipo histograma 55 / 63
61. Unsupervised pattern recognition models Introdução Pré-processamento Distâncias adaptativas Algori
Soma dos quadrados inter-classe: B
K
B= nk d(gk , g | λk )
k =1
Anderson Berg Métodos de clustering para dados do tipo histograma 56 / 63
62. Unsupervised pattern recognition models Introdução Pré-processamento Distâncias adaptativas Algori
Relações entre as somas
• T =W +B
• Tk = Wk + Bk (k = 1, . . . , K )
• Tj = Wj + Bj (j = 1, . . . , p)
• Tkj = Wkj + Bkj (k = 1, . . . , K ; j = 1, . . . , p)
Anderson Berg Métodos de clustering para dados do tipo histograma 57 / 63
63. Medida de Wasserstein
Índice
1 Introdução
2 Dynamic Cluster Algorithm
3 Dois novos métodos de clustering
4 Unsupervised pattern recognition models
5 Medida de Wasserstein
Anderson Berg Métodos de clustering para dados do tipo histograma 58 / 63
64. Medida de Wasserstein
Notação
• Y é uma variável contínua definida em S = [y ; y ]
• Y é particionada em intervalos contíguos: {I1 , . . . , Ih , . . . , IH } onde
Ih = [yh ; yh ]
• A cada intervalo semi-aberto Ih é associada uma variável
aleatória:
N
Ψ(Ih ) = Ψyu (Ih )
u=1
onde Ψyu (Ih ) = 1 se yu ∈ Ih , 0 se não
• Distribuição empírica associada a Ih : πh = Ψ(Ih )/N
Anderson Berg Métodos de clustering para dados do tipo histograma 59 / 63
65. Medida de Wasserstein
Distância quadrada
A distância quadrada entre duas descrições de histograma Y (i) e Y (j)
é:
m wl
2
dM (Y (i), Y (j)) := (Ψ−1 (t) − Ψ−1 (t))2 dt
i j
l=1 wl−1
Cada dupla (wl−1 , wl ) permite identificar dois intervalos, um para i e
outro para j:
Ili = [Ψ−1 (wl−1 ); Ψ−1 (wl )]
i i e Ilj = [Ψ−1 (wl−1 ); Ψ−1 (wl )]
j j
Anderson Berg Métodos de clustering para dados do tipo histograma 60 / 63
66. Medida de Wasserstein
Distância quadrada
Para cada intervalo é possível calcular os centros e os raios:
cli = (Ψ−1 (wl ) + Ψ−1 (wl−1 ))/2
i i rli = (Ψ−1 (wl ) − Ψ−1 (wl−1 ))/2
i i
O cálculo da distância pode ser reescrito:
p mk
2 (k ) (k ) (k ) 2 1 (k ) (k ) 2
dM (Y (i), Y (j)) := πl cli − clj + r − rlj
3 li
k =1 l=1
Anderson Berg Métodos de clustering para dados do tipo histograma 61 / 63
67. Medida de Wasserstein
dM para dynamic clustering
f (Y (b)|Y (1), . . . , Y (n)) = f (c1b , r1b , . . . , cmb , rmb ) =
n n m
1
= d 2 (Y (i), Y (b)) = πj (cji − cjb )2 + (rji − rjb )2
3
i=1 i=1 j=1
Esta função atinge um mínimo quando:
n n
−1 −1
cjb = n cji ; rjb = n rji
i=1 i=1
O baricentro (protótipo) do histograma:
Y (b) = {([c1b − r1b ; c1b + r1b ] , π1 ) ; . . . ; cjb − rjb ; cjb + rjb , πj ; . . . ;
; . . . ; ([cmb − rmb ; cmb + rmb ] , πm )}
Anderson Berg Métodos de clustering para dados do tipo histograma 62 / 63
68. Bibliografia
Marie Chavent, Francisco De A. T. Carvalho, Yves Lechevallier, and Rosanna
Verde.
New clustering methods for interval data.
Computational Statistics, 21:211–229, 2006.
Francisco De A.T. de Carvalho and Renata M.C.R. de Souza.
New clustering methods for interval data.
Computational Statistics, 2006.
Anderson Berg Métodos de clustering para dados do tipo histograma 63 / 63