Métodos de clustering para dados intervalares e do tipo histograma

Métodos de clustering para dados intervalares e
do tipo histograma

Anderson Berg
absd@cin.ufpe.br

Anderson Berg Métodos de clustering para dados do tipo histograma 1 / 63

Introdução

Índice

1 Introdução

2 Dynamic Cluster Algorithm

3 Dois novos métodos de clustering

4 Unsupervised pattern recognition models

5 Medida de Wasserstein


Introdução

Introdução

• Duas abordagens de clustering baseadas no algoritmo DCA -
Dynamic Cluster Algorithm
• Primeira abordagem:
Protótipos descritos por vetores de intervalos
Dissimilaridade baseada na distância de Hausdorff
• Segunda abordagem:
Protótipos e objetos descritos de maneiras diferentes
Função matching


Introdução

Notações

• E = {1, ..., s, ..., n} conjunto de n objetos descritos por p variáveis
intervalares Y1 , ..., Yj , ..., Yp
1 p
• xs = (xs , ..., xs ) vetor de intervalos que descrevem o objeto s
• P = (C1 , ..., Ci , ..., Ck ) uma partição em k clusters de E
• Gi = (gi1 , ..., gij , ..., gip ) um protótipo do cluster Ci
• Λ uma representação do espaço do protótipo Gi



Índice

1 Introdução







Objetivo

Encontrar uma partição P ∗ = (C1 , ..., Ck ) de E em k clusters
não-vazios e um vetor L∗ = (G1 , ..., Gi , ...Gk ) tal que P ∗ e L∗ otimizem
o critério:

∆(P ∗ , L∗ ) = Min{∆(P, L)/P ∈ Pk , L ∈ Λk }



Objetivo

Encontrar uma partição P ∗ = (C1 , ..., Ck ) de E em k clusters
não-vazios e um vetor L∗ = (G1 , ..., Gi , ...Gk ) tal que P ∗ e L∗ otimizem
o critério:

∆(P ∗ , L∗ ) = Min{∆(P, L)/P ∈ Pk , L ∈ Λk }

k
∆(P, L) = D(xs , Gi )
i=1 s∈Ci



Algoritmo

1 Inicialização: Inicia de uma partição aleatória
P = (C1 , ..., Ci , ..., Ck ) ou de um vetor (G1 , ..., Gi , ..., Gk ) de k
protótipos aleatórios escolhidos entre os elementos de E. Neste
caso:
Ci = ∅ para i = 1, ..., k
Para s = 1 até n faça:
Atribua s ao cluster Cl , l = argmini=1,...,k D(xs , Gi )
Cl = Cl ∪ {s}



Algoritmo

2 Etapa de representação: i = 1 até k , obter o protótipo Gi que
minimiza o critério:

fCi (G) = D(xs , G), G ∈ Λ
s∈Ci

3 Etapa de alocação:
test ← 0
para s = 1 até n faça:
Encontre o cluster Cm ao qual s pertence
Encontre o índice l tal que: l = argmini=1,...,k D(xs , Gi )
Se l = m:
test ← 1
Cl = Cl ∪ {s} e Cm = Cm − {s}
4 Se test = 0 pare, senão vá para 2


Dois novos métodos de clustering O primeiro método O segundo método Interpretação

Índice

1 Introdução


O primeiro método
O segundo método
Interpretação





O primeiro método

• Compara dois vetores de intervalos x1 e x2
• Comparação baseada na distância de Hausdorff
• É usada a soma das distâncias de Hausdorff entre intervalos



Deﬁnição da distância de Hausdorff

• Frequentemente utilizada em processamento de imagem
• Usada para comparar dois conjuntos de objetos A e B
j j j
• A distância de Hausdorff entre dois intervalos x1 = [a1 , b1 ] e
j j j
x2 = [a2 , b2 ] :

j j j j j j
dH (x1 , x2 ) = max(|a1 − a2 )|, |b1 − b2 |)



Deﬁnição da distância de Hausdorff

• Frequentemente utilizada em processamento de imagem
• Usada para comparar dois conjuntos de objetos A e B
j j j
• A distância de Hausdorff entre dois intervalos x1 = [a1 , b1 ] e
j j j
x2 = [a2 , b2 ] :

j j j j j j
dH (x1 , x2 ) = max(|a1 − a2 )|, |b1 − b2 |)

A distância d1 entre dois vetores de intervalos x1 e x2 é a soma das p
variáveis das distâncias de Hausdorff entre os intervalos:
p j j j j
d1 (x1 , x2 ) = j=1 max(|a1 − a2 |, |b1 − b2 |)



O protótipo

O protótipo G = (g 1 , ..., g p ) de um cluster C é um vetor de p intervalos
que minimizam o critério de adequação:
p
j
fC (G) = d1 (xs , G) = dH (xs , g j )
s∈C s∈C j=1

Ou:
f˜ (g j )
C
p
j
fC (G) = dH (xs , g j )
j=1 s∈C



O protótipo

o problema agora é encontrar o intervalo g j = [αj , β j ] para (j = 1, ..., p)
que minimiza:
j j j
f˜ (g j ) =
C dH (xs , g j ) = max(|αj − as |, |β j − bs |)
s∈C s∈C



O protótipo

Vamos resolver o problema da minimização transformando em dois
j
problemas de minimização bem conhecidos. Seja ms o ponto médio
j j j j
de um intervalo xs = [as , bs ] e ls metade do seu tamanho:
j j j j
j as + bs j bs − as
ms = e ls =
2 2
e seja µj e λj o ponto médio e a metade do tamanho do intervalo
g j = [αj , β j ], respectivamente.
De acordo com a seguinte propriedade deﬁnida para
x e y em :

max(|x − y |, |x + y |) = |x| + |y |



O protótipo

Isto leva a dois problemas de minimização bem conhecidos: encontrar
µj ∈ e λj ∈ que minimizam, respectivamente:
j j
|µj − ms | e |λj − ls |
s∈C s∈C

ˆ j
• µj : a mediana de {ms , s ∈ C}, que são os pontos médios dos
j j j
intervalos xs = [as , bs ], s ∈ C
ˆ
• λj : a mediana do conjunto {l j , s ∈ C} s
ˆ ˆ ˆ ˆ ˆ ˆ ˆ
• g j = [αj , β j ] o intervalo [µj − λj , µj + λj ]
• G = (g 1 , ..., g p ): o protótipo de C
ˆ ˆ



O segundo método

j j j j
• Compara duas duplas p1 = (x1 , q1 ) e p2 = (x2 , q2 )
j j
• q1 e q2 são pesos associados a x1 e x2
j j
• Uma etapa de pré-processamento discretiza x1 e x2 em intervalos
elementares



Pré-processamento
j j j
• xs é discretizado para obter intervalos elementares {I1 , ..., IHj } e
j
seus pesos correspondentes qs
j j j
• A partir de um conjunto {x1 , ..., xs , ..., xn } de n intervalos outro
j j j
conjunto de Hj intervalos disjuntos {I1 , ..., Ih , ..., IHj } é formado
• Ordena-se o conjunto de limites inferiores e superiores dos n
j j j
intervalos {x1 , ..., xs , ..., xn } para obter os intervalos elementares
j
• Os intervalos elementares Ih devem obedecer as seguintes
propriedades:



Pré-processamento
j j j
• xs é discretizado para obter intervalos elementares {I1 , ..., IHj } e
j
seus pesos correspondentes qs
j j j
• A partir de um conjunto {x1 , ..., xs , ..., xn } de n intervalos outro
j j j
conjunto de Hj intervalos disjuntos {I1 , ..., Ih , ..., IHj } é formado
• Ordena-se o conjunto de limites inferiores e superiores dos n
j j j
intervalos {x1 , ..., xs , ..., xn } para obter os intervalos elementares
j
• Os intervalos elementares Ih devem obedecer as seguintes
propriedades:
Hj j j n
i) h=1 Ih = s=1 xs
j j
ii) Ih ∩ Ih = ∅ se h = h
j j j j
iii) ∀s ∈ E, ∀h Ih ⊆ xs ou Ih ∩ xs = ∅
j j j j j j j j j
iv) ∀s ∈ E, ∃Ss ⊂ {I1 , ..., IHj } : I j ∈S j Ih = xs e ∀Ih ∈ Ss , Ih ⊆ xs
h s



Pré-processamento

j j j j
Ss = {Ih : Ih ⊆ xs } é um subconjunto de intervalos elementares
A Função peso qs é deﬁnida como:
j
qs : Ss → [0, 1]
j
j j j |Ih |
Ih ∈ Ss → qs (Ih ) = j j
bs − as

j j
|Ih | é o tamanho do intervalo Ih
j j j
∀Ih ∈ Ss , qs (Ih ) ≥ 0
j
j j qs (I ) = 1
h I ∈S
s h



Construção de intervalos elementares



Deﬁnição da dissimilaridade de "dois componentes"

j j j j
Duas duplas p1 = (x1 , q1 ) e p2 = (x2 , q2 ) são comparadas por:
j j j j
d2c (p1 , p2 ) = dci (x1 , x2 ) + dcd (q1 , q2 )



O primeiro componente

j j j j j j
Dissimilaridade dci entre dois intervalos x1 = [a1 , b1 ] e x2 = [a2 , b2 ]:

j j ¯j ¯j j j
|(x1 ∩ x2 ) ∩ (x1 ⊕ x2 )|
dci (x1 , x2 ) = j j
|x1 ⊕ x2 |

onde:
• |.| o tamanho de um intervalo
j j j j j j
• x1 ⊕ x2 = [min(a1 , a2 ), max(b1 , b2 )]
¯j j j j
• xs =] − ∞, as [∪]bs , +∞[ o conjunto complementar de xs em



O primeiro componente

Alternativamente:
 j j j j
|min(b1 ,b2 )−max(a1 ,a2 )| j j
se x1 ∩ x2 = ∅

j j j j j j
dci (x1 , x2 ) = max(b1 ,b2 )−min(a1 ,a2 )
 0 senão



O segundo componente

Dissimilaridade dcd entre duas funções peso:

1 j j
dcd (q1 , q2 ) = ( q1 (Ih ) + q2 (Ih ))
2 j j j j j j j j j j
{Ih :Ih ∈S1 ,Ih ∈S2 }
/ {Ih :Ih ∈S2 ,Ih ∈S1 }
/

j j j j
0 ≤ dcd ≤ 1, com dcd = 0 se x1 = x2 e dcd = 1 se x1 ∩ x2 = ∅



O segundo componente

Dissimilaridade dcd entre duas funções peso:

1 j j
dcd (q1 , q2 ) = ( q1 (Ih ) + q2 (Ih ))
2 j j j j j j j j j j
{Ih :Ih ∈S1 ,Ih ∈S2 }
/ {Ih :Ih ∈S2 ,Ih ∈S1 }
/

j j j j
0 ≤ dcd ≤ 1, com dcd = 0 se x1 = x2 e dcd = 1 se x1 ∩ x2 = ∅

p p
j j j j
d2 (p1 , p2 ) = d2c (p1 , p2 ) = (dci (x1 , x2 ) + dcd (q1 , q2 ))
j=1 j=1



O protótipo

O protótipo G de um cluster C é agora um vetor de p duplas (Γj , q):
j j
(a) Γj = [mins∈C as , maxs∈C bs ] é um intervalo que generaliza os
j j j
intervalos xs = [as , bs ] para s ∈ C;
j
(b) Γj = xs : s ∈ C é um conjunto de intervalos
1 j
q= card(C) {h,s:Ih ∈Ss
j
e s∈C} qs (Ih )
0, senão



O protótipo

Como a deﬁnição (b) de Γj não é um intervalo

∗ j ¯j
|(xs ∩ ( ¯j j
s ∈C xs )) ∩ (xs ⊕ ( s ∈C
j
xs ))|
dci (xs , Γj ) = j j
|xs ⊕ ( s ∈C xs )|
j j j j j j
xs ⊕ ( s ∈C xs ) = [min(as , mins ∈C as ), max(bs , maxs ∈C bs )]



O protótipo

Como a deﬁnição (b) de Γj não é um intervalo

∗ j ¯j
|(xs ∩ ( ¯j j
s ∈C xs )) ∩ (xs ⊕ ( s ∈C
j
xs ))|
dci (xs , Γj ) = j j
|xs ⊕ ( s ∈C xs )|
j j j j j j
xs ⊕ ( s ∈C xs ) = [min(as , mins ∈C as ), max(bs , maxs ∈C bs )]

p
∗ ∗ j
d2 (ps , G) = (dci (xs , Γj ) + dcd (qs , q))
j=1



O algoritmo

a) Inicialização: Inicia de uma partição aleatória P = (C1 , ..., Ci , ..., Ck )
b) Etapa de alocação:
test ← 0
para s = 1 até n faça:
Encontre o cluster Cm ao qual s pertence
Se card(Cm ) = 1 para l = 1, ..., k e l = m
calcula novos protótipos Gm de Cm − {s} e Gl de Cl ∪ {s}
calcula o critério ∆l = k i=1
∗
s ∈Ci D(ps ,Gi ) onde D = d2 ou d2
Encontre o cluster Cl · tal que
l ∗ = argminl=1,...,k ∆l
Se l ∗ = m move s para Cl ·
test ← 1
Cl · = Cl · ∪{s} e Cm = Cm − {s}
c) se test = 0 então pare, senão vá para b)



Interpretação

n k k
2 2
d (xs , G) = d (xs , Gi ) + ni d 2 (Gi , G)
s=1 i=1 s∈Ci i=1

TSS WSS BSS

• d a distância Euclidiana quadrada
• G a média dos n pontos xs ∈ E
• Gi a média dos pontos xs ∈ Ci
• ni = card(Ci )



Interpretação

A média G de um cluster C é o ponto g ∈ p que minimiza o critério:

fC (g) = d 2 (xs , g)
s∈C

No primeiro método, a média G é generalizada para protótipo G, que
minimiza:
fC (g) = D(xs , g)
s∈C



Interpretação

TSS e WSS podem ser generalizados usando o protótipo Gi de um
cluster Ci :
• WSS = k i=1 s∈Ci D(xs , Gi ) = k
i=1 fCi (Gi ), que é igual ao
critério ∆(P, L)
• TSS = n D(xs , GE ), que é o critério fE (GE ), com GE o
s=1
protótipo de todo o conjunto E



Interpretação

Três critérios serão utilizados para interpretar uma partição e seus
clusters:

• fCi (Gi ) que é a medida de homogeneidade do cluster Ci ;
• ∆(P, L) que é a medida da homogeneidade intra-cluster
(within-cluster) da partição P;
• fE (GE ) que é a medida da homogeneidade total do conjunto E.



Interpretação da partição

Qualidade de uma partição:

∆(P, L)
Q(P) = 1 −
fE (GE )

Qualidade da partição para cada variável Yj :
k ˜
ˆj
i=1 fCi (gi )
Qj (P) = 1 −
˜E (g j )
f ˆE



Interpretação dos clusters

A qualidade de um cluster Ci de E é deﬁnida por:

fCi (Gi )
Q(Ci ) = 1 −
fCi (GE )

A contribuição de um cluster Ci à homogeneidade intra-cluster de P é
deﬁnida por:
fC (Gi )
K (Ci ) = i
∆(P, L)
A soma de k contribuições é 1



Interpretação dos clusters

Um critério ﬁnal que é útil para interpretar um cluster de acordo com
uma variável Yj é:
˜C (g j )
f ˆ
Qj (Ci ) = 1 − i ij
˜C (g
f ˆ i E


Unsupervised pattern recognition models Introdução Pré-processamento Distâncias adaptativas Algori

Índice

1 Introdução



Introdução
Pré-processamento
Distâncias adaptativas
Algoritmo
Interpretação




Partitioning dynamical cluster algorithm

• Algoritmos iterativos de duas etapas
• Construção de clusters e representações de protótipos
• Critério de adequação
• Clustering dinâmico adaptativo
• Análise de dados simbólicos
• Pré-processamento



Tipos de dados

Dada uma variável simbólica Xj , ela é:
• set-valued se, dado um item i, Xj (i) = xij ⊆ Aj onde
j j
Aj = {t1 , ..., tHj } é um conjunto de categorias
• ordered list-valued se, dado um item i, Xj (i) = xij , onde xij é uma
j j
sub-lista de uma lista ordenada de categorias Aj = [t1 , ..., tHj ]
• interval-valued se, dado um item i, Xj (i) = xij = [aij , bij ] ∈ [a, b],
onde [a, b] ∈ e é o conjunto de intervalos fechados deﬁnidos
em
• histogram-valued se, dado um item i, Xj (i) = xij = (S j (i), qj (i))
j j
onde qj (i) = (qi1 , ..., qiHij ) é um vetor de pesos deﬁnido em S j (i),
tal que um peso q(m) corresponde a cada categoria m ∈ S j (i)



Tabela de dados

City X1 X2 X3
1 [70,100] ((D,C,S,N),(0.4,0.3,0.2,0.1)) {F,I}
2 [50,70] ((D,C,S,N),(0.3,0.3,0.3,0.1)) {S,G}
3 [20,40] ((D,C,S,N),(0.2,0.2,0.2,0.4)) {GB,G}
4 [60,100] ((D,C,S,N),(0.1,0.3,0.4,0.2)) {B,GB}



Set-valued

Xj (i) = xij = (Aj , qj (i))
˜ ˜
j j
onde Aj = {t1 , ..., tHj }

j j
O peso qh (i)(h = 1, ..., Hj ) da categoria th ∈ Aj é deﬁnido como:

j
1
j , se th ∈ xij ,
j
qh (i) = c(xi )
0, se th ∈ xij ,
j
/

onde c(A) é a cardinalidade de um conjunto ﬁnito de categorias A.



Ordered list-valued

Xj (i) = xij = (Aj , Qj (i))
˜ ˜
j j
onde Aj = [t1 , ..., tHj ]
j j
O peso cumulativo Qh (i)(h = 1, ..., Hj ) da categoria th da lista
ordenada Aj é deﬁnido como:

se a categoria trj está na
 1
h  j ,
 l(xi )
j
Qh (i) = qrj (i), onde qrj (i) = j
 sub-lista xi ,
r =1 
0, senão

onde l(A) é o tamanho de uma lista ordenada de categorias A



Interval-valued

˜
Xj (i) = xij = (Aj , Q j (i))
˜ ˜

˜ j j
onde Aj = {I1 , ..., IHj }

j j
Os pesos cumulativos Qh (i)(h = 1, ..., Hj ) do intervalo elementar Ih é
deﬁnido como:
h
j l(Irj ∩ xij )
Qh (i) = qrj (i), onde qrj (i) = ,
r =1 l(xij )
onde l(I) é o tamanho do intervalo fechado I



Intervalos elementares

Propriedades dos intervalos elementares:
Hj j
(1) h=1 Ih = [a, b]
j j
(2) Ih ∩ Ih = ∅ se h=h
j
(3) ∀h∃i ∈ Ω tal que Ih ∩ xij = ∅
(4) ∀i∃Sij ⊂ {1, ..., Hj } : ∪h∈S j Ih = xij
j
i



Exemplo

Country X1 X2
1 [10,30] {A,Co}
2 [25,35] {C,Co,E}
3 [90,130] {A,C,E}
4 [125,140] {A,C,Co,E}

• X1 é o mínimo e o máximo do produto nacional bruto (em milhões)
• X2 indica as principais indústrias a partir do conjunto
A2 = {A = agricultura , C = chemistry, Co = commerce, E =
engineering, En = energy, I = informatic}



Intervalos elementares

˜ 1 1 1 1 1 1 1
Conjunto de intervalos elementares: A1 = {I1 , I2 , I3 , I4 , I5 , I6 , I7 }, onde
1 1 1 1 1
I1 = [10, 25[, I2 = [25, 30[, I3 = [30, 35[, I4 = [35, 90[, I5 =
7 = [125, 130[ e I 1 = [130, 140[
[90, 125[, I6 7

Country X1 X2

1 (A1 , Q1 (1) = (0.75, 1, 1, 1, 1, 1, 1))
˜ (A2 , q2 (1) = (0.5, 0, 0.5, 0, 0, 0))
˜

2 (A1 , Q1 (2) = (0, 0.5, 0.5, 1, 1, 1, 1))
˜ (A2 , q2 (2) = (0, 0.33, 0.33, 0.33, 0, 0))
˜

3 (A1 , Q1 (3) = (0, 0, 0, 0, 0.88, 1, 1))
˜ (A2 , q2 (3) = (0.33, 0.33, 0, 0.33, 0, 0))
˜

4 (A1 , Q1 (4) = (0, 0, 0, 0, 0, 0.33, 1))
˜ (A2 , q2 (4) = (0.25, 0.25, 0.25, 0.25, 0, 0))
˜



Representação dos dados

Depois do pré-processamento:

xi = (xi1 , . . . , xip ), xij = (Dj , u j (i))
˜ ˜ ˜ ˜
j j j
˜
e u (i) = (u1 (i), . . . , uHj (i))

O protótipo do cluster Ck (k = 1, ..., K ) é representado por um vetor de
histogram-valued symbolic data:
p j
gk = (gk , . . . , gk ), gk = (Dj , vj (k ))(j = 1, . . . , p)
1
j j
vj (k ) = (v1 (k ), . . . , vhj (k ))



Esquema geral

Encontrar a partição P ∗ = {C1 , . . . , CK } de Ω em K clusters, os K
∗ ∗
∗ ∗ ∗
protótipos correspondentes G = (g1 , . . . , gK ) representando os
clusters em P ∗ e K distâncias Euclidianas quadradas adaptativas

parametrizadas por K vetores de pesos D∗ = (λ∗ , . . . , λ∗ )
1 K

Critério de adequação:
K
W (G, D, P) = ˜
d(xi , gk | λk )
k =1 i∈Ck



Distâncias Euclidianas adaptativas

(a) Distância única: λk = λ(k = 1, . . . , K ), onde λ = (λ1 , . . . , λp )

p Hj
j j
˜
d(xi , gk | λ) = λj (uh (i) − vh (k ))2
j=1 h=1

(b) Distância por cluster: λk = (λ1 , . . . , λp )
k k

p Hj
˜
d(xi , gk | λk ) = λjk j j
(uh (i) − vh (k ))2
j=1 h=1



Pré-processamento: homogenização dos dados

Para todos os objetos i = 1, . . . , n e todas as variáveis j = 1, . . . , p
calcular xij = (Dj , u j (i))
˜



Etapa de inicialização
(0) (0)
Escolher aleatoriamente uma partição P (0) = (C1 , . . . , CK ) de Ω ou
(0) (0)
K objetos distintos g1 , . . . , gK pertencentes a Ω e atribua cada
(0)
objeto i ao protótipo gk ∗ mais próximo, onde
p Hj j j
k ∗ = argmink =1,...,K { j=1 h=1 ((uh (i))
(0) − (vh (k ))(0) )2 }. t = 1.



Passo 1: Deﬁnição dos protótipos

P = {C1 , . . . , CK } e D = (λ1 , . . . , λK ) ﬁxos

1 p
O vetor de protótipos G = (g1 , . . . , gK ), onde gk = (gk , . . . , gk ) com
j
gk = (Dj , v j (k )) que minimiza o critério W , onde o vetor
j j
v j (k ) = (v1 (k ), . . . , vHj (k )) é calculado por:

j 1 j
vh (k ) = uh (i)
nk
i∈Ck

onde nk é a cardinalidade da classe Ck



Passo 2: Deﬁnição das distâncias

P = {C1 , . . . , CK } e G = (g1 , . . . , gk ) ﬁxos
(a) Para distância única: λk = λ(k = 1, . . . , K ), onde λ = (λ1 , . . . , λp ),
λj > 0 e p λj = η
j=1

1
p K Hl l l 2
j
{η l=1 ( k =1 [ i∈Ck ( h=1 (uh (i) − vh (k )) )])}
p
λ = Hj
K j j 2
k =1 [ i∈Ck ( h=1 uh (i) − vh (k )) )]



Passo 2: Deﬁnição das distâncias

(b) Para distância por cluster: λk = (λ1 , . . . , λp )λjk > 0 e
k k
p j
j=1 λk =χ

Hj 1
p l l 2
{χ l=1 ( i∈Ck ( h=1 (uh (i) − vh (k )) ))}
p
λjk = Hj j j 2
i∈Ck ( h=1 uh (i) − vh (k )) )



Passo 3: Deﬁnição da partição

G = (g1 , . . . , gk ) e D = (λ1 , . . . , λK ) ﬁxos

˜ ˜
Ck = {i ∈ Ω : d(xi , gk | λk ) < d(xi , gm | λm ) e quando
˜ ˜
dk (xi , gk | λk ) = dk (xi , gm | λm ) então
i ∈ Ck se k < m∀m = k (m = 1, . . . , K )}



Soma dos quadrados global

n K
T = ˜
d(xi , g | λk ) = ˜
d(xi , g | λk )
i=1 k =1 i∈Ck

onde g = (g 1 , . . . , g p ), g j = (Dj , vj )(j = 1, . . . , p) e o vetor de pesos
j j
vj = (v1 , . . . , vHj ) é calculado por:

n
j 1 j
vh = uh (i)
n
i=1



Soma dos quadrados intra-classe: W

K
W = ˜
d(xi , gk | λk )
k =1 i∈Ck



Soma dos quadrados inter-classe: B

K
B= nk d(gk , g | λk )
k =1



Relações entre as somas

• T =W +B
• Tk = Wk + Bk (k = 1, . . . , K )
• Tj = Wj + Bj (j = 1, . . . , p)
• Tkj = Wkj + Bkj (k = 1, . . . , K ; j = 1, . . . , p)


Medida de Wasserstein

Índice

1 Introdução







Notação

• Y é uma variável contínua deﬁnida em S = [y ; y ]
• Y é particionada em intervalos contíguos: {I1 , . . . , Ih , . . . , IH } onde
Ih = [yh ; yh ]
• A cada intervalo semi-aberto Ih é associada uma variável
aleatória:
N
Ψ(Ih ) = Ψyu (Ih )
u=1

onde Ψyu (Ih ) = 1 se yu ∈ Ih , 0 se não
• Distribuição empírica associada a Ih : πh = Ψ(Ih )/N



Distância quadrada

A distância quadrada entre duas descrições de histograma Y (i) e Y (j)
é:
m wl
2
dM (Y (i), Y (j)) := (Ψ−1 (t) − Ψ−1 (t))2 dt
i j
l=1 wl−1

Cada dupla (wl−1 , wl ) permite identiﬁcar dois intervalos, um para i e
outro para j:

Ili = [Ψ−1 (wl−1 ); Ψ−1 (wl )]
i i e Ilj = [Ψ−1 (wl−1 ); Ψ−1 (wl )]
j j



Distância quadrada

Para cada intervalo é possível calcular os centros e os raios:

cli = (Ψ−1 (wl ) + Ψ−1 (wl−1 ))/2
i i rli = (Ψ−1 (wl ) − Ψ−1 (wl−1 ))/2
i i

O cálculo da distância pode ser reescrito:

p mk
2 (k ) (k ) (k ) 2 1 (k ) (k ) 2
dM (Y (i), Y (j)) := πl cli − clj + r − rlj
3 li
k =1 l=1



dM para dynamic clustering

f (Y (b)|Y (1), . . . , Y (n)) = f (c1b , r1b , . . . , cmb , rmb ) =
n n m
1
= d 2 (Y (i), Y (b)) = πj (cji − cjb )2 + (rji − rjb )2
3
i=1 i=1 j=1
Esta função atinge um mínimo quando:
n n
−1 −1
cjb = n cji ; rjb = n rji
i=1 i=1

O baricentro (protótipo) do histograma:

Y (b) = {([c1b − r1b ; c1b + r1b ] , π1 ) ; . . . ; cjb − rjb ; cjb + rjb , πj ; . . . ;
; . . . ; ([cmb − rmb ; cmb + rmb ] , πm )}


Bibliograﬁa

Marie Chavent, Francisco De A. T. Carvalho, Yves Lechevallier, and Rosanna
Verde.
New clustering methods for interval data.
Computational Statistics, 21:211–229, 2006.

Francisco De A.T. de Carvalho and Renata M.C.R. de Souza.
New clustering methods for interval data.
Computational Statistics, 2006.


Métodos de clustering para dados intervalares e do tipo histograma

Mais conteúdo relacionado

Mais procurados

Destaque

Semelhante a Métodos de clustering para dados intervalares e do tipo histograma

Métodos de clustering para dados intervalares e do tipo histograma