Métodos de clustering para dados intervalares e
              do tipo histograma

                    Anderson Berg
                           absd@cin.ufpe.br




           Anderson Berg         Métodos de clustering para dados do tipo histograma   1 / 63
Introdução




Índice

1   Introdução

2   Dynamic Cluster Algorithm

3   Dois novos métodos de clustering

4   Unsupervised pattern recognition models

5   Medida de Wasserstein




                               Anderson Berg   Métodos de clustering para dados do tipo histograma   2 / 63
Introdução




Introdução



  • Duas abordagens de clustering baseadas no algoritmo DCA -
    Dynamic Cluster Algorithm
  • Primeira abordagem:
        Protótipos descritos por vetores de intervalos
        Dissimilaridade baseada na distância de Hausdorff
  • Segunda abordagem:
        Protótipos e objetos descritos de maneiras diferentes
        Função matching




                          Anderson Berg   Métodos de clustering para dados do tipo histograma   3 / 63
Introdução




Notações




 • E = {1, ..., s, ..., n} conjunto de n objetos descritos por p variáveis
   intervalares Y1 , ..., Yj , ..., Yp
          1         p
 • xs = (xs , ..., xs ) vetor de intervalos que descrevem o objeto s
 • P = (C1 , ..., Ci , ..., Ck ) uma partição em k clusters de E
 • Gi = (gi1 , ..., gij , ..., gip ) um protótipo do cluster Ci
 • Λ uma representação do espaço do protótipo Gi




                           Anderson Berg   Métodos de clustering para dados do tipo histograma   4 / 63
Dynamic Cluster Algorithm




Índice

1   Introdução

2   Dynamic Cluster Algorithm

3   Dois novos métodos de clustering

4   Unsupervised pattern recognition models

5   Medida de Wasserstein




                             Anderson Berg    Métodos de clustering para dados do tipo histograma   5 / 63
Dynamic Cluster Algorithm




Objetivo


Encontrar uma partição P ∗ = (C1 , ..., Ck ) de E em k clusters
não-vazios e um vetor L∗ = (G1 , ..., Gi , ...Gk ) tal que P ∗ e L∗ otimizem
o critério:



                  ∆(P ∗ , L∗ ) = Min{∆(P, L)/P ∈ Pk , L ∈ Λk }




                           Anderson Berg   Métodos de clustering para dados do tipo histograma   6 / 63
Dynamic Cluster Algorithm




Objetivo


Encontrar uma partição P ∗ = (C1 , ..., Ck ) de E em k clusters
não-vazios e um vetor L∗ = (G1 , ..., Gi , ...Gk ) tal que P ∗ e L∗ otimizem
o critério:



                  ∆(P ∗ , L∗ ) = Min{∆(P, L)/P ∈ Pk , L ∈ Λk }

                                            k
                               ∆(P, L) =              D(xs , Gi )
                                           i=1 s∈Ci




                           Anderson Berg    Métodos de clustering para dados do tipo histograma   6 / 63
Dynamic Cluster Algorithm




Algoritmo



 1   Inicialização: Inicia de uma partição aleatória
     P = (C1 , ..., Ci , ..., Ck ) ou de um vetor (G1 , ..., Gi , ..., Gk ) de k
     protótipos aleatórios escolhidos entre os elementos de E. Neste
     caso:
          Ci = ∅ para i = 1, ..., k
          Para s = 1 até n faça:
                 Atribua s ao cluster Cl , l = argmini=1,...,k D(xs , Gi )
                 Cl = Cl ∪ {s}




                           Anderson Berg     Métodos de clustering para dados do tipo histograma   7 / 63
Dynamic Cluster Algorithm




Algoritmo

 2   Etapa de representação: i = 1 até k , obter o protótipo Gi que
     minimiza o critério:

                                 fCi (G) =          D(xs , G), G ∈ Λ
                                             s∈Ci

 3   Etapa de alocação:
         test ← 0
         para s = 1 até n faça:
                Encontre o cluster Cm ao qual s pertence
                Encontre o índice l tal que: l = argmini=1,...,k D(xs , Gi )
                Se l = m:
                test ← 1
                Cl = Cl ∪ {s} e Cm = Cm − {s}
 4   Se test = 0 pare, senão vá para 2

                          Anderson Berg       Métodos de clustering para dados do tipo histograma   8 / 63
Dois novos métodos de clustering          O primeiro método O segundo método Interpretação




Índice

1   Introdução

2   Dynamic Cluster Algorithm

3   Dois novos métodos de clustering
      O primeiro método
      O segundo método
      Interpretação

4   Unsupervised pattern recognition models

5   Medida de Wasserstein




                               Anderson Berg   Métodos de clustering para dados do tipo histograma     9 / 63
Dois novos métodos de clustering           O primeiro método O segundo método Interpretação




O primeiro método

  • Compara dois vetores de intervalos x1 e x2
  • Comparação baseada na distância de Hausdorff
  • É usada a soma das distâncias de Hausdorff entre intervalos




                           Anderson Berg   Métodos de clustering para dados do tipo histograma      10 / 63
Dois novos métodos de clustering           O primeiro método O segundo método Interpretação




Definição da distância de Hausdorff

  • Frequentemente utilizada em processamento de imagem
  • Usada para comparar dois conjuntos de objetos A e B
                                                    j     j    j
  • A distância de Hausdorff entre dois intervalos x1 = [a1 , b1 ] e
     j     j    j
    x2 = [a2 , b2 ] :

                           j    j           j    j       j    j
                      dH (x1 , x2 ) = max(|a1 − a2 )|, |b1 − b2 |)




                            Anderson Berg   Métodos de clustering para dados do tipo histograma      11 / 63
Dois novos métodos de clustering               O primeiro método O segundo método Interpretação




Definição da distância de Hausdorff

  • Frequentemente utilizada em processamento de imagem
  • Usada para comparar dois conjuntos de objetos A e B
                                                    j     j    j
  • A distância de Hausdorff entre dois intervalos x1 = [a1 , b1 ] e
     j     j    j
    x2 = [a2 , b2 ] :

                           j    j           j    j       j    j
                      dH (x1 , x2 ) = max(|a1 − a2 )|, |b1 − b2 |)


A distância d1 entre dois vetores de intervalos x1 e x2 é a soma das p
variáveis das distâncias de Hausdorff entre os intervalos:
                                            p         j        j      j    j
                  d1 (x1 , x2 ) =           j=1 max(|a1     − a2 |, |b1 − b2 |)



                            Anderson Berg       Métodos de clustering para dados do tipo histograma      11 / 63
Dois novos métodos de clustering                   O primeiro método O segundo método Interpretação




O protótipo


O protótipo G = (g 1 , ..., g p ) de um cluster C é um vetor de p intervalos
que minimizam o critério de adequação:
                                                                         p
                                                                                  j
                   fC (G) =               d1 (xs , G) =                      dH (xs , g j )
                                  s∈C                        s∈C j=1

Ou:
                                                             f˜ (g j )
                                                              C
                                                p
                                                                 j
                                 fC (G) =                   dH (xs , g j )
                                               j=1 s∈C




                            Anderson Berg           Métodos de clustering para dados do tipo histograma      12 / 63
Dois novos métodos de clustering                 O primeiro método O segundo método Interpretação




O protótipo


o problema agora é encontrar o intervalo g j = [αj , β j ] para (j = 1, ..., p)
que minimiza:
                                     j                               j            j
           f˜ (g j ) =
            C                   dH (xs , g j ) =          max(|αj − as |, |β j − bs |)
                          s∈C                      s∈C




                             Anderson Berg         Métodos de clustering para dados do tipo histograma      13 / 63
Dois novos métodos de clustering                O primeiro método O segundo método Interpretação




O protótipo


Vamos resolver o problema da minimização transformando em dois
                                                      j
problemas de minimização bem conhecidos. Seja ms o ponto médio
                 j     j    j      j
de um intervalo xs = [as , bs ] e ls metade do seu tamanho:
                                       j    j                     j    j
                             j        as + bs             j      bs − as
                            ms =                   e     ls =
                                         2                          2
e seja µj e λj o ponto médio e a metade do tamanho do intervalo
g j = [αj , β j ], respectivamente.
De acordo com a seguinte propriedade definida para
x e y em                :

                            max(|x − y |, |x + y |) = |x| + |y |

                            Anderson Berg       Métodos de clustering para dados do tipo histograma       14 / 63
Dois novos métodos de clustering                O primeiro método O segundo método Interpretação




O protótipo



                                           j    j                     j    j
   f˜ (g j ) =
    C                  max(|(µj − λj ) − (ms − ls )|, |(µj + λj ) − (ms + ls )|)
                 s∈C

                                                 j                     j
                              =           |µj − ms | +          |λj − ls |
                                  s∈C                    s∈C




                            Anderson Berg        Métodos de clustering para dados do tipo histograma      15 / 63
Dois novos métodos de clustering            O primeiro método O segundo método Interpretação




O protótipo


Isto leva a dois problemas de minimização bem conhecidos: encontrar
µj ∈ e λj ∈ que minimizam, respectivamente:
                                            j                        j
                                     |µj − ms | e             |λj − ls |
                              s∈C                      s∈C


     ˆ                     j
  • µj : a mediana de {ms , s ∈ C}, que são os pontos médios dos
                j     j    j
    intervalos xs = [as , bs ], s ∈ C
     ˆ
  • λj : a mediana do conjunto {l j , s ∈ C} s
    ˆ      ˆ ˆ                     ˆ    ˆ ˆ       ˆ
  • g j = [αj , β j ] o intervalo [µj − λj , µj + λj ]
  • G = (g 1 , ..., g p ): o protótipo de C
           ˆ          ˆ


                             Anderson Berg    Métodos de clustering para dados do tipo histograma      16 / 63
Dois novos métodos de clustering           O primeiro método O segundo método Interpretação




O segundo método




                        j     j           j     j
 • Compara duas duplas p1 = (x1 , q1 ) e p2 = (x2 , q2 )
                                   j    j
 • q1 e q2 são pesos associados a x1 e x2
                                              j    j
 • Uma etapa de pré-processamento discretiza x1 e x2 em intervalos
   elementares




                           Anderson Berg   Métodos de clustering para dados do tipo histograma      17 / 63
Dois novos métodos de clustering           O primeiro método O segundo método Interpretação




Pré-processamento
    j                                                    j         j
 • xs é discretizado para obter intervalos elementares {I1 , ..., IHj } e
                                     j
   seus pesos correspondentes qs
                              j        j         j
 • A partir de um conjunto {x1 , ..., xs , ..., xn } de n intervalos outro
                                               j      j      j
   conjunto de Hj intervalos disjuntos {I1 , ..., Ih , ..., IHj } é formado
 • Ordena-se o conjunto de limites inferiores e superiores dos n
                j         j         j
   intervalos {x1 , ..., xs , ..., xn } para obter os intervalos elementares
                              j
 • Os intervalos elementares Ih devem obedecer as seguintes
   propriedades:




                           Anderson Berg   Métodos de clustering para dados do tipo histograma      18 / 63
Dois novos métodos de clustering            O primeiro método O segundo método Interpretação




Pré-processamento
    j                                                    j         j
 • xs é discretizado para obter intervalos elementares {I1 , ..., IHj } e
                                     j
   seus pesos correspondentes qs
                              j        j         j
 • A partir de um conjunto {x1 , ..., xs , ..., xn } de n intervalos outro
                                               j      j      j
   conjunto de Hj intervalos disjuntos {I1 , ..., Ih , ..., IHj } é formado
 • Ordena-se o conjunto de limites inferiores e superiores dos n
                j         j         j
   intervalos {x1 , ..., xs , ..., xn } para obter os intervalos elementares
                              j
 • Os intervalos elementares Ih devem obedecer as seguintes
   propriedades:
             Hj   j       j n
       i) h=1 Ih = s=1 xs
           j    j
      ii) Ih ∩ Ih = ∅ se h = h
                       j      j          j      j
     iii) ∀s ∈ E, ∀h Ih ⊆ xs ou Ih ∩ xs = ∅
                     j   j         j                j    j                  j    j j       j
     iv) ∀s ∈ E, ∃Ss ⊂ {I1 , ..., IHj } : I j ∈S j Ih = xs          e     ∀Ih ∈ Ss , Ih ⊆ xs
                                               h    s



                            Anderson Berg   Métodos de clustering para dados do tipo histograma       18 / 63
Dois novos métodos de clustering                 O primeiro método O segundo método Interpretação




Pré-processamento

 j     j    j    j
Ss = {Ih : Ih ⊆ xs } é um subconjunto de intervalos elementares
A Função peso qs é definida como:
                                                      j
                                                qs : Ss → [0, 1]
                                                                         j
                                     j    j        j                   |Ih |
                                    Ih ∈ Ss → qs (Ih ) =            j    j
                                                                   bs − as

  j                             j
|Ih | é o tamanho do intervalo Ih
    j       j      j
∀Ih ∈ Ss , qs (Ih ) ≥ 0
                 j
      j   j qs (I ) = 1
   h I ∈S
       s         h


                                Anderson Berg         Métodos de clustering para dados do tipo histograma      19 / 63
Dois novos métodos de clustering           O primeiro método O segundo método Interpretação




Construção de intervalos elementares




                           Anderson Berg   Métodos de clustering para dados do tipo histograma      20 / 63
Dois novos métodos de clustering           O primeiro método O segundo método Interpretação




Definição da dissimilaridade de "dois componentes"


             j     j           j     j
Duas duplas p1 = (x1 , q1 ) e p2 = (x2 , q2 ) são comparadas por:
                             j    j           j    j
                       d2c (p1 , p2 ) = dci (x1 , x2 ) + dcd (q1 , q2 )




                            Anderson Berg   Métodos de clustering para dados do tipo histograma      21 / 63
Dois novos métodos de clustering                 O primeiro método O segundo método Interpretação




O primeiro componente

                                           j     j    j      j     j    j
Dissimilaridade dci entre dois intervalos x1 = [a1 , b1 ] e x2 = [a2 , b2 ]:

                                j    j             ¯j ¯j         j    j
                                                 |(x1 ∩ x2 ) ∩ (x1 ⊕ x2 )|
                          dci (x1 , x2 )     =             j    j
                                                         |x1 ⊕ x2 |

onde:
  • |.| o tamanho de um intervalo
     j    j         j    j         j    j
  • x1 ⊕ x2 = [min(a1 , a2 ), max(b1 , b2 )]
    ¯j          j     j                                   j
  • xs =] − ∞, as [∪]bs , +∞[ o conjunto complementar de xs em




                             Anderson Berg         Métodos de clustering para dados do tipo histograma      22 / 63
Dois novos métodos de clustering                   O primeiro método O segundo método Interpretação




O primeiro componente




Alternativamente:
                                           j   j            j   j
                                    |min(b1 ,b2 )−max(a1 ,a2 )|             j    j
                                                                        se x1 ∩ x2 = ∅
                              
              j    j                      j   j        j   j
        dci (x1 , x2 )    =          max(b1 ,b2 )−min(a1 ,a2 )
                               0                                    senão




                            Anderson Berg           Métodos de clustering para dados do tipo histograma      23 / 63
Dois novos métodos de clustering                     O primeiro método O segundo método Interpretação




O segundo componente


Dissimilaridade dcd entre duas funções peso:

                             1                                 j                                     j
      dcd (q1 , q2 ) =         (                          q1 (Ih ) +                            q2 (Ih ))
                             2      j     j   j   j   j                    j   j   j   j    j
                                 {Ih :Ih ∈S1 ,Ih ∈S2 }
                                                 /                      {Ih :Ih ∈S2 ,Ih ∈S1 }
                                                                                        /

                             j    j               j    j
0 ≤ dcd ≤ 1, com dcd = 0 se x1 = x2 e dcd = 1 se x1 ∩ x2 = ∅




                            Anderson Berg             Métodos de clustering para dados do tipo histograma      24 / 63
Dois novos métodos de clustering                     O primeiro método O segundo método Interpretação




O segundo componente


Dissimilaridade dcd entre duas funções peso:

                             1                                 j                                     j
      dcd (q1 , q2 ) =         (                          q1 (Ih ) +                            q2 (Ih ))
                             2      j     j   j   j   j                    j   j   j   j    j
                                 {Ih :Ih ∈S1 ,Ih ∈S2 }
                                                 /                      {Ih :Ih ∈S2 ,Ih ∈S1 }
                                                                                        /

                             j    j               j    j
0 ≤ dcd ≤ 1, com dcd = 0 se x1 = x2 e dcd = 1 se x1 ∩ x2 = ∅

                             p                              p
                                       j    j                          j    j
      d2 (p1 , p2 ) =            d2c (p1 , p2 )       =         (dci (x1 , x2 ) + dcd (q1 , q2 ))
                           j=1                            j=1




                            Anderson Berg             Métodos de clustering para dados do tipo histograma      24 / 63
Dois novos métodos de clustering             O primeiro método O segundo método Interpretação




O protótipo

O protótipo G de um cluster C é agora um vetor de p duplas (Γj , q):
                  j              j
(a) Γj = [mins∈C as , maxs∈C bs ] é um intervalo que generaliza os
                j      j   j
    intervalos xs = [as , bs ] para s ∈ C;
          j
(b) Γj = xs : s ∈ C é um conjunto de intervalos
                                     1                                       j
                      q=          card(C)    {h,s:Ih ∈Ss
                                                        j
                                                            e s∈C} qs (Ih )
                                  0, senão




                            Anderson Berg     Métodos de clustering para dados do tipo histograma      25 / 63
Dois novos métodos de clustering             O primeiro método O segundo método Interpretação




O protótipo


Como a definição (b) de Γj não é um intervalo

              ∗    j                 ¯j
                                   |(xs ∩ (         ¯j       j
                                              s ∈C xs )) ∩ (xs ⊕         (    s ∈C
                                                                                       j
                                                                                      xs ))|
             dci (xs , Γj ) =                     j             j
                                                |xs ⊕ ( s ∈C xs          )|
 j                j           j            j         j            j
xs ⊕ (   s ∈C    xs ) = [min(as , mins ∈C as ), max(bs , maxs ∈C bs )]




                              Anderson Berg     Métodos de clustering para dados do tipo histograma      26 / 63
Dois novos métodos de clustering                   O primeiro método O segundo método Interpretação




O protótipo


Como a definição (b) de Γj não é um intervalo

              ∗    j                 ¯j
                                   |(xs ∩ (               ¯j       j
                                                    s ∈C xs )) ∩ (xs ⊕         (    s ∈C
                                                                                             j
                                                                                            xs ))|
             dci (xs , Γj ) =                           j             j
                                                      |xs ⊕ ( s ∈C xs          )|
 j                j           j            j         j            j
xs ⊕ (   s ∈C    xs ) = [min(as , mins ∈C as ), max(bs , maxs ∈C bs )]

                                              p
                        ∗                             ∗    j
                       d2 (ps , G) =                (dci (xs , Γj ) + dcd (qs , q))
                                              j=1




                              Anderson Berg           Métodos de clustering para dados do tipo histograma      26 / 63
Dois novos métodos de clustering           O primeiro método O segundo método Interpretação




O algoritmo

a) Inicialização: Inicia de uma partição aleatória P = (C1 , ..., Ci , ..., Ck )
b) Etapa de alocação:
        test ← 0
        para s = 1 até n faça:
                Encontre o cluster Cm ao qual s pertence
                Se card(Cm ) = 1 para l = 1, ..., k e l = m
                calcula novos protótipos Gm de Cm − {s} e Gl de Cl ∪ {s}
                calcula o critério ∆l = k   i=1
                                                                                 ∗
                                                s ∈Ci D(ps ,Gi ) onde D = d2 ou d2
                Encontre o cluster Cl · tal que
                                             l ∗ = argminl=1,...,k ∆l
                Se l ∗ = m move s para Cl ·
                test ← 1
                Cl · = Cl · ∪{s} e Cm = Cm − {s}
c) se test = 0 então pare, senão vá para b)

                             Anderson Berg   Métodos de clustering para dados do tipo histograma      27 / 63
Dois novos métodos de clustering                    O primeiro método O segundo método Interpretação




Interpretação


             n                             k                                k
                    2                                  2
                 d (xs , G) =                        d (xs , Gi ) +             ni d 2 (Gi , G)
           s=1                            i=1 s∈Ci                        i=1

                   TSS                           WSS                                BSS


  • d a distância Euclidiana quadrada
  • G a média dos n pontos xs ∈ E
  • Gi a média dos pontos xs ∈ Ci
  • ni = card(Ci )




                            Anderson Berg            Métodos de clustering para dados do tipo histograma      28 / 63
Dois novos métodos de clustering               O primeiro método O segundo método Interpretação




Interpretação


A média G de um cluster C é o ponto g ∈                         p   que minimiza o critério:

                                    fC (g) =         d 2 (xs , g)
                                               s∈C


No primeiro método, a média G é generalizada para protótipo G, que
minimiza:
                       fC (g) =    D(xs , g)
                                               s∈C




                           Anderson Berg       Métodos de clustering para dados do tipo histograma      29 / 63
Dois novos métodos de clustering              O primeiro método O segundo método Interpretação




Interpretação




TSS e WSS podem ser generalizados usando o protótipo Gi de um
cluster Ci :
  • WSS = k    i=1            s∈Ci   D(xs , Gi ) =      k
                                                        i=1 fCi (Gi ),     que é igual ao
    critério ∆(P, L)
  • TSS = n D(xs , GE ), que é o critério fE (GE ), com GE o
              s=1
    protótipo de todo o conjunto E




                            Anderson Berg     Métodos de clustering para dados do tipo histograma       30 / 63
Dois novos métodos de clustering           O primeiro método O segundo método Interpretação




Interpretação

Três critérios serão utilizados para interpretar uma partição e seus
clusters:

  • fCi (Gi ) que é a medida de homogeneidade do cluster Ci ;
  • ∆(P, L) que é a medida da homogeneidade intra-cluster
    (within-cluster) da partição P;
  • fE (GE ) que é a medida da homogeneidade total do conjunto E.




                            Anderson Berg   Métodos de clustering para dados do tipo histograma      31 / 63
Dois novos métodos de clustering           O primeiro método O segundo método Interpretação




Interpretação da partição


Qualidade de uma partição:

                                                   ∆(P, L)
                                     Q(P) = 1 −
                                                   fE (GE )

Qualidade da partição para cada variável Yj :
                                                    k ˜
                                                             ˆj
                                                    i=1 fCi (gi )
                                 Qj (P) = 1 −
                                                    ˜E (g j )
                                                     f ˆE




                            Anderson Berg   Métodos de clustering para dados do tipo histograma      32 / 63
Dois novos métodos de clustering            O primeiro método O segundo método Interpretação




Interpretação dos clusters


A qualidade de um cluster Ci de E é definida por:

                                                     fCi (Gi )
                                     Q(Ci ) = 1 −
                                                    fCi (GE )

A contribuição de um cluster Ci à homogeneidade intra-cluster de P é
definida por:
                                    fC (Gi )
                          K (Ci ) = i
                                    ∆(P, L)
A soma de k contribuições é 1




                            Anderson Berg    Métodos de clustering para dados do tipo histograma      33 / 63
Dois novos métodos de clustering           O primeiro método O segundo método Interpretação




Interpretação dos clusters


Um critério final que é útil para interpretar um cluster de acordo com
uma variável Yj é:
                                         ˜C (g j )
                                         f ˆ
                          Qj (Ci ) = 1 − i ij
                                         ˜C (g
                                         f ˆ            i    E




                            Anderson Berg   Métodos de clustering para dados do tipo histograma      34 / 63
Unsupervised pattern recognition models         Introdução Pré-processamento Distâncias adaptativas Algori




Índice

1   Introdução

2   Dynamic Cluster Algorithm

3   Dois novos métodos de clustering

4   Unsupervised pattern recognition models
      Introdução
      Pré-processamento
      Distâncias adaptativas
      Algoritmo
      Interpretação

5   Medida de Wasserstein




                               Anderson Berg     Métodos de clustering para dados do tipo histograma    35 / 63
Unsupervised pattern recognition models         Introdução Pré-processamento Distâncias adaptativas Algori




Partitioning dynamical cluster algorithm

  • Algoritmos iterativos de duas etapas
  • Construção de clusters e representações de protótipos
  • Critério de adequação
  • Clustering dinâmico adaptativo
  • Análise de dados simbólicos
  • Pré-processamento




                            Anderson Berg     Métodos de clustering para dados do tipo histograma    36 / 63
Unsupervised pattern recognition models         Introdução Pré-processamento Distâncias adaptativas Algori




Tipos de dados

Dada uma variável simbólica Xj , ela é:
  • set-valued se, dado um item i, Xj (i) = xij ⊆ Aj onde
           j         j
    Aj = {t1 , ..., tHj } é um conjunto de categorias
  • ordered list-valued se, dado um item i, Xj (i) = xij , onde xij é uma
                                                            j      j
    sub-lista de uma lista ordenada de categorias Aj = [t1 , ..., tHj ]
  • interval-valued se, dado um item i, Xj (i) = xij = [aij , bij ] ∈ [a, b],
    onde [a, b] ∈ e é o conjunto de intervalos fechados definidos
    em
  • histogram-valued se, dado um item i, Xj (i) = xij = (S j (i), qj (i))
                    j          j
    onde qj (i) = (qi1 , ..., qiHij ) é um vetor de pesos definido em S j (i),
    tal que um peso q(m) corresponde a cada categoria m ∈ S j (i)

                             Anderson Berg     Métodos de clustering para dados do tipo histograma    37 / 63
Unsupervised pattern recognition models         Introdução Pré-processamento Distâncias adaptativas Algori




Tabela de dados




         City       X1                X2                                            X3
         1          [70,100]          ((D,C,S,N),(0.4,0.3,0.2,0.1))                {F,I}
         2          [50,70]           ((D,C,S,N),(0.3,0.3,0.3,0.1))                {S,G}
         3          [20,40]           ((D,C,S,N),(0.2,0.2,0.2,0.4))                {GB,G}
         4          [60,100]          ((D,C,S,N),(0.1,0.3,0.4,0.2))                {B,GB}




                            Anderson Berg     Métodos de clustering para dados do tipo histograma    38 / 63
Unsupervised pattern recognition models              Introdução Pré-processamento Distâncias adaptativas Algori




Set-valued


                                       Xj (i) = xij = (Aj , qj (i))
                                       ˜        ˜
            j         j
onde Aj = {t1 , ..., tHj }

        j                                    j
O peso qh (i)(h = 1, ..., Hj ) da categoria th ∈ Aj é definido como:


                                j
                                                  1
                                                    j ,     se th ∈ xij ,
                                                                j
                               qh (i)   =       c(xi )
                                                0,         se th ∈ xij ,
                                                               j
                                                                 /

onde c(A) é a cardinalidade de um conjunto finito de categorias A.




                              Anderson Berg          Métodos de clustering para dados do tipo histograma    39 / 63
Unsupervised pattern recognition models          Introdução Pré-processamento Distâncias adaptativas Algori




Ordered list-valued


                                      Xj (i) = xij = (Aj , Qj (i))
                                      ˜        ˜
            j         j
onde Aj = [t1 , ..., tHj ]
                    j                                   j
O peso cumulativo Qh (i)(h = 1, ..., Hj ) da categoria th da lista
ordenada Aj é definido como:


                                                                se a categoria trj está na
                                                       1
                 h                                       j ,
                                                     l(xi )
   j
  Qh (i) =            qrj (i), onde qrj (i) =                  j
                                                  sub-lista xi ,
               r =1                              
                                                   0, senão

onde l(A) é o tamanho de uma lista ordenada de categorias A

                              Anderson Berg      Métodos de clustering para dados do tipo histograma    40 / 63
Unsupervised pattern recognition models              Introdução Pré-processamento Distâncias adaptativas Algori




Interval-valued


                                               ˜
                                      Xj (i) = xij = (Aj , Q j (i))
                                      ˜               ˜

     ˜      j         j
onde Aj = {I1 , ..., IHj }

                      j                                              j
Os pesos cumulativos Qh (i)(h = 1, ..., Hj ) do intervalo elementar Ih é
definido como:
                                     h
                      j                                                     l(Irj ∩ xij )
                     Qh (i) =             qrj (i),   onde qrj (i) =                         ,
                                   r =1                                         l(xij )
onde l(I) é o tamanho do intervalo fechado I



                              Anderson Berg          Métodos de clustering para dados do tipo histograma    41 / 63
Unsupervised pattern recognition models             Introdução Pré-processamento Distâncias adaptativas Algori




Intervalos elementares

Propriedades dos intervalos elementares:
         Hj   j
(1)      h=1 Ih = [a, b]
       j    j
(2)   Ih ∩ Ih = ∅ se               h=h
                                  j
(3) ∀h∃i ∈ Ω tal que             Ih   ∩ xij = ∅
(4) ∀i∃Sij ⊂ {1, ..., Hj } : ∪h∈S j Ih = xij
                                     j
                                                 i




                               Anderson Berg         Métodos de clustering para dados do tipo histograma    42 / 63
Unsupervised pattern recognition models              Introdução Pré-processamento Distâncias adaptativas Algori




Exemplo


                          Country            X1                X2
                          1                  [10,30]           {A,Co}
                          2                  [25,35]           {C,Co,E}
                          3                  [90,130]          {A,C,E}
                          4                  [125,140]         {A,C,Co,E}

 • X1 é o mínimo e o máximo do produto nacional bruto (em milhões)
 • X2 indica as principais indústrias a partir do conjunto
   A2 = {A = agricultura , C = chemistry, Co = commerce, E =
   engineering, En = energy, I = informatic}




                           Anderson Berg          Métodos de clustering para dados do tipo histograma    43 / 63
Unsupervised pattern recognition models                     Introdução Pré-processamento Distâncias adaptativas Algori




Intervalos elementares

                                          ˜       1 1 1 1 1 1 1
Conjunto de intervalos elementares: A1 = {I1 , I2 , I3 , I4 , I5 , I6 , I7 }, onde
 1              1              1              1              1
I1 = [10, 25[, I2 = [25, 30[, I3 = [30, 35[, I4 = [35, 90[, I5 =
            7 = [125, 130[ e I 1 = [130, 140[
[90, 125[, I6                   7

          Country     X1                                           X2

          1           (A1 , Q1 (1) = (0.75, 1, 1, 1, 1, 1, 1))
                       ˜                                           (A2 , q2 (1) = (0.5, 0, 0.5, 0, 0, 0))
                                                                    ˜

          2           (A1 , Q1 (2) = (0, 0.5, 0.5, 1, 1, 1, 1))
                       ˜                                           (A2 , q2 (2) = (0, 0.33, 0.33, 0.33, 0, 0))
                                                                    ˜

          3           (A1 , Q1 (3) = (0, 0, 0, 0, 0.88, 1, 1))
                       ˜                                           (A2 , q2 (3) = (0.33, 0.33, 0, 0.33, 0, 0))
                                                                    ˜

          4           (A1 , Q1 (4) = (0, 0, 0, 0, 0, 0.33, 1))
                       ˜                                           (A2 , q2 (4) = (0.25, 0.25, 0.25, 0.25, 0, 0))
                                                                    ˜




                               Anderson Berg              Métodos de clustering para dados do tipo histograma       44 / 63
Unsupervised pattern recognition models          Introdução Pré-processamento Distâncias adaptativas Algori




Representação dos dados

Depois do pré-processamento:

xi = (xi1 , . . . , xip ), xij = (Dj , u j (i))
˜     ˜             ˜ ˜
    j            j              j
  ˜
e u (i) = (u1 (i), . . . , uHj (i))

O protótipo do cluster Ck (k = 1, ..., K ) é representado por um vetor de
histogram-valued symbolic data:
                    p       j
gk = (gk , . . . , gk ), gk = (Dj , vj (k ))(j = 1, . . . , p)
          1
            j                 j
vj (k ) = (v1 (k ), . . . , vhj (k ))




                               Anderson Berg      Métodos de clustering para dados do tipo histograma    45 / 63
Unsupervised pattern recognition models          Introdução Pré-processamento Distâncias adaptativas Algori




Esquema geral

Encontrar a partição P ∗ = {C1 , . . . , CK } de Ω em K clusters, os K
                              ∗            ∗
                              ∗          ∗       ∗
protótipos correspondentes G = (g1 , . . . , gK ) representando os
clusters em P ∗ e K distâncias Euclidianas quadradas adaptativas

parametrizadas por K vetores de pesos D∗ = (λ∗ , . . . , λ∗ )
                                                     1      K

Critério de adequação:
                                                K
                          W (G, D, P) =                      ˜
                                                           d(xi , gk | λk )
                                               k =1 i∈Ck




                             Anderson Berg      Métodos de clustering para dados do tipo histograma    46 / 63
Unsupervised pattern recognition models          Introdução Pré-processamento Distâncias adaptativas Algori




Distâncias Euclidianas adaptativas

(a) Distância única: λk = λ(k = 1, . . . , K ), onde λ = (λ1 , . . . , λp )

                                                p           Hj
                                                                    j        j
                             ˜
                           d(xi , gk | λ) =           λj          (uh (i) − vh (k ))2
                                                j=1        h=1


(b) Distância por cluster: λk = (λ1 , . . . , λp )
                                  k            k

                                                 p           Hj
                           ˜
                         d(xi , gk | λk ) =           λjk           j        j
                                                                  (uh (i) − vh (k ))2
                                                j=1         h=1




                              Anderson Berg      Métodos de clustering para dados do tipo histograma    47 / 63
Unsupervised pattern recognition models         Introdução Pré-processamento Distâncias adaptativas Algori




Pré-processamento: homogenização dos dados

Para todos os objetos i = 1, . . . , n e todas as variáveis j = 1, . . . , p
calcular xij = (Dj , u j (i))
         ˜




                              Anderson Berg     Métodos de clustering para dados do tipo histograma    48 / 63
Unsupervised pattern recognition models               Introdução Pré-processamento Distâncias adaptativas Algori




Etapa de inicialização
                                                                                (0)             (0)
Escolher aleatoriamente uma partição P (0) = (C1 , . . . , CK ) de Ω ou
                                (0)             (0)
K objetos distintos g1 , . . . , gK pertencentes a Ω e atribua cada
                                   (0)
objeto i ao protótipo gk ∗ mais próximo, onde
                                      p         Hj     j                 j
k ∗ = argmink =1,...,K {              j=1       h=1 ((uh (i))
                                                             (0)     − (vh (k ))(0) )2 }. t = 1.




                              Anderson Berg           Métodos de clustering para dados do tipo histograma    49 / 63
Unsupervised pattern recognition models             Introdução Pré-processamento Distâncias adaptativas Algori




Passo 1: Definição dos protótipos

P = {C1 , . . . , CK } e D = (λ1 , . . . , λK ) fixos

                                                          1            p
O vetor de protótipos G = (g1 , . . . , gK ), onde gk = (gk , . . . , gk ) com
  j
gk = (Dj , v j (k )) que minimiza o critério W , onde o vetor
             j                j
v j (k ) = (v1 (k ), . . . , vHj (k )) é calculado por:

                                         j          1            j
                                        vh (k ) =               uh (i)
                                                    nk
                                                         i∈Ck

onde nk é a cardinalidade da classe Ck




                              Anderson Berg         Métodos de clustering para dados do tipo histograma    50 / 63
Unsupervised pattern recognition models         Introdução Pré-processamento Distâncias adaptativas Algori




Passo 2: Definição das distâncias

P = {C1 , . . . , CK } e G = (g1 , . . . , gk ) fixos
(a) Para distância única: λk = λ(k = 1, . . . , K ), onde λ = (λ1 , . . . , λp ),
    λj > 0 e p λj = η
               j=1

                                                                            1
                            p       K             Hl    l        l      2
             j
                    {η      l=1 ( k =1 [ i∈Ck ( h=1 (uh (i) − vh (k )) )])}
                                                                            p
           λ =                                 Hj
                                 K                   j       j      2
                                 k =1 [ i∈Ck ( h=1 uh (i) − vh (k )) )]




                              Anderson Berg     Métodos de clustering para dados do tipo histograma    51 / 63
Unsupervised pattern recognition models          Introdução Pré-processamento Distâncias adaptativas Algori




Passo 2: Definição das distâncias

(b) Para distância por cluster: λk = (λ1 , . . . , λp )λjk > 0 e
                                       k            k
                                                                                              p    j
                                                                                              j=1 λk   =χ

                                                    Hj                                    1
                                  p                      l        l     2
                          {χ      l=1 (    i∈Ck ( h=1 (uh (i) − vh (k )) ))}
                                                                             p
                λjk   =                          Hj    j      j     2
                                        i∈Ck ( h=1 uh (i) − vh (k )) )




                             Anderson Berg      Métodos de clustering para dados do tipo histograma     52 / 63
Unsupervised pattern recognition models         Introdução Pré-processamento Distâncias adaptativas Algori




Passo 3: Definição da partição

G = (g1 , . . . , gk ) e D = (λ1 , . . . , λK ) fixos

                           ˜                  ˜
           Ck = {i ∈ Ω : d(xi , gk | λk ) < d(xi , gm | λm ) e quando
                              ˜                    ˜
                          dk (xi , gk | λk ) = dk (xi , gm | λm ) então
                       i ∈ Ck se k < m∀m = k (m = 1, . . . , K )}




                              Anderson Berg     Métodos de clustering para dados do tipo histograma    53 / 63
Unsupervised pattern recognition models              Introdução Pré-processamento Distâncias adaptativas Algori




Soma dos quadrados global


                               n                             K
                     T =             ˜
                                   d(xi , g | λk ) =                     ˜
                                                                       d(xi , g | λk )
                             i=1                           k =1 i∈Ck

onde g = (g 1 , . . . , g p ), g j = (Dj , vj )(j = 1, . . . , p) e o vetor de pesos
       j            j
vj = (v1 , . . . , vHj ) é calculado por:

                                                       n
                                             j     1          j
                                            vh =             uh (i)
                                                   n
                                                       i=1




                              Anderson Berg        Métodos de clustering para dados do tipo histograma      54 / 63
Unsupervised pattern recognition models             Introdução Pré-processamento Distâncias adaptativas Algori




Soma dos quadrados intra-classe: W


                                              K
                                 W =                    ˜
                                                      d(xi , gk | λk )
                                          k =1 i∈Ck




                            Anderson Berg         Métodos de clustering para dados do tipo histograma    55 / 63
Unsupervised pattern recognition models                 Introdução Pré-processamento Distâncias adaptativas Algori




Soma dos quadrados inter-classe: B


                                               K
                                    B=               nk d(gk , g | λk )
                                              k =1




                            Anderson Berg             Métodos de clustering para dados do tipo histograma    56 / 63
Unsupervised pattern recognition models         Introdução Pré-processamento Distâncias adaptativas Algori




Relações entre as somas

  • T =W +B
  • Tk = Wk + Bk (k = 1, . . . , K )
  • Tj = Wj + Bj (j = 1, . . . , p)
  • Tkj = Wkj + Bkj (k = 1, . . . , K ; j = 1, . . . , p)




                             Anderson Berg     Métodos de clustering para dados do tipo histograma    57 / 63
Medida de Wasserstein




Índice

1   Introdução

2   Dynamic Cluster Algorithm

3   Dois novos métodos de clustering

4   Unsupervised pattern recognition models

5   Medida de Wasserstein




                            Anderson Berg     Métodos de clustering para dados do tipo histograma   58 / 63
Medida de Wasserstein




Notação

 • Y é uma variável contínua definida em S = [y ; y ]
 • Y é particionada em intervalos contíguos: {I1 , . . . , Ih , . . . , IH } onde
   Ih = [yh ; yh ]
 • A cada intervalo semi-aberto Ih é associada uma variável
   aleatória:
                                                    N
                                         Ψ(Ih ) =         Ψyu (Ih )
                                                    u=1

   onde Ψyu (Ih ) = 1 se yu ∈ Ih , 0 se não
 • Distribuição empírica associada a Ih : πh = Ψ(Ih )/N




                         Anderson Berg        Métodos de clustering para dados do tipo histograma   59 / 63
Medida de Wasserstein




Distância quadrada

A distância quadrada entre duas descrições de histograma Y (i) e Y (j)
é:
                                         m        wl
             2
            dM (Y (i), Y (j))      :=                  (Ψ−1 (t) − Ψ−1 (t))2 dt
                                                         i         j
                                         l=1    wl−1

Cada dupla (wl−1 , wl ) permite identificar dois intervalos, um para i e
outro para j:

      Ili = [Ψ−1 (wl−1 ); Ψ−1 (wl )]
              i            i                    e       Ilj = [Ψ−1 (wl−1 ); Ψ−1 (wl )]
                                                                j            j




                         Anderson Berg         Métodos de clustering para dados do tipo histograma   60 / 63
Medida de Wasserstein




Distância quadrada

Para cada intervalo é possível calcular os centros e os raios:

   cli = (Ψ−1 (wl ) + Ψ−1 (wl−1 ))/2
           i           i                              rli = (Ψ−1 (wl ) − Ψ−1 (wl−1 ))/2
                                                              i           i

O cálculo da distância pode ser reescrito:


                             p    mk
    2                                     (k )        (k )       (k ) 2        1 (k )  (k )            2
   dM (Y (i), Y (j)) :=                  πl        cli       − clj        +      r − rlj
                                                                               3 li
                            k =1 l=1




                         Anderson Berg           Métodos de clustering para dados do tipo histograma       61 / 63
Medida de Wasserstein




dM para dynamic clustering


            f (Y (b)|Y (1), . . . , Y (n)) = f (c1b , r1b , . . . , cmb , rmb ) =
           n                                       n     m
                                                                                   1
      =          d 2 (Y (i), Y (b)) =                            πj (cji − cjb )2 + (rji − rjb )2
                                                                                   3
          i=1                                     i=1 j=1
Esta função atinge um mínimo quando:
                                              n                                     n
                                       −1                                     −1
                          cjb = n                  cji       ;      rjb = n              rji
                                            i=1                                    i=1

O baricentro (protótipo) do histograma:

  Y (b) = {([c1b − r1b ; c1b + r1b ] , π1 ) ; . . . ;                     cjb − rjb ; cjb + rjb , πj ; . . . ;
                                                             ; . . . ; ([cmb − rmb ; cmb + rmb ] , πm )}

                              Anderson Berg              Métodos de clustering para dados do tipo histograma   62 / 63
Bibliografia


Marie Chavent, Francisco De A. T. Carvalho, Yves Lechevallier, and Rosanna
Verde.
New clustering methods for interval data.
Computational Statistics, 21:211–229, 2006.

Francisco De A.T. de Carvalho and Renata M.C.R. de Souza.
New clustering methods for interval data.
Computational Statistics, 2006.




                     Anderson Berg   Métodos de clustering para dados do tipo histograma   63 / 63

Métodos de clustering para dados intervalares e do tipo histograma

  • 1.
    Métodos de clusteringpara dados intervalares e do tipo histograma Anderson Berg absd@cin.ufpe.br Anderson Berg Métodos de clustering para dados do tipo histograma 1 / 63
  • 2.
    Introdução Índice 1 Introdução 2 Dynamic Cluster Algorithm 3 Dois novos métodos de clustering 4 Unsupervised pattern recognition models 5 Medida de Wasserstein Anderson Berg Métodos de clustering para dados do tipo histograma 2 / 63
  • 3.
    Introdução Introdução •Duas abordagens de clustering baseadas no algoritmo DCA - Dynamic Cluster Algorithm • Primeira abordagem: Protótipos descritos por vetores de intervalos Dissimilaridade baseada na distância de Hausdorff • Segunda abordagem: Protótipos e objetos descritos de maneiras diferentes Função matching Anderson Berg Métodos de clustering para dados do tipo histograma 3 / 63
  • 4.
    Introdução Notações • E= {1, ..., s, ..., n} conjunto de n objetos descritos por p variáveis intervalares Y1 , ..., Yj , ..., Yp 1 p • xs = (xs , ..., xs ) vetor de intervalos que descrevem o objeto s • P = (C1 , ..., Ci , ..., Ck ) uma partição em k clusters de E • Gi = (gi1 , ..., gij , ..., gip ) um protótipo do cluster Ci • Λ uma representação do espaço do protótipo Gi Anderson Berg Métodos de clustering para dados do tipo histograma 4 / 63
  • 5.
    Dynamic Cluster Algorithm Índice 1 Introdução 2 Dynamic Cluster Algorithm 3 Dois novos métodos de clustering 4 Unsupervised pattern recognition models 5 Medida de Wasserstein Anderson Berg Métodos de clustering para dados do tipo histograma 5 / 63
  • 6.
    Dynamic Cluster Algorithm Objetivo Encontraruma partição P ∗ = (C1 , ..., Ck ) de E em k clusters não-vazios e um vetor L∗ = (G1 , ..., Gi , ...Gk ) tal que P ∗ e L∗ otimizem o critério: ∆(P ∗ , L∗ ) = Min{∆(P, L)/P ∈ Pk , L ∈ Λk } Anderson Berg Métodos de clustering para dados do tipo histograma 6 / 63
  • 7.
    Dynamic Cluster Algorithm Objetivo Encontraruma partição P ∗ = (C1 , ..., Ck ) de E em k clusters não-vazios e um vetor L∗ = (G1 , ..., Gi , ...Gk ) tal que P ∗ e L∗ otimizem o critério: ∆(P ∗ , L∗ ) = Min{∆(P, L)/P ∈ Pk , L ∈ Λk } k ∆(P, L) = D(xs , Gi ) i=1 s∈Ci Anderson Berg Métodos de clustering para dados do tipo histograma 6 / 63
  • 8.
    Dynamic Cluster Algorithm Algoritmo 1 Inicialização: Inicia de uma partição aleatória P = (C1 , ..., Ci , ..., Ck ) ou de um vetor (G1 , ..., Gi , ..., Gk ) de k protótipos aleatórios escolhidos entre os elementos de E. Neste caso: Ci = ∅ para i = 1, ..., k Para s = 1 até n faça: Atribua s ao cluster Cl , l = argmini=1,...,k D(xs , Gi ) Cl = Cl ∪ {s} Anderson Berg Métodos de clustering para dados do tipo histograma 7 / 63
  • 9.
    Dynamic Cluster Algorithm Algoritmo 2 Etapa de representação: i = 1 até k , obter o protótipo Gi que minimiza o critério: fCi (G) = D(xs , G), G ∈ Λ s∈Ci 3 Etapa de alocação: test ← 0 para s = 1 até n faça: Encontre o cluster Cm ao qual s pertence Encontre o índice l tal que: l = argmini=1,...,k D(xs , Gi ) Se l = m: test ← 1 Cl = Cl ∪ {s} e Cm = Cm − {s} 4 Se test = 0 pare, senão vá para 2 Anderson Berg Métodos de clustering para dados do tipo histograma 8 / 63
  • 10.
    Dois novos métodosde clustering O primeiro método O segundo método Interpretação Índice 1 Introdução 2 Dynamic Cluster Algorithm 3 Dois novos métodos de clustering O primeiro método O segundo método Interpretação 4 Unsupervised pattern recognition models 5 Medida de Wasserstein Anderson Berg Métodos de clustering para dados do tipo histograma 9 / 63
  • 11.
    Dois novos métodosde clustering O primeiro método O segundo método Interpretação O primeiro método • Compara dois vetores de intervalos x1 e x2 • Comparação baseada na distância de Hausdorff • É usada a soma das distâncias de Hausdorff entre intervalos Anderson Berg Métodos de clustering para dados do tipo histograma 10 / 63
  • 12.
    Dois novos métodosde clustering O primeiro método O segundo método Interpretação Definição da distância de Hausdorff • Frequentemente utilizada em processamento de imagem • Usada para comparar dois conjuntos de objetos A e B j j j • A distância de Hausdorff entre dois intervalos x1 = [a1 , b1 ] e j j j x2 = [a2 , b2 ] : j j j j j j dH (x1 , x2 ) = max(|a1 − a2 )|, |b1 − b2 |) Anderson Berg Métodos de clustering para dados do tipo histograma 11 / 63
  • 13.
    Dois novos métodosde clustering O primeiro método O segundo método Interpretação Definição da distância de Hausdorff • Frequentemente utilizada em processamento de imagem • Usada para comparar dois conjuntos de objetos A e B j j j • A distância de Hausdorff entre dois intervalos x1 = [a1 , b1 ] e j j j x2 = [a2 , b2 ] : j j j j j j dH (x1 , x2 ) = max(|a1 − a2 )|, |b1 − b2 |) A distância d1 entre dois vetores de intervalos x1 e x2 é a soma das p variáveis das distâncias de Hausdorff entre os intervalos: p j j j j d1 (x1 , x2 ) = j=1 max(|a1 − a2 |, |b1 − b2 |) Anderson Berg Métodos de clustering para dados do tipo histograma 11 / 63
  • 14.
    Dois novos métodosde clustering O primeiro método O segundo método Interpretação O protótipo O protótipo G = (g 1 , ..., g p ) de um cluster C é um vetor de p intervalos que minimizam o critério de adequação: p j fC (G) = d1 (xs , G) = dH (xs , g j ) s∈C s∈C j=1 Ou: f˜ (g j ) C p j fC (G) = dH (xs , g j ) j=1 s∈C Anderson Berg Métodos de clustering para dados do tipo histograma 12 / 63
  • 15.
    Dois novos métodosde clustering O primeiro método O segundo método Interpretação O protótipo o problema agora é encontrar o intervalo g j = [αj , β j ] para (j = 1, ..., p) que minimiza: j j j f˜ (g j ) = C dH (xs , g j ) = max(|αj − as |, |β j − bs |) s∈C s∈C Anderson Berg Métodos de clustering para dados do tipo histograma 13 / 63
  • 16.
    Dois novos métodosde clustering O primeiro método O segundo método Interpretação O protótipo Vamos resolver o problema da minimização transformando em dois j problemas de minimização bem conhecidos. Seja ms o ponto médio j j j j de um intervalo xs = [as , bs ] e ls metade do seu tamanho: j j j j j as + bs j bs − as ms = e ls = 2 2 e seja µj e λj o ponto médio e a metade do tamanho do intervalo g j = [αj , β j ], respectivamente. De acordo com a seguinte propriedade definida para x e y em : max(|x − y |, |x + y |) = |x| + |y | Anderson Berg Métodos de clustering para dados do tipo histograma 14 / 63
  • 17.
    Dois novos métodosde clustering O primeiro método O segundo método Interpretação O protótipo j j j j f˜ (g j ) = C max(|(µj − λj ) − (ms − ls )|, |(µj + λj ) − (ms + ls )|) s∈C j j = |µj − ms | + |λj − ls | s∈C s∈C Anderson Berg Métodos de clustering para dados do tipo histograma 15 / 63
  • 18.
    Dois novos métodosde clustering O primeiro método O segundo método Interpretação O protótipo Isto leva a dois problemas de minimização bem conhecidos: encontrar µj ∈ e λj ∈ que minimizam, respectivamente: j j |µj − ms | e |λj − ls | s∈C s∈C ˆ j • µj : a mediana de {ms , s ∈ C}, que são os pontos médios dos j j j intervalos xs = [as , bs ], s ∈ C ˆ • λj : a mediana do conjunto {l j , s ∈ C} s ˆ ˆ ˆ ˆ ˆ ˆ ˆ • g j = [αj , β j ] o intervalo [µj − λj , µj + λj ] • G = (g 1 , ..., g p ): o protótipo de C ˆ ˆ Anderson Berg Métodos de clustering para dados do tipo histograma 16 / 63
  • 19.
    Dois novos métodosde clustering O primeiro método O segundo método Interpretação O segundo método j j j j • Compara duas duplas p1 = (x1 , q1 ) e p2 = (x2 , q2 ) j j • q1 e q2 são pesos associados a x1 e x2 j j • Uma etapa de pré-processamento discretiza x1 e x2 em intervalos elementares Anderson Berg Métodos de clustering para dados do tipo histograma 17 / 63
  • 20.
    Dois novos métodosde clustering O primeiro método O segundo método Interpretação Pré-processamento j j j • xs é discretizado para obter intervalos elementares {I1 , ..., IHj } e j seus pesos correspondentes qs j j j • A partir de um conjunto {x1 , ..., xs , ..., xn } de n intervalos outro j j j conjunto de Hj intervalos disjuntos {I1 , ..., Ih , ..., IHj } é formado • Ordena-se o conjunto de limites inferiores e superiores dos n j j j intervalos {x1 , ..., xs , ..., xn } para obter os intervalos elementares j • Os intervalos elementares Ih devem obedecer as seguintes propriedades: Anderson Berg Métodos de clustering para dados do tipo histograma 18 / 63
  • 21.
    Dois novos métodosde clustering O primeiro método O segundo método Interpretação Pré-processamento j j j • xs é discretizado para obter intervalos elementares {I1 , ..., IHj } e j seus pesos correspondentes qs j j j • A partir de um conjunto {x1 , ..., xs , ..., xn } de n intervalos outro j j j conjunto de Hj intervalos disjuntos {I1 , ..., Ih , ..., IHj } é formado • Ordena-se o conjunto de limites inferiores e superiores dos n j j j intervalos {x1 , ..., xs , ..., xn } para obter os intervalos elementares j • Os intervalos elementares Ih devem obedecer as seguintes propriedades: Hj j j n i) h=1 Ih = s=1 xs j j ii) Ih ∩ Ih = ∅ se h = h j j j j iii) ∀s ∈ E, ∀h Ih ⊆ xs ou Ih ∩ xs = ∅ j j j j j j j j j iv) ∀s ∈ E, ∃Ss ⊂ {I1 , ..., IHj } : I j ∈S j Ih = xs e ∀Ih ∈ Ss , Ih ⊆ xs h s Anderson Berg Métodos de clustering para dados do tipo histograma 18 / 63
  • 22.
    Dois novos métodosde clustering O primeiro método O segundo método Interpretação Pré-processamento j j j j Ss = {Ih : Ih ⊆ xs } é um subconjunto de intervalos elementares A Função peso qs é definida como: j qs : Ss → [0, 1] j j j j |Ih | Ih ∈ Ss → qs (Ih ) = j j bs − as j j |Ih | é o tamanho do intervalo Ih j j j ∀Ih ∈ Ss , qs (Ih ) ≥ 0 j j j qs (I ) = 1 h I ∈S s h Anderson Berg Métodos de clustering para dados do tipo histograma 19 / 63
  • 23.
    Dois novos métodosde clustering O primeiro método O segundo método Interpretação Construção de intervalos elementares Anderson Berg Métodos de clustering para dados do tipo histograma 20 / 63
  • 24.
    Dois novos métodosde clustering O primeiro método O segundo método Interpretação Definição da dissimilaridade de "dois componentes" j j j j Duas duplas p1 = (x1 , q1 ) e p2 = (x2 , q2 ) são comparadas por: j j j j d2c (p1 , p2 ) = dci (x1 , x2 ) + dcd (q1 , q2 ) Anderson Berg Métodos de clustering para dados do tipo histograma 21 / 63
  • 25.
    Dois novos métodosde clustering O primeiro método O segundo método Interpretação O primeiro componente j j j j j j Dissimilaridade dci entre dois intervalos x1 = [a1 , b1 ] e x2 = [a2 , b2 ]: j j ¯j ¯j j j |(x1 ∩ x2 ) ∩ (x1 ⊕ x2 )| dci (x1 , x2 ) = j j |x1 ⊕ x2 | onde: • |.| o tamanho de um intervalo j j j j j j • x1 ⊕ x2 = [min(a1 , a2 ), max(b1 , b2 )] ¯j j j j • xs =] − ∞, as [∪]bs , +∞[ o conjunto complementar de xs em Anderson Berg Métodos de clustering para dados do tipo histograma 22 / 63
  • 26.
    Dois novos métodosde clustering O primeiro método O segundo método Interpretação O primeiro componente Alternativamente:  j j j j |min(b1 ,b2 )−max(a1 ,a2 )| j j se x1 ∩ x2 = ∅  j j j j j j dci (x1 , x2 ) = max(b1 ,b2 )−min(a1 ,a2 )  0 senão Anderson Berg Métodos de clustering para dados do tipo histograma 23 / 63
  • 27.
    Dois novos métodosde clustering O primeiro método O segundo método Interpretação O segundo componente Dissimilaridade dcd entre duas funções peso: 1 j j dcd (q1 , q2 ) = ( q1 (Ih ) + q2 (Ih )) 2 j j j j j j j j j j {Ih :Ih ∈S1 ,Ih ∈S2 } / {Ih :Ih ∈S2 ,Ih ∈S1 } / j j j j 0 ≤ dcd ≤ 1, com dcd = 0 se x1 = x2 e dcd = 1 se x1 ∩ x2 = ∅ Anderson Berg Métodos de clustering para dados do tipo histograma 24 / 63
  • 28.
    Dois novos métodosde clustering O primeiro método O segundo método Interpretação O segundo componente Dissimilaridade dcd entre duas funções peso: 1 j j dcd (q1 , q2 ) = ( q1 (Ih ) + q2 (Ih )) 2 j j j j j j j j j j {Ih :Ih ∈S1 ,Ih ∈S2 } / {Ih :Ih ∈S2 ,Ih ∈S1 } / j j j j 0 ≤ dcd ≤ 1, com dcd = 0 se x1 = x2 e dcd = 1 se x1 ∩ x2 = ∅ p p j j j j d2 (p1 , p2 ) = d2c (p1 , p2 ) = (dci (x1 , x2 ) + dcd (q1 , q2 )) j=1 j=1 Anderson Berg Métodos de clustering para dados do tipo histograma 24 / 63
  • 29.
    Dois novos métodosde clustering O primeiro método O segundo método Interpretação O protótipo O protótipo G de um cluster C é agora um vetor de p duplas (Γj , q): j j (a) Γj = [mins∈C as , maxs∈C bs ] é um intervalo que generaliza os j j j intervalos xs = [as , bs ] para s ∈ C; j (b) Γj = xs : s ∈ C é um conjunto de intervalos 1 j q= card(C) {h,s:Ih ∈Ss j e s∈C} qs (Ih ) 0, senão Anderson Berg Métodos de clustering para dados do tipo histograma 25 / 63
  • 30.
    Dois novos métodosde clustering O primeiro método O segundo método Interpretação O protótipo Como a definição (b) de Γj não é um intervalo ∗ j ¯j |(xs ∩ ( ¯j j s ∈C xs )) ∩ (xs ⊕ ( s ∈C j xs ))| dci (xs , Γj ) = j j |xs ⊕ ( s ∈C xs )| j j j j j j xs ⊕ ( s ∈C xs ) = [min(as , mins ∈C as ), max(bs , maxs ∈C bs )] Anderson Berg Métodos de clustering para dados do tipo histograma 26 / 63
  • 31.
    Dois novos métodosde clustering O primeiro método O segundo método Interpretação O protótipo Como a definição (b) de Γj não é um intervalo ∗ j ¯j |(xs ∩ ( ¯j j s ∈C xs )) ∩ (xs ⊕ ( s ∈C j xs ))| dci (xs , Γj ) = j j |xs ⊕ ( s ∈C xs )| j j j j j j xs ⊕ ( s ∈C xs ) = [min(as , mins ∈C as ), max(bs , maxs ∈C bs )] p ∗ ∗ j d2 (ps , G) = (dci (xs , Γj ) + dcd (qs , q)) j=1 Anderson Berg Métodos de clustering para dados do tipo histograma 26 / 63
  • 32.
    Dois novos métodosde clustering O primeiro método O segundo método Interpretação O algoritmo a) Inicialização: Inicia de uma partição aleatória P = (C1 , ..., Ci , ..., Ck ) b) Etapa de alocação: test ← 0 para s = 1 até n faça: Encontre o cluster Cm ao qual s pertence Se card(Cm ) = 1 para l = 1, ..., k e l = m calcula novos protótipos Gm de Cm − {s} e Gl de Cl ∪ {s} calcula o critério ∆l = k i=1 ∗ s ∈Ci D(ps ,Gi ) onde D = d2 ou d2 Encontre o cluster Cl · tal que l ∗ = argminl=1,...,k ∆l Se l ∗ = m move s para Cl · test ← 1 Cl · = Cl · ∪{s} e Cm = Cm − {s} c) se test = 0 então pare, senão vá para b) Anderson Berg Métodos de clustering para dados do tipo histograma 27 / 63
  • 33.
    Dois novos métodosde clustering O primeiro método O segundo método Interpretação Interpretação n k k 2 2 d (xs , G) = d (xs , Gi ) + ni d 2 (Gi , G) s=1 i=1 s∈Ci i=1 TSS WSS BSS • d a distância Euclidiana quadrada • G a média dos n pontos xs ∈ E • Gi a média dos pontos xs ∈ Ci • ni = card(Ci ) Anderson Berg Métodos de clustering para dados do tipo histograma 28 / 63
  • 34.
    Dois novos métodosde clustering O primeiro método O segundo método Interpretação Interpretação A média G de um cluster C é o ponto g ∈ p que minimiza o critério: fC (g) = d 2 (xs , g) s∈C No primeiro método, a média G é generalizada para protótipo G, que minimiza: fC (g) = D(xs , g) s∈C Anderson Berg Métodos de clustering para dados do tipo histograma 29 / 63
  • 35.
    Dois novos métodosde clustering O primeiro método O segundo método Interpretação Interpretação TSS e WSS podem ser generalizados usando o protótipo Gi de um cluster Ci : • WSS = k i=1 s∈Ci D(xs , Gi ) = k i=1 fCi (Gi ), que é igual ao critério ∆(P, L) • TSS = n D(xs , GE ), que é o critério fE (GE ), com GE o s=1 protótipo de todo o conjunto E Anderson Berg Métodos de clustering para dados do tipo histograma 30 / 63
  • 36.
    Dois novos métodosde clustering O primeiro método O segundo método Interpretação Interpretação Três critérios serão utilizados para interpretar uma partição e seus clusters: • fCi (Gi ) que é a medida de homogeneidade do cluster Ci ; • ∆(P, L) que é a medida da homogeneidade intra-cluster (within-cluster) da partição P; • fE (GE ) que é a medida da homogeneidade total do conjunto E. Anderson Berg Métodos de clustering para dados do tipo histograma 31 / 63
  • 37.
    Dois novos métodosde clustering O primeiro método O segundo método Interpretação Interpretação da partição Qualidade de uma partição: ∆(P, L) Q(P) = 1 − fE (GE ) Qualidade da partição para cada variável Yj : k ˜ ˆj i=1 fCi (gi ) Qj (P) = 1 − ˜E (g j ) f ˆE Anderson Berg Métodos de clustering para dados do tipo histograma 32 / 63
  • 38.
    Dois novos métodosde clustering O primeiro método O segundo método Interpretação Interpretação dos clusters A qualidade de um cluster Ci de E é definida por: fCi (Gi ) Q(Ci ) = 1 − fCi (GE ) A contribuição de um cluster Ci à homogeneidade intra-cluster de P é definida por: fC (Gi ) K (Ci ) = i ∆(P, L) A soma de k contribuições é 1 Anderson Berg Métodos de clustering para dados do tipo histograma 33 / 63
  • 39.
    Dois novos métodosde clustering O primeiro método O segundo método Interpretação Interpretação dos clusters Um critério final que é útil para interpretar um cluster de acordo com uma variável Yj é: ˜C (g j ) f ˆ Qj (Ci ) = 1 − i ij ˜C (g f ˆ i E Anderson Berg Métodos de clustering para dados do tipo histograma 34 / 63
  • 40.
    Unsupervised pattern recognitionmodels Introdução Pré-processamento Distâncias adaptativas Algori Índice 1 Introdução 2 Dynamic Cluster Algorithm 3 Dois novos métodos de clustering 4 Unsupervised pattern recognition models Introdução Pré-processamento Distâncias adaptativas Algoritmo Interpretação 5 Medida de Wasserstein Anderson Berg Métodos de clustering para dados do tipo histograma 35 / 63
  • 41.
    Unsupervised pattern recognitionmodels Introdução Pré-processamento Distâncias adaptativas Algori Partitioning dynamical cluster algorithm • Algoritmos iterativos de duas etapas • Construção de clusters e representações de protótipos • Critério de adequação • Clustering dinâmico adaptativo • Análise de dados simbólicos • Pré-processamento Anderson Berg Métodos de clustering para dados do tipo histograma 36 / 63
  • 42.
    Unsupervised pattern recognitionmodels Introdução Pré-processamento Distâncias adaptativas Algori Tipos de dados Dada uma variável simbólica Xj , ela é: • set-valued se, dado um item i, Xj (i) = xij ⊆ Aj onde j j Aj = {t1 , ..., tHj } é um conjunto de categorias • ordered list-valued se, dado um item i, Xj (i) = xij , onde xij é uma j j sub-lista de uma lista ordenada de categorias Aj = [t1 , ..., tHj ] • interval-valued se, dado um item i, Xj (i) = xij = [aij , bij ] ∈ [a, b], onde [a, b] ∈ e é o conjunto de intervalos fechados definidos em • histogram-valued se, dado um item i, Xj (i) = xij = (S j (i), qj (i)) j j onde qj (i) = (qi1 , ..., qiHij ) é um vetor de pesos definido em S j (i), tal que um peso q(m) corresponde a cada categoria m ∈ S j (i) Anderson Berg Métodos de clustering para dados do tipo histograma 37 / 63
  • 43.
    Unsupervised pattern recognitionmodels Introdução Pré-processamento Distâncias adaptativas Algori Tabela de dados City X1 X2 X3 1 [70,100] ((D,C,S,N),(0.4,0.3,0.2,0.1)) {F,I} 2 [50,70] ((D,C,S,N),(0.3,0.3,0.3,0.1)) {S,G} 3 [20,40] ((D,C,S,N),(0.2,0.2,0.2,0.4)) {GB,G} 4 [60,100] ((D,C,S,N),(0.1,0.3,0.4,0.2)) {B,GB} Anderson Berg Métodos de clustering para dados do tipo histograma 38 / 63
  • 44.
    Unsupervised pattern recognitionmodels Introdução Pré-processamento Distâncias adaptativas Algori Set-valued Xj (i) = xij = (Aj , qj (i)) ˜ ˜ j j onde Aj = {t1 , ..., tHj } j j O peso qh (i)(h = 1, ..., Hj ) da categoria th ∈ Aj é definido como: j 1 j , se th ∈ xij , j qh (i) = c(xi ) 0, se th ∈ xij , j / onde c(A) é a cardinalidade de um conjunto finito de categorias A. Anderson Berg Métodos de clustering para dados do tipo histograma 39 / 63
  • 45.
    Unsupervised pattern recognitionmodels Introdução Pré-processamento Distâncias adaptativas Algori Ordered list-valued Xj (i) = xij = (Aj , Qj (i)) ˜ ˜ j j onde Aj = [t1 , ..., tHj ] j j O peso cumulativo Qh (i)(h = 1, ..., Hj ) da categoria th da lista ordenada Aj é definido como: se a categoria trj está na  1 h  j ,  l(xi ) j Qh (i) = qrj (i), onde qrj (i) = j  sub-lista xi , r =1  0, senão onde l(A) é o tamanho de uma lista ordenada de categorias A Anderson Berg Métodos de clustering para dados do tipo histograma 40 / 63
  • 46.
    Unsupervised pattern recognitionmodels Introdução Pré-processamento Distâncias adaptativas Algori Interval-valued ˜ Xj (i) = xij = (Aj , Q j (i)) ˜ ˜ ˜ j j onde Aj = {I1 , ..., IHj } j j Os pesos cumulativos Qh (i)(h = 1, ..., Hj ) do intervalo elementar Ih é definido como: h j l(Irj ∩ xij ) Qh (i) = qrj (i), onde qrj (i) = , r =1 l(xij ) onde l(I) é o tamanho do intervalo fechado I Anderson Berg Métodos de clustering para dados do tipo histograma 41 / 63
  • 47.
    Unsupervised pattern recognitionmodels Introdução Pré-processamento Distâncias adaptativas Algori Intervalos elementares Propriedades dos intervalos elementares: Hj j (1) h=1 Ih = [a, b] j j (2) Ih ∩ Ih = ∅ se h=h j (3) ∀h∃i ∈ Ω tal que Ih ∩ xij = ∅ (4) ∀i∃Sij ⊂ {1, ..., Hj } : ∪h∈S j Ih = xij j i Anderson Berg Métodos de clustering para dados do tipo histograma 42 / 63
  • 48.
    Unsupervised pattern recognitionmodels Introdução Pré-processamento Distâncias adaptativas Algori Exemplo Country X1 X2 1 [10,30] {A,Co} 2 [25,35] {C,Co,E} 3 [90,130] {A,C,E} 4 [125,140] {A,C,Co,E} • X1 é o mínimo e o máximo do produto nacional bruto (em milhões) • X2 indica as principais indústrias a partir do conjunto A2 = {A = agricultura , C = chemistry, Co = commerce, E = engineering, En = energy, I = informatic} Anderson Berg Métodos de clustering para dados do tipo histograma 43 / 63
  • 49.
    Unsupervised pattern recognitionmodels Introdução Pré-processamento Distâncias adaptativas Algori Intervalos elementares ˜ 1 1 1 1 1 1 1 Conjunto de intervalos elementares: A1 = {I1 , I2 , I3 , I4 , I5 , I6 , I7 }, onde 1 1 1 1 1 I1 = [10, 25[, I2 = [25, 30[, I3 = [30, 35[, I4 = [35, 90[, I5 = 7 = [125, 130[ e I 1 = [130, 140[ [90, 125[, I6 7 Country X1 X2 1 (A1 , Q1 (1) = (0.75, 1, 1, 1, 1, 1, 1)) ˜ (A2 , q2 (1) = (0.5, 0, 0.5, 0, 0, 0)) ˜ 2 (A1 , Q1 (2) = (0, 0.5, 0.5, 1, 1, 1, 1)) ˜ (A2 , q2 (2) = (0, 0.33, 0.33, 0.33, 0, 0)) ˜ 3 (A1 , Q1 (3) = (0, 0, 0, 0, 0.88, 1, 1)) ˜ (A2 , q2 (3) = (0.33, 0.33, 0, 0.33, 0, 0)) ˜ 4 (A1 , Q1 (4) = (0, 0, 0, 0, 0, 0.33, 1)) ˜ (A2 , q2 (4) = (0.25, 0.25, 0.25, 0.25, 0, 0)) ˜ Anderson Berg Métodos de clustering para dados do tipo histograma 44 / 63
  • 50.
    Unsupervised pattern recognitionmodels Introdução Pré-processamento Distâncias adaptativas Algori Representação dos dados Depois do pré-processamento: xi = (xi1 , . . . , xip ), xij = (Dj , u j (i)) ˜ ˜ ˜ ˜ j j j ˜ e u (i) = (u1 (i), . . . , uHj (i)) O protótipo do cluster Ck (k = 1, ..., K ) é representado por um vetor de histogram-valued symbolic data: p j gk = (gk , . . . , gk ), gk = (Dj , vj (k ))(j = 1, . . . , p) 1 j j vj (k ) = (v1 (k ), . . . , vhj (k )) Anderson Berg Métodos de clustering para dados do tipo histograma 45 / 63
  • 51.
    Unsupervised pattern recognitionmodels Introdução Pré-processamento Distâncias adaptativas Algori Esquema geral Encontrar a partição P ∗ = {C1 , . . . , CK } de Ω em K clusters, os K ∗ ∗ ∗ ∗ ∗ protótipos correspondentes G = (g1 , . . . , gK ) representando os clusters em P ∗ e K distâncias Euclidianas quadradas adaptativas parametrizadas por K vetores de pesos D∗ = (λ∗ , . . . , λ∗ ) 1 K Critério de adequação: K W (G, D, P) = ˜ d(xi , gk | λk ) k =1 i∈Ck Anderson Berg Métodos de clustering para dados do tipo histograma 46 / 63
  • 52.
    Unsupervised pattern recognitionmodels Introdução Pré-processamento Distâncias adaptativas Algori Distâncias Euclidianas adaptativas (a) Distância única: λk = λ(k = 1, . . . , K ), onde λ = (λ1 , . . . , λp ) p Hj j j ˜ d(xi , gk | λ) = λj (uh (i) − vh (k ))2 j=1 h=1 (b) Distância por cluster: λk = (λ1 , . . . , λp ) k k p Hj ˜ d(xi , gk | λk ) = λjk j j (uh (i) − vh (k ))2 j=1 h=1 Anderson Berg Métodos de clustering para dados do tipo histograma 47 / 63
  • 53.
    Unsupervised pattern recognitionmodels Introdução Pré-processamento Distâncias adaptativas Algori Pré-processamento: homogenização dos dados Para todos os objetos i = 1, . . . , n e todas as variáveis j = 1, . . . , p calcular xij = (Dj , u j (i)) ˜ Anderson Berg Métodos de clustering para dados do tipo histograma 48 / 63
  • 54.
    Unsupervised pattern recognitionmodels Introdução Pré-processamento Distâncias adaptativas Algori Etapa de inicialização (0) (0) Escolher aleatoriamente uma partição P (0) = (C1 , . . . , CK ) de Ω ou (0) (0) K objetos distintos g1 , . . . , gK pertencentes a Ω e atribua cada (0) objeto i ao protótipo gk ∗ mais próximo, onde p Hj j j k ∗ = argmink =1,...,K { j=1 h=1 ((uh (i)) (0) − (vh (k ))(0) )2 }. t = 1. Anderson Berg Métodos de clustering para dados do tipo histograma 49 / 63
  • 55.
    Unsupervised pattern recognitionmodels Introdução Pré-processamento Distâncias adaptativas Algori Passo 1: Definição dos protótipos P = {C1 , . . . , CK } e D = (λ1 , . . . , λK ) fixos 1 p O vetor de protótipos G = (g1 , . . . , gK ), onde gk = (gk , . . . , gk ) com j gk = (Dj , v j (k )) que minimiza o critério W , onde o vetor j j v j (k ) = (v1 (k ), . . . , vHj (k )) é calculado por: j 1 j vh (k ) = uh (i) nk i∈Ck onde nk é a cardinalidade da classe Ck Anderson Berg Métodos de clustering para dados do tipo histograma 50 / 63
  • 56.
    Unsupervised pattern recognitionmodels Introdução Pré-processamento Distâncias adaptativas Algori Passo 2: Definição das distâncias P = {C1 , . . . , CK } e G = (g1 , . . . , gk ) fixos (a) Para distância única: λk = λ(k = 1, . . . , K ), onde λ = (λ1 , . . . , λp ), λj > 0 e p λj = η j=1 1 p K Hl l l 2 j {η l=1 ( k =1 [ i∈Ck ( h=1 (uh (i) − vh (k )) )])} p λ = Hj K j j 2 k =1 [ i∈Ck ( h=1 uh (i) − vh (k )) )] Anderson Berg Métodos de clustering para dados do tipo histograma 51 / 63
  • 57.
    Unsupervised pattern recognitionmodels Introdução Pré-processamento Distâncias adaptativas Algori Passo 2: Definição das distâncias (b) Para distância por cluster: λk = (λ1 , . . . , λp )λjk > 0 e k k p j j=1 λk =χ Hj 1 p l l 2 {χ l=1 ( i∈Ck ( h=1 (uh (i) − vh (k )) ))} p λjk = Hj j j 2 i∈Ck ( h=1 uh (i) − vh (k )) ) Anderson Berg Métodos de clustering para dados do tipo histograma 52 / 63
  • 58.
    Unsupervised pattern recognitionmodels Introdução Pré-processamento Distâncias adaptativas Algori Passo 3: Definição da partição G = (g1 , . . . , gk ) e D = (λ1 , . . . , λK ) fixos ˜ ˜ Ck = {i ∈ Ω : d(xi , gk | λk ) < d(xi , gm | λm ) e quando ˜ ˜ dk (xi , gk | λk ) = dk (xi , gm | λm ) então i ∈ Ck se k < m∀m = k (m = 1, . . . , K )} Anderson Berg Métodos de clustering para dados do tipo histograma 53 / 63
  • 59.
    Unsupervised pattern recognitionmodels Introdução Pré-processamento Distâncias adaptativas Algori Soma dos quadrados global n K T = ˜ d(xi , g | λk ) = ˜ d(xi , g | λk ) i=1 k =1 i∈Ck onde g = (g 1 , . . . , g p ), g j = (Dj , vj )(j = 1, . . . , p) e o vetor de pesos j j vj = (v1 , . . . , vHj ) é calculado por: n j 1 j vh = uh (i) n i=1 Anderson Berg Métodos de clustering para dados do tipo histograma 54 / 63
  • 60.
    Unsupervised pattern recognitionmodels Introdução Pré-processamento Distâncias adaptativas Algori Soma dos quadrados intra-classe: W K W = ˜ d(xi , gk | λk ) k =1 i∈Ck Anderson Berg Métodos de clustering para dados do tipo histograma 55 / 63
  • 61.
    Unsupervised pattern recognitionmodels Introdução Pré-processamento Distâncias adaptativas Algori Soma dos quadrados inter-classe: B K B= nk d(gk , g | λk ) k =1 Anderson Berg Métodos de clustering para dados do tipo histograma 56 / 63
  • 62.
    Unsupervised pattern recognitionmodels Introdução Pré-processamento Distâncias adaptativas Algori Relações entre as somas • T =W +B • Tk = Wk + Bk (k = 1, . . . , K ) • Tj = Wj + Bj (j = 1, . . . , p) • Tkj = Wkj + Bkj (k = 1, . . . , K ; j = 1, . . . , p) Anderson Berg Métodos de clustering para dados do tipo histograma 57 / 63
  • 63.
    Medida de Wasserstein Índice 1 Introdução 2 Dynamic Cluster Algorithm 3 Dois novos métodos de clustering 4 Unsupervised pattern recognition models 5 Medida de Wasserstein Anderson Berg Métodos de clustering para dados do tipo histograma 58 / 63
  • 64.
    Medida de Wasserstein Notação • Y é uma variável contínua definida em S = [y ; y ] • Y é particionada em intervalos contíguos: {I1 , . . . , Ih , . . . , IH } onde Ih = [yh ; yh ] • A cada intervalo semi-aberto Ih é associada uma variável aleatória: N Ψ(Ih ) = Ψyu (Ih ) u=1 onde Ψyu (Ih ) = 1 se yu ∈ Ih , 0 se não • Distribuição empírica associada a Ih : πh = Ψ(Ih )/N Anderson Berg Métodos de clustering para dados do tipo histograma 59 / 63
  • 65.
    Medida de Wasserstein Distânciaquadrada A distância quadrada entre duas descrições de histograma Y (i) e Y (j) é: m wl 2 dM (Y (i), Y (j)) := (Ψ−1 (t) − Ψ−1 (t))2 dt i j l=1 wl−1 Cada dupla (wl−1 , wl ) permite identificar dois intervalos, um para i e outro para j: Ili = [Ψ−1 (wl−1 ); Ψ−1 (wl )] i i e Ilj = [Ψ−1 (wl−1 ); Ψ−1 (wl )] j j Anderson Berg Métodos de clustering para dados do tipo histograma 60 / 63
  • 66.
    Medida de Wasserstein Distânciaquadrada Para cada intervalo é possível calcular os centros e os raios: cli = (Ψ−1 (wl ) + Ψ−1 (wl−1 ))/2 i i rli = (Ψ−1 (wl ) − Ψ−1 (wl−1 ))/2 i i O cálculo da distância pode ser reescrito: p mk 2 (k ) (k ) (k ) 2 1 (k ) (k ) 2 dM (Y (i), Y (j)) := πl cli − clj + r − rlj 3 li k =1 l=1 Anderson Berg Métodos de clustering para dados do tipo histograma 61 / 63
  • 67.
    Medida de Wasserstein dMpara dynamic clustering f (Y (b)|Y (1), . . . , Y (n)) = f (c1b , r1b , . . . , cmb , rmb ) = n n m 1 = d 2 (Y (i), Y (b)) = πj (cji − cjb )2 + (rji − rjb )2 3 i=1 i=1 j=1 Esta função atinge um mínimo quando: n n −1 −1 cjb = n cji ; rjb = n rji i=1 i=1 O baricentro (protótipo) do histograma: Y (b) = {([c1b − r1b ; c1b + r1b ] , π1 ) ; . . . ; cjb − rjb ; cjb + rjb , πj ; . . . ; ; . . . ; ([cmb − rmb ; cmb + rmb ] , πm )} Anderson Berg Métodos de clustering para dados do tipo histograma 62 / 63
  • 68.
    Bibliografia Marie Chavent, FranciscoDe A. T. Carvalho, Yves Lechevallier, and Rosanna Verde. New clustering methods for interval data. Computational Statistics, 21:211–229, 2006. Francisco De A.T. de Carvalho and Renata M.C.R. de Souza. New clustering methods for interval data. Computational Statistics, 2006. Anderson Berg Métodos de clustering para dados do tipo histograma 63 / 63