SlideShare uma empresa Scribd logo
1 de 68
Métodos de clustering para dados intervalares e
              do tipo histograma

                    Anderson Berg
                           absd@cin.ufpe.br




           Anderson Berg         Métodos de clustering para dados do tipo histograma   1 / 63
Introdução




Índice

1   Introdução

2   Dynamic Cluster Algorithm

3   Dois novos métodos de clustering

4   Unsupervised pattern recognition models

5   Medida de Wasserstein




                               Anderson Berg   Métodos de clustering para dados do tipo histograma   2 / 63
Introdução




Introdução



  • Duas abordagens de clustering baseadas no algoritmo DCA -
    Dynamic Cluster Algorithm
  • Primeira abordagem:
        Protótipos descritos por vetores de intervalos
        Dissimilaridade baseada na distância de Hausdorff
  • Segunda abordagem:
        Protótipos e objetos descritos de maneiras diferentes
        Função matching




                          Anderson Berg   Métodos de clustering para dados do tipo histograma   3 / 63
Introdução




Notações




 • E = {1, ..., s, ..., n} conjunto de n objetos descritos por p variáveis
   intervalares Y1 , ..., Yj , ..., Yp
          1         p
 • xs = (xs , ..., xs ) vetor de intervalos que descrevem o objeto s
 • P = (C1 , ..., Ci , ..., Ck ) uma partição em k clusters de E
 • Gi = (gi1 , ..., gij , ..., gip ) um protótipo do cluster Ci
 • Λ uma representação do espaço do protótipo Gi




                           Anderson Berg   Métodos de clustering para dados do tipo histograma   4 / 63
Dynamic Cluster Algorithm




Índice

1   Introdução

2   Dynamic Cluster Algorithm

3   Dois novos métodos de clustering

4   Unsupervised pattern recognition models

5   Medida de Wasserstein




                             Anderson Berg    Métodos de clustering para dados do tipo histograma   5 / 63
Dynamic Cluster Algorithm




Objetivo


Encontrar uma partição P ∗ = (C1 , ..., Ck ) de E em k clusters
não-vazios e um vetor L∗ = (G1 , ..., Gi , ...Gk ) tal que P ∗ e L∗ otimizem
o critério:



                  ∆(P ∗ , L∗ ) = Min{∆(P, L)/P ∈ Pk , L ∈ Λk }




                           Anderson Berg   Métodos de clustering para dados do tipo histograma   6 / 63
Dynamic Cluster Algorithm




Objetivo


Encontrar uma partição P ∗ = (C1 , ..., Ck ) de E em k clusters
não-vazios e um vetor L∗ = (G1 , ..., Gi , ...Gk ) tal que P ∗ e L∗ otimizem
o critério:



                  ∆(P ∗ , L∗ ) = Min{∆(P, L)/P ∈ Pk , L ∈ Λk }

                                            k
                               ∆(P, L) =              D(xs , Gi )
                                           i=1 s∈Ci




                           Anderson Berg    Métodos de clustering para dados do tipo histograma   6 / 63
Dynamic Cluster Algorithm




Algoritmo



 1   Inicialização: Inicia de uma partição aleatória
     P = (C1 , ..., Ci , ..., Ck ) ou de um vetor (G1 , ..., Gi , ..., Gk ) de k
     protótipos aleatórios escolhidos entre os elementos de E. Neste
     caso:
          Ci = ∅ para i = 1, ..., k
          Para s = 1 até n faça:
                 Atribua s ao cluster Cl , l = argmini=1,...,k D(xs , Gi )
                 Cl = Cl ∪ {s}




                           Anderson Berg     Métodos de clustering para dados do tipo histograma   7 / 63
Dynamic Cluster Algorithm




Algoritmo

 2   Etapa de representação: i = 1 até k , obter o protótipo Gi que
     minimiza o critério:

                                 fCi (G) =          D(xs , G), G ∈ Λ
                                             s∈Ci

 3   Etapa de alocação:
         test ← 0
         para s = 1 até n faça:
                Encontre o cluster Cm ao qual s pertence
                Encontre o índice l tal que: l = argmini=1,...,k D(xs , Gi )
                Se l = m:
                test ← 1
                Cl = Cl ∪ {s} e Cm = Cm − {s}
 4   Se test = 0 pare, senão vá para 2

                          Anderson Berg       Métodos de clustering para dados do tipo histograma   8 / 63
Dois novos métodos de clustering          O primeiro método O segundo método Interpretação




Índice

1   Introdução

2   Dynamic Cluster Algorithm

3   Dois novos métodos de clustering
      O primeiro método
      O segundo método
      Interpretação

4   Unsupervised pattern recognition models

5   Medida de Wasserstein




                               Anderson Berg   Métodos de clustering para dados do tipo histograma     9 / 63
Dois novos métodos de clustering           O primeiro método O segundo método Interpretação




O primeiro método

  • Compara dois vetores de intervalos x1 e x2
  • Comparação baseada na distância de Hausdorff
  • É usada a soma das distâncias de Hausdorff entre intervalos




                           Anderson Berg   Métodos de clustering para dados do tipo histograma      10 / 63
Dois novos métodos de clustering           O primeiro método O segundo método Interpretação




Definição da distância de Hausdorff

  • Frequentemente utilizada em processamento de imagem
  • Usada para comparar dois conjuntos de objetos A e B
                                                    j     j    j
  • A distância de Hausdorff entre dois intervalos x1 = [a1 , b1 ] e
     j     j    j
    x2 = [a2 , b2 ] :

                           j    j           j    j       j    j
                      dH (x1 , x2 ) = max(|a1 − a2 )|, |b1 − b2 |)




                            Anderson Berg   Métodos de clustering para dados do tipo histograma      11 / 63
Dois novos métodos de clustering               O primeiro método O segundo método Interpretação




Definição da distância de Hausdorff

  • Frequentemente utilizada em processamento de imagem
  • Usada para comparar dois conjuntos de objetos A e B
                                                    j     j    j
  • A distância de Hausdorff entre dois intervalos x1 = [a1 , b1 ] e
     j     j    j
    x2 = [a2 , b2 ] :

                           j    j           j    j       j    j
                      dH (x1 , x2 ) = max(|a1 − a2 )|, |b1 − b2 |)


A distância d1 entre dois vetores de intervalos x1 e x2 é a soma das p
variáveis das distâncias de Hausdorff entre os intervalos:
                                            p         j        j      j    j
                  d1 (x1 , x2 ) =           j=1 max(|a1     − a2 |, |b1 − b2 |)



                            Anderson Berg       Métodos de clustering para dados do tipo histograma      11 / 63
Dois novos métodos de clustering                   O primeiro método O segundo método Interpretação




O protótipo


O protótipo G = (g 1 , ..., g p ) de um cluster C é um vetor de p intervalos
que minimizam o critério de adequação:
                                                                         p
                                                                                  j
                   fC (G) =               d1 (xs , G) =                      dH (xs , g j )
                                  s∈C                        s∈C j=1

Ou:
                                                             f˜ (g j )
                                                              C
                                                p
                                                                 j
                                 fC (G) =                   dH (xs , g j )
                                               j=1 s∈C




                            Anderson Berg           Métodos de clustering para dados do tipo histograma      12 / 63
Dois novos métodos de clustering                 O primeiro método O segundo método Interpretação




O protótipo


o problema agora é encontrar o intervalo g j = [αj , β j ] para (j = 1, ..., p)
que minimiza:
                                     j                               j            j
           f˜ (g j ) =
            C                   dH (xs , g j ) =          max(|αj − as |, |β j − bs |)
                          s∈C                      s∈C




                             Anderson Berg         Métodos de clustering para dados do tipo histograma      13 / 63
Dois novos métodos de clustering                O primeiro método O segundo método Interpretação




O protótipo


Vamos resolver o problema da minimização transformando em dois
                                                      j
problemas de minimização bem conhecidos. Seja ms o ponto médio
                 j     j    j      j
de um intervalo xs = [as , bs ] e ls metade do seu tamanho:
                                       j    j                     j    j
                             j        as + bs             j      bs − as
                            ms =                   e     ls =
                                         2                          2
e seja µj e λj o ponto médio e a metade do tamanho do intervalo
g j = [αj , β j ], respectivamente.
De acordo com a seguinte propriedade definida para
x e y em                :

                            max(|x − y |, |x + y |) = |x| + |y |

                            Anderson Berg       Métodos de clustering para dados do tipo histograma       14 / 63
Dois novos métodos de clustering                O primeiro método O segundo método Interpretação




O protótipo



                                           j    j                     j    j
   f˜ (g j ) =
    C                  max(|(µj − λj ) − (ms − ls )|, |(µj + λj ) − (ms + ls )|)
                 s∈C

                                                 j                     j
                              =           |µj − ms | +          |λj − ls |
                                  s∈C                    s∈C




                            Anderson Berg        Métodos de clustering para dados do tipo histograma      15 / 63
Dois novos métodos de clustering            O primeiro método O segundo método Interpretação




O protótipo


Isto leva a dois problemas de minimização bem conhecidos: encontrar
µj ∈ e λj ∈ que minimizam, respectivamente:
                                            j                        j
                                     |µj − ms | e             |λj − ls |
                              s∈C                      s∈C


     ˆ                     j
  • µj : a mediana de {ms , s ∈ C}, que são os pontos médios dos
                j     j    j
    intervalos xs = [as , bs ], s ∈ C
     ˆ
  • λj : a mediana do conjunto {l j , s ∈ C} s
    ˆ      ˆ ˆ                     ˆ    ˆ ˆ       ˆ
  • g j = [αj , β j ] o intervalo [µj − λj , µj + λj ]
  • G = (g 1 , ..., g p ): o protótipo de C
           ˆ          ˆ


                             Anderson Berg    Métodos de clustering para dados do tipo histograma      16 / 63
Dois novos métodos de clustering           O primeiro método O segundo método Interpretação




O segundo método




                        j     j           j     j
 • Compara duas duplas p1 = (x1 , q1 ) e p2 = (x2 , q2 )
                                   j    j
 • q1 e q2 são pesos associados a x1 e x2
                                              j    j
 • Uma etapa de pré-processamento discretiza x1 e x2 em intervalos
   elementares




                           Anderson Berg   Métodos de clustering para dados do tipo histograma      17 / 63
Dois novos métodos de clustering           O primeiro método O segundo método Interpretação




Pré-processamento
    j                                                    j         j
 • xs é discretizado para obter intervalos elementares {I1 , ..., IHj } e
                                     j
   seus pesos correspondentes qs
                              j        j         j
 • A partir de um conjunto {x1 , ..., xs , ..., xn } de n intervalos outro
                                               j      j      j
   conjunto de Hj intervalos disjuntos {I1 , ..., Ih , ..., IHj } é formado
 • Ordena-se o conjunto de limites inferiores e superiores dos n
                j         j         j
   intervalos {x1 , ..., xs , ..., xn } para obter os intervalos elementares
                              j
 • Os intervalos elementares Ih devem obedecer as seguintes
   propriedades:




                           Anderson Berg   Métodos de clustering para dados do tipo histograma      18 / 63
Dois novos métodos de clustering            O primeiro método O segundo método Interpretação




Pré-processamento
    j                                                    j         j
 • xs é discretizado para obter intervalos elementares {I1 , ..., IHj } e
                                     j
   seus pesos correspondentes qs
                              j        j         j
 • A partir de um conjunto {x1 , ..., xs , ..., xn } de n intervalos outro
                                               j      j      j
   conjunto de Hj intervalos disjuntos {I1 , ..., Ih , ..., IHj } é formado
 • Ordena-se o conjunto de limites inferiores e superiores dos n
                j         j         j
   intervalos {x1 , ..., xs , ..., xn } para obter os intervalos elementares
                              j
 • Os intervalos elementares Ih devem obedecer as seguintes
   propriedades:
             Hj   j       j n
       i) h=1 Ih = s=1 xs
           j    j
      ii) Ih ∩ Ih = ∅ se h = h
                       j      j          j      j
     iii) ∀s ∈ E, ∀h Ih ⊆ xs ou Ih ∩ xs = ∅
                     j   j         j                j    j                  j    j j       j
     iv) ∀s ∈ E, ∃Ss ⊂ {I1 , ..., IHj } : I j ∈S j Ih = xs          e     ∀Ih ∈ Ss , Ih ⊆ xs
                                               h    s



                            Anderson Berg   Métodos de clustering para dados do tipo histograma       18 / 63
Dois novos métodos de clustering                 O primeiro método O segundo método Interpretação




Pré-processamento

 j     j    j    j
Ss = {Ih : Ih ⊆ xs } é um subconjunto de intervalos elementares
A Função peso qs é definida como:
                                                      j
                                                qs : Ss → [0, 1]
                                                                         j
                                     j    j        j                   |Ih |
                                    Ih ∈ Ss → qs (Ih ) =            j    j
                                                                   bs − as

  j                             j
|Ih | é o tamanho do intervalo Ih
    j       j      j
∀Ih ∈ Ss , qs (Ih ) ≥ 0
                 j
      j   j qs (I ) = 1
   h I ∈S
       s         h


                                Anderson Berg         Métodos de clustering para dados do tipo histograma      19 / 63
Dois novos métodos de clustering           O primeiro método O segundo método Interpretação




Construção de intervalos elementares




                           Anderson Berg   Métodos de clustering para dados do tipo histograma      20 / 63
Dois novos métodos de clustering           O primeiro método O segundo método Interpretação




Definição da dissimilaridade de "dois componentes"


             j     j           j     j
Duas duplas p1 = (x1 , q1 ) e p2 = (x2 , q2 ) são comparadas por:
                             j    j           j    j
                       d2c (p1 , p2 ) = dci (x1 , x2 ) + dcd (q1 , q2 )




                            Anderson Berg   Métodos de clustering para dados do tipo histograma      21 / 63
Dois novos métodos de clustering                 O primeiro método O segundo método Interpretação




O primeiro componente

                                           j     j    j      j     j    j
Dissimilaridade dci entre dois intervalos x1 = [a1 , b1 ] e x2 = [a2 , b2 ]:

                                j    j             ¯j ¯j         j    j
                                                 |(x1 ∩ x2 ) ∩ (x1 ⊕ x2 )|
                          dci (x1 , x2 )     =             j    j
                                                         |x1 ⊕ x2 |

onde:
  • |.| o tamanho de um intervalo
     j    j         j    j         j    j
  • x1 ⊕ x2 = [min(a1 , a2 ), max(b1 , b2 )]
    ¯j          j     j                                   j
  • xs =] − ∞, as [∪]bs , +∞[ o conjunto complementar de xs em




                             Anderson Berg         Métodos de clustering para dados do tipo histograma      22 / 63
Dois novos métodos de clustering                   O primeiro método O segundo método Interpretação




O primeiro componente




Alternativamente:
                                           j   j            j   j
                                    |min(b1 ,b2 )−max(a1 ,a2 )|             j    j
                                                                        se x1 ∩ x2 = ∅
                              
              j    j                      j   j        j   j
        dci (x1 , x2 )    =          max(b1 ,b2 )−min(a1 ,a2 )
                               0                                    senão




                            Anderson Berg           Métodos de clustering para dados do tipo histograma      23 / 63
Dois novos métodos de clustering                     O primeiro método O segundo método Interpretação




O segundo componente


Dissimilaridade dcd entre duas funções peso:

                             1                                 j                                     j
      dcd (q1 , q2 ) =         (                          q1 (Ih ) +                            q2 (Ih ))
                             2      j     j   j   j   j                    j   j   j   j    j
                                 {Ih :Ih ∈S1 ,Ih ∈S2 }
                                                 /                      {Ih :Ih ∈S2 ,Ih ∈S1 }
                                                                                        /

                             j    j               j    j
0 ≤ dcd ≤ 1, com dcd = 0 se x1 = x2 e dcd = 1 se x1 ∩ x2 = ∅




                            Anderson Berg             Métodos de clustering para dados do tipo histograma      24 / 63
Dois novos métodos de clustering                     O primeiro método O segundo método Interpretação




O segundo componente


Dissimilaridade dcd entre duas funções peso:

                             1                                 j                                     j
      dcd (q1 , q2 ) =         (                          q1 (Ih ) +                            q2 (Ih ))
                             2      j     j   j   j   j                    j   j   j   j    j
                                 {Ih :Ih ∈S1 ,Ih ∈S2 }
                                                 /                      {Ih :Ih ∈S2 ,Ih ∈S1 }
                                                                                        /

                             j    j               j    j
0 ≤ dcd ≤ 1, com dcd = 0 se x1 = x2 e dcd = 1 se x1 ∩ x2 = ∅

                             p                              p
                                       j    j                          j    j
      d2 (p1 , p2 ) =            d2c (p1 , p2 )       =         (dci (x1 , x2 ) + dcd (q1 , q2 ))
                           j=1                            j=1




                            Anderson Berg             Métodos de clustering para dados do tipo histograma      24 / 63
Dois novos métodos de clustering             O primeiro método O segundo método Interpretação




O protótipo

O protótipo G de um cluster C é agora um vetor de p duplas (Γj , q):
                  j              j
(a) Γj = [mins∈C as , maxs∈C bs ] é um intervalo que generaliza os
                j      j   j
    intervalos xs = [as , bs ] para s ∈ C;
          j
(b) Γj = xs : s ∈ C é um conjunto de intervalos
                                     1                                       j
                      q=          card(C)    {h,s:Ih ∈Ss
                                                        j
                                                            e s∈C} qs (Ih )
                                  0, senão




                            Anderson Berg     Métodos de clustering para dados do tipo histograma      25 / 63
Dois novos métodos de clustering             O primeiro método O segundo método Interpretação




O protótipo


Como a definição (b) de Γj não é um intervalo

              ∗    j                 ¯j
                                   |(xs ∩ (         ¯j       j
                                              s ∈C xs )) ∩ (xs ⊕         (    s ∈C
                                                                                       j
                                                                                      xs ))|
             dci (xs , Γj ) =                     j             j
                                                |xs ⊕ ( s ∈C xs          )|
 j                j           j            j         j            j
xs ⊕ (   s ∈C    xs ) = [min(as , mins ∈C as ), max(bs , maxs ∈C bs )]




                              Anderson Berg     Métodos de clustering para dados do tipo histograma      26 / 63
Dois novos métodos de clustering                   O primeiro método O segundo método Interpretação




O protótipo


Como a definição (b) de Γj não é um intervalo

              ∗    j                 ¯j
                                   |(xs ∩ (               ¯j       j
                                                    s ∈C xs )) ∩ (xs ⊕         (    s ∈C
                                                                                             j
                                                                                            xs ))|
             dci (xs , Γj ) =                           j             j
                                                      |xs ⊕ ( s ∈C xs          )|
 j                j           j            j         j            j
xs ⊕ (   s ∈C    xs ) = [min(as , mins ∈C as ), max(bs , maxs ∈C bs )]

                                              p
                        ∗                             ∗    j
                       d2 (ps , G) =                (dci (xs , Γj ) + dcd (qs , q))
                                              j=1




                              Anderson Berg           Métodos de clustering para dados do tipo histograma      26 / 63
Dois novos métodos de clustering           O primeiro método O segundo método Interpretação




O algoritmo

a) Inicialização: Inicia de uma partição aleatória P = (C1 , ..., Ci , ..., Ck )
b) Etapa de alocação:
        test ← 0
        para s = 1 até n faça:
                Encontre o cluster Cm ao qual s pertence
                Se card(Cm ) = 1 para l = 1, ..., k e l = m
                calcula novos protótipos Gm de Cm − {s} e Gl de Cl ∪ {s}
                calcula o critério ∆l = k   i=1
                                                                                 ∗
                                                s ∈Ci D(ps ,Gi ) onde D = d2 ou d2
                Encontre o cluster Cl · tal que
                                             l ∗ = argminl=1,...,k ∆l
                Se l ∗ = m move s para Cl ·
                test ← 1
                Cl · = Cl · ∪{s} e Cm = Cm − {s}
c) se test = 0 então pare, senão vá para b)

                             Anderson Berg   Métodos de clustering para dados do tipo histograma      27 / 63
Dois novos métodos de clustering                    O primeiro método O segundo método Interpretação




Interpretação


             n                             k                                k
                    2                                  2
                 d (xs , G) =                        d (xs , Gi ) +             ni d 2 (Gi , G)
           s=1                            i=1 s∈Ci                        i=1

                   TSS                           WSS                                BSS


  • d a distância Euclidiana quadrada
  • G a média dos n pontos xs ∈ E
  • Gi a média dos pontos xs ∈ Ci
  • ni = card(Ci )




                            Anderson Berg            Métodos de clustering para dados do tipo histograma      28 / 63
Dois novos métodos de clustering               O primeiro método O segundo método Interpretação




Interpretação


A média G de um cluster C é o ponto g ∈                         p   que minimiza o critério:

                                    fC (g) =         d 2 (xs , g)
                                               s∈C


No primeiro método, a média G é generalizada para protótipo G, que
minimiza:
                       fC (g) =    D(xs , g)
                                               s∈C




                           Anderson Berg       Métodos de clustering para dados do tipo histograma      29 / 63
Dois novos métodos de clustering              O primeiro método O segundo método Interpretação




Interpretação




TSS e WSS podem ser generalizados usando o protótipo Gi de um
cluster Ci :
  • WSS = k    i=1            s∈Ci   D(xs , Gi ) =      k
                                                        i=1 fCi (Gi ),     que é igual ao
    critério ∆(P, L)
  • TSS = n D(xs , GE ), que é o critério fE (GE ), com GE o
              s=1
    protótipo de todo o conjunto E




                            Anderson Berg     Métodos de clustering para dados do tipo histograma       30 / 63
Dois novos métodos de clustering           O primeiro método O segundo método Interpretação




Interpretação

Três critérios serão utilizados para interpretar uma partição e seus
clusters:

  • fCi (Gi ) que é a medida de homogeneidade do cluster Ci ;
  • ∆(P, L) que é a medida da homogeneidade intra-cluster
    (within-cluster) da partição P;
  • fE (GE ) que é a medida da homogeneidade total do conjunto E.




                            Anderson Berg   Métodos de clustering para dados do tipo histograma      31 / 63
Dois novos métodos de clustering           O primeiro método O segundo método Interpretação




Interpretação da partição


Qualidade de uma partição:

                                                   ∆(P, L)
                                     Q(P) = 1 −
                                                   fE (GE )

Qualidade da partição para cada variável Yj :
                                                    k ˜
                                                             ˆj
                                                    i=1 fCi (gi )
                                 Qj (P) = 1 −
                                                    ˜E (g j )
                                                     f ˆE




                            Anderson Berg   Métodos de clustering para dados do tipo histograma      32 / 63
Dois novos métodos de clustering            O primeiro método O segundo método Interpretação




Interpretação dos clusters


A qualidade de um cluster Ci de E é definida por:

                                                     fCi (Gi )
                                     Q(Ci ) = 1 −
                                                    fCi (GE )

A contribuição de um cluster Ci à homogeneidade intra-cluster de P é
definida por:
                                    fC (Gi )
                          K (Ci ) = i
                                    ∆(P, L)
A soma de k contribuições é 1




                            Anderson Berg    Métodos de clustering para dados do tipo histograma      33 / 63
Dois novos métodos de clustering           O primeiro método O segundo método Interpretação




Interpretação dos clusters


Um critério final que é útil para interpretar um cluster de acordo com
uma variável Yj é:
                                         ˜C (g j )
                                         f ˆ
                          Qj (Ci ) = 1 − i ij
                                         ˜C (g
                                         f ˆ            i    E




                            Anderson Berg   Métodos de clustering para dados do tipo histograma      34 / 63
Unsupervised pattern recognition models         Introdução Pré-processamento Distâncias adaptativas Algori




Índice

1   Introdução

2   Dynamic Cluster Algorithm

3   Dois novos métodos de clustering

4   Unsupervised pattern recognition models
      Introdução
      Pré-processamento
      Distâncias adaptativas
      Algoritmo
      Interpretação

5   Medida de Wasserstein




                               Anderson Berg     Métodos de clustering para dados do tipo histograma    35 / 63
Unsupervised pattern recognition models         Introdução Pré-processamento Distâncias adaptativas Algori




Partitioning dynamical cluster algorithm

  • Algoritmos iterativos de duas etapas
  • Construção de clusters e representações de protótipos
  • Critério de adequação
  • Clustering dinâmico adaptativo
  • Análise de dados simbólicos
  • Pré-processamento




                            Anderson Berg     Métodos de clustering para dados do tipo histograma    36 / 63
Unsupervised pattern recognition models         Introdução Pré-processamento Distâncias adaptativas Algori




Tipos de dados

Dada uma variável simbólica Xj , ela é:
  • set-valued se, dado um item i, Xj (i) = xij ⊆ Aj onde
           j         j
    Aj = {t1 , ..., tHj } é um conjunto de categorias
  • ordered list-valued se, dado um item i, Xj (i) = xij , onde xij é uma
                                                            j      j
    sub-lista de uma lista ordenada de categorias Aj = [t1 , ..., tHj ]
  • interval-valued se, dado um item i, Xj (i) = xij = [aij , bij ] ∈ [a, b],
    onde [a, b] ∈ e é o conjunto de intervalos fechados definidos
    em
  • histogram-valued se, dado um item i, Xj (i) = xij = (S j (i), qj (i))
                    j          j
    onde qj (i) = (qi1 , ..., qiHij ) é um vetor de pesos definido em S j (i),
    tal que um peso q(m) corresponde a cada categoria m ∈ S j (i)

                             Anderson Berg     Métodos de clustering para dados do tipo histograma    37 / 63
Unsupervised pattern recognition models         Introdução Pré-processamento Distâncias adaptativas Algori




Tabela de dados




         City       X1                X2                                            X3
         1          [70,100]          ((D,C,S,N),(0.4,0.3,0.2,0.1))                {F,I}
         2          [50,70]           ((D,C,S,N),(0.3,0.3,0.3,0.1))                {S,G}
         3          [20,40]           ((D,C,S,N),(0.2,0.2,0.2,0.4))                {GB,G}
         4          [60,100]          ((D,C,S,N),(0.1,0.3,0.4,0.2))                {B,GB}




                            Anderson Berg     Métodos de clustering para dados do tipo histograma    38 / 63
Unsupervised pattern recognition models              Introdução Pré-processamento Distâncias adaptativas Algori




Set-valued


                                       Xj (i) = xij = (Aj , qj (i))
                                       ˜        ˜
            j         j
onde Aj = {t1 , ..., tHj }

        j                                    j
O peso qh (i)(h = 1, ..., Hj ) da categoria th ∈ Aj é definido como:


                                j
                                                  1
                                                    j ,     se th ∈ xij ,
                                                                j
                               qh (i)   =       c(xi )
                                                0,         se th ∈ xij ,
                                                               j
                                                                 /

onde c(A) é a cardinalidade de um conjunto finito de categorias A.




                              Anderson Berg          Métodos de clustering para dados do tipo histograma    39 / 63
Unsupervised pattern recognition models          Introdução Pré-processamento Distâncias adaptativas Algori




Ordered list-valued


                                      Xj (i) = xij = (Aj , Qj (i))
                                      ˜        ˜
            j         j
onde Aj = [t1 , ..., tHj ]
                    j                                   j
O peso cumulativo Qh (i)(h = 1, ..., Hj ) da categoria th da lista
ordenada Aj é definido como:


                                                                se a categoria trj está na
                                                       1
                 h                                       j ,
                                                     l(xi )
   j
  Qh (i) =            qrj (i), onde qrj (i) =                  j
                                                  sub-lista xi ,
               r =1                              
                                                   0, senão

onde l(A) é o tamanho de uma lista ordenada de categorias A

                              Anderson Berg      Métodos de clustering para dados do tipo histograma    40 / 63
Unsupervised pattern recognition models              Introdução Pré-processamento Distâncias adaptativas Algori




Interval-valued


                                               ˜
                                      Xj (i) = xij = (Aj , Q j (i))
                                      ˜               ˜

     ˜      j         j
onde Aj = {I1 , ..., IHj }

                      j                                              j
Os pesos cumulativos Qh (i)(h = 1, ..., Hj ) do intervalo elementar Ih é
definido como:
                                     h
                      j                                                     l(Irj ∩ xij )
                     Qh (i) =             qrj (i),   onde qrj (i) =                         ,
                                   r =1                                         l(xij )
onde l(I) é o tamanho do intervalo fechado I



                              Anderson Berg          Métodos de clustering para dados do tipo histograma    41 / 63
Unsupervised pattern recognition models             Introdução Pré-processamento Distâncias adaptativas Algori




Intervalos elementares

Propriedades dos intervalos elementares:
         Hj   j
(1)      h=1 Ih = [a, b]
       j    j
(2)   Ih ∩ Ih = ∅ se               h=h
                                  j
(3) ∀h∃i ∈ Ω tal que             Ih   ∩ xij = ∅
(4) ∀i∃Sij ⊂ {1, ..., Hj } : ∪h∈S j Ih = xij
                                     j
                                                 i




                               Anderson Berg         Métodos de clustering para dados do tipo histograma    42 / 63
Unsupervised pattern recognition models              Introdução Pré-processamento Distâncias adaptativas Algori




Exemplo


                          Country            X1                X2
                          1                  [10,30]           {A,Co}
                          2                  [25,35]           {C,Co,E}
                          3                  [90,130]          {A,C,E}
                          4                  [125,140]         {A,C,Co,E}

 • X1 é o mínimo e o máximo do produto nacional bruto (em milhões)
 • X2 indica as principais indústrias a partir do conjunto
   A2 = {A = agricultura , C = chemistry, Co = commerce, E =
   engineering, En = energy, I = informatic}




                           Anderson Berg          Métodos de clustering para dados do tipo histograma    43 / 63
Unsupervised pattern recognition models                     Introdução Pré-processamento Distâncias adaptativas Algori




Intervalos elementares

                                          ˜       1 1 1 1 1 1 1
Conjunto de intervalos elementares: A1 = {I1 , I2 , I3 , I4 , I5 , I6 , I7 }, onde
 1              1              1              1              1
I1 = [10, 25[, I2 = [25, 30[, I3 = [30, 35[, I4 = [35, 90[, I5 =
            7 = [125, 130[ e I 1 = [130, 140[
[90, 125[, I6                   7

          Country     X1                                           X2

          1           (A1 , Q1 (1) = (0.75, 1, 1, 1, 1, 1, 1))
                       ˜                                           (A2 , q2 (1) = (0.5, 0, 0.5, 0, 0, 0))
                                                                    ˜

          2           (A1 , Q1 (2) = (0, 0.5, 0.5, 1, 1, 1, 1))
                       ˜                                           (A2 , q2 (2) = (0, 0.33, 0.33, 0.33, 0, 0))
                                                                    ˜

          3           (A1 , Q1 (3) = (0, 0, 0, 0, 0.88, 1, 1))
                       ˜                                           (A2 , q2 (3) = (0.33, 0.33, 0, 0.33, 0, 0))
                                                                    ˜

          4           (A1 , Q1 (4) = (0, 0, 0, 0, 0, 0.33, 1))
                       ˜                                           (A2 , q2 (4) = (0.25, 0.25, 0.25, 0.25, 0, 0))
                                                                    ˜




                               Anderson Berg              Métodos de clustering para dados do tipo histograma       44 / 63
Unsupervised pattern recognition models          Introdução Pré-processamento Distâncias adaptativas Algori




Representação dos dados

Depois do pré-processamento:

xi = (xi1 , . . . , xip ), xij = (Dj , u j (i))
˜     ˜             ˜ ˜
    j            j              j
  ˜
e u (i) = (u1 (i), . . . , uHj (i))

O protótipo do cluster Ck (k = 1, ..., K ) é representado por um vetor de
histogram-valued symbolic data:
                    p       j
gk = (gk , . . . , gk ), gk = (Dj , vj (k ))(j = 1, . . . , p)
          1
            j                 j
vj (k ) = (v1 (k ), . . . , vhj (k ))




                               Anderson Berg      Métodos de clustering para dados do tipo histograma    45 / 63
Unsupervised pattern recognition models          Introdução Pré-processamento Distâncias adaptativas Algori




Esquema geral

Encontrar a partição P ∗ = {C1 , . . . , CK } de Ω em K clusters, os K
                              ∗            ∗
                              ∗          ∗       ∗
protótipos correspondentes G = (g1 , . . . , gK ) representando os
clusters em P ∗ e K distâncias Euclidianas quadradas adaptativas

parametrizadas por K vetores de pesos D∗ = (λ∗ , . . . , λ∗ )
                                                     1      K

Critério de adequação:
                                                K
                          W (G, D, P) =                      ˜
                                                           d(xi , gk | λk )
                                               k =1 i∈Ck




                             Anderson Berg      Métodos de clustering para dados do tipo histograma    46 / 63
Unsupervised pattern recognition models          Introdução Pré-processamento Distâncias adaptativas Algori




Distâncias Euclidianas adaptativas

(a) Distância única: λk = λ(k = 1, . . . , K ), onde λ = (λ1 , . . . , λp )

                                                p           Hj
                                                                    j        j
                             ˜
                           d(xi , gk | λ) =           λj          (uh (i) − vh (k ))2
                                                j=1        h=1


(b) Distância por cluster: λk = (λ1 , . . . , λp )
                                  k            k

                                                 p           Hj
                           ˜
                         d(xi , gk | λk ) =           λjk           j        j
                                                                  (uh (i) − vh (k ))2
                                                j=1         h=1




                              Anderson Berg      Métodos de clustering para dados do tipo histograma    47 / 63
Unsupervised pattern recognition models         Introdução Pré-processamento Distâncias adaptativas Algori




Pré-processamento: homogenização dos dados

Para todos os objetos i = 1, . . . , n e todas as variáveis j = 1, . . . , p
calcular xij = (Dj , u j (i))
         ˜




                              Anderson Berg     Métodos de clustering para dados do tipo histograma    48 / 63
Unsupervised pattern recognition models               Introdução Pré-processamento Distâncias adaptativas Algori




Etapa de inicialização
                                                                                (0)             (0)
Escolher aleatoriamente uma partição P (0) = (C1 , . . . , CK ) de Ω ou
                                (0)             (0)
K objetos distintos g1 , . . . , gK pertencentes a Ω e atribua cada
                                   (0)
objeto i ao protótipo gk ∗ mais próximo, onde
                                      p         Hj     j                 j
k ∗ = argmink =1,...,K {              j=1       h=1 ((uh (i))
                                                             (0)     − (vh (k ))(0) )2 }. t = 1.




                              Anderson Berg           Métodos de clustering para dados do tipo histograma    49 / 63
Unsupervised pattern recognition models             Introdução Pré-processamento Distâncias adaptativas Algori




Passo 1: Definição dos protótipos

P = {C1 , . . . , CK } e D = (λ1 , . . . , λK ) fixos

                                                          1            p
O vetor de protótipos G = (g1 , . . . , gK ), onde gk = (gk , . . . , gk ) com
  j
gk = (Dj , v j (k )) que minimiza o critério W , onde o vetor
             j                j
v j (k ) = (v1 (k ), . . . , vHj (k )) é calculado por:

                                         j          1            j
                                        vh (k ) =               uh (i)
                                                    nk
                                                         i∈Ck

onde nk é a cardinalidade da classe Ck




                              Anderson Berg         Métodos de clustering para dados do tipo histograma    50 / 63
Unsupervised pattern recognition models         Introdução Pré-processamento Distâncias adaptativas Algori




Passo 2: Definição das distâncias

P = {C1 , . . . , CK } e G = (g1 , . . . , gk ) fixos
(a) Para distância única: λk = λ(k = 1, . . . , K ), onde λ = (λ1 , . . . , λp ),
    λj > 0 e p λj = η
               j=1

                                                                            1
                            p       K             Hl    l        l      2
             j
                    {η      l=1 ( k =1 [ i∈Ck ( h=1 (uh (i) − vh (k )) )])}
                                                                            p
           λ =                                 Hj
                                 K                   j       j      2
                                 k =1 [ i∈Ck ( h=1 uh (i) − vh (k )) )]




                              Anderson Berg     Métodos de clustering para dados do tipo histograma    51 / 63
Unsupervised pattern recognition models          Introdução Pré-processamento Distâncias adaptativas Algori




Passo 2: Definição das distâncias

(b) Para distância por cluster: λk = (λ1 , . . . , λp )λjk > 0 e
                                       k            k
                                                                                              p    j
                                                                                              j=1 λk   =χ

                                                    Hj                                    1
                                  p                      l        l     2
                          {χ      l=1 (    i∈Ck ( h=1 (uh (i) − vh (k )) ))}
                                                                             p
                λjk   =                          Hj    j      j     2
                                        i∈Ck ( h=1 uh (i) − vh (k )) )




                             Anderson Berg      Métodos de clustering para dados do tipo histograma     52 / 63
Unsupervised pattern recognition models         Introdução Pré-processamento Distâncias adaptativas Algori




Passo 3: Definição da partição

G = (g1 , . . . , gk ) e D = (λ1 , . . . , λK ) fixos

                           ˜                  ˜
           Ck = {i ∈ Ω : d(xi , gk | λk ) < d(xi , gm | λm ) e quando
                              ˜                    ˜
                          dk (xi , gk | λk ) = dk (xi , gm | λm ) então
                       i ∈ Ck se k < m∀m = k (m = 1, . . . , K )}




                              Anderson Berg     Métodos de clustering para dados do tipo histograma    53 / 63
Unsupervised pattern recognition models              Introdução Pré-processamento Distâncias adaptativas Algori




Soma dos quadrados global


                               n                             K
                     T =             ˜
                                   d(xi , g | λk ) =                     ˜
                                                                       d(xi , g | λk )
                             i=1                           k =1 i∈Ck

onde g = (g 1 , . . . , g p ), g j = (Dj , vj )(j = 1, . . . , p) e o vetor de pesos
       j            j
vj = (v1 , . . . , vHj ) é calculado por:

                                                       n
                                             j     1          j
                                            vh =             uh (i)
                                                   n
                                                       i=1




                              Anderson Berg        Métodos de clustering para dados do tipo histograma      54 / 63
Unsupervised pattern recognition models             Introdução Pré-processamento Distâncias adaptativas Algori




Soma dos quadrados intra-classe: W


                                              K
                                 W =                    ˜
                                                      d(xi , gk | λk )
                                          k =1 i∈Ck




                            Anderson Berg         Métodos de clustering para dados do tipo histograma    55 / 63
Unsupervised pattern recognition models                 Introdução Pré-processamento Distâncias adaptativas Algori




Soma dos quadrados inter-classe: B


                                               K
                                    B=               nk d(gk , g | λk )
                                              k =1




                            Anderson Berg             Métodos de clustering para dados do tipo histograma    56 / 63
Unsupervised pattern recognition models         Introdução Pré-processamento Distâncias adaptativas Algori




Relações entre as somas

  • T =W +B
  • Tk = Wk + Bk (k = 1, . . . , K )
  • Tj = Wj + Bj (j = 1, . . . , p)
  • Tkj = Wkj + Bkj (k = 1, . . . , K ; j = 1, . . . , p)




                             Anderson Berg     Métodos de clustering para dados do tipo histograma    57 / 63
Medida de Wasserstein




Índice

1   Introdução

2   Dynamic Cluster Algorithm

3   Dois novos métodos de clustering

4   Unsupervised pattern recognition models

5   Medida de Wasserstein




                            Anderson Berg     Métodos de clustering para dados do tipo histograma   58 / 63
Medida de Wasserstein




Notação

 • Y é uma variável contínua definida em S = [y ; y ]
 • Y é particionada em intervalos contíguos: {I1 , . . . , Ih , . . . , IH } onde
   Ih = [yh ; yh ]
 • A cada intervalo semi-aberto Ih é associada uma variável
   aleatória:
                                                    N
                                         Ψ(Ih ) =         Ψyu (Ih )
                                                    u=1

   onde Ψyu (Ih ) = 1 se yu ∈ Ih , 0 se não
 • Distribuição empírica associada a Ih : πh = Ψ(Ih )/N




                         Anderson Berg        Métodos de clustering para dados do tipo histograma   59 / 63
Medida de Wasserstein




Distância quadrada

A distância quadrada entre duas descrições de histograma Y (i) e Y (j)
é:
                                         m        wl
             2
            dM (Y (i), Y (j))      :=                  (Ψ−1 (t) − Ψ−1 (t))2 dt
                                                         i         j
                                         l=1    wl−1

Cada dupla (wl−1 , wl ) permite identificar dois intervalos, um para i e
outro para j:

      Ili = [Ψ−1 (wl−1 ); Ψ−1 (wl )]
              i            i                    e       Ilj = [Ψ−1 (wl−1 ); Ψ−1 (wl )]
                                                                j            j




                         Anderson Berg         Métodos de clustering para dados do tipo histograma   60 / 63
Medida de Wasserstein




Distância quadrada

Para cada intervalo é possível calcular os centros e os raios:

   cli = (Ψ−1 (wl ) + Ψ−1 (wl−1 ))/2
           i           i                              rli = (Ψ−1 (wl ) − Ψ−1 (wl−1 ))/2
                                                              i           i

O cálculo da distância pode ser reescrito:


                             p    mk
    2                                     (k )        (k )       (k ) 2        1 (k )  (k )            2
   dM (Y (i), Y (j)) :=                  πl        cli       − clj        +      r − rlj
                                                                               3 li
                            k =1 l=1




                         Anderson Berg           Métodos de clustering para dados do tipo histograma       61 / 63
Medida de Wasserstein




dM para dynamic clustering


            f (Y (b)|Y (1), . . . , Y (n)) = f (c1b , r1b , . . . , cmb , rmb ) =
           n                                       n     m
                                                                                   1
      =          d 2 (Y (i), Y (b)) =                            πj (cji − cjb )2 + (rji − rjb )2
                                                                                   3
          i=1                                     i=1 j=1
Esta função atinge um mínimo quando:
                                              n                                     n
                                       −1                                     −1
                          cjb = n                  cji       ;      rjb = n              rji
                                            i=1                                    i=1

O baricentro (protótipo) do histograma:

  Y (b) = {([c1b − r1b ; c1b + r1b ] , π1 ) ; . . . ;                     cjb − rjb ; cjb + rjb , πj ; . . . ;
                                                             ; . . . ; ([cmb − rmb ; cmb + rmb ] , πm )}

                              Anderson Berg              Métodos de clustering para dados do tipo histograma   62 / 63
Bibliografia


Marie Chavent, Francisco De A. T. Carvalho, Yves Lechevallier, and Rosanna
Verde.
New clustering methods for interval data.
Computational Statistics, 21:211–229, 2006.

Francisco De A.T. de Carvalho and Renata M.C.R. de Souza.
New clustering methods for interval data.
Computational Statistics, 2006.




                     Anderson Berg   Métodos de clustering para dados do tipo histograma   63 / 63

Mais conteúdo relacionado

Mais procurados

Aula quatro jornadas12_handout
Aula quatro jornadas12_handoutAula quatro jornadas12_handout
Aula quatro jornadas12_handoutRoberto Kraenkel
 
[Alexandre] 8. Não Linear Restrita
[Alexandre] 8. Não Linear Restrita[Alexandre] 8. Não Linear Restrita
[Alexandre] 8. Não Linear Restritalapodcc
 
Exercicios resolv3 mat
Exercicios resolv3 matExercicios resolv3 mat
Exercicios resolv3 mattrigono_metria
 
Redes Neurais: classificação e regressão
Redes Neurais: classificação e regressãoRedes Neurais: classificação e regressão
Redes Neurais: classificação e regressãoRenato Vicente
 
[Robson] 5. Análise de Sensibilidade
[Robson] 5. Análise de Sensibilidade[Robson] 5. Análise de Sensibilidade
[Robson] 5. Análise de Sensibilidadelapodcc
 
CfSd 2016 matematica - 2 v1
CfSd 2016   matematica - 2 v1CfSd 2016   matematica - 2 v1
CfSd 2016 matematica - 2 v1profNICODEMOS
 
Formulário de Análise Matemática
Formulário de Análise MatemáticaFormulário de Análise Matemática
Formulário de Análise MatemáticaPedro Dias
 
[Robson] 4. Dualidade
[Robson] 4. Dualidade[Robson] 4. Dualidade
[Robson] 4. Dualidadelapodcc
 
Apost2 exresolvidos retas-planos
Apost2 exresolvidos retas-planosApost2 exresolvidos retas-planos
Apost2 exresolvidos retas-planoscon_seguir
 
03 eac proj vest mat módulo 1 função exponencial
03 eac proj vest mat módulo 1 função exponencial03 eac proj vest mat módulo 1 função exponencial
03 eac proj vest mat módulo 1 função exponencialcon_seguir
 
Exercícios resolvidos matematica 01
Exercícios resolvidos matematica 01Exercícios resolvidos matematica 01
Exercícios resolvidos matematica 01resolvidos
 
Calculo vetorial
Calculo vetorialCalculo vetorial
Calculo vetorialtooonks
 
Apostila 3 calculo i integrais
Apostila 3 calculo i integraisApostila 3 calculo i integrais
Apostila 3 calculo i integraistrigono_metrico
 

Mais procurados (19)

Aula quatro jornadas12_handout
Aula quatro jornadas12_handoutAula quatro jornadas12_handout
Aula quatro jornadas12_handout
 
[Alexandre] 8. Não Linear Restrita
[Alexandre] 8. Não Linear Restrita[Alexandre] 8. Não Linear Restrita
[Alexandre] 8. Não Linear Restrita
 
Exercicios resolv3 mat
Exercicios resolv3 matExercicios resolv3 mat
Exercicios resolv3 mat
 
1º matemática
1º matemática1º matemática
1º matemática
 
V@R Não-Linear
V@R Não-LinearV@R Não-Linear
V@R Não-Linear
 
Redes Neurais: classificação e regressão
Redes Neurais: classificação e regressãoRedes Neurais: classificação e regressão
Redes Neurais: classificação e regressão
 
[Robson] 5. Análise de Sensibilidade
[Robson] 5. Análise de Sensibilidade[Robson] 5. Análise de Sensibilidade
[Robson] 5. Análise de Sensibilidade
 
CfSd 2016 matematica - 2 v1
CfSd 2016   matematica - 2 v1CfSd 2016   matematica - 2 v1
CfSd 2016 matematica - 2 v1
 
Formulário de Análise Matemática
Formulário de Análise MatemáticaFormulário de Análise Matemática
Formulário de Análise Matemática
 
Apostila 3 funções
Apostila 3 funçõesApostila 3 funções
Apostila 3 funções
 
Log 2016
Log 2016Log 2016
Log 2016
 
[Robson] 4. Dualidade
[Robson] 4. Dualidade[Robson] 4. Dualidade
[Robson] 4. Dualidade
 
Apost2 exresolvidos retas-planos
Apost2 exresolvidos retas-planosApost2 exresolvidos retas-planos
Apost2 exresolvidos retas-planos
 
Calcúlo 1 2º termo de papel e celulose
Calcúlo 1   2º termo de papel e celuloseCalcúlo 1   2º termo de papel e celulose
Calcúlo 1 2º termo de papel e celulose
 
03 eac proj vest mat módulo 1 função exponencial
03 eac proj vest mat módulo 1 função exponencial03 eac proj vest mat módulo 1 função exponencial
03 eac proj vest mat módulo 1 função exponencial
 
Fu log 2016
Fu log 2016Fu log 2016
Fu log 2016
 
Exercícios resolvidos matematica 01
Exercícios resolvidos matematica 01Exercícios resolvidos matematica 01
Exercícios resolvidos matematica 01
 
Calculo vetorial
Calculo vetorialCalculo vetorial
Calculo vetorial
 
Apostila 3 calculo i integrais
Apostila 3 calculo i integraisApostila 3 calculo i integrais
Apostila 3 calculo i integrais
 

Destaque

Emprego da Visão Computacional no contexto de AP - Cameras
Emprego da Visão Computacional  no contexto de AP - CamerasEmprego da Visão Computacional  no contexto de AP - Cameras
Emprego da Visão Computacional no contexto de AP - Cameraspipesmythe
 
Demanda - MercadoLivre Developers Conference
Demanda - MercadoLivre Developers ConferenceDemanda - MercadoLivre Developers Conference
Demanda - MercadoLivre Developers ConferencePablo Moretti
 
Human Activity Recognition
Human Activity RecognitionHuman Activity Recognition
Human Activity RecognitionFabrício Barth
 
Salient effects of publicity in advertised brand recall and recognition
Salient effects of publicity in advertised brand recall and recognitionSalient effects of publicity in advertised brand recall and recognition
Salient effects of publicity in advertised brand recall and recognitionGustavo Viegas
 
Cameras smythe e raniel
Cameras smythe e ranielCameras smythe e raniel
Cameras smythe e ranielpipesmythe
 
Ashtavakra Gita - Chapter 3 - Test of the Seeker
Ashtavakra Gita - Chapter 3 - Test of the SeekerAshtavakra Gita - Chapter 3 - Test of the Seeker
Ashtavakra Gita - Chapter 3 - Test of the SeekerVinod Kad
 
Recherche d'emploi et réseaux sociaux
Recherche d'emploi et réseaux sociauxRecherche d'emploi et réseaux sociaux
Recherche d'emploi et réseaux sociauxWebpatron
 
Depoimentos de clientes da Seeker Tecnologia
Depoimentos de clientes da Seeker TecnologiaDepoimentos de clientes da Seeker Tecnologia
Depoimentos de clientes da Seeker TecnologiaSeeker Tecnologia
 
Les outils de l’UX pour connaître les utilisateurs - MC Casal - YOODx 2017
 Les outils de l’UX pour connaître les utilisateurs - MC Casal - YOODx 2017 Les outils de l’UX pour connaître les utilisateurs - MC Casal - YOODx 2017
Les outils de l’UX pour connaître les utilisateurs - MC Casal - YOODx 2017YOODx
 
Synodiance > Recherche Vocale - SEO Campus Paris - 07/04/2016
Synodiance > Recherche Vocale - SEO Campus Paris - 07/04/2016Synodiance > Recherche Vocale - SEO Campus Paris - 07/04/2016
Synodiance > Recherche Vocale - SEO Campus Paris - 07/04/2016Search Foresight
 
How To Grow Your Way Out Of A Recession
How To Grow Your Way Out Of A RecessionHow To Grow Your Way Out Of A Recession
How To Grow Your Way Out Of A RecessionSite-Seeker, Inc.
 
Working out your Team Role
Working out your Team RoleWorking out your Team Role
Working out your Team RoleNeha Agrawal
 
Understanding Social Media for Business
Understanding Social Media for BusinessUnderstanding Social Media for Business
Understanding Social Media for BusinessSite-Seeker, Inc.
 

Destaque (20)

Emprego da Visão Computacional no contexto de AP - Cameras
Emprego da Visão Computacional  no contexto de AP - CamerasEmprego da Visão Computacional  no contexto de AP - Cameras
Emprego da Visão Computacional no contexto de AP - Cameras
 
Demanda - MercadoLivre Developers Conference
Demanda - MercadoLivre Developers ConferenceDemanda - MercadoLivre Developers Conference
Demanda - MercadoLivre Developers Conference
 
Adoração
AdoraçãoAdoração
Adoração
 
Demanda
DemandaDemanda
Demanda
 
Introdução OCR
Introdução OCRIntrodução OCR
Introdução OCR
 
OCR: Uma Tecnologia a Serviço do Professor
OCR: Uma Tecnologia a Serviço do ProfessorOCR: Uma Tecnologia a Serviço do Professor
OCR: Uma Tecnologia a Serviço do Professor
 
Human Activity Recognition
Human Activity RecognitionHuman Activity Recognition
Human Activity Recognition
 
Salient effects of publicity in advertised brand recall and recognition
Salient effects of publicity in advertised brand recall and recognitionSalient effects of publicity in advertised brand recall and recognition
Salient effects of publicity in advertised brand recall and recognition
 
Cameras smythe e raniel
Cameras smythe e ranielCameras smythe e raniel
Cameras smythe e raniel
 
Ashtavakra Gita - Chapter 3 - Test of the Seeker
Ashtavakra Gita - Chapter 3 - Test of the SeekerAshtavakra Gita - Chapter 3 - Test of the Seeker
Ashtavakra Gita - Chapter 3 - Test of the Seeker
 
Recherche d'emploi et réseaux sociaux
Recherche d'emploi et réseaux sociauxRecherche d'emploi et réseaux sociaux
Recherche d'emploi et réseaux sociaux
 
handwriting recognition
handwriting recognitionhandwriting recognition
handwriting recognition
 
Depoimentos de clientes da Seeker Tecnologia
Depoimentos de clientes da Seeker TecnologiaDepoimentos de clientes da Seeker Tecnologia
Depoimentos de clientes da Seeker Tecnologia
 
Les outils de l’UX pour connaître les utilisateurs - MC Casal - YOODx 2017
 Les outils de l’UX pour connaître les utilisateurs - MC Casal - YOODx 2017 Les outils de l’UX pour connaître les utilisateurs - MC Casal - YOODx 2017
Les outils de l’UX pour connaître les utilisateurs - MC Casal - YOODx 2017
 
Synodiance > Recherche Vocale - SEO Campus Paris - 07/04/2016
Synodiance > Recherche Vocale - SEO Campus Paris - 07/04/2016Synodiance > Recherche Vocale - SEO Campus Paris - 07/04/2016
Synodiance > Recherche Vocale - SEO Campus Paris - 07/04/2016
 
Twitter for Business
Twitter for BusinessTwitter for Business
Twitter for Business
 
How To Grow Your Way Out Of A Recession
How To Grow Your Way Out Of A RecessionHow To Grow Your Way Out Of A Recession
How To Grow Your Way Out Of A Recession
 
Working out your Team Role
Working out your Team RoleWorking out your Team Role
Working out your Team Role
 
Introduction to-thucydides
Introduction to-thucydidesIntroduction to-thucydides
Introduction to-thucydides
 
Understanding Social Media for Business
Understanding Social Media for BusinessUnderstanding Social Media for Business
Understanding Social Media for Business
 

Semelhante a Métodos de clustering para dados intervalares e do tipo histograma

Kmeans
KmeansKmeans
KmeansWagner
 
Otimização no Armazenamento de Imagens por meio da Decomposição em Valores Si...
Otimização no Armazenamento de Imagens por meio da Decomposição em Valores Si...Otimização no Armazenamento de Imagens por meio da Decomposição em Valores Si...
Otimização no Armazenamento de Imagens por meio da Decomposição em Valores Si...Agnaldo Coelho
 
Otimização no Armazenamento de Imagens por meio da Decomposição em Valores Si...
Otimização no Armazenamento de Imagens por meio da Decomposição em Valores Si...Otimização no Armazenamento de Imagens por meio da Decomposição em Valores Si...
Otimização no Armazenamento de Imagens por meio da Decomposição em Valores Si...Agnaldo Coelho
 
Introdução à Amostragem Compressiva
Introdução à Amostragem CompressivaIntrodução à Amostragem Compressiva
Introdução à Amostragem CompressivaEdmar Gurjão
 
Teoria elementar dos numeros
Teoria elementar dos numerosTeoria elementar dos numeros
Teoria elementar dos numeroslealtran
 
Expoente 12 prova modelo de exame-enunciado
Expoente 12 prova modelo de exame-enunciadoExpoente 12 prova modelo de exame-enunciado
Expoente 12 prova modelo de exame-enunciadoSusana Figueiredo
 
Econometria_Cap12_Heterocedasticidade (1).pdf
Econometria_Cap12_Heterocedasticidade (1).pdfEconometria_Cap12_Heterocedasticidade (1).pdf
Econometria_Cap12_Heterocedasticidade (1).pdfStellaBucuane
 
Mat em funcoes trigonometricas sol vol1 cap9 parte 1
Mat em funcoes trigonometricas sol vol1 cap9 parte 1Mat em funcoes trigonometricas sol vol1 cap9 parte 1
Mat em funcoes trigonometricas sol vol1 cap9 parte 1trigono_metrico
 
Formula luderiana racional para extracao de raiz quadrada (completo)
Formula luderiana racional para extracao de raiz quadrada (completo)Formula luderiana racional para extracao de raiz quadrada (completo)
Formula luderiana racional para extracao de raiz quadrada (completo)ludenir
 
Aritmética - Aula 5 - Algoritmo de Euclides
Aritmética - Aula 5 - Algoritmo de EuclidesAritmética - Aula 5 - Algoritmo de Euclides
Aritmética - Aula 5 - Algoritmo de EuclidesLuciana Martino
 

Semelhante a Métodos de clustering para dados intervalares e do tipo histograma (20)

Kmeans
KmeansKmeans
Kmeans
 
Otimização no Armazenamento de Imagens por meio da Decomposição em Valores Si...
Otimização no Armazenamento de Imagens por meio da Decomposição em Valores Si...Otimização no Armazenamento de Imagens por meio da Decomposição em Valores Si...
Otimização no Armazenamento de Imagens por meio da Decomposição em Valores Si...
 
Otimização no Armazenamento de Imagens por meio da Decomposição em Valores Si...
Otimização no Armazenamento de Imagens por meio da Decomposição em Valores Si...Otimização no Armazenamento de Imagens por meio da Decomposição em Valores Si...
Otimização no Armazenamento de Imagens por meio da Decomposição em Valores Si...
 
Slides cn c05
Slides cn c05Slides cn c05
Slides cn c05
 
Introdução à Amostragem Compressiva
Introdução à Amostragem CompressivaIntrodução à Amostragem Compressiva
Introdução à Amostragem Compressiva
 
03 raizes
03 raizes03 raizes
03 raizes
 
Teoria elementar dos numeros
Teoria elementar dos numerosTeoria elementar dos numeros
Teoria elementar dos numeros
 
10
1010
10
 
euclides primos
euclides primoseuclides primos
euclides primos
 
Floyd-Warshall
Floyd-WarshallFloyd-Warshall
Floyd-Warshall
 
Tadeu
TadeuTadeu
Tadeu
 
Expoente 12 prova modelo de exame-enunciado
Expoente 12 prova modelo de exame-enunciadoExpoente 12 prova modelo de exame-enunciado
Expoente 12 prova modelo de exame-enunciado
 
Estudo dos intervalos
Estudo dos intervalosEstudo dos intervalos
Estudo dos intervalos
 
2 lista 1 tri - 9 ano
2 lista   1 tri - 9 ano2 lista   1 tri - 9 ano
2 lista 1 tri - 9 ano
 
Econometria_Cap12_Heterocedasticidade (1).pdf
Econometria_Cap12_Heterocedasticidade (1).pdfEconometria_Cap12_Heterocedasticidade (1).pdf
Econometria_Cap12_Heterocedasticidade (1).pdf
 
Mat em funcoes trigonometricas sol vol1 cap9 parte 1
Mat em funcoes trigonometricas sol vol1 cap9 parte 1Mat em funcoes trigonometricas sol vol1 cap9 parte 1
Mat em funcoes trigonometricas sol vol1 cap9 parte 1
 
Exercícios de trigonometria
Exercícios de trigonometriaExercícios de trigonometria
Exercícios de trigonometria
 
Exercícios de trigonometria
Exercícios de trigonometriaExercícios de trigonometria
Exercícios de trigonometria
 
Formula luderiana racional para extracao de raiz quadrada (completo)
Formula luderiana racional para extracao de raiz quadrada (completo)Formula luderiana racional para extracao de raiz quadrada (completo)
Formula luderiana racional para extracao de raiz quadrada (completo)
 
Aritmética - Aula 5 - Algoritmo de Euclides
Aritmética - Aula 5 - Algoritmo de EuclidesAritmética - Aula 5 - Algoritmo de Euclides
Aritmética - Aula 5 - Algoritmo de Euclides
 

Métodos de clustering para dados intervalares e do tipo histograma

  • 1. Métodos de clustering para dados intervalares e do tipo histograma Anderson Berg absd@cin.ufpe.br Anderson Berg Métodos de clustering para dados do tipo histograma 1 / 63
  • 2. Introdução Índice 1 Introdução 2 Dynamic Cluster Algorithm 3 Dois novos métodos de clustering 4 Unsupervised pattern recognition models 5 Medida de Wasserstein Anderson Berg Métodos de clustering para dados do tipo histograma 2 / 63
  • 3. Introdução Introdução • Duas abordagens de clustering baseadas no algoritmo DCA - Dynamic Cluster Algorithm • Primeira abordagem: Protótipos descritos por vetores de intervalos Dissimilaridade baseada na distância de Hausdorff • Segunda abordagem: Protótipos e objetos descritos de maneiras diferentes Função matching Anderson Berg Métodos de clustering para dados do tipo histograma 3 / 63
  • 4. Introdução Notações • E = {1, ..., s, ..., n} conjunto de n objetos descritos por p variáveis intervalares Y1 , ..., Yj , ..., Yp 1 p • xs = (xs , ..., xs ) vetor de intervalos que descrevem o objeto s • P = (C1 , ..., Ci , ..., Ck ) uma partição em k clusters de E • Gi = (gi1 , ..., gij , ..., gip ) um protótipo do cluster Ci • Λ uma representação do espaço do protótipo Gi Anderson Berg Métodos de clustering para dados do tipo histograma 4 / 63
  • 5. Dynamic Cluster Algorithm Índice 1 Introdução 2 Dynamic Cluster Algorithm 3 Dois novos métodos de clustering 4 Unsupervised pattern recognition models 5 Medida de Wasserstein Anderson Berg Métodos de clustering para dados do tipo histograma 5 / 63
  • 6. Dynamic Cluster Algorithm Objetivo Encontrar uma partição P ∗ = (C1 , ..., Ck ) de E em k clusters não-vazios e um vetor L∗ = (G1 , ..., Gi , ...Gk ) tal que P ∗ e L∗ otimizem o critério: ∆(P ∗ , L∗ ) = Min{∆(P, L)/P ∈ Pk , L ∈ Λk } Anderson Berg Métodos de clustering para dados do tipo histograma 6 / 63
  • 7. Dynamic Cluster Algorithm Objetivo Encontrar uma partição P ∗ = (C1 , ..., Ck ) de E em k clusters não-vazios e um vetor L∗ = (G1 , ..., Gi , ...Gk ) tal que P ∗ e L∗ otimizem o critério: ∆(P ∗ , L∗ ) = Min{∆(P, L)/P ∈ Pk , L ∈ Λk } k ∆(P, L) = D(xs , Gi ) i=1 s∈Ci Anderson Berg Métodos de clustering para dados do tipo histograma 6 / 63
  • 8. Dynamic Cluster Algorithm Algoritmo 1 Inicialização: Inicia de uma partição aleatória P = (C1 , ..., Ci , ..., Ck ) ou de um vetor (G1 , ..., Gi , ..., Gk ) de k protótipos aleatórios escolhidos entre os elementos de E. Neste caso: Ci = ∅ para i = 1, ..., k Para s = 1 até n faça: Atribua s ao cluster Cl , l = argmini=1,...,k D(xs , Gi ) Cl = Cl ∪ {s} Anderson Berg Métodos de clustering para dados do tipo histograma 7 / 63
  • 9. Dynamic Cluster Algorithm Algoritmo 2 Etapa de representação: i = 1 até k , obter o protótipo Gi que minimiza o critério: fCi (G) = D(xs , G), G ∈ Λ s∈Ci 3 Etapa de alocação: test ← 0 para s = 1 até n faça: Encontre o cluster Cm ao qual s pertence Encontre o índice l tal que: l = argmini=1,...,k D(xs , Gi ) Se l = m: test ← 1 Cl = Cl ∪ {s} e Cm = Cm − {s} 4 Se test = 0 pare, senão vá para 2 Anderson Berg Métodos de clustering para dados do tipo histograma 8 / 63
  • 10. Dois novos métodos de clustering O primeiro método O segundo método Interpretação Índice 1 Introdução 2 Dynamic Cluster Algorithm 3 Dois novos métodos de clustering O primeiro método O segundo método Interpretação 4 Unsupervised pattern recognition models 5 Medida de Wasserstein Anderson Berg Métodos de clustering para dados do tipo histograma 9 / 63
  • 11. Dois novos métodos de clustering O primeiro método O segundo método Interpretação O primeiro método • Compara dois vetores de intervalos x1 e x2 • Comparação baseada na distância de Hausdorff • É usada a soma das distâncias de Hausdorff entre intervalos Anderson Berg Métodos de clustering para dados do tipo histograma 10 / 63
  • 12. Dois novos métodos de clustering O primeiro método O segundo método Interpretação Definição da distância de Hausdorff • Frequentemente utilizada em processamento de imagem • Usada para comparar dois conjuntos de objetos A e B j j j • A distância de Hausdorff entre dois intervalos x1 = [a1 , b1 ] e j j j x2 = [a2 , b2 ] : j j j j j j dH (x1 , x2 ) = max(|a1 − a2 )|, |b1 − b2 |) Anderson Berg Métodos de clustering para dados do tipo histograma 11 / 63
  • 13. Dois novos métodos de clustering O primeiro método O segundo método Interpretação Definição da distância de Hausdorff • Frequentemente utilizada em processamento de imagem • Usada para comparar dois conjuntos de objetos A e B j j j • A distância de Hausdorff entre dois intervalos x1 = [a1 , b1 ] e j j j x2 = [a2 , b2 ] : j j j j j j dH (x1 , x2 ) = max(|a1 − a2 )|, |b1 − b2 |) A distância d1 entre dois vetores de intervalos x1 e x2 é a soma das p variáveis das distâncias de Hausdorff entre os intervalos: p j j j j d1 (x1 , x2 ) = j=1 max(|a1 − a2 |, |b1 − b2 |) Anderson Berg Métodos de clustering para dados do tipo histograma 11 / 63
  • 14. Dois novos métodos de clustering O primeiro método O segundo método Interpretação O protótipo O protótipo G = (g 1 , ..., g p ) de um cluster C é um vetor de p intervalos que minimizam o critério de adequação: p j fC (G) = d1 (xs , G) = dH (xs , g j ) s∈C s∈C j=1 Ou: f˜ (g j ) C p j fC (G) = dH (xs , g j ) j=1 s∈C Anderson Berg Métodos de clustering para dados do tipo histograma 12 / 63
  • 15. Dois novos métodos de clustering O primeiro método O segundo método Interpretação O protótipo o problema agora é encontrar o intervalo g j = [αj , β j ] para (j = 1, ..., p) que minimiza: j j j f˜ (g j ) = C dH (xs , g j ) = max(|αj − as |, |β j − bs |) s∈C s∈C Anderson Berg Métodos de clustering para dados do tipo histograma 13 / 63
  • 16. Dois novos métodos de clustering O primeiro método O segundo método Interpretação O protótipo Vamos resolver o problema da minimização transformando em dois j problemas de minimização bem conhecidos. Seja ms o ponto médio j j j j de um intervalo xs = [as , bs ] e ls metade do seu tamanho: j j j j j as + bs j bs − as ms = e ls = 2 2 e seja µj e λj o ponto médio e a metade do tamanho do intervalo g j = [αj , β j ], respectivamente. De acordo com a seguinte propriedade definida para x e y em : max(|x − y |, |x + y |) = |x| + |y | Anderson Berg Métodos de clustering para dados do tipo histograma 14 / 63
  • 17. Dois novos métodos de clustering O primeiro método O segundo método Interpretação O protótipo j j j j f˜ (g j ) = C max(|(µj − λj ) − (ms − ls )|, |(µj + λj ) − (ms + ls )|) s∈C j j = |µj − ms | + |λj − ls | s∈C s∈C Anderson Berg Métodos de clustering para dados do tipo histograma 15 / 63
  • 18. Dois novos métodos de clustering O primeiro método O segundo método Interpretação O protótipo Isto leva a dois problemas de minimização bem conhecidos: encontrar µj ∈ e λj ∈ que minimizam, respectivamente: j j |µj − ms | e |λj − ls | s∈C s∈C ˆ j • µj : a mediana de {ms , s ∈ C}, que são os pontos médios dos j j j intervalos xs = [as , bs ], s ∈ C ˆ • λj : a mediana do conjunto {l j , s ∈ C} s ˆ ˆ ˆ ˆ ˆ ˆ ˆ • g j = [αj , β j ] o intervalo [µj − λj , µj + λj ] • G = (g 1 , ..., g p ): o protótipo de C ˆ ˆ Anderson Berg Métodos de clustering para dados do tipo histograma 16 / 63
  • 19. Dois novos métodos de clustering O primeiro método O segundo método Interpretação O segundo método j j j j • Compara duas duplas p1 = (x1 , q1 ) e p2 = (x2 , q2 ) j j • q1 e q2 são pesos associados a x1 e x2 j j • Uma etapa de pré-processamento discretiza x1 e x2 em intervalos elementares Anderson Berg Métodos de clustering para dados do tipo histograma 17 / 63
  • 20. Dois novos métodos de clustering O primeiro método O segundo método Interpretação Pré-processamento j j j • xs é discretizado para obter intervalos elementares {I1 , ..., IHj } e j seus pesos correspondentes qs j j j • A partir de um conjunto {x1 , ..., xs , ..., xn } de n intervalos outro j j j conjunto de Hj intervalos disjuntos {I1 , ..., Ih , ..., IHj } é formado • Ordena-se o conjunto de limites inferiores e superiores dos n j j j intervalos {x1 , ..., xs , ..., xn } para obter os intervalos elementares j • Os intervalos elementares Ih devem obedecer as seguintes propriedades: Anderson Berg Métodos de clustering para dados do tipo histograma 18 / 63
  • 21. Dois novos métodos de clustering O primeiro método O segundo método Interpretação Pré-processamento j j j • xs é discretizado para obter intervalos elementares {I1 , ..., IHj } e j seus pesos correspondentes qs j j j • A partir de um conjunto {x1 , ..., xs , ..., xn } de n intervalos outro j j j conjunto de Hj intervalos disjuntos {I1 , ..., Ih , ..., IHj } é formado • Ordena-se o conjunto de limites inferiores e superiores dos n j j j intervalos {x1 , ..., xs , ..., xn } para obter os intervalos elementares j • Os intervalos elementares Ih devem obedecer as seguintes propriedades: Hj j j n i) h=1 Ih = s=1 xs j j ii) Ih ∩ Ih = ∅ se h = h j j j j iii) ∀s ∈ E, ∀h Ih ⊆ xs ou Ih ∩ xs = ∅ j j j j j j j j j iv) ∀s ∈ E, ∃Ss ⊂ {I1 , ..., IHj } : I j ∈S j Ih = xs e ∀Ih ∈ Ss , Ih ⊆ xs h s Anderson Berg Métodos de clustering para dados do tipo histograma 18 / 63
  • 22. Dois novos métodos de clustering O primeiro método O segundo método Interpretação Pré-processamento j j j j Ss = {Ih : Ih ⊆ xs } é um subconjunto de intervalos elementares A Função peso qs é definida como: j qs : Ss → [0, 1] j j j j |Ih | Ih ∈ Ss → qs (Ih ) = j j bs − as j j |Ih | é o tamanho do intervalo Ih j j j ∀Ih ∈ Ss , qs (Ih ) ≥ 0 j j j qs (I ) = 1 h I ∈S s h Anderson Berg Métodos de clustering para dados do tipo histograma 19 / 63
  • 23. Dois novos métodos de clustering O primeiro método O segundo método Interpretação Construção de intervalos elementares Anderson Berg Métodos de clustering para dados do tipo histograma 20 / 63
  • 24. Dois novos métodos de clustering O primeiro método O segundo método Interpretação Definição da dissimilaridade de "dois componentes" j j j j Duas duplas p1 = (x1 , q1 ) e p2 = (x2 , q2 ) são comparadas por: j j j j d2c (p1 , p2 ) = dci (x1 , x2 ) + dcd (q1 , q2 ) Anderson Berg Métodos de clustering para dados do tipo histograma 21 / 63
  • 25. Dois novos métodos de clustering O primeiro método O segundo método Interpretação O primeiro componente j j j j j j Dissimilaridade dci entre dois intervalos x1 = [a1 , b1 ] e x2 = [a2 , b2 ]: j j ¯j ¯j j j |(x1 ∩ x2 ) ∩ (x1 ⊕ x2 )| dci (x1 , x2 ) = j j |x1 ⊕ x2 | onde: • |.| o tamanho de um intervalo j j j j j j • x1 ⊕ x2 = [min(a1 , a2 ), max(b1 , b2 )] ¯j j j j • xs =] − ∞, as [∪]bs , +∞[ o conjunto complementar de xs em Anderson Berg Métodos de clustering para dados do tipo histograma 22 / 63
  • 26. Dois novos métodos de clustering O primeiro método O segundo método Interpretação O primeiro componente Alternativamente:  j j j j |min(b1 ,b2 )−max(a1 ,a2 )| j j se x1 ∩ x2 = ∅  j j j j j j dci (x1 , x2 ) = max(b1 ,b2 )−min(a1 ,a2 )  0 senão Anderson Berg Métodos de clustering para dados do tipo histograma 23 / 63
  • 27. Dois novos métodos de clustering O primeiro método O segundo método Interpretação O segundo componente Dissimilaridade dcd entre duas funções peso: 1 j j dcd (q1 , q2 ) = ( q1 (Ih ) + q2 (Ih )) 2 j j j j j j j j j j {Ih :Ih ∈S1 ,Ih ∈S2 } / {Ih :Ih ∈S2 ,Ih ∈S1 } / j j j j 0 ≤ dcd ≤ 1, com dcd = 0 se x1 = x2 e dcd = 1 se x1 ∩ x2 = ∅ Anderson Berg Métodos de clustering para dados do tipo histograma 24 / 63
  • 28. Dois novos métodos de clustering O primeiro método O segundo método Interpretação O segundo componente Dissimilaridade dcd entre duas funções peso: 1 j j dcd (q1 , q2 ) = ( q1 (Ih ) + q2 (Ih )) 2 j j j j j j j j j j {Ih :Ih ∈S1 ,Ih ∈S2 } / {Ih :Ih ∈S2 ,Ih ∈S1 } / j j j j 0 ≤ dcd ≤ 1, com dcd = 0 se x1 = x2 e dcd = 1 se x1 ∩ x2 = ∅ p p j j j j d2 (p1 , p2 ) = d2c (p1 , p2 ) = (dci (x1 , x2 ) + dcd (q1 , q2 )) j=1 j=1 Anderson Berg Métodos de clustering para dados do tipo histograma 24 / 63
  • 29. Dois novos métodos de clustering O primeiro método O segundo método Interpretação O protótipo O protótipo G de um cluster C é agora um vetor de p duplas (Γj , q): j j (a) Γj = [mins∈C as , maxs∈C bs ] é um intervalo que generaliza os j j j intervalos xs = [as , bs ] para s ∈ C; j (b) Γj = xs : s ∈ C é um conjunto de intervalos 1 j q= card(C) {h,s:Ih ∈Ss j e s∈C} qs (Ih ) 0, senão Anderson Berg Métodos de clustering para dados do tipo histograma 25 / 63
  • 30. Dois novos métodos de clustering O primeiro método O segundo método Interpretação O protótipo Como a definição (b) de Γj não é um intervalo ∗ j ¯j |(xs ∩ ( ¯j j s ∈C xs )) ∩ (xs ⊕ ( s ∈C j xs ))| dci (xs , Γj ) = j j |xs ⊕ ( s ∈C xs )| j j j j j j xs ⊕ ( s ∈C xs ) = [min(as , mins ∈C as ), max(bs , maxs ∈C bs )] Anderson Berg Métodos de clustering para dados do tipo histograma 26 / 63
  • 31. Dois novos métodos de clustering O primeiro método O segundo método Interpretação O protótipo Como a definição (b) de Γj não é um intervalo ∗ j ¯j |(xs ∩ ( ¯j j s ∈C xs )) ∩ (xs ⊕ ( s ∈C j xs ))| dci (xs , Γj ) = j j |xs ⊕ ( s ∈C xs )| j j j j j j xs ⊕ ( s ∈C xs ) = [min(as , mins ∈C as ), max(bs , maxs ∈C bs )] p ∗ ∗ j d2 (ps , G) = (dci (xs , Γj ) + dcd (qs , q)) j=1 Anderson Berg Métodos de clustering para dados do tipo histograma 26 / 63
  • 32. Dois novos métodos de clustering O primeiro método O segundo método Interpretação O algoritmo a) Inicialização: Inicia de uma partição aleatória P = (C1 , ..., Ci , ..., Ck ) b) Etapa de alocação: test ← 0 para s = 1 até n faça: Encontre o cluster Cm ao qual s pertence Se card(Cm ) = 1 para l = 1, ..., k e l = m calcula novos protótipos Gm de Cm − {s} e Gl de Cl ∪ {s} calcula o critério ∆l = k i=1 ∗ s ∈Ci D(ps ,Gi ) onde D = d2 ou d2 Encontre o cluster Cl · tal que l ∗ = argminl=1,...,k ∆l Se l ∗ = m move s para Cl · test ← 1 Cl · = Cl · ∪{s} e Cm = Cm − {s} c) se test = 0 então pare, senão vá para b) Anderson Berg Métodos de clustering para dados do tipo histograma 27 / 63
  • 33. Dois novos métodos de clustering O primeiro método O segundo método Interpretação Interpretação n k k 2 2 d (xs , G) = d (xs , Gi ) + ni d 2 (Gi , G) s=1 i=1 s∈Ci i=1 TSS WSS BSS • d a distância Euclidiana quadrada • G a média dos n pontos xs ∈ E • Gi a média dos pontos xs ∈ Ci • ni = card(Ci ) Anderson Berg Métodos de clustering para dados do tipo histograma 28 / 63
  • 34. Dois novos métodos de clustering O primeiro método O segundo método Interpretação Interpretação A média G de um cluster C é o ponto g ∈ p que minimiza o critério: fC (g) = d 2 (xs , g) s∈C No primeiro método, a média G é generalizada para protótipo G, que minimiza: fC (g) = D(xs , g) s∈C Anderson Berg Métodos de clustering para dados do tipo histograma 29 / 63
  • 35. Dois novos métodos de clustering O primeiro método O segundo método Interpretação Interpretação TSS e WSS podem ser generalizados usando o protótipo Gi de um cluster Ci : • WSS = k i=1 s∈Ci D(xs , Gi ) = k i=1 fCi (Gi ), que é igual ao critério ∆(P, L) • TSS = n D(xs , GE ), que é o critério fE (GE ), com GE o s=1 protótipo de todo o conjunto E Anderson Berg Métodos de clustering para dados do tipo histograma 30 / 63
  • 36. Dois novos métodos de clustering O primeiro método O segundo método Interpretação Interpretação Três critérios serão utilizados para interpretar uma partição e seus clusters: • fCi (Gi ) que é a medida de homogeneidade do cluster Ci ; • ∆(P, L) que é a medida da homogeneidade intra-cluster (within-cluster) da partição P; • fE (GE ) que é a medida da homogeneidade total do conjunto E. Anderson Berg Métodos de clustering para dados do tipo histograma 31 / 63
  • 37. Dois novos métodos de clustering O primeiro método O segundo método Interpretação Interpretação da partição Qualidade de uma partição: ∆(P, L) Q(P) = 1 − fE (GE ) Qualidade da partição para cada variável Yj : k ˜ ˆj i=1 fCi (gi ) Qj (P) = 1 − ˜E (g j ) f ˆE Anderson Berg Métodos de clustering para dados do tipo histograma 32 / 63
  • 38. Dois novos métodos de clustering O primeiro método O segundo método Interpretação Interpretação dos clusters A qualidade de um cluster Ci de E é definida por: fCi (Gi ) Q(Ci ) = 1 − fCi (GE ) A contribuição de um cluster Ci à homogeneidade intra-cluster de P é definida por: fC (Gi ) K (Ci ) = i ∆(P, L) A soma de k contribuições é 1 Anderson Berg Métodos de clustering para dados do tipo histograma 33 / 63
  • 39. Dois novos métodos de clustering O primeiro método O segundo método Interpretação Interpretação dos clusters Um critério final que é útil para interpretar um cluster de acordo com uma variável Yj é: ˜C (g j ) f ˆ Qj (Ci ) = 1 − i ij ˜C (g f ˆ i E Anderson Berg Métodos de clustering para dados do tipo histograma 34 / 63
  • 40. Unsupervised pattern recognition models Introdução Pré-processamento Distâncias adaptativas Algori Índice 1 Introdução 2 Dynamic Cluster Algorithm 3 Dois novos métodos de clustering 4 Unsupervised pattern recognition models Introdução Pré-processamento Distâncias adaptativas Algoritmo Interpretação 5 Medida de Wasserstein Anderson Berg Métodos de clustering para dados do tipo histograma 35 / 63
  • 41. Unsupervised pattern recognition models Introdução Pré-processamento Distâncias adaptativas Algori Partitioning dynamical cluster algorithm • Algoritmos iterativos de duas etapas • Construção de clusters e representações de protótipos • Critério de adequação • Clustering dinâmico adaptativo • Análise de dados simbólicos • Pré-processamento Anderson Berg Métodos de clustering para dados do tipo histograma 36 / 63
  • 42. Unsupervised pattern recognition models Introdução Pré-processamento Distâncias adaptativas Algori Tipos de dados Dada uma variável simbólica Xj , ela é: • set-valued se, dado um item i, Xj (i) = xij ⊆ Aj onde j j Aj = {t1 , ..., tHj } é um conjunto de categorias • ordered list-valued se, dado um item i, Xj (i) = xij , onde xij é uma j j sub-lista de uma lista ordenada de categorias Aj = [t1 , ..., tHj ] • interval-valued se, dado um item i, Xj (i) = xij = [aij , bij ] ∈ [a, b], onde [a, b] ∈ e é o conjunto de intervalos fechados definidos em • histogram-valued se, dado um item i, Xj (i) = xij = (S j (i), qj (i)) j j onde qj (i) = (qi1 , ..., qiHij ) é um vetor de pesos definido em S j (i), tal que um peso q(m) corresponde a cada categoria m ∈ S j (i) Anderson Berg Métodos de clustering para dados do tipo histograma 37 / 63
  • 43. Unsupervised pattern recognition models Introdução Pré-processamento Distâncias adaptativas Algori Tabela de dados City X1 X2 X3 1 [70,100] ((D,C,S,N),(0.4,0.3,0.2,0.1)) {F,I} 2 [50,70] ((D,C,S,N),(0.3,0.3,0.3,0.1)) {S,G} 3 [20,40] ((D,C,S,N),(0.2,0.2,0.2,0.4)) {GB,G} 4 [60,100] ((D,C,S,N),(0.1,0.3,0.4,0.2)) {B,GB} Anderson Berg Métodos de clustering para dados do tipo histograma 38 / 63
  • 44. Unsupervised pattern recognition models Introdução Pré-processamento Distâncias adaptativas Algori Set-valued Xj (i) = xij = (Aj , qj (i)) ˜ ˜ j j onde Aj = {t1 , ..., tHj } j j O peso qh (i)(h = 1, ..., Hj ) da categoria th ∈ Aj é definido como: j 1 j , se th ∈ xij , j qh (i) = c(xi ) 0, se th ∈ xij , j / onde c(A) é a cardinalidade de um conjunto finito de categorias A. Anderson Berg Métodos de clustering para dados do tipo histograma 39 / 63
  • 45. Unsupervised pattern recognition models Introdução Pré-processamento Distâncias adaptativas Algori Ordered list-valued Xj (i) = xij = (Aj , Qj (i)) ˜ ˜ j j onde Aj = [t1 , ..., tHj ] j j O peso cumulativo Qh (i)(h = 1, ..., Hj ) da categoria th da lista ordenada Aj é definido como: se a categoria trj está na  1 h  j ,  l(xi ) j Qh (i) = qrj (i), onde qrj (i) = j  sub-lista xi , r =1  0, senão onde l(A) é o tamanho de uma lista ordenada de categorias A Anderson Berg Métodos de clustering para dados do tipo histograma 40 / 63
  • 46. Unsupervised pattern recognition models Introdução Pré-processamento Distâncias adaptativas Algori Interval-valued ˜ Xj (i) = xij = (Aj , Q j (i)) ˜ ˜ ˜ j j onde Aj = {I1 , ..., IHj } j j Os pesos cumulativos Qh (i)(h = 1, ..., Hj ) do intervalo elementar Ih é definido como: h j l(Irj ∩ xij ) Qh (i) = qrj (i), onde qrj (i) = , r =1 l(xij ) onde l(I) é o tamanho do intervalo fechado I Anderson Berg Métodos de clustering para dados do tipo histograma 41 / 63
  • 47. Unsupervised pattern recognition models Introdução Pré-processamento Distâncias adaptativas Algori Intervalos elementares Propriedades dos intervalos elementares: Hj j (1) h=1 Ih = [a, b] j j (2) Ih ∩ Ih = ∅ se h=h j (3) ∀h∃i ∈ Ω tal que Ih ∩ xij = ∅ (4) ∀i∃Sij ⊂ {1, ..., Hj } : ∪h∈S j Ih = xij j i Anderson Berg Métodos de clustering para dados do tipo histograma 42 / 63
  • 48. Unsupervised pattern recognition models Introdução Pré-processamento Distâncias adaptativas Algori Exemplo Country X1 X2 1 [10,30] {A,Co} 2 [25,35] {C,Co,E} 3 [90,130] {A,C,E} 4 [125,140] {A,C,Co,E} • X1 é o mínimo e o máximo do produto nacional bruto (em milhões) • X2 indica as principais indústrias a partir do conjunto A2 = {A = agricultura , C = chemistry, Co = commerce, E = engineering, En = energy, I = informatic} Anderson Berg Métodos de clustering para dados do tipo histograma 43 / 63
  • 49. Unsupervised pattern recognition models Introdução Pré-processamento Distâncias adaptativas Algori Intervalos elementares ˜ 1 1 1 1 1 1 1 Conjunto de intervalos elementares: A1 = {I1 , I2 , I3 , I4 , I5 , I6 , I7 }, onde 1 1 1 1 1 I1 = [10, 25[, I2 = [25, 30[, I3 = [30, 35[, I4 = [35, 90[, I5 = 7 = [125, 130[ e I 1 = [130, 140[ [90, 125[, I6 7 Country X1 X2 1 (A1 , Q1 (1) = (0.75, 1, 1, 1, 1, 1, 1)) ˜ (A2 , q2 (1) = (0.5, 0, 0.5, 0, 0, 0)) ˜ 2 (A1 , Q1 (2) = (0, 0.5, 0.5, 1, 1, 1, 1)) ˜ (A2 , q2 (2) = (0, 0.33, 0.33, 0.33, 0, 0)) ˜ 3 (A1 , Q1 (3) = (0, 0, 0, 0, 0.88, 1, 1)) ˜ (A2 , q2 (3) = (0.33, 0.33, 0, 0.33, 0, 0)) ˜ 4 (A1 , Q1 (4) = (0, 0, 0, 0, 0, 0.33, 1)) ˜ (A2 , q2 (4) = (0.25, 0.25, 0.25, 0.25, 0, 0)) ˜ Anderson Berg Métodos de clustering para dados do tipo histograma 44 / 63
  • 50. Unsupervised pattern recognition models Introdução Pré-processamento Distâncias adaptativas Algori Representação dos dados Depois do pré-processamento: xi = (xi1 , . . . , xip ), xij = (Dj , u j (i)) ˜ ˜ ˜ ˜ j j j ˜ e u (i) = (u1 (i), . . . , uHj (i)) O protótipo do cluster Ck (k = 1, ..., K ) é representado por um vetor de histogram-valued symbolic data: p j gk = (gk , . . . , gk ), gk = (Dj , vj (k ))(j = 1, . . . , p) 1 j j vj (k ) = (v1 (k ), . . . , vhj (k )) Anderson Berg Métodos de clustering para dados do tipo histograma 45 / 63
  • 51. Unsupervised pattern recognition models Introdução Pré-processamento Distâncias adaptativas Algori Esquema geral Encontrar a partição P ∗ = {C1 , . . . , CK } de Ω em K clusters, os K ∗ ∗ ∗ ∗ ∗ protótipos correspondentes G = (g1 , . . . , gK ) representando os clusters em P ∗ e K distâncias Euclidianas quadradas adaptativas parametrizadas por K vetores de pesos D∗ = (λ∗ , . . . , λ∗ ) 1 K Critério de adequação: K W (G, D, P) = ˜ d(xi , gk | λk ) k =1 i∈Ck Anderson Berg Métodos de clustering para dados do tipo histograma 46 / 63
  • 52. Unsupervised pattern recognition models Introdução Pré-processamento Distâncias adaptativas Algori Distâncias Euclidianas adaptativas (a) Distância única: λk = λ(k = 1, . . . , K ), onde λ = (λ1 , . . . , λp ) p Hj j j ˜ d(xi , gk | λ) = λj (uh (i) − vh (k ))2 j=1 h=1 (b) Distância por cluster: λk = (λ1 , . . . , λp ) k k p Hj ˜ d(xi , gk | λk ) = λjk j j (uh (i) − vh (k ))2 j=1 h=1 Anderson Berg Métodos de clustering para dados do tipo histograma 47 / 63
  • 53. Unsupervised pattern recognition models Introdução Pré-processamento Distâncias adaptativas Algori Pré-processamento: homogenização dos dados Para todos os objetos i = 1, . . . , n e todas as variáveis j = 1, . . . , p calcular xij = (Dj , u j (i)) ˜ Anderson Berg Métodos de clustering para dados do tipo histograma 48 / 63
  • 54. Unsupervised pattern recognition models Introdução Pré-processamento Distâncias adaptativas Algori Etapa de inicialização (0) (0) Escolher aleatoriamente uma partição P (0) = (C1 , . . . , CK ) de Ω ou (0) (0) K objetos distintos g1 , . . . , gK pertencentes a Ω e atribua cada (0) objeto i ao protótipo gk ∗ mais próximo, onde p Hj j j k ∗ = argmink =1,...,K { j=1 h=1 ((uh (i)) (0) − (vh (k ))(0) )2 }. t = 1. Anderson Berg Métodos de clustering para dados do tipo histograma 49 / 63
  • 55. Unsupervised pattern recognition models Introdução Pré-processamento Distâncias adaptativas Algori Passo 1: Definição dos protótipos P = {C1 , . . . , CK } e D = (λ1 , . . . , λK ) fixos 1 p O vetor de protótipos G = (g1 , . . . , gK ), onde gk = (gk , . . . , gk ) com j gk = (Dj , v j (k )) que minimiza o critério W , onde o vetor j j v j (k ) = (v1 (k ), . . . , vHj (k )) é calculado por: j 1 j vh (k ) = uh (i) nk i∈Ck onde nk é a cardinalidade da classe Ck Anderson Berg Métodos de clustering para dados do tipo histograma 50 / 63
  • 56. Unsupervised pattern recognition models Introdução Pré-processamento Distâncias adaptativas Algori Passo 2: Definição das distâncias P = {C1 , . . . , CK } e G = (g1 , . . . , gk ) fixos (a) Para distância única: λk = λ(k = 1, . . . , K ), onde λ = (λ1 , . . . , λp ), λj > 0 e p λj = η j=1 1 p K Hl l l 2 j {η l=1 ( k =1 [ i∈Ck ( h=1 (uh (i) − vh (k )) )])} p λ = Hj K j j 2 k =1 [ i∈Ck ( h=1 uh (i) − vh (k )) )] Anderson Berg Métodos de clustering para dados do tipo histograma 51 / 63
  • 57. Unsupervised pattern recognition models Introdução Pré-processamento Distâncias adaptativas Algori Passo 2: Definição das distâncias (b) Para distância por cluster: λk = (λ1 , . . . , λp )λjk > 0 e k k p j j=1 λk =χ Hj 1 p l l 2 {χ l=1 ( i∈Ck ( h=1 (uh (i) − vh (k )) ))} p λjk = Hj j j 2 i∈Ck ( h=1 uh (i) − vh (k )) ) Anderson Berg Métodos de clustering para dados do tipo histograma 52 / 63
  • 58. Unsupervised pattern recognition models Introdução Pré-processamento Distâncias adaptativas Algori Passo 3: Definição da partição G = (g1 , . . . , gk ) e D = (λ1 , . . . , λK ) fixos ˜ ˜ Ck = {i ∈ Ω : d(xi , gk | λk ) < d(xi , gm | λm ) e quando ˜ ˜ dk (xi , gk | λk ) = dk (xi , gm | λm ) então i ∈ Ck se k < m∀m = k (m = 1, . . . , K )} Anderson Berg Métodos de clustering para dados do tipo histograma 53 / 63
  • 59. Unsupervised pattern recognition models Introdução Pré-processamento Distâncias adaptativas Algori Soma dos quadrados global n K T = ˜ d(xi , g | λk ) = ˜ d(xi , g | λk ) i=1 k =1 i∈Ck onde g = (g 1 , . . . , g p ), g j = (Dj , vj )(j = 1, . . . , p) e o vetor de pesos j j vj = (v1 , . . . , vHj ) é calculado por: n j 1 j vh = uh (i) n i=1 Anderson Berg Métodos de clustering para dados do tipo histograma 54 / 63
  • 60. Unsupervised pattern recognition models Introdução Pré-processamento Distâncias adaptativas Algori Soma dos quadrados intra-classe: W K W = ˜ d(xi , gk | λk ) k =1 i∈Ck Anderson Berg Métodos de clustering para dados do tipo histograma 55 / 63
  • 61. Unsupervised pattern recognition models Introdução Pré-processamento Distâncias adaptativas Algori Soma dos quadrados inter-classe: B K B= nk d(gk , g | λk ) k =1 Anderson Berg Métodos de clustering para dados do tipo histograma 56 / 63
  • 62. Unsupervised pattern recognition models Introdução Pré-processamento Distâncias adaptativas Algori Relações entre as somas • T =W +B • Tk = Wk + Bk (k = 1, . . . , K ) • Tj = Wj + Bj (j = 1, . . . , p) • Tkj = Wkj + Bkj (k = 1, . . . , K ; j = 1, . . . , p) Anderson Berg Métodos de clustering para dados do tipo histograma 57 / 63
  • 63. Medida de Wasserstein Índice 1 Introdução 2 Dynamic Cluster Algorithm 3 Dois novos métodos de clustering 4 Unsupervised pattern recognition models 5 Medida de Wasserstein Anderson Berg Métodos de clustering para dados do tipo histograma 58 / 63
  • 64. Medida de Wasserstein Notação • Y é uma variável contínua definida em S = [y ; y ] • Y é particionada em intervalos contíguos: {I1 , . . . , Ih , . . . , IH } onde Ih = [yh ; yh ] • A cada intervalo semi-aberto Ih é associada uma variável aleatória: N Ψ(Ih ) = Ψyu (Ih ) u=1 onde Ψyu (Ih ) = 1 se yu ∈ Ih , 0 se não • Distribuição empírica associada a Ih : πh = Ψ(Ih )/N Anderson Berg Métodos de clustering para dados do tipo histograma 59 / 63
  • 65. Medida de Wasserstein Distância quadrada A distância quadrada entre duas descrições de histograma Y (i) e Y (j) é: m wl 2 dM (Y (i), Y (j)) := (Ψ−1 (t) − Ψ−1 (t))2 dt i j l=1 wl−1 Cada dupla (wl−1 , wl ) permite identificar dois intervalos, um para i e outro para j: Ili = [Ψ−1 (wl−1 ); Ψ−1 (wl )] i i e Ilj = [Ψ−1 (wl−1 ); Ψ−1 (wl )] j j Anderson Berg Métodos de clustering para dados do tipo histograma 60 / 63
  • 66. Medida de Wasserstein Distância quadrada Para cada intervalo é possível calcular os centros e os raios: cli = (Ψ−1 (wl ) + Ψ−1 (wl−1 ))/2 i i rli = (Ψ−1 (wl ) − Ψ−1 (wl−1 ))/2 i i O cálculo da distância pode ser reescrito: p mk 2 (k ) (k ) (k ) 2 1 (k ) (k ) 2 dM (Y (i), Y (j)) := πl cli − clj + r − rlj 3 li k =1 l=1 Anderson Berg Métodos de clustering para dados do tipo histograma 61 / 63
  • 67. Medida de Wasserstein dM para dynamic clustering f (Y (b)|Y (1), . . . , Y (n)) = f (c1b , r1b , . . . , cmb , rmb ) = n n m 1 = d 2 (Y (i), Y (b)) = πj (cji − cjb )2 + (rji − rjb )2 3 i=1 i=1 j=1 Esta função atinge um mínimo quando: n n −1 −1 cjb = n cji ; rjb = n rji i=1 i=1 O baricentro (protótipo) do histograma: Y (b) = {([c1b − r1b ; c1b + r1b ] , π1 ) ; . . . ; cjb − rjb ; cjb + rjb , πj ; . . . ; ; . . . ; ([cmb − rmb ; cmb + rmb ] , πm )} Anderson Berg Métodos de clustering para dados do tipo histograma 62 / 63
  • 68. Bibliografia Marie Chavent, Francisco De A. T. Carvalho, Yves Lechevallier, and Rosanna Verde. New clustering methods for interval data. Computational Statistics, 21:211–229, 2006. Francisco De A.T. de Carvalho and Renata M.C.R. de Souza. New clustering methods for interval data. Computational Statistics, 2006. Anderson Berg Métodos de clustering para dados do tipo histograma 63 / 63