SlideShare uma empresa Scribd logo
1 de 17
Baixar para ler offline
ANÁLISE DE AGRUPAMENTOS
23
3. ANÁLISE DE AGRUPAMENTOS
3.1. Introdução
Análise de agrupamentos (cluster analysis) é um termo usado para descrever diversas
técnicas numéricas cujo propósito fundamental é classificar os valores de uma matriz de dados
sob estudo em grupos discretos. A técnica classificatória multivariada da análise de agrupamentos
pode ser utilizada quando se deseja explorar as similaridades entre indivíduos (modo Q) ou entre
variáveis (modo R) definindo-os em grupos, considerando simultaneamente, no primeiro caso,
todas as variáveis medidas em cada indivíduo e, no segundo, todos os indivíduos nos quais foram
feitas as mesmas mensurações. Segundo esse método, desenvolvido, inicialmente em Zoologia
por taxonomistas numéricos, procura-se por agrupamentos homogêneos de itens representados
por pontos num espaço n-dimensional em um número conveniente de grupos relacionando-os
através de coeficientes de similaridades ou de correspondências.
A aplicação desta análise é controversa entre os pesquisadores, pois pouco se sabe a
respeito dos pressupostos estatísticos dos seu vários métodos e apenas testes limitados são
conhecidos para verificar a significância dos resultados. Na análise introdutória de matrizes de
dados tornam-se, porem, bastante eficientes para auxiliar na formulação de hipóteses a respeito
da homogeneidade ou não desses dados.
3.2. Métodos de classificação
Segundo Davis (1986) os diversos métodos para a análise de agrupamentos podem ser
enquadrados em quatro tipos gerais:
a) Métodos de partição: procuram classificar regiões no espaço, definido em função de variáveis,
que sejam densamente ocupados em termos de observações daqueles com ocupação mais
esparsa.
b) Métodos com origem arbitrária: procuram classificar as observações segundo “k” conjuntos
previamente definidos; neste caso “k” pontos arbitrários servirão como centróides iniciais e as
observações irão se agrupando, por similaridade, em torno desses centróides para formar
agrupamentos.
c) Métodos por similaridade mútua: procuram agrupar observações que tenham uma similaridade
comum com outras observações; inicialmente uma matriz n x n de similaridades entre todos os
pares da observação é calculada; em seguida, as similaridades entre colunas são
repetidamente recalculadas; colunas representando membros de um único agrupamento
tenderão apresentar intercorrelações próximas a 1 e valores menores com não membros.
d) Métodos por agrupamentos hierárquicos: são as técnicas mais comumente usadas em
Geologia; a partir da matriz inicial de dados obtém-se uma matriz simétrica de similaridades e
incia-se a detecção de pares de casos com a mais alta similaridade, ou a mais baixa distância;
para essa combinação, segundo níveis hierárquicos de similaridade, escolhe-se entre os
ANÁLISE DE AGRUPAMENTOS
24
diversos procedimentos aglomerativo de tal modo que cada ciclo de agrupamento obedeça a
uma ordem sucessiva no sentido do decréscimo de similaridade.
3.2.1. Metodologia para agrupamentos hierárquicos
Partindo de uma matriz inicial de dados [n*p], onde "n" linhas representam casos ou
espécimes ou amostras, no sentido geológico, e as "p" colunas as variáveis, feitas as
comparações, usando um coeficiente de similaridade qualquer entre linhas, obtém-se uma matriz
inicial de coeficiente de similaridade de tamanho [ ]n n* , que será utilizada no modo Q. Se a
comparação for entre colunas, obter-se-á uma matriz inicial de coeficientes de similaridade inicial
[ ]p p* , que será utilizada no modo R. Embora diversas medidas de similaridade tenham sido
propostas, somente duas são geralmente usadas: o coeficiente de correlação de Pearson e a
medida de distância euclideana. Se as variáveis forem padronizadas a partir da matriz inicial de
dados, dando o mesmo peso a cada uma delas, qualquer um desses coeficientes poderá ser
diretamente transformado no outro.
Na matriz inicial de coeficientes de similaridade estes representam o grau de semelhança
entre pares de objetos e os mesmos deverão ser arranjados de acordo com os respectivos graus
de similaridade de modo a ficarem agrupados segundo uma disposição hierárquica. Os resultados
quando organizados em gráfico, do tipo dendrograma, mostrarão as relações das amostras
agrupadas.
Várias técnicas de agrupamentos tem sido propostas, e os métodos mais comumente
usados são: “ligação simples” (single linkage method ou nearest neighbor); “ligação completa”
(complete linkage method ou farthest neighbor); ”agrupamento pareado proporcionalmente
ponderado" (weighted pair-group method, WPGM); “agrupamento pareado igualmente ponderado”
(unweighted pair-group method”, UPGM); “variância mínima” (minimum variance clustering ou
Ward’s method of sum-of-squares method).
No método de ligação simples os grupos iniciais são determinados pelos mais altos
coeficientes de associação mútua. Para admissão de novos membros aos grupos é suficiente
encontrar quais os que representam os maiores coeficientes de associação com um dos
elementos de determinado grupo. A ligação será estabelecida a esse nível de associação com
todo o grupo. No método de ligação completa os gupos são determinados pelos mais baixos
coeficientes de associação mútua. Ambos são os métodos mais simples, mas tambem os que
apresentam os resultados mais distorcidos. Com o uso dos métodos de ligações completas
espera-se obter resultados mais rigorosos.
No método de agrupamento pareado procura-se também inicialmente pelos mais altos
coeficientes de associação mútua. Em seguida esses pares de casos fornecerão valores médios
originando um novo elemento singular. No "método de agrupamento pareado igualmente
ponderado" para o cálculo dos valores médios atribui-se sempre o mesmo peso aos dois
elementos que estão sendo integrados. No método de agrupamento pareado proporcionalmente
ponderado para cada agrupamento é dado um peso proporcional ao número de objetos que o
ANÁLISE DE AGRUPAMENTOS
25
constitui, de tal modo que a incorporação e um novo elemento a um grupo baseia-se no nível
médio de similaridade desse elemento com todos os que fazem parte do grupo. Tanto num caso
como no outro, alternativamente, em vez de obter valores medios entre os casos podem ser
utilizados centroides e verificados as distâncias entre os mesmos.
No método de agrupamento pela variância mínima o enfoque é sobre a variabilidade que
existe dentro de cada caso e os agrupamentos são efetuados ao se determinar que pares de
casos, quando tomados em conjunto, apresentam o menor acrescimo de variabilidade.
No método de ligações singulares as ligações tendem a ocorrer a níveis mais altos do que
nos métodos de agrupamento pareado. No método de agrupamento pareado igualmente
ponderado como cada membro adicionado ao agrupamento tem sempre o mesmo peso, isso traz
como efeito que os últimos elementos a se integrarem tem maior influência que os primeiros. No
caso do método de agrupamento pareado proporcionalmente ponderado, tal não acontece.
Existindo à disposição diversas técnicas para a análise de agrupamentos e não havendo
testes estatísticos válidos para os resultados obtidos, o pesquisador geralmente fica em dúvida
sobre qual método aplicar. Entendendo que esta análise sempre deve ser aplicada com caráter
introdutório, e nesse sentido tem o seu mérito, a consideração de ordem pragmática a ser adotada
é que o melhor método é aquele que fornece os resultados mais coerentes com a realidade
geológica em estudo. Eventualmente, testes, como o de Hotteling ou a análise generalizada de
variâncias, podem ser aplicados aos agrupamentos encontrados para a verificação da sua
validade estatística.
Aplicações desta metodologia tem mostrado que os métodos pareados igualmente
ponderado são superiores aos demais e que o coeficiente distância usualmente agrupa melhor
espécimes ou amostras, no sentido geológico, enquanto o coeficiente de correlação é
recomentado para o agrupamento entre variáveis. Essas afirmações são baseadas na correlação
cofenética que ao apresenrar valores abaixo de 0,8 indicam distorções significativas no
dendrograma obtido.
O método hierárquico tem sido preferido em relação ao que utilisa centróides. Este porém
mostra-se, em termos computacionais, mais útil quando se tem que manipular grandes matrizes
de dados, por exemplo com mais de 1.000 casos. Como “k” geralmente é pequeno, da ordem de 5
por exemplo, é mais rápido o manuseio de uma matriz de similaridade “k x n” do que uma com
dimensões “n x n”.
3.2.2. Dendrograma
A forma gráfica mais usada para representar o resultado final dos diversos agrupamentos
é o dendrograma (Figura 3.1.) Nele estão dispostos linhas ligadas segundo os níveis de
similaridade que agruparam pares de espécimes ou de variáveis. Como este gráfico é uma
simplificação em duas dimensões de uma relação n-dimensional é inevitável que algumas
distorções quanto à similaridade apareçam. A medida de tal distorção pode ser obtida por um
coeficiente de correlação, dito "cofenético", entre os valores da matriz inicial de similaridade e
aqueles derivados do dendrograma.
ANÁLISE DE AGRUPAMENTOS
26
Visualmente isso pode ser também verificado por meio da construção de um sistema de
eixos ortogonais. Nele os valores dos coeficientes de similaridade originais estarão na abcissa e
os coeficientes de similaridade a partir do dendrograma em ordenada. Se ambas as matrizes
forem idênticas os pontos cairão sobre uma linha reta que passa pela origem do sistema. Desvios
dos pontos em relação a essa reta indicarão as distorções. Se situadas acima da reta indicarão
coeficientes de similaridade apontados pelo dendrograma mais altos que os originais e vice-versa.
Figura 3.1. Formatos de dendrogramas
Dendrograma
Método: UPGM
Distância euclidiana
Valoresparaagrupamento
0
50
100
150
200
250
C_9
C_13
C_6
C_5
C_8
C_12
C_4
C_3
C_2
C_15
C_14
C_11
C_10
C_7
C_1
Dendrograma
Método: UPGM
Distância euclidiana
Valoresparaagrupamento
0
50
100
150
200
250
C_9
C_13
C_6
C_5
C_8
C_12
C_4
C_3
C_2
C_15
C_14
C_11
C_10
C_7
C_1
ANÁLISE DE AGRUPAMENTOS
27
A construção de um dendrograma pode ser esquematizada, de acordo com o exposto na
Figura 3.2. Nessa Figura, inicialmente, os mais altos índices de correlação ocorrem entre as
amostras D e E (0,66) e entre as amostras A e B (0,57) que irão constituir novos casos na matriz
de correlações já pareadas. Nessa matriz os mais altos coeficientes de correlação ocorrem entre
DE e F (0,41) e AB e C(0,29). Finalmente a correlação final ocorre ao nível de –0,59 entre ABC e
DEF.
Figura 3.2. Esquema de construção de um dendrograma pelo método de agrupamentos
pareados igualmente ponderados (adaptado de Davis, 1986)
3.2.3. Coeficientes de Similaridade
Os coeficientes de similaridade mais usuais, obtidos num espaço multidimensional, podem
ser subdivididos em três categorias:
a) os que medem a distância, ou a separação angular, entre pares de pontos;
b) os que medem a correlação entre pares de valores;
c) os que medem a associação entre pares de caracteres qualitativos.
Existem diversas publicações que discutem esses diversos tipos de medidas como, por
exemplo, Sneath & Sokal (1973), Everitt (1980), Prentice (1980), Gordon (1981), Greig-Smith
(1983), Pielou (1984), alem do resumo, sobre 23 coeficientes de similaridades, constante no
pacote MVSP, versão 3.1.
3.2.3.1. Medidas de distância
Expressam o grau de similaridade como distância em um espaço multi-dimensional.
Quanto maior a distância, maior o grau de similaridade e vice-versa. A distância D entre dois
ANÁLISE DE AGRUPAMENTOS
28
pontos, cuja localização é especificada num sistema de coordenadas cartesianas, é fornecida,
segundo o teorema de Pitágoras, por:
D x x y y1 2 1 2
2
1 2
2
. ( ) ( )= − + −
onde x x y e y1 2 1 2, , são valores das coordenadas dos dois pontos.
Para a distância entre k pontos, num espaço n-dimensional, a fórmula generalizada é:
D x x nij ik jk
k
n
= −
=
∑( ) /2
1
Tendo todas as variáveis o mesmo peso, consequentemente a função distância será
limitada a valores entre 0 (maior similaridade) e 1.0 ( menor similaridade).
Pode, também, ser ulizado o coeficiente cosseno-teta, que é uma medida de
proporcionalidade expressando o grau de similaridade em termos de separação angular:
( )
Cos
x x
x x
pq
ip iq
ip iq
θ =
∑
∑ ∑
2 2 1 2/
, p e q = valores comparados
Quando a similaridade é completa, a separação angular é 0º e cos θ = 1.0; quando não
ocorre similaridade nenhuma, a separação angular é 90° e o cos θ = 0.0
3.2.3.2. Coeficientes de Correlação
Medem o grau de associação entre valores pela representação de pontos num sistema de
coordenadas e suas respectivas posições em relação a uma linha reta. Podem tanto ser
considerado o coeficiente de correlação paramétrico (Pearson) como o não paramétrico
(Spearman).
• coeficiente de correlação paramétrico (Pearson)
O coeficiente de correlação da amostra r (ou ρ*) o qual é uma estimativa do coeficiente de
correlação populacional ρ, é dado por:
r
x y
x y
xi x yi y
n
xi x
n
yi y
n
= =
− −
−
−
−
−
−
cov( , )
[var( ) var( )] /
( ) ( )
[
( )
.
( )
] /1 2
1
2
1
2
1
1 2
Σ
Σ Σ
Onde n é o número de pares de valores para x
i
e y
i
, variáveis com distribuição normal,
e x e y são os valores médios para xi e yi .
Utilizando o método dos mínimos quadrados para o cálculo do coeficiente de correlação, a
seguinte fórmula simplificada é usada:
r
SPXY
SQX SQY
=
.
SPXY = Σxy -(Σx. Σy) / n
SQX = Σx2
- (Σx)2
/ n
ANÁLISE DE AGRUPAMENTOS
29
SQY = Σy2
- (Σy)2
/ n
Valores de r , os quais são medidas adimensionais, podem variar entre -1 à +1,
expressando desde comportamento totalmente inverso até comportamento totalmente direto entre
as duas variáveis. Quando r=0 significa que não há relação linear entre x e y.
• Coeficiente de correlação não-paramétrico de Spearman
É um coeficiente de correlação não paramétrico entre duas variáveis, xi e yi , em que
para o seu cálculo inicialmente xi e yi são ordenados segundo os seus valores de posto (x i
, e
y i
, ) e em seguida encontrados os valores di x i y i= −, , .
Para que os valores negativos de di não cancelem os valores positivos de di é
determinado para cada caso di
2 . Finalmente encontra-se a somatória dos di
2 .
O coeficiente de correlação será fornecido pela fórmula:
r
s
di
n n
= −
−
1
6 2
3
Σ
n = número de pares de valores x
i
,
, y
i
,
Caso ocorram muitos casos com valores de posto empatados usa-se a fórmula:
rs
xe ye di
xe ye
=
+ −Σ Σ Σ
Σ Σ
, ,
, ,
2
2
onde
Σ Σxe
n n
Tx
, =
−
−
3
12
; Σ Σy
e
n n
T
y
,
=
−
−
3
12
T
t t
=
−3
12
; T = número de observações repetidas em um determinado posto.
Como um exemplo numérico, seja uma matriz de dados composta por 7 amostras, no
sentido geológico, e 6 variáveis:
V01 V02 V03 V04 V05 V06
Am01 1.0 2.0 3.0 4.0 5.0 6.0
Am02 5.0 4.0 1.0 8.0 7.0 9.0
Am03 6.0 5.0 4.0 2.0 7.0 9.0
Am04 6.0 4.0 2.0 1.0 3.0 7.0
Am05 9.0 2.0 1.0 4.0 7.0 8.0
Am06 9.0 6.0 3.0 4.0 5.0 6.0
Am07 1.0 5.0 9.0 7.0 5.0 3.0
Utilizando a medida “distância euclidiana”, obtém-se a seguinte matriz inicial de
similaridades:
ANÁLISE DE AGRUPAMENTOS
30
Am01 Am02 Am03 Am04 Am05 Am06 Am07
Am01 .00 7.3 7.2 6.6 8.7 8.9 7.9
Am02 7.28 .0 6.9 8.4 6.1 7.3 11.0
Am03 7.21 6.9 .0 5.1 5.7 5.3 10.7
Am04 6.63 8.4 5.1 .0 6.3 5.3 11.4
Am05 8.72 6.1 5.7 6.3 .0 5.3 13.2
Am06 8.94 7.3 5.3 5.3 5.3 .0 10.9
Am07 7.94 11.0 10.7 11.4 13.2 10.9 .0
Na Figura 3.3. estão os dendrogramas resultantes da aplicação de dois métodos: “ligação
simples (single linkage)” e “agrupamento pareado igualmente ponderado (unwighted pair-group
average)”.
Verificar que os dendrogramas resultantes mostram praticamente os mesmos resultados,
em que pese as diferenças mostradas em ambos os gráficos com relação aos níveis para
agrupamentos.
Dendrograma
"Single Linkage"
Distância euclidiana
Níveis para agrupamento
AM07
AM05
AM06
AM04
AM03
AM02
AM01
4.5 5.0 5.5 6.0 6.5 7.0 7.5 8.0
ANÁLISE DE AGRUPAMENTOS
31
Figura 3.3. Dendrogramas resultantes dos métodos “single linkage” e “UPGM”
3.2.3.3. Coeficientes binários
Expressam similaridades em termos de equiparações (matches) quando são utilizados
dados qualitativos. Neste caso comparações são feitas entre observações reduzidas a duas
categorias do tipo sim-não, presente-ausente etc. Se verificado em 4 perfís estratigráficos a
presença ou ausencia de 4 tipos de fósseis a seguinte matriz de dados binários pode ser
construida:
Dendrograma
"Unweighted pair-group average"
Distância euclidiana
Níveis para agrupamento
AM07
AM05
AM06
AM04
AM03
AM02
AM01
4 5 6 7 8 9 10 11
ANÁLISE DE AGRUPAMENTOS
32
Se tomadas dois objetos (A e B) e um mesmo caráter estiver presente em ambos, tal
situação será representada por "a"; se presente em A, porém ausente em B, por "c"; se presente
em B, porém ausente em A , por "b" ; se ausentes em ambos, por “d’.
presente Ausente
Presente a B
Ausente c D
Os coeficientes binários, podem ser agrupados em:
a) coeficientes de similaridade: expressam a proporção de caracteres que dois objetos possuem
mutuamente quando comparados com o número total de caracteres possuídos por um dos objetos
ou pelo outro, ou por ambos;
Jaccard: a a b c/ ( )+ +
Otsuka : a a b a c/ ( )( )+ +
Fager : a a b a c min a b a c/ ( )( ) / { ( ),( )}+ + − + +1 2
b) coeficientes de associação: expressam a probabilidade de acontecimento, por acaso, de um
certo número de caracteres comuns a dois objetos;
Yule : ( ) / ( )ad bc ad bc− +
Phi : ( ) / ( )( )( )( )ad bc a b a c b d c d− + + + +
c) coeficientes de equiparação: expressam a similaridade entre dois objetos em termos de
equiparações positivas, isto é, presença de um mesmo caráter em ambos os objetos, em relação
a equiparações negativas, isto é, ausência de um mesmo caráter em ambos os objetos, mais
equiparações desencontradas;
Simples : ( ) /a d n+
Hamann : ( ) /a d b c n+ − −
Sackin : a n/
d) coeficientes de distâncias: expressam o distanciamento entre dois objetos em um espaço multi-
dimensional;
Sokal : ( ) /b c n+
Novamente, como exemplo numérico, seja uma matriz com dados binários em que o valor
“1” significa presente e o valor “0” ausente:
ANÁLISE DE AGRUPAMENTOS
33
V01 V02 V03 V04 V05 V06
Am01 1 1 0 0 0 1
Am02 0 0 1 1 0 0
Am03 0 1 1 0 0 0
Am04 1 1 1 1 1 0
Am05 0 0 1 1 1 1
Am06 1 1 0 0 0 1
Am07 0 0 1 1 1 1
Nessa matriz as amostras 01 e 06 são idênticas, o mesmo acontecendo com as amostras
05 e 07.
A matriz inicial de similaridades, após calculados os coeficientes de Jaccard, é a seguinte:
Am01 Am02 Am03 Am04 Am05 Am06 Am07
Am01 1.000
Am02 0.000 1.000
Am03 0.250 0.333 1.000
Am04 0.333 0.400 0.400 1.000
Am05 0.167 0.500 0.200 0.500 1.000
Am06 1.000 0.000 0.250 0.333 0.167 1.000
Am07 0.167 0.500 0.200 0.500 1.000 0.167 1.000
E o dendrograma resultante esta exposto na Figura 4.4.
Figura 3.4. Dendrograma resultante da aplicação do coeficiente binário de Jaccard pelo método de ligação
simples. Notar as relações entre amostras 01 e 06 e entre amostras 05 e 07, todas ao nível 1.0
ANÁLISE DE AGRUPAMENTOS
34
• Exemplo
A indústria cerâmica existente na região de Rio Claro (SP), incluindo o pólo cerâmico de
Santa Gertrudes-Cordeirópolis, é uma das maiores do mundo e necessita, portanto, de um
acompanhamento tecnológico que a torne cada vez mais competitiva. A caracterização da
matéria-prima para a indústria é de necessidade premente para o controle da qualidade do
produto final. Com o conhecimento dessa matéria-prima, de suas propriedades e comportamento
físico-químico é possível otimizar a blendagem do material e calibrar todo o processo de
beneficiamento, principalmente fornos, buscando uma maior homogeneidade nos produtos.
Com essa preocupação Monteiro et alii (2000) aplicaram a análise de agrupamentos à
material cerâmico, constituido principalmente de lamitos e folhelhos da Formação Itararé, de uma
cava da Cerâmica Montreal na Fazenda São Caetano, em Jundiaí/SP. Foram identificados 7
níveis estratigráficos, dos quais foram selecionados 6 horizontes para amostragem. O perfil de
amostragem, da base para o topo, é constituído pelas seguintes litofácies (Figura 3.5.):
Nível 6 - Folhelho cinza originados pela decantação de finos trazidos por correntes de
turbidez de baixa densidade, com montmorilonita, mica-ilita, interestratificados e caulinita entre os
minerais presentes na fração fina (< 2 micra);
Nível 4 - Ritmitos resultantes de intercalações mais freqüentes de siltito e arenito
(turbiditos arenosos) nos folhelhos, e apresentam montmorilonita, mica-ilita e interestratificados na
fração fina;
Nível 5 - Lamitos castanhos que correspondem à turbiditos proximais, formando estratos
mais espessos com gradação normal de silte a argila onde estão presentes interestratificados
(provavelmente ilita-montmorilonita), mica-ilita e caulinita;
Nível 3 - Lamito vermelho maciço resultante de processos de fluxo de lama contendo
mica-ilita e caulinita. A maturidade dos sedimentos sofre uma mudança brusca a partir desse
nível;
Nível 2 - Lamito vermelho de fluxo de lama com estruturação, com mica-ilita e caulinita;
Nível 1 - Lamito vermelho maciço maciço com clastos de argila indicando retrabalhamento
e fluxos de detritos, com mica-ilita e caulinita.
Originalmente esses 3 níveis de lamitos vermelhos foram tratados como um único
horizonte cerâmico, interdigitado por uma lente de arenito. Os níveis 3 a 1 apresentam
quantidades crescentes de caulinita para o topo. A montmorilonita está restrita aos dois níveis
estratigraficamente inferiores (níveis 6 e 4).
ANÁLISE DE AGRUPAMENTOS
35
Figura 3.5.: Perfil estratigráfico da Cerâmica Montreal (Fazenda São Caetano/Jundiai,SP)
A amostragem foi executada nos 6 níveis descritos e identificadas como 6J, 4J, 5J, 3J, 2J
e 1J, da base para o topo), sendo que no nível 5 foi replicada a amostragem (5aJ e 5bJ). Foram
analisadas diversas propriedades desse material como: umidade de prensagem, absorção de
água, porosidade aparente, densidade aparente, perda ao fogo, retração linear na secagem, na
queima parcial e na queima total e tensão à ruptura por flexão. Para as variáveis absorção de
água (AA - em %), porosidade aparente (PA - em %), massa específica aparente (MEA - em
g/cm3
) e massa específica aparente da parte sólida (MEAS - g/cm3
), perda ao fogo (%PF),
ANÁLISE DE AGRUPAMENTOS
36
retração linear na queima parcial (%Rq), retração linear na queima total (%Rt) e tensão à ruptura
por flexão (TRF - em MPa) foram feitas análises para cinco partes de cada amostra nas
temperaturas de queima de 1.020°C, 1.070°C e 1.120°C.
O dendrograma resultante da aplicação da análise de agrupamentos no modo Q, ou seja,
entre amostras, apresenta uma nítida distinção entre o grupo de amostras 1J e 2J com o grupo 3J,
5aJ e 5bJ, 4J e 6J (Figura 3.6.). Essa distinção pode estar condicionada pela presença de
caulinita nos materiais superiores, ou por fatores relacionados à distribuição granulométrica. De
qualquer modo essa diferença nas características também é notável nas propriedades cerâmicas
daqueles materiais.
Figura 3.6.: Análise de Agrupamentos entre as amostras (modo Q)
O primeiro grupo subdivide-se em amostras 1J e 2J. O segundo grupo pode ainda ser
subdividido em dois outros; um com as amostras 3J e 4J, outro com 5aJ e 5bJ e outro com 6J. O
material do nível 5, é comercializada in natura pela empresa, como descorante para a indústria
têxtil. Entre as amostras 5aJ e 5bJ não é tão nítida a divisão, o que já era esperado pelo controle
geológico e de amostragem.
A análise de agrupamentos no modo R, ou seja, entre variáveis, revela uma distinção
entre dois grandes grupos: um constituído pelas variáveis PF, AA, e PA, e o segundo com %Rq,
ANÁLISE DE AGRUPAMENTOS
37
%Rt e TRF. O primeiro parece estar relacionado com propriedades da distribuição granulométrica
e o segundo diz respeito à composição química do material (ligações e valência) (Figura 3.7.).
Figura 3.7.: Análise de Agrupamentos entre as variáveis (modo R)
Além disso, pode-se observar que algumas variáveis como retração linear na queima
parcial (%Rq) e total (%Rt) encontram-se com alta correlação para mesmas temperaturas, bem
como se pode observar também um agrupamento para as variáveis de tensão à ruptura por flexão
(TRF) para as três temperaturas de 1.020°C, 1.070°C e 1.120°C. Isto se deve ao fato de ocorrer
um intercrescimento de fases neoformadas após cada temperatura.
Para as propriedades de absorção de água (AA), porosidade aparente (PA) e perda ao
fogo (%PF) é possível perceber um agrupamento bem evidente. A massa específica aparente
(MEA) e a massa específica aparente da parte sólida (MEAS) não formam nenhum agrupamento
evidente, por serem características bastante peculiares do material.
A análise de agrupamentos mostra que as amostras 5aJ e 5bJ possuem o mesmo
comportamento, o que é esperado por serem retiradas do mesmo nível. As amostras 3J e 4J
poderiam, em princípio serem tratadas da mesma forma, porém a análise de correspondências
mostra que a amostra 4J possui um comportamento diferente, por ser mais plástica e com menor
retração linear na queima (parcial e total), sendo esta uma importante característica do material,
muito semelhante às amostras 5aJ e 5bJ.
As amostras 1J e 2J, isto é, os níveis mais superiores, são bem distintos dos outros. O
material dos dois primeiros níveis não deve ser tratado da mesma forma que o material do nível 3
pela indústria ceramista, o que é a prática atual. Hoje a empresa faz a mistura usando os níveis 1,
2 e 3 como material inerte (saibro), adicionado ao material dos níveis 4 e 6 da base. As
ANÁLISE DE AGRUPAMENTOS
38
proporções na mistura são distintas conforme os diferentes produtos finais aos quais se destinam.
Varia de 4:5 para a indústria de revestimento e de 3:7 para a cerâmica estrutural. A análise
estatística multivariada aplicada indicou, porem, que os níveis 1 e 2 são distintos do nível 3, sob
vários aspectos que podem ser verificados nas suas características físicas e de comportamento
cerâmico.
ANÁLISE DE AGRUPAMENTOS
39
BIBLIOGRAFIA
DAVIS, J.C (1986) - Statistics and Data Analysis in Geology: 2
nd
. ed., John Wiley and Sons, Inc.
EVERITT, B. (1980) – Cluster Analysis: 2
nd
ed., Gower Publishing Co.
GORDON, A. D. (1981) – Classification: Chapman and Hall
GREIGH-SMITH, P. (1983) – Quantitative Plant Ecology: University of California Press, Berkeley
MONTEIRO, R. C.; BERNARDES, E.V.; MASSON, M.R. & LANDIM, P.M.B. (2000) – Análise estatística
multivariada para materiais cerâmicos: VIII Simp.Quant.Geociências, Bol.Res. Expandidos, 163-166
MVPS/Plus (1998) – Multi-Variate Statistical Pacckage, version 3.1.: Kovach Computing Services
PIELOU, E.C. (1984) – The Interpretation of Ecological Data: Wiley-Interscience
PRENTICE, I.C. (1980) – Multidimensional scaling as a research tool in Quaternary palybology: A review of
theory and methods: Review of Paleobotany & Palynology, 31:71-104
SNEATH, D. H. & SOKAL, R. R. (1973) – Numerical Taxonomy: W. H. Freeman & Co.

Mais conteúdo relacionado

Semelhante a Análise de agrupamentos

Probabilidade e Estatística - Aula 03
Probabilidade e Estatística - Aula 03Probabilidade e Estatística - Aula 03
Probabilidade e Estatística - Aula 03Augusto Junior
 
Análise de Agrupamentos e Regionalização
Análise de Agrupamentos e RegionalizaçãoAnálise de Agrupamentos e Regionalização
Análise de Agrupamentos e RegionalizaçãoVitor Vieira Vasconcelos
 
Teoria dos Grafos: Ligação Simples e Completa
Teoria dos Grafos: Ligação Simples e CompletaTeoria dos Grafos: Ligação Simples e Completa
Teoria dos Grafos: Ligação Simples e CompletaDiego Souza Silva
 
Análise multivariada aplicada à pesquisa
Análise multivariada aplicada à pesquisaAnálise multivariada aplicada à pesquisa
Análise multivariada aplicada à pesquisaCarlos Moura
 
Aula_6_Análise__de_Correspondência_-_CA.pdf
Aula_6_Análise__de_Correspondência_-_CA.pdfAula_6_Análise__de_Correspondência_-_CA.pdf
Aula_6_Análise__de_Correspondência_-_CA.pdfStefanSudono
 
Análises agrupamento e dissimilaridade no Genes
Análises agrupamento e dissimilaridade no GenesAnálises agrupamento e dissimilaridade no Genes
Análises agrupamento e dissimilaridade no GenesCristiano Lemes da Silva
 
XVII SAMET -2ª feira - Mini-curso [Dra. Simone Ferraz]
XVII SAMET -2ª feira - Mini-curso [Dra. Simone Ferraz]XVII SAMET -2ª feira - Mini-curso [Dra. Simone Ferraz]
XVII SAMET -2ª feira - Mini-curso [Dra. Simone Ferraz]Dafmet Ufpel
 
Modelos lineares mistos aplicados em ciências atuariais.
Modelos lineares mistos aplicados em ciências atuariais.Modelos lineares mistos aplicados em ciências atuariais.
Modelos lineares mistos aplicados em ciências atuariais.Universidade Federal Fluminense
 

Semelhante a Análise de agrupamentos (15)

Analise de clusters
Analise de clustersAnalise de clusters
Analise de clusters
 
Análise de Agrupamentos (Clusters)
Análise de Agrupamentos (Clusters)Análise de Agrupamentos (Clusters)
Análise de Agrupamentos (Clusters)
 
Probabilidade e Estatística - Aula 03
Probabilidade e Estatística - Aula 03Probabilidade e Estatística - Aula 03
Probabilidade e Estatística - Aula 03
 
Análise de Agrupamentos e Regionalização
Análise de Agrupamentos e RegionalizaçãoAnálise de Agrupamentos e Regionalização
Análise de Agrupamentos e Regionalização
 
Teoria dos Grafos: Ligação Simples e Completa
Teoria dos Grafos: Ligação Simples e CompletaTeoria dos Grafos: Ligação Simples e Completa
Teoria dos Grafos: Ligação Simples e Completa
 
Análise multivariada aplicada à pesquisa
Análise multivariada aplicada à pesquisaAnálise multivariada aplicada à pesquisa
Análise multivariada aplicada à pesquisa
 
Aula_6_Análise__de_Correspondência_-_CA.pdf
Aula_6_Análise__de_Correspondência_-_CA.pdfAula_6_Análise__de_Correspondência_-_CA.pdf
Aula_6_Análise__de_Correspondência_-_CA.pdf
 
Análises agrupamento e dissimilaridade no Genes
Análises agrupamento e dissimilaridade no GenesAnálises agrupamento e dissimilaridade no Genes
Análises agrupamento e dissimilaridade no Genes
 
Regressao linear
Regressao linearRegressao linear
Regressao linear
 
XVII SAMET -2ª feira - Mini-curso [Dra. Simone Ferraz]
XVII SAMET -2ª feira - Mini-curso [Dra. Simone Ferraz]XVII SAMET -2ª feira - Mini-curso [Dra. Simone Ferraz]
XVII SAMET -2ª feira - Mini-curso [Dra. Simone Ferraz]
 
Modelos lineares mistos aplicados em ciências atuariais.
Modelos lineares mistos aplicados em ciências atuariais.Modelos lineares mistos aplicados em ciências atuariais.
Modelos lineares mistos aplicados em ciências atuariais.
 
Trabalho final de geoestatistica
Trabalho final de geoestatisticaTrabalho final de geoestatistica
Trabalho final de geoestatistica
 
Analise fatorial spss
Analise fatorial spssAnalise fatorial spss
Analise fatorial spss
 
analise estatistica: Correlacao canonica
analise estatistica: Correlacao canonicaanalise estatistica: Correlacao canonica
analise estatistica: Correlacao canonica
 
Introdução à Estatística
Introdução à EstatísticaIntrodução à Estatística
Introdução à Estatística
 

Mais de Michele Soares de Lima

Comparações morfológicas e morfométricas de Pterogyne
Comparações morfológicas e morfométricas de PterogyneComparações morfológicas e morfométricas de Pterogyne
Comparações morfológicas e morfométricas de PterogyneMichele Soares de Lima
 
Ambientes de borda são mais suscetíveis a ataques de insetos
Ambientes de borda são mais suscetíveis a ataques de insetosAmbientes de borda são mais suscetíveis a ataques de insetos
Ambientes de borda são mais suscetíveis a ataques de insetosMichele Soares de Lima
 
Antileishmanial activity and cytotoxicity of brazilian plants
Antileishmanial activity and cytotoxicity of brazilian plantsAntileishmanial activity and cytotoxicity of brazilian plants
Antileishmanial activity and cytotoxicity of brazilian plantsMichele Soares de Lima
 

Mais de Michele Soares de Lima (7)

Historia e-tecnicas-da-tinta-natural
Historia e-tecnicas-da-tinta-naturalHistoria e-tecnicas-da-tinta-natural
Historia e-tecnicas-da-tinta-natural
 
Comparações morfológicas e morfométricas de Pterogyne
Comparações morfológicas e morfométricas de PterogyneComparações morfológicas e morfométricas de Pterogyne
Comparações morfológicas e morfométricas de Pterogyne
 
Ambientes de borda são mais suscetíveis a ataques de insetos
Ambientes de borda são mais suscetíveis a ataques de insetosAmbientes de borda são mais suscetíveis a ataques de insetos
Ambientes de borda são mais suscetíveis a ataques de insetos
 
Pantanal 1
Pantanal 1Pantanal 1
Pantanal 1
 
Antileishmanial activity and cytotoxicity of brazilian plants
Antileishmanial activity and cytotoxicity of brazilian plantsAntileishmanial activity and cytotoxicity of brazilian plants
Antileishmanial activity and cytotoxicity of brazilian plants
 
A09v18n3
A09v18n3A09v18n3
A09v18n3
 
Dialnet roadmap tecnologico-4126911
Dialnet roadmap tecnologico-4126911Dialnet roadmap tecnologico-4126911
Dialnet roadmap tecnologico-4126911
 

Análise de agrupamentos

  • 1. ANÁLISE DE AGRUPAMENTOS 23 3. ANÁLISE DE AGRUPAMENTOS 3.1. Introdução Análise de agrupamentos (cluster analysis) é um termo usado para descrever diversas técnicas numéricas cujo propósito fundamental é classificar os valores de uma matriz de dados sob estudo em grupos discretos. A técnica classificatória multivariada da análise de agrupamentos pode ser utilizada quando se deseja explorar as similaridades entre indivíduos (modo Q) ou entre variáveis (modo R) definindo-os em grupos, considerando simultaneamente, no primeiro caso, todas as variáveis medidas em cada indivíduo e, no segundo, todos os indivíduos nos quais foram feitas as mesmas mensurações. Segundo esse método, desenvolvido, inicialmente em Zoologia por taxonomistas numéricos, procura-se por agrupamentos homogêneos de itens representados por pontos num espaço n-dimensional em um número conveniente de grupos relacionando-os através de coeficientes de similaridades ou de correspondências. A aplicação desta análise é controversa entre os pesquisadores, pois pouco se sabe a respeito dos pressupostos estatísticos dos seu vários métodos e apenas testes limitados são conhecidos para verificar a significância dos resultados. Na análise introdutória de matrizes de dados tornam-se, porem, bastante eficientes para auxiliar na formulação de hipóteses a respeito da homogeneidade ou não desses dados. 3.2. Métodos de classificação Segundo Davis (1986) os diversos métodos para a análise de agrupamentos podem ser enquadrados em quatro tipos gerais: a) Métodos de partição: procuram classificar regiões no espaço, definido em função de variáveis, que sejam densamente ocupados em termos de observações daqueles com ocupação mais esparsa. b) Métodos com origem arbitrária: procuram classificar as observações segundo “k” conjuntos previamente definidos; neste caso “k” pontos arbitrários servirão como centróides iniciais e as observações irão se agrupando, por similaridade, em torno desses centróides para formar agrupamentos. c) Métodos por similaridade mútua: procuram agrupar observações que tenham uma similaridade comum com outras observações; inicialmente uma matriz n x n de similaridades entre todos os pares da observação é calculada; em seguida, as similaridades entre colunas são repetidamente recalculadas; colunas representando membros de um único agrupamento tenderão apresentar intercorrelações próximas a 1 e valores menores com não membros. d) Métodos por agrupamentos hierárquicos: são as técnicas mais comumente usadas em Geologia; a partir da matriz inicial de dados obtém-se uma matriz simétrica de similaridades e incia-se a detecção de pares de casos com a mais alta similaridade, ou a mais baixa distância; para essa combinação, segundo níveis hierárquicos de similaridade, escolhe-se entre os
  • 2. ANÁLISE DE AGRUPAMENTOS 24 diversos procedimentos aglomerativo de tal modo que cada ciclo de agrupamento obedeça a uma ordem sucessiva no sentido do decréscimo de similaridade. 3.2.1. Metodologia para agrupamentos hierárquicos Partindo de uma matriz inicial de dados [n*p], onde "n" linhas representam casos ou espécimes ou amostras, no sentido geológico, e as "p" colunas as variáveis, feitas as comparações, usando um coeficiente de similaridade qualquer entre linhas, obtém-se uma matriz inicial de coeficiente de similaridade de tamanho [ ]n n* , que será utilizada no modo Q. Se a comparação for entre colunas, obter-se-á uma matriz inicial de coeficientes de similaridade inicial [ ]p p* , que será utilizada no modo R. Embora diversas medidas de similaridade tenham sido propostas, somente duas são geralmente usadas: o coeficiente de correlação de Pearson e a medida de distância euclideana. Se as variáveis forem padronizadas a partir da matriz inicial de dados, dando o mesmo peso a cada uma delas, qualquer um desses coeficientes poderá ser diretamente transformado no outro. Na matriz inicial de coeficientes de similaridade estes representam o grau de semelhança entre pares de objetos e os mesmos deverão ser arranjados de acordo com os respectivos graus de similaridade de modo a ficarem agrupados segundo uma disposição hierárquica. Os resultados quando organizados em gráfico, do tipo dendrograma, mostrarão as relações das amostras agrupadas. Várias técnicas de agrupamentos tem sido propostas, e os métodos mais comumente usados são: “ligação simples” (single linkage method ou nearest neighbor); “ligação completa” (complete linkage method ou farthest neighbor); ”agrupamento pareado proporcionalmente ponderado" (weighted pair-group method, WPGM); “agrupamento pareado igualmente ponderado” (unweighted pair-group method”, UPGM); “variância mínima” (minimum variance clustering ou Ward’s method of sum-of-squares method). No método de ligação simples os grupos iniciais são determinados pelos mais altos coeficientes de associação mútua. Para admissão de novos membros aos grupos é suficiente encontrar quais os que representam os maiores coeficientes de associação com um dos elementos de determinado grupo. A ligação será estabelecida a esse nível de associação com todo o grupo. No método de ligação completa os gupos são determinados pelos mais baixos coeficientes de associação mútua. Ambos são os métodos mais simples, mas tambem os que apresentam os resultados mais distorcidos. Com o uso dos métodos de ligações completas espera-se obter resultados mais rigorosos. No método de agrupamento pareado procura-se também inicialmente pelos mais altos coeficientes de associação mútua. Em seguida esses pares de casos fornecerão valores médios originando um novo elemento singular. No "método de agrupamento pareado igualmente ponderado" para o cálculo dos valores médios atribui-se sempre o mesmo peso aos dois elementos que estão sendo integrados. No método de agrupamento pareado proporcionalmente ponderado para cada agrupamento é dado um peso proporcional ao número de objetos que o
  • 3. ANÁLISE DE AGRUPAMENTOS 25 constitui, de tal modo que a incorporação e um novo elemento a um grupo baseia-se no nível médio de similaridade desse elemento com todos os que fazem parte do grupo. Tanto num caso como no outro, alternativamente, em vez de obter valores medios entre os casos podem ser utilizados centroides e verificados as distâncias entre os mesmos. No método de agrupamento pela variância mínima o enfoque é sobre a variabilidade que existe dentro de cada caso e os agrupamentos são efetuados ao se determinar que pares de casos, quando tomados em conjunto, apresentam o menor acrescimo de variabilidade. No método de ligações singulares as ligações tendem a ocorrer a níveis mais altos do que nos métodos de agrupamento pareado. No método de agrupamento pareado igualmente ponderado como cada membro adicionado ao agrupamento tem sempre o mesmo peso, isso traz como efeito que os últimos elementos a se integrarem tem maior influência que os primeiros. No caso do método de agrupamento pareado proporcionalmente ponderado, tal não acontece. Existindo à disposição diversas técnicas para a análise de agrupamentos e não havendo testes estatísticos válidos para os resultados obtidos, o pesquisador geralmente fica em dúvida sobre qual método aplicar. Entendendo que esta análise sempre deve ser aplicada com caráter introdutório, e nesse sentido tem o seu mérito, a consideração de ordem pragmática a ser adotada é que o melhor método é aquele que fornece os resultados mais coerentes com a realidade geológica em estudo. Eventualmente, testes, como o de Hotteling ou a análise generalizada de variâncias, podem ser aplicados aos agrupamentos encontrados para a verificação da sua validade estatística. Aplicações desta metodologia tem mostrado que os métodos pareados igualmente ponderado são superiores aos demais e que o coeficiente distância usualmente agrupa melhor espécimes ou amostras, no sentido geológico, enquanto o coeficiente de correlação é recomentado para o agrupamento entre variáveis. Essas afirmações são baseadas na correlação cofenética que ao apresenrar valores abaixo de 0,8 indicam distorções significativas no dendrograma obtido. O método hierárquico tem sido preferido em relação ao que utilisa centróides. Este porém mostra-se, em termos computacionais, mais útil quando se tem que manipular grandes matrizes de dados, por exemplo com mais de 1.000 casos. Como “k” geralmente é pequeno, da ordem de 5 por exemplo, é mais rápido o manuseio de uma matriz de similaridade “k x n” do que uma com dimensões “n x n”. 3.2.2. Dendrograma A forma gráfica mais usada para representar o resultado final dos diversos agrupamentos é o dendrograma (Figura 3.1.) Nele estão dispostos linhas ligadas segundo os níveis de similaridade que agruparam pares de espécimes ou de variáveis. Como este gráfico é uma simplificação em duas dimensões de uma relação n-dimensional é inevitável que algumas distorções quanto à similaridade apareçam. A medida de tal distorção pode ser obtida por um coeficiente de correlação, dito "cofenético", entre os valores da matriz inicial de similaridade e aqueles derivados do dendrograma.
  • 4. ANÁLISE DE AGRUPAMENTOS 26 Visualmente isso pode ser também verificado por meio da construção de um sistema de eixos ortogonais. Nele os valores dos coeficientes de similaridade originais estarão na abcissa e os coeficientes de similaridade a partir do dendrograma em ordenada. Se ambas as matrizes forem idênticas os pontos cairão sobre uma linha reta que passa pela origem do sistema. Desvios dos pontos em relação a essa reta indicarão as distorções. Se situadas acima da reta indicarão coeficientes de similaridade apontados pelo dendrograma mais altos que os originais e vice-versa. Figura 3.1. Formatos de dendrogramas Dendrograma Método: UPGM Distância euclidiana Valoresparaagrupamento 0 50 100 150 200 250 C_9 C_13 C_6 C_5 C_8 C_12 C_4 C_3 C_2 C_15 C_14 C_11 C_10 C_7 C_1 Dendrograma Método: UPGM Distância euclidiana Valoresparaagrupamento 0 50 100 150 200 250 C_9 C_13 C_6 C_5 C_8 C_12 C_4 C_3 C_2 C_15 C_14 C_11 C_10 C_7 C_1
  • 5. ANÁLISE DE AGRUPAMENTOS 27 A construção de um dendrograma pode ser esquematizada, de acordo com o exposto na Figura 3.2. Nessa Figura, inicialmente, os mais altos índices de correlação ocorrem entre as amostras D e E (0,66) e entre as amostras A e B (0,57) que irão constituir novos casos na matriz de correlações já pareadas. Nessa matriz os mais altos coeficientes de correlação ocorrem entre DE e F (0,41) e AB e C(0,29). Finalmente a correlação final ocorre ao nível de –0,59 entre ABC e DEF. Figura 3.2. Esquema de construção de um dendrograma pelo método de agrupamentos pareados igualmente ponderados (adaptado de Davis, 1986) 3.2.3. Coeficientes de Similaridade Os coeficientes de similaridade mais usuais, obtidos num espaço multidimensional, podem ser subdivididos em três categorias: a) os que medem a distância, ou a separação angular, entre pares de pontos; b) os que medem a correlação entre pares de valores; c) os que medem a associação entre pares de caracteres qualitativos. Existem diversas publicações que discutem esses diversos tipos de medidas como, por exemplo, Sneath & Sokal (1973), Everitt (1980), Prentice (1980), Gordon (1981), Greig-Smith (1983), Pielou (1984), alem do resumo, sobre 23 coeficientes de similaridades, constante no pacote MVSP, versão 3.1. 3.2.3.1. Medidas de distância Expressam o grau de similaridade como distância em um espaço multi-dimensional. Quanto maior a distância, maior o grau de similaridade e vice-versa. A distância D entre dois
  • 6. ANÁLISE DE AGRUPAMENTOS 28 pontos, cuja localização é especificada num sistema de coordenadas cartesianas, é fornecida, segundo o teorema de Pitágoras, por: D x x y y1 2 1 2 2 1 2 2 . ( ) ( )= − + − onde x x y e y1 2 1 2, , são valores das coordenadas dos dois pontos. Para a distância entre k pontos, num espaço n-dimensional, a fórmula generalizada é: D x x nij ik jk k n = − = ∑( ) /2 1 Tendo todas as variáveis o mesmo peso, consequentemente a função distância será limitada a valores entre 0 (maior similaridade) e 1.0 ( menor similaridade). Pode, também, ser ulizado o coeficiente cosseno-teta, que é uma medida de proporcionalidade expressando o grau de similaridade em termos de separação angular: ( ) Cos x x x x pq ip iq ip iq θ = ∑ ∑ ∑ 2 2 1 2/ , p e q = valores comparados Quando a similaridade é completa, a separação angular é 0º e cos θ = 1.0; quando não ocorre similaridade nenhuma, a separação angular é 90° e o cos θ = 0.0 3.2.3.2. Coeficientes de Correlação Medem o grau de associação entre valores pela representação de pontos num sistema de coordenadas e suas respectivas posições em relação a uma linha reta. Podem tanto ser considerado o coeficiente de correlação paramétrico (Pearson) como o não paramétrico (Spearman). • coeficiente de correlação paramétrico (Pearson) O coeficiente de correlação da amostra r (ou ρ*) o qual é uma estimativa do coeficiente de correlação populacional ρ, é dado por: r x y x y xi x yi y n xi x n yi y n = = − − − − − − − cov( , ) [var( ) var( )] / ( ) ( ) [ ( ) . ( ) ] /1 2 1 2 1 2 1 1 2 Σ Σ Σ Onde n é o número de pares de valores para x i e y i , variáveis com distribuição normal, e x e y são os valores médios para xi e yi . Utilizando o método dos mínimos quadrados para o cálculo do coeficiente de correlação, a seguinte fórmula simplificada é usada: r SPXY SQX SQY = . SPXY = Σxy -(Σx. Σy) / n SQX = Σx2 - (Σx)2 / n
  • 7. ANÁLISE DE AGRUPAMENTOS 29 SQY = Σy2 - (Σy)2 / n Valores de r , os quais são medidas adimensionais, podem variar entre -1 à +1, expressando desde comportamento totalmente inverso até comportamento totalmente direto entre as duas variáveis. Quando r=0 significa que não há relação linear entre x e y. • Coeficiente de correlação não-paramétrico de Spearman É um coeficiente de correlação não paramétrico entre duas variáveis, xi e yi , em que para o seu cálculo inicialmente xi e yi são ordenados segundo os seus valores de posto (x i , e y i , ) e em seguida encontrados os valores di x i y i= −, , . Para que os valores negativos de di não cancelem os valores positivos de di é determinado para cada caso di 2 . Finalmente encontra-se a somatória dos di 2 . O coeficiente de correlação será fornecido pela fórmula: r s di n n = − − 1 6 2 3 Σ n = número de pares de valores x i , , y i , Caso ocorram muitos casos com valores de posto empatados usa-se a fórmula: rs xe ye di xe ye = + −Σ Σ Σ Σ Σ , , , , 2 2 onde Σ Σxe n n Tx , = − − 3 12 ; Σ Σy e n n T y , = − − 3 12 T t t = −3 12 ; T = número de observações repetidas em um determinado posto. Como um exemplo numérico, seja uma matriz de dados composta por 7 amostras, no sentido geológico, e 6 variáveis: V01 V02 V03 V04 V05 V06 Am01 1.0 2.0 3.0 4.0 5.0 6.0 Am02 5.0 4.0 1.0 8.0 7.0 9.0 Am03 6.0 5.0 4.0 2.0 7.0 9.0 Am04 6.0 4.0 2.0 1.0 3.0 7.0 Am05 9.0 2.0 1.0 4.0 7.0 8.0 Am06 9.0 6.0 3.0 4.0 5.0 6.0 Am07 1.0 5.0 9.0 7.0 5.0 3.0 Utilizando a medida “distância euclidiana”, obtém-se a seguinte matriz inicial de similaridades:
  • 8. ANÁLISE DE AGRUPAMENTOS 30 Am01 Am02 Am03 Am04 Am05 Am06 Am07 Am01 .00 7.3 7.2 6.6 8.7 8.9 7.9 Am02 7.28 .0 6.9 8.4 6.1 7.3 11.0 Am03 7.21 6.9 .0 5.1 5.7 5.3 10.7 Am04 6.63 8.4 5.1 .0 6.3 5.3 11.4 Am05 8.72 6.1 5.7 6.3 .0 5.3 13.2 Am06 8.94 7.3 5.3 5.3 5.3 .0 10.9 Am07 7.94 11.0 10.7 11.4 13.2 10.9 .0 Na Figura 3.3. estão os dendrogramas resultantes da aplicação de dois métodos: “ligação simples (single linkage)” e “agrupamento pareado igualmente ponderado (unwighted pair-group average)”. Verificar que os dendrogramas resultantes mostram praticamente os mesmos resultados, em que pese as diferenças mostradas em ambos os gráficos com relação aos níveis para agrupamentos. Dendrograma "Single Linkage" Distância euclidiana Níveis para agrupamento AM07 AM05 AM06 AM04 AM03 AM02 AM01 4.5 5.0 5.5 6.0 6.5 7.0 7.5 8.0
  • 9. ANÁLISE DE AGRUPAMENTOS 31 Figura 3.3. Dendrogramas resultantes dos métodos “single linkage” e “UPGM” 3.2.3.3. Coeficientes binários Expressam similaridades em termos de equiparações (matches) quando são utilizados dados qualitativos. Neste caso comparações são feitas entre observações reduzidas a duas categorias do tipo sim-não, presente-ausente etc. Se verificado em 4 perfís estratigráficos a presença ou ausencia de 4 tipos de fósseis a seguinte matriz de dados binários pode ser construida: Dendrograma "Unweighted pair-group average" Distância euclidiana Níveis para agrupamento AM07 AM05 AM06 AM04 AM03 AM02 AM01 4 5 6 7 8 9 10 11
  • 10. ANÁLISE DE AGRUPAMENTOS 32 Se tomadas dois objetos (A e B) e um mesmo caráter estiver presente em ambos, tal situação será representada por "a"; se presente em A, porém ausente em B, por "c"; se presente em B, porém ausente em A , por "b" ; se ausentes em ambos, por “d’. presente Ausente Presente a B Ausente c D Os coeficientes binários, podem ser agrupados em: a) coeficientes de similaridade: expressam a proporção de caracteres que dois objetos possuem mutuamente quando comparados com o número total de caracteres possuídos por um dos objetos ou pelo outro, ou por ambos; Jaccard: a a b c/ ( )+ + Otsuka : a a b a c/ ( )( )+ + Fager : a a b a c min a b a c/ ( )( ) / { ( ),( )}+ + − + +1 2 b) coeficientes de associação: expressam a probabilidade de acontecimento, por acaso, de um certo número de caracteres comuns a dois objetos; Yule : ( ) / ( )ad bc ad bc− + Phi : ( ) / ( )( )( )( )ad bc a b a c b d c d− + + + + c) coeficientes de equiparação: expressam a similaridade entre dois objetos em termos de equiparações positivas, isto é, presença de um mesmo caráter em ambos os objetos, em relação a equiparações negativas, isto é, ausência de um mesmo caráter em ambos os objetos, mais equiparações desencontradas; Simples : ( ) /a d n+ Hamann : ( ) /a d b c n+ − − Sackin : a n/ d) coeficientes de distâncias: expressam o distanciamento entre dois objetos em um espaço multi- dimensional; Sokal : ( ) /b c n+ Novamente, como exemplo numérico, seja uma matriz com dados binários em que o valor “1” significa presente e o valor “0” ausente:
  • 11. ANÁLISE DE AGRUPAMENTOS 33 V01 V02 V03 V04 V05 V06 Am01 1 1 0 0 0 1 Am02 0 0 1 1 0 0 Am03 0 1 1 0 0 0 Am04 1 1 1 1 1 0 Am05 0 0 1 1 1 1 Am06 1 1 0 0 0 1 Am07 0 0 1 1 1 1 Nessa matriz as amostras 01 e 06 são idênticas, o mesmo acontecendo com as amostras 05 e 07. A matriz inicial de similaridades, após calculados os coeficientes de Jaccard, é a seguinte: Am01 Am02 Am03 Am04 Am05 Am06 Am07 Am01 1.000 Am02 0.000 1.000 Am03 0.250 0.333 1.000 Am04 0.333 0.400 0.400 1.000 Am05 0.167 0.500 0.200 0.500 1.000 Am06 1.000 0.000 0.250 0.333 0.167 1.000 Am07 0.167 0.500 0.200 0.500 1.000 0.167 1.000 E o dendrograma resultante esta exposto na Figura 4.4. Figura 3.4. Dendrograma resultante da aplicação do coeficiente binário de Jaccard pelo método de ligação simples. Notar as relações entre amostras 01 e 06 e entre amostras 05 e 07, todas ao nível 1.0
  • 12. ANÁLISE DE AGRUPAMENTOS 34 • Exemplo A indústria cerâmica existente na região de Rio Claro (SP), incluindo o pólo cerâmico de Santa Gertrudes-Cordeirópolis, é uma das maiores do mundo e necessita, portanto, de um acompanhamento tecnológico que a torne cada vez mais competitiva. A caracterização da matéria-prima para a indústria é de necessidade premente para o controle da qualidade do produto final. Com o conhecimento dessa matéria-prima, de suas propriedades e comportamento físico-químico é possível otimizar a blendagem do material e calibrar todo o processo de beneficiamento, principalmente fornos, buscando uma maior homogeneidade nos produtos. Com essa preocupação Monteiro et alii (2000) aplicaram a análise de agrupamentos à material cerâmico, constituido principalmente de lamitos e folhelhos da Formação Itararé, de uma cava da Cerâmica Montreal na Fazenda São Caetano, em Jundiaí/SP. Foram identificados 7 níveis estratigráficos, dos quais foram selecionados 6 horizontes para amostragem. O perfil de amostragem, da base para o topo, é constituído pelas seguintes litofácies (Figura 3.5.): Nível 6 - Folhelho cinza originados pela decantação de finos trazidos por correntes de turbidez de baixa densidade, com montmorilonita, mica-ilita, interestratificados e caulinita entre os minerais presentes na fração fina (< 2 micra); Nível 4 - Ritmitos resultantes de intercalações mais freqüentes de siltito e arenito (turbiditos arenosos) nos folhelhos, e apresentam montmorilonita, mica-ilita e interestratificados na fração fina; Nível 5 - Lamitos castanhos que correspondem à turbiditos proximais, formando estratos mais espessos com gradação normal de silte a argila onde estão presentes interestratificados (provavelmente ilita-montmorilonita), mica-ilita e caulinita; Nível 3 - Lamito vermelho maciço resultante de processos de fluxo de lama contendo mica-ilita e caulinita. A maturidade dos sedimentos sofre uma mudança brusca a partir desse nível; Nível 2 - Lamito vermelho de fluxo de lama com estruturação, com mica-ilita e caulinita; Nível 1 - Lamito vermelho maciço maciço com clastos de argila indicando retrabalhamento e fluxos de detritos, com mica-ilita e caulinita. Originalmente esses 3 níveis de lamitos vermelhos foram tratados como um único horizonte cerâmico, interdigitado por uma lente de arenito. Os níveis 3 a 1 apresentam quantidades crescentes de caulinita para o topo. A montmorilonita está restrita aos dois níveis estratigraficamente inferiores (níveis 6 e 4).
  • 13. ANÁLISE DE AGRUPAMENTOS 35 Figura 3.5.: Perfil estratigráfico da Cerâmica Montreal (Fazenda São Caetano/Jundiai,SP) A amostragem foi executada nos 6 níveis descritos e identificadas como 6J, 4J, 5J, 3J, 2J e 1J, da base para o topo), sendo que no nível 5 foi replicada a amostragem (5aJ e 5bJ). Foram analisadas diversas propriedades desse material como: umidade de prensagem, absorção de água, porosidade aparente, densidade aparente, perda ao fogo, retração linear na secagem, na queima parcial e na queima total e tensão à ruptura por flexão. Para as variáveis absorção de água (AA - em %), porosidade aparente (PA - em %), massa específica aparente (MEA - em g/cm3 ) e massa específica aparente da parte sólida (MEAS - g/cm3 ), perda ao fogo (%PF),
  • 14. ANÁLISE DE AGRUPAMENTOS 36 retração linear na queima parcial (%Rq), retração linear na queima total (%Rt) e tensão à ruptura por flexão (TRF - em MPa) foram feitas análises para cinco partes de cada amostra nas temperaturas de queima de 1.020°C, 1.070°C e 1.120°C. O dendrograma resultante da aplicação da análise de agrupamentos no modo Q, ou seja, entre amostras, apresenta uma nítida distinção entre o grupo de amostras 1J e 2J com o grupo 3J, 5aJ e 5bJ, 4J e 6J (Figura 3.6.). Essa distinção pode estar condicionada pela presença de caulinita nos materiais superiores, ou por fatores relacionados à distribuição granulométrica. De qualquer modo essa diferença nas características também é notável nas propriedades cerâmicas daqueles materiais. Figura 3.6.: Análise de Agrupamentos entre as amostras (modo Q) O primeiro grupo subdivide-se em amostras 1J e 2J. O segundo grupo pode ainda ser subdividido em dois outros; um com as amostras 3J e 4J, outro com 5aJ e 5bJ e outro com 6J. O material do nível 5, é comercializada in natura pela empresa, como descorante para a indústria têxtil. Entre as amostras 5aJ e 5bJ não é tão nítida a divisão, o que já era esperado pelo controle geológico e de amostragem. A análise de agrupamentos no modo R, ou seja, entre variáveis, revela uma distinção entre dois grandes grupos: um constituído pelas variáveis PF, AA, e PA, e o segundo com %Rq,
  • 15. ANÁLISE DE AGRUPAMENTOS 37 %Rt e TRF. O primeiro parece estar relacionado com propriedades da distribuição granulométrica e o segundo diz respeito à composição química do material (ligações e valência) (Figura 3.7.). Figura 3.7.: Análise de Agrupamentos entre as variáveis (modo R) Além disso, pode-se observar que algumas variáveis como retração linear na queima parcial (%Rq) e total (%Rt) encontram-se com alta correlação para mesmas temperaturas, bem como se pode observar também um agrupamento para as variáveis de tensão à ruptura por flexão (TRF) para as três temperaturas de 1.020°C, 1.070°C e 1.120°C. Isto se deve ao fato de ocorrer um intercrescimento de fases neoformadas após cada temperatura. Para as propriedades de absorção de água (AA), porosidade aparente (PA) e perda ao fogo (%PF) é possível perceber um agrupamento bem evidente. A massa específica aparente (MEA) e a massa específica aparente da parte sólida (MEAS) não formam nenhum agrupamento evidente, por serem características bastante peculiares do material. A análise de agrupamentos mostra que as amostras 5aJ e 5bJ possuem o mesmo comportamento, o que é esperado por serem retiradas do mesmo nível. As amostras 3J e 4J poderiam, em princípio serem tratadas da mesma forma, porém a análise de correspondências mostra que a amostra 4J possui um comportamento diferente, por ser mais plástica e com menor retração linear na queima (parcial e total), sendo esta uma importante característica do material, muito semelhante às amostras 5aJ e 5bJ. As amostras 1J e 2J, isto é, os níveis mais superiores, são bem distintos dos outros. O material dos dois primeiros níveis não deve ser tratado da mesma forma que o material do nível 3 pela indústria ceramista, o que é a prática atual. Hoje a empresa faz a mistura usando os níveis 1, 2 e 3 como material inerte (saibro), adicionado ao material dos níveis 4 e 6 da base. As
  • 16. ANÁLISE DE AGRUPAMENTOS 38 proporções na mistura são distintas conforme os diferentes produtos finais aos quais se destinam. Varia de 4:5 para a indústria de revestimento e de 3:7 para a cerâmica estrutural. A análise estatística multivariada aplicada indicou, porem, que os níveis 1 e 2 são distintos do nível 3, sob vários aspectos que podem ser verificados nas suas características físicas e de comportamento cerâmico.
  • 17. ANÁLISE DE AGRUPAMENTOS 39 BIBLIOGRAFIA DAVIS, J.C (1986) - Statistics and Data Analysis in Geology: 2 nd . ed., John Wiley and Sons, Inc. EVERITT, B. (1980) – Cluster Analysis: 2 nd ed., Gower Publishing Co. GORDON, A. D. (1981) – Classification: Chapman and Hall GREIGH-SMITH, P. (1983) – Quantitative Plant Ecology: University of California Press, Berkeley MONTEIRO, R. C.; BERNARDES, E.V.; MASSON, M.R. & LANDIM, P.M.B. (2000) – Análise estatística multivariada para materiais cerâmicos: VIII Simp.Quant.Geociências, Bol.Res. Expandidos, 163-166 MVPS/Plus (1998) – Multi-Variate Statistical Pacckage, version 3.1.: Kovach Computing Services PIELOU, E.C. (1984) – The Interpretation of Ecological Data: Wiley-Interscience PRENTICE, I.C. (1980) – Multidimensional scaling as a research tool in Quaternary palybology: A review of theory and methods: Review of Paleobotany & Palynology, 31:71-104 SNEATH, D. H. & SOKAL, R. R. (1973) – Numerical Taxonomy: W. H. Freeman & Co.