Análise de correlação

E
Economia SilvaConsultant em Consultoria JSilva

Correlação Me´todos Quantitativos e Econometria

Análise de correlação
Introdução
Nesta unidade serão estudados os princípios da análise de correlação e de
regressão. Estas técnicas estatísticas são apropriadas para analisar o relacionamento
entre variáveis de qualquer natureza. No nosso caso, estamos interessados no
relacionamento entre variáveis do agronegócio, sejam elas de natureza econômica,
financeira ou contábil. A análise de correlação tem por objetivo apenas medir o grau de
relacionamento entre variáveis, enquanto a análise de regressão estabelece uma relação
de dependência entre as variáveis e desenvolve métodos para estimar, com base em uma
amostra de dados, os parâmetros que caracterizam essa relação.
Correlação e regressão são técnicas bastante relacionadas e, de certa forma,
complementares em muitos aspectos. Podemos estar interessados, por exemplo, no
relacionamento entre o preço a vista e o preço futuro de café, entre gastos com
propaganda e volume de vendas de uma empresa, ou entre salário do trabalhador e seu
nível educacional. Pela correlação, vamos procurar medir o grau de relacionamento
entre as variáveis, que será dado pelo coeficiente de correlação. Este coeficiente vai nos
dizer se a relação é forte ou fraca e se é no mesmo sentido ou em sentido contrário. Já a
regressão procura estimar o relacionamento entre as variáveis por meio de uma equação
matemática que melhor descreve a relação.
Embora a análise de correlação e de regressão lide com a dependência de uma
variável em relação a outra, elas não implicam necessariamente relação de causalidade
de uma variável para outra. A especificação das variáveis a serem analisadas tanto na
correlação quanto na regressão deve ser feita com base na teoria subjacente ou no
conhecimento a priori relacionado com a área em estudo. Um relacionamento forte
entre as variáveis não identifica uma relação causa-efeito. Isto significa que,
estatisticamente, podemos relacionar qualquer coisa, mas, na prática, só devemos
relacionar aquilo que faz sentido de acordo com nosso conhecimento do problema. Nos
1
estudos relacionados com o agronegócio, vamos usar com freqüência a teoria
econômica para estabelecer relações causais a serem investigadas pela estatística.
Os dados utilizados em análise empírica de correlação e regressão podem ser
de série temporal ou de seção cruzada. Os dados de série temporal são aqueles coletados
para períodos de tempo sucessivos e regulares. O período pode ser ano, mês, semana,
dia, etc. Por exemplo, dados referentes à área, produção e produtividade de milho em
Minas Gerais no período de 1980 a 2000 e dados mensais de preços de milho, arroz e
feijão no mercado atacadista de Belo Horizonte, no período de janeiro de 1990 a
dezembro de 2000, são dados de série temporal.
Os dados de seção cruzada, também chamados de dados de corte seccional, são
dados referentes a uma ou mais variáveis coletados em unidades amostrais (família,
consumidor, firma, propriedade rural, estado, região, país) no mesmo período de tempo.
Por exemplo, dados sobre a produção de soja, milho e trigo nos municípios do Estado
do Paraná em 2000, ou dados sobre a produção diária de leite, número de vacas em
lactação, número de empregados permanentes e quantidade usada de ração, coletados de
uma amostra de 200 produtores de Minas Gerais em julho de 2000, são dados de seção
cruzada.
É possível combinar dados de seção cruzada e de série temporal para análise
estatística. Neste caso, refere-se a dados de combinação de série temporal e seção
cruzada. Quando as unidades amostrais de seção cruzada são as mesmas ao longo do
tempo, denomina-se dados em painel.
Tanto os dados de série temporal quanto os de seção cruzada podem ser de
natureza quantitativa ou qualitativa. Dado quantitativo é aquele que se apresenta na
forma numérica, como renda, produção, preço, etc. Já o dado qualitativo é aquele
expresso na forma de um atributo ou uma característica qualitativa da unidade de
observação. Normalmente, este dado refere-se à presença ou ausência de uma
característica, ou à tomada ou não de uma decisão, como, por exemplo, dado referente a
homem ou mulher, a casado ou solteiro, a empregado ou desempregado, ao setor rural
ou setor urbano, se adota ou não adota certa tecnologia, se período com ou sem
tabelamento de preços, se período com ou sem acordo comercial, etc.
Os dados para a análise de correlação e de regressão provêm de observações de
variáveis emparelhadas. É preciso ter várias observações (amostra) de cada variável. Por
exemplo, um estudo com dados de seção cruzada sobre empresas do setor de alimentos
pode focalizar volume de vendas, número de empregados, gastos com propaganda e
2
parcela de mercado. Cada observação, que representa os dados de cada empresa, é
composta de quatro valores, um para cada variável. Pode-se imaginar os dados
dispostos em uma planilha em que as linhas são as observações e as colunas
representam as variáveis.
Objetivos específicos
Ao finalizar esta unidade, você deverá ser capaz de:
⇒ Entender o significado e a finalidade da análise de correlação e de regressão.
⇒ Relacionar e explicar as premissas ou pressuposições fundamentais da análise de
correlação e de regressão.
⇒ Diferenciar análise de correlação de análise de regressão.
⇒ Entender que o modelo de regressão linear pode ser usado para estimar vários tipos
de modelos não-lineares.
⇒ Entender as limitações da análise de correlação e de regressão.
⇒ Calcular coeficientes de correlação e estimar modelos de regressão para análise de
relações entre variáveis.
⇒ Entender e ser capaz de explicar resultados de análise de correlação e de regressão.
1. Análise de correlação
1.1. Introdução
A estatística fornece vários métodos para se medir a associação entre variáveis,
sendo a correlação um dos mais simples destes métodos. A análise de correlação
constitui uma técnica própria de análise estatística com aplicações em inúmeras áreas. A
correlação é intimamente ligada à regressão. O entendimento dos conceitos de
correlação facilita muito o estudo das técnicas de regressão.
3
1.2. O significado da correlação entre variáveis
O termo “correlação” significa literalmente “co-relacionamento” e indica até
que ponto os valores de uma variável estão relacionados com os de outra. Na análise de
correlação procura-se uma medida que “sintetize” o grau de relacionamento entre as
variáveis.
Tem-se um relacionamento forte entre duas variáveis sempre que valores altos
de uma estejam relacionados com valores também altos ou baixos da outra variável. Por
outro lado, se valores altos de uma variável ocorrem em conjunto com valores altos e
baixos da outra variável, o grau de relacionamento entre elas não é forte.
Muitos exemplos podem ser dados de variáveis que apresentam certo tipo de
relacionamento: a) grau de escolaridade e nível de renda; b) notas de microeconomia e
notas de matemática; c) idade e resistência física; d) produtividade e quantidade
utilizada de fertilizante; e) idade e altura de uma planta; f) tempo depois do corte e
resistência física da madeira; g) preço em nível de consumidor (varejo) e em nível de
atacado; h) tamanho da propriedade e consumo de energia elétrica; i) preço e quantidade
demandada de certa mercadoria; j) ordem de classificação em um concurso e sucesso
profissional.
O interesse de se conhecer melhor o relacionamento entre variáveis, como os
casos citados anteriormente, conduz naturalmente à análise de correlação. O resultado é
uma medida do grau de correlação, denominada “coeficiente de correlação”.
A principal utilidade da medida de correlação é que se pode dizer o que se
espera para uma variável com base no conhecimento de outra. Pode-se inferir uma com
base na outra.
Contudo, chama-se a atenção para o fato de que esse processo de inferência
não significa que uma variável “causa” a outra. Ou seja, não implica, em hipótese
alguma, a existência de relação causal entre as variáveis. Apenas o relacionamento
esperado é indicado pela análise de correlação. Por exemplo, se existir um
relacionamento forte na mesma direção entre grau de escolaridade e renda, só se pode
inferir que pessoas com grau de instrução formal mais elevado deverão apresentar
também níveis de renda mais altos.
1.3. Formas de correlação
A correlação entre duas variáveis (X e Y) pode ser de várias formas:
4
a) Correlação linear - quando todos os pontos (X, Y) colocados num diagrama de
dispersão tendem a se concentrar ao longo de uma reta.
b) Correlação não-linear - quando os pontos (X, Y) tendem a se concentrar em torno de
uma curva.
c) Correlação positiva - duas variáveis apresentam correlação positiva se elas tendem a
mudar na mesma direção, ou seja, aumentam ou diminuem ao mesmo tempo.
Exemplo deste tipo de correlação é a relação entre preço e quantidade ofertada
(Figuras 2.1 e 2.2).
Figura 2.1 - Correlação positiva linear. Figura 2.2 - Correlação positiva não-linear.
d) Correlação negativa - neste caso, as variáveis tendem a mudar em direções opostas.
Por exemplo, preço e quantidade demandada (Figuras 2.3 e 2.4).
Figura 2.3 - Correlação negativa linear. Figura 2.4 - Correlação negativa não-linear.
5
.
..
..
.
.
..
..
.
.
..
..
.
.
..
..
.
.
..
..
.
.
..
..
.
.
..
..
.
.
..
..
.
.
..
..
.
.
..
..
.
.
..
..
.
.
..
..
.
.
..
..
.
.
..
..
.
.
..
..
.
.
..
..
.
.
..
..
.
.
..
..
.
..
..
.
..
..
.
..
..
.
.
..
..
.
.
..
..
.
.
..
..
.
.
..
..
.
0
X
Y
X
Y
0
.
..
..
.
.
..
..
.
.
..
..
.
.
..
..
.
.
..
..
.
.
..
..
.
.
..
..
.
.
..
..
.
.
..
..
.
.
..
..
.
.
..
..
.
.
..
..
.
.
..
..
.
.
..
..
.
.
..
..
.
.
..
..
.
.
..
..
.
.
..
..
.
.
..
..
.
.
..
..
.
..
..
.
.
..
..
.
..
..
.
..
..
.
.
..
..
.
.
..
..
.
.
..
..
.
.
..
..
.
.
..
..
.
.
..
..
.
.
..
..
.
.
..
..
.
.
..
..
.
.
..
..
.
.
..
..
.
X0
0
Y
Y
X
e) Não-correlação ou correlação nula - duas variáveis são não-correlacionadas quando
não é possível identificar nenhuma conexão entre elas. O diagrama de dispersão não
apresenta forma definida (Figura 2.5).
Figura 2.5 - Correlação nula.
A correlação entre duas variáveis também será nula quando uma delas não
apresentar variação, ou seja, assumir um valor constante (Figura 2.6).
Figura 2.6 - Correlação nula.
Quando, porventura, todos os pontos (X, Y) se localizarem exatamente sobre
uma reta ou uma curva, diz-se que a correlação é perfeita. Quando a maioria dos pontos
se concentra ao longo da reta ou da curva, a correlação será forte; caso contrário, a
correlação será fraca.
A teoria da correlação desenvolve medidas próprias e diretas somente para a
correlação linear. A correlação não-linear é estudada de forma indireta através de
6
..........................
. ....
.................
..........
X X0 0
Y
(a) (b)
Y
.. . .
..
.
.
.
..
.
. .
.
..
.
.
..
. .. .
.
..
. ..
..
..
.
. .
.
.
.
.
.
.
.
.
Y
X
0
.
.
transformações ou com uso de ajustamento de relações entre as variáveis. A seguir
serão desenvolvidas medidas de correlação linear.
1.4. Correlação linear simples
Na correlação linear simples procura-se medir o grau de relacionamento linear
entre duas variáveis. A medida usada é o “coeficiente de correlação”.
Coeficiente de correlação
A correlação se refere ao grau de relacionamento entre as variáveis. A medida
desse grau é feita pelo coeficiente de correlação.
Dadas duas variáveis (X e Y) definidas para uma amostra de tamanho n, o
coeficiente de correlação linear (rXY) é calculado com a seguinte fórmula:














−














−
−
∑∑∑ ∑
∑ ∑ ∑
=== =
= = =
2n
1i
i
n
i
2
i
n
1i
2n
1i
i
2
i
n
1i
n
1i
n
1i
iiii
XY
YYnXXn
YXYXn
=r
. (2.1)
Propriedades do coeficiente de correlação
1. O coeficiente de correlação independe das unidades de medida das variáveis; é
um número adimensional que varia entre –1 e +1, isto é, -1 ≤ r ≤ + 1.
2. O coeficiente de correlação de uma variável e ela mesma é igual a +1.
3. A permutação das variáveis não altera o resultado do coeficiente de correlação,
isto é, rXY = rYX.
4. Somando-se ou subtraindo-se uma constante a uma ou a ambas as variáveis, o
coeficiente de correlação não se altera.
5. Multiplicando-se ou dividindo-se uma ou ambas as variáveis por uma constante,
o coeficiente de correlação não se altera.
Interpretação do coeficiente de correlação
Os valores possíveis do coeficiente de correlação limitados no intervalo –1 e
+1 apresentam os seguintes significados:
1. r = +1: correlação positiva perfeita. Existe uma relação linear perfeita entre as
variáveis cujos pares de valores se situam numa reta com inclinação positiva.
7
2. r próximo de +1: correlação positiva forte. A maioria dos pares de valores das
variáveis se situa próxima a uma reta com inclinação positiva.
3. r positivo e próximo de zero: correlação positiva fraca. Os pares de valores
formam uma nuvem de pontos com ligeira tendência de inclinação positiva.
4. r = 0: correlação nula. Os pares de valores formam uma nuvem de pontos sem
nenhuma tendência de inclinação positiva ou negativa. As variáveis tendem a variar
sem nenhuma relação uma com a outra.
5. r negativo e próximo de zero: correlação negativa fraca. Os pares de valores
formam uma nuvem de pontos com ligeira tendência de inclinação negativa.
6. r próximo de -1: correlação negativa forte. A maioria dos pares de valores das
variáveis se situa próxima a uma reta com inclinação negativa.
7. r = -1: correlação negativa perfeita. Existe uma relação linear perfeita entre as
variáveis cujos pares de valores se situam numa reta com inclinação negativa.
Normalmente, alerta-se para o fato de que um coeficiente de correlação igual a
zero indica ausência de correlação linear entre as variáveis. Pode ocorrer, no entanto,
que as variáveis sejam relacionadas, porém não linearmente.
O coeficiente de correlação linear simples sempre se refere a duas variáveis.
Num estudo com mais de duas variáveis podemos calcular o coeficiente para diferentes
pares de variáveis. Neste caso, os coeficientes de correlação são organizados em uma
tabela denominada matriz de correlação de tamanho definido pelo número de variáveis.
Para quatro variáveis, X, Y, Z e W, por exemplo, os possíveis coeficientes de correlação
das quatro variáveis tomadas duas a duas podem ser registrados como na Tabela 2.1.
Tabela 2.1 - Coeficientes de correlação linear simples entre as variáveis X, Y, Z e W
X Y Z W
X rXX rXY rXZ rXW
Y rYX rYY rYZ rYW
Z rZX rZY rZZ rZW
W rWX rWY rWZ rWW
8
Observando-se que o coeficiente de correlação de uma variável com ela mesma
é igual a + 1 e que a permutação das variáveis não altera o resultado do coeficiente, a
Tabela 2.1 pode ser simplificada como se apresenta na Tabela 2.2.
Tabela 2.2 - Coeficientes de correlação linear simples entre as variáveis X, Y, Z e W
X Y Z W
X 1
Y rYX 1
Z rZX rZY 1
W rWX rWY rWZ 1
Na prática, o cálculo do coeficiente de correlação é feito a mão, com o auxílio
de uma calculadora, ou pelo computador. As planilhas eletrônicas e os programas
estatísticos calculam coeficientes de correlação como procedimentos rotineiros. Como
exemplo, apresentamos, a seguir, o cálculo do coeficiente de correlação entre duas
variáveis X e Y, com o detalhamento dos cálculos dos componentes da fórmula.
Exemplo 2.1
Calcular o coeficiente de correlação entre as variáveis X e Y registradas na
Tabela 2.3.
9
Tabela 2.3 - Cálculo do coeficiente de correlação entre as variáveis X e Y
OBS. Xi Yi XiYi
2
iX 2
iY
1 6.5 16 104 42.25 256
2 5.5 13 71.5 30.25 169
3 5.5 15 82.5 30.25 225
4 5.5 14 77 30.25 196
5 4.5 10 45 20.25 100
6 2.5 8 20 6.25 64
7 3.5 14 49 12.25 196
8 2.5 9 22.5 6.25 81
9 3.0 10 30 9.0 100
10 2.5 8 20 6.25 64
11 4.5 13 58.5 20.25 169
12 4.5 13 58.5 20.25 169
13 5.5 13 71.5 30.25 169
14 2.5 6 15 6.25 36
15 3.5 11 38.5 12.25 121
SOMA 62 173 763.5 282.50 2115
Aplicando a fórmula 2.1, tem-se:
86,0
)173()2115)(15()62()5,282)(15(
)173)(62()5,763)(15(
r
22XY =
−−
−
= .
O coeficiente de correlação de 0,86 é relativamente alto, indicando correlação
positiva e forte entre as variáveis. O resultado indica, então, que existe forte associação
positiva entre as variáveis. Assim, pode-se dizer que, à medida que X aumenta, Y
também aumenta, e à medida que X diminui, Y também diminui. As variáveis tendem a
variar juntas e no mesmo sentido.
No exemplo 2.2 analisa-se a correlação entre quatro variáveis, cujo resultado é
apresentado em forma de matriz na Tabela 2.5.
Exemplo 2.2
Os dados da Tabela 2.4 referem-se ao preço da soja recebido pelos agricultores
(R$/t), preço do milho recebido pelos agricultores (R$/t), salário de tratorista (R$/mês)
e preço de fertilizante (índice). Todos os preços foram deflacionados pelo IGP/FGV,
10
base dezembro de 1999. O cálculo do coeficiente de correlação entre os pares de
variáveis encontra-se na Tabela 2.5.
Tabela 2.4 - Preço da soja (PRSO), preço do milho (PRMI), salário de tra-torista
(SATO) e preço de fertilizante (PRFE) no Estado do Paraná, 1986-1999
ANO PRSO PRMI SATO PRFE
1986 577.89 364.43 358.22 74.64
1987 483.89 230.60 328.53 77.15
1988 366.60 183.59 224.20 142.22
1989 384.89 205.11 494.61 86.98
1990 268.89 204.42 280.32 110.00
1991 369.89 217.95 300.02 109.63
1992 289.26 175.73 332.03 116.64
1993 321.06 164.58 389.11 176.30
1994 278.24 146.37 315.54 180.68
1995 224.14 126.04 266.19 168.92
1996 285.64 156.00 265.14 160.55
1997 301.84 120.27 265.71 167.96
1998 250.47 134.70 272.06 173.83
1999 264.17 147.27 262.67 162.35
Fonte: FNP (2000).
Tabela 2.5 - Matriz de correlação entre preço da soja (PRSO), preço do mi-lho (PRMI),
salário de tratorista (SATO) e preço de fertilizan-te (PRFE) no Estado do
Paraná, 1986-1999
PRSO PRMI SATO PRFE
PRSO 1.000000
PRMI 0.898984 1.000000
SATO 0.404765 0.374035 1.000000
PRFE -0.772708 -0.821557 -0.464695 1.000000
11
Verifica-se que o preço da soja e o preço do milho apresentam correlação alta e
positiva (rPRSO,PRMI = 0,899). O preço da soja e o salário de tratorista apresentam
correlação positiva moderada a fraca (rPRSO,SATO = 0,405). Já o preço da soja e o preço do
fertilizante apresentam correlação negativa e relativamente forte (rPRSO,PRFE = -0,773). O
preço do milho e o salário de tratorista também apresentam fraca correlação positiva
(rPRMI,SATO = 0,374). O milho também apresenta preços correlacionados negativamente
com o preço do fertilizante e com grau forte (rPRMI,PRFE = -0,822). Por fim, o salário de
tratorista e o preço do fertilizante apresentam correlação negativa e relativamente fraca
(rSATO,PRFE = -0,465).
Teste estatístico de r
A conclusão de que a correlação é forte ou fraca é de caráter dúbio. Não se
sabe qual valor pode ser considerado baixo para caracterizar uma correlação fraca entre
as variáveis e, da mesma forma, qual valor é alto para caracterizar uma correlação forte.
Um teste estatístico do coeficiente pode auxiliar na interpretação de seu valor.
Realizando um teste para verificar se o coeficiente é estatisticamente igual a zero,
podemos ter suporte para afirmar que valores baixos de r podem ser considerados
estatisticamente iguais a zero, ou que valores não muito altos de r podem ser
considerados estatisticamente diferentes de zero.
Para efetuar o teste estatístico é necessário conhecer a distribuição amostral de
r. Admitindo que X e Y são variáveis aleatórias com distribuição normal bivariada,
pode-se mostrar que a distribuição de r é uma distribuição de t. O teste para verificar se
o coeficiente é estatisticamente igual a zero, que significa ausência de associação linear
entre X e Y, consiste no cálculo de um valor de t dado por:
( ) 2-n2cal t~
)2n/(r-1
r
=t
−
. (2.2)
isto é, a variável tcal segue uma distribuição t de Student com n-2 graus de liberdade.
Dessa forma, pode-se usar a distribuição de t para estabelecer a significância ou não-
significância estatística de r.
12
Exemplo 2.3 Suponha que, com base em uma amostra de 20 observações de preços e
quantidades vendidas, calculou-se r = 0,62. Deseja-se testar se essa estimativa é
estatisticamente igual a zero. Ou seja, pode-se inferir, em dado nível de significância,
que as variáveis não são relacionadas?
Calcula-se:
Figura 2.7 - Distribuição de “t” e regiões de rejeição de H0.
( )
3,353=
)220/(0,62-1
0,62
=t
2cal
−
13
0,025 0,025
RA H0
0,95
Região Crítica
RRH0
Região
Crítica
t = - 2,10t = - 2,10
X
σ
μ-X
t =
Examinando a tabela de t para 18 graus de liberdade, verifica-se que tα/2 = 2,10
para α = 0,05. Graficamente, representa-se a distribuição de “t” com as regiões de
rejeição da hipótese nula como na Figura 2.7.
Cada área hachurada representa 2,5% de probabilidade. Estas áreas constituem
o que se denomina região de rejeição da hipótese nula. Quando a estatística de teste
calculada cai na área de rejeição, rejeita-se a hipótese estabelecida (hipótese nula); caso
contrário, aceita-se. No caso, como tcal = 3,35 > tα/2 = 2,10, conclui-se que o coeficiente r
= 0,62 é estatisticamente diferente de zero e que as variáveis preço e quantidade vendida
são correlacionadas. Então, o teste estatístico dá suporte para interpretar o coeficiente r
= 0,62 como um grau de correlação relativamente forte.
Exemplo 2.4
Suponha que, com base em uma amostra de 20 observações de produção e
volume de crédito utilizado, calculou-se r = 0,32. Deseja-se testar se essa estimativa é
estatisticamente igual a zero. Ou seja, pode-se inferir, em nível de significância de 5%,
que as variáveis não são relacionadas?
Calcula-se:
( )
1,33=
)220/(0,30-1
0,30
=t
2cal
−
.
Como tcal = 1,33 < tα/2 = 2,10, conclui-se que o coeficiente r = 0,30 é
estatisticamente igual a zero e que as variáveis produção e volume de crédito utilizado
não são correlacionadas. Então, o teste estatístico dá suporte para interpretar o
coeficiente r = 0,30 como um grau de correlação fraco e praticamente nulo.
1.5. Correlação parcial
A correlação simples, vista anteriormente, mede o grau de associação entre
duas variáveis, desconsiderando a presença de outras variáveis, isto é, o coeficiente de
correlação linear simples pode ser visto como uma medida da correlação “total” ou
“bruta” entre duas variáveis.
Um estudo normalmente envolve mais de duas variáveis e pode ser de interesse
o conhecimento da correlação entre duas variáveis isolando o efeito das outras sobre
estas. Este seria o caso do cálculo da correlação parcial.
14
O coeficiente de correlação parcial mede o grau de associação entre duas
variáveis mantendo constante as outras variáveis.
Simbolicamente, supõe-se que existem três variáveis X1, X2 e X3. A correlação
parcial entre X1 e X2, por exemplo, mede a associação entre elas independentemente da
relação de X3 com X1 e de X3 com X2. Ou seja, controla-se o efeito de X3.
Exemplo 2.5
Considere a produção de leite e as variáveis: X1 = produtividade
(litros/vaca/dia), X2 = número de vacas em lactação e X3 = quantidade de concentrado
(kg/vaca/dia) e X4 = índice de carga genética. A correlação linear simples entre essas
variáveis mede o grau de relacionamento entre elas duas a duas, sem considerar a
presença das outras. Já a correlação parcial mede o grau de relacionamento entre duas
delas mantendo-se constante o nível das outras. Tanto a produtividade quanto a resposta
à quantidade de concentrado estão relacionadas com a carga genética. Uma medida da
correlação pura entre produtividade e uso de concentrado é obtida pela correlação
parcial em que a influência de X4 é isolada de ambas as variáveis. Ou seja, mantém-se
fixo o efeito de carga genética. De forma semelhante, pode-se medir a correlação parcial
entre produtividade e uso de concentrado mantendo-se constante o número de vacas em
lactação e a carga genética. Neste caso, são controlados os efeitos de duas variáveis.
Quando se estuda a correlação parcial há necessidade de definir a “ordem” da
correlação. Por ordem entende-se o número de variáveis controladas no cálculo da
correlação.
Como referência, o coeficiente de correlação simples é definido como
“coeficiente de correlação de ordem zero”. Se existem três variáveis, X1, X2 e X3, pode-
se definir três coeficientes de ordem zero:
r12 = coeficiente de correlação entre X1 e X2.
r13 = coeficiente de correlação entre X1 e X3.
r23 = coeficiente de correlação entre X2 e X3.
Escolhendo X3 como a variável de controle, define-se: r12.3 = coeficiente de
correlação entre X1 e X2 mantendo-se X3 constante. Similarmente, pode-se definir r13.2 e
r23.1, que são denominados “coeficientes de correlação de primeira ordem”.
A mesma idéia pode ser expandida para o caso em que estão envolvidas mais
de três variáveis. Assim, pode-se definir: r12.34 = coeficiente de correlação entre X1 e X2,
15
mantendo-se constante X3 e X4. Este é um coeficiente de correlação de “segunda
ordem”.
Coeficientes de correlação parcial de ordens superiores podem ser definidos
facilmente.
O cálculo dos coeficientes de correlação parcial é feito por meio de fórmulas
próprias. O coeficiente de correlação parcial de determinada ordem pode ser calculado
através dos coeficientes de ordem inferior. Para o caso de três variáveis, o coeficiente de
correlação de primeira ordem pode ser calculado em função dos coeficientes de
correlação simples, ou de ordem zero. Por exemplo, o coeficiente de correlação parcial
entre X1 e X2 mantendo-se constante X3 é dado por:
( )( )2
23
2
13
231312
3.12
r-1r-1
rr-r
=r (2.3)
Esta fórmula pode ser generalizada para qualquer correlação parcial,
envolvendo três variáveis. Fazendo i, j, k = 1, 2, 3, tem-se:
( )( )2
jk
2
ik
jkikij
k.ij
r-1r-1
rr-r
=r (2.4)
Dessa forma, vê-se que o coeficiente de correlação parcial de determinada
ordem é calculado em função dos coeficientes de ordem imediatamente inferior.
Para o caso de mais de três variáveis, podemos calcular o coeficiente de
correlação parcial entre duas variáveis controlando para mais de uma variável.
Desejando-se, por exemplo, o coeficiente de correlação parcial entre X1 e X2 mantendo
constante X3 e X4, a fórmula seria dada por:
( )( ) ( )( )r-1r-1
rr-r
=
r-1r-1
rr-r
=r
2
24.3
2
14.3
3.2414.312.3
2
23.4
2
13.4
4.2313.412.4
34.12 (2.5)
Para se calcular, então, r12.34, seria necessário calcular primeiro os coeficientes
de ordem zero, tipo r12, r23, etc., depois os de primeira ordem, tipo r12.3, r23.4, etc.
16
O coeficiente de correlação parcial também varia de -1 a +1 e apresenta
interpretação semelhante ao coeficiente de correlação simples, desde que ressaltado o
aspecto da variável ou das variáveis de controle.
Exemplo 2.6
Considere uma amostra de 10 crianças cujos dados referentes a peso (kg),
altura (cm) e idade (anos) são apresentados na tabela a seguir.
Peso (X1) 30 32 24 30 26 35 25 23 35 31
Altura (X2) 145 150 125 157 127 140 132 107 155 145
Idade (X3) 7 10 7 11 8 10 10 6 12 9
A aplicação da fórmula 2.1 fornece os seguintes resultados para os coeficientes
de correlação simples ou de ordem zero: r12 = 0,81, r13 = 0,70 e r23 = 0,78. Com base
nesses resultados, podemos calcular os coeficientes de correlação parcial de primeira
ordem aplicando a fórmula 2.3. Obtém-se: r12.3 = 0,58, r13.2 = 0,19 e r23.1 = 0,51. Observa-
se que, duas a duas, as variáveis peso, altura e idade apresentam correlações altas, acima
de 0,70. Quando se controla o efeito de uma das variáveis, a correlação diminui.
Verifica-se que o coeficiente de correlação linear simples entre peso e altura é r12 = 0,81
enquanto o coeficiente de correlação linear parcial entre peso e altura para crianças com
a mesma idade é r12.3 = 0,58. Este valor representa o coeficiente de correlação linear
entre peso e altura retirando-se o efeito de idade sobre peso e sobre altura. De forma
semelhante, tem-se que o coeficiente de correlação linear simples entre peso e idade é
r13 = 0,70, enquanto o coeficiente de correlação linear parcial entre peso e idade para
crianças com a mesma altura cai para r13.2= 0,19, significando que existe fraca relação
entre peso e idade para crianças de mesma altura. Por fim, o coeficiente de correlação
linear simples entre altura e idade é r13 = 0,78, enquanto o coeficiente de correlação
linear parcial entre altura e idade para crianças com o mesmo peso é r23.1 = 0,51,
significando que existe relação não muito forte entre peso e idade para crianças de
mesma altura.
O teste de significância do coeficiente de correlação parcial é feito da mesma
maneira que o do coeficiente de correlação simples.
17
1.6. Correlação múltipla
À medida que se aprofunda na análise de correlação, distanciando da
correlação simples, torna-se necessário usar conceitos da análise de regressão ou, mais
especificamente, torna-se necessário usar o conceito de uma relação funcional linear
entre as variáveis.
A correlação múltipla envolve no mínimo três variáveis. Um relacionamento
forte entre estas variáveis tomadas em conjunto pode ser entendido como um
ajustamento bom de um plano em três dimensões.
No caso de três variáveis X1, X2 e X3, por exemplo, pode-se estabelecer a
relação
X1 = a + bX2 + cX3 + e (2.6)
em que a, b e c são parâmetros da relação e e é um erro aleatório. Se esta relação
apresentar bom ajustamento aos dados, conclui-se que as variáveis têm alto grau de
correlação múltipla. Qualquer uma das variáveis poderá ser escolhida como variável
dependente. Todas são supostas aleatórias e a relação causal implícita pela relação não é
relevante. O objetivo não é explicar o comportamento de X1, na relação anterior, mas
apenas verificar o grau de associação linear entre as três variáveis. Para um número
maior de variáveis o raciocínio é semelhante.
Considerando três variáveis, o coeficiente de correlação múltipla pode ser
calculado pela seguinte fórmula:
2
23
231312
2
13
2
12
23.1
r-1
rr2r-r+r
=R (2.7)
O valor de R1.23 varia de 0 a 1 e indica o grau da associação linear entre X1, X2
e X3 quando X1 é tomada como dependente. Este coeficiente pode ser visto, também,
como um indicador do grau de relacionamento entre X2 e X3, tomadas como um grupo,
e X1.
O coeficiente de correlação múltipla pode ser calculado também como a raiz
quadrada do coeficiente de determinação (R2
) do modelo de regressão 2.6.
1.7. Correlação por posto ou correlação ordinal
18
A análise de correlação pode ser aplicada também a variáveis de natureza
qualitativa quando se pode dispor os valores em ordem de importância, de preferência,
de ocorrência, ou qualquer outro critério de julgamento. Os valores das variáveis serão
dados, neste caso, pelos números 1, 2, 3, ..., n, os quais indicam ordem, posição ou
posto ocupado por cada um desses valores em relação aos demais.
A medida de correlação, nesse caso, indica o grau de relacionamento entre as
ordenações das variáveis, e, por isso, é denominada correlação por postos ou correlação
ordinal.
A correlação por posto se aplica principalmente às situações em que as
variáveis são por natureza qualitativas, como preferência por diferentes tipos de
produtos, julgamento de concurso, classificação em provas esportivas etc. Contudo,
pode-se fazer a análise de correlação por posto também com variáveis quantitativas,
desde que transformadas em escala ordinal. O objetivo do cálculo de um coeficiente de
correlação, nesses casos, é determinar se as variáveis tendem a apresentar associação
entre suas ordenações.
Em princípio, qualquer variável quantitativa pode ser convertida em escala
ordinal ou postos. O contrário não é, normalmente, possível, a menos que seja associada
à ordem uma escala numérica qualquer.
O objetivo da correlação por posto é fornecer uma medida que indique o grau
de concordância entre os dois conjuntos de ordens de preferência.
Coeficiente de correlação de Spearman
O método desenvolvido por Spearman calcula o coeficiente de correlação por
posto pela seguinte fórmula:
1)-n(n
d6
-1=r 2
n
1=i
2
i
s
∑ (2.8)
em que d = diferença entre os postos de pares de valores correspondentes; e n = número
de observações.
O coeficiente rs assume valores compreendidos no intervalo [-1, +1], isto
é,
- 1 ≤ rs ≤ 1
19
e deve ser interpretado da mesma forma que o coeficiente de correlação simples.
Quando rs é próximo de +1, há alto grau de concordância entre as ordenações. Quando rs
se aproxima de -1, há alto grau de discordância entre as classificações. E, quando rs é
próximo de zero, não existe associação relevante entre os conjuntos de ordenações.
A significância estatística do coeficiente de Spearman pode ser testada
observando que a distribuição de rs pode ser aproximada por uma distribuição normal,
com média zero e desvio-padrão 1-n1/=rsσ , isto é: rs ∼ N ( )1)-1/(n0, .
Calcula-se a estatística de teste
1nr=
r
=Z s
r
s
s
−
σ
(2.9)
que deve ser comparada com valores tabulares da distribuição normal padronizada. Para
um nível de significância α = 5%, o valor da tabela e ±1,96 e a hipótese nula deve ser
aceita se -1,96 ≤ Z ≤ +1,96. Este teste é considerado aceitável quando n > 10.
Exemplo 2.7
Como exemplo de variáveis ordinais, considere a preferência dos eleitores por
candidatos à Presidência da República. Considere dois grupos de eleitores: homens e
mulheres. Ambos os grupos possuem características socioeconômicas semelhantes.
Suponha a existência de 10 candidatos, designados por A, B, C, D, ..., J. Usando
qualquer processo, os dois grupos classificam os candidatos em ordem de preferência
dando a cada candidato um número de 1 a 10, referente à ordem de preferência.
Considere os resultados da Tabela 2.6.
Tabela 2.6 - Ordem de preferência de eleitores homens e mulheres para diferentes
candidatos
20
Candidato Homens Mulheres d d2
A 8 9 -1 1
B 3 5 -2 4
C 9 10 -1 1
D 2 1 1 1
E 7 8 -1 1
F 10 7 3 9
G 4 3 1 1
H 6 4 2 4
I 1 2 -1 1
J 5 6 -1 1
O coeficiente de correlação ordinal é dado por:
( ) 990
144
-1=
1-1010
6.24
-1= 2sr (2.10)
rs = 0,855
Este valor indica que há correlação ordinal alta, ou seja, há boa concordância
entre as preferências dos homens e das mulheres pelos candidatos.
Para testar a significância estatística de rs = 0,885, calcula-se:
Z = 0,855 110 − = 0,855 ⋅ 3
Z = 2,565.
Como Z = 2,565 > 1,96 rejeita-se a hipótese nula de que o coeficiente é
estatisticamente igual a zero.
1) Considere as seguintes variáveis:
X1 = Exportações do Estado de São Paulo para outros estados;
21
X2 = Renda dos estados importadores;
X3 = Distância entre a cidade de São Paulo e as demais capitais.
Com base em uma amostra de dados, obteve-se a seguinte matriz de
correlação:
X1 (exportações) X2 (renda) X3 (distância)
X1 (Exportações) 1 0,74 -0,55
X2 (Renda) 0,74 1 -0,67
X3 (Distância) -0.55 -0,67 1
Interprete os resultados obtidos.
2) Com base nos dados do exercício anterior, calculou-se o coeficiente de correlação
parcial entre exportações e renda, isolando-se a influência da distância. Obteve-se r12.3 =
0,69. Interpretar esta estimativa.
22

Recomendados

Correlação Estatística por
Correlação EstatísticaCorrelação Estatística
Correlação EstatísticaVitor Vieira Vasconcelos
34.9K visualizações58 slides
Correlação por
CorrelaçãoCorrelação
CorrelaçãoFederal University of Bahia
8.4K visualizações23 slides
Regressao linear por
Regressao linearRegressao linear
Regressao linearMitsubishi Motors Brasil
196 visualizações61 slides
Prática de Regressão no SPSS por
Prática de Regressão no SPSSPrática de Regressão no SPSS
Prática de Regressão no SPSSVitor Vieira Vasconcelos
19K visualizações59 slides
Cálculo do tamanho de uma Amostra por
Cálculo do tamanho de uma AmostraCálculo do tamanho de uma Amostra
Cálculo do tamanho de uma AmostraFlávia Salame
140.3K visualizações9 slides
Elasticidade por
ElasticidadeElasticidade
Elasticidadeisaacsales253
17K visualizações64 slides

Mais conteúdo relacionado

Mais procurados

Aula 3 elasticidade por
Aula 3   elasticidadeAula 3   elasticidade
Aula 3 elasticidadeMitsubishi Motors Brasil
16.4K visualizações42 slides
04 tópico 3 - regressão multipla por
04   tópico 3 - regressão multipla04   tópico 3 - regressão multipla
04 tópico 3 - regressão multiplaRicardo Bruno - Universidade Federal do Pará
7.2K visualizações50 slides
Regressão - aula 01/04 por
Regressão - aula 01/04Regressão - aula 01/04
Regressão - aula 01/04Rodrigo de Sá
11K visualizações54 slides
Introdução à Regressão Linear Simples e Múltipla por
Introdução à Regressão Linear Simples e MúltiplaIntrodução à Regressão Linear Simples e Múltipla
Introdução à Regressão Linear Simples e MúltiplaCélia M. D. Sales
62.7K visualizações65 slides
35302050 apostila-de-estatistica-basica (1) por
35302050 apostila-de-estatistica-basica (1)35302050 apostila-de-estatistica-basica (1)
35302050 apostila-de-estatistica-basica (1)Luccy Crystal
34K visualizações55 slides
Regressão Linear I por
Regressão Linear IRegressão Linear I
Regressão Linear IVitor Vieira Vasconcelos
9.7K visualizações53 slides

Mais procurados(20)

Regressão - aula 01/04 por Rodrigo de Sá
Regressão - aula 01/04Regressão - aula 01/04
Regressão - aula 01/04
Rodrigo de Sá11K visualizações
Introdução à Regressão Linear Simples e Múltipla por Célia M. D. Sales
Introdução à Regressão Linear Simples e MúltiplaIntrodução à Regressão Linear Simples e Múltipla
Introdução à Regressão Linear Simples e Múltipla
Célia M. D. Sales62.7K visualizações
35302050 apostila-de-estatistica-basica (1) por Luccy Crystal
35302050 apostila-de-estatistica-basica (1)35302050 apostila-de-estatistica-basica (1)
35302050 apostila-de-estatistica-basica (1)
Luccy Crystal34K visualizações
bioestatística - 1 parte por Robson Odé
bioestatística - 1 partebioestatística - 1 parte
bioestatística - 1 parte
Robson Odé5.1K visualizações
Bioestatística por felipethoaldo
 Bioestatística Bioestatística
Bioestatística
felipethoaldo42K visualizações
Aula inferencia por Fernando Bortolozo
Aula inferenciaAula inferencia
Aula inferencia
Fernando Bortolozo1.6K visualizações
Outros testes não-paramétricos por guest422f98
Outros testes não-paramétricosOutros testes não-paramétricos
Outros testes não-paramétricos
guest422f9817.8K visualizações
Modelos de Pesquisa Científica de Abordagem Quantitativa por Rilva Lopes de Sousa Muñoz
Modelos de Pesquisa Científica de Abordagem QuantitativaModelos de Pesquisa Científica de Abordagem Quantitativa
Modelos de Pesquisa Científica de Abordagem Quantitativa
Rilva Lopes de Sousa Muñoz77.4K visualizações
Introdução à Análise de Dados - Aula 02 - Tipos Básicos de Dados por Alexandre Duarte
Introdução à Análise de Dados - Aula 02 - Tipos Básicos de Dados Introdução à Análise de Dados - Aula 02 - Tipos Básicos de Dados
Introdução à Análise de Dados - Aula 02 - Tipos Básicos de Dados
Alexandre Duarte3.2K visualizações
Testes parametricos e nao parametricos por Rosario Cação
Testes parametricos e nao parametricosTestes parametricos e nao parametricos
Testes parametricos e nao parametricos
Rosario Cação398.6K visualizações
Cap4 - Parte 3 - Distribuição Binomial por Regis Andrade
Cap4 - Parte 3 - Distribuição BinomialCap4 - Parte 3 - Distribuição Binomial
Cap4 - Parte 3 - Distribuição Binomial
Regis Andrade19.4K visualizações
Critérios de validade por metodesenvolvimento
Critérios de validadeCritérios de validade
Critérios de validade
metodesenvolvimento18.2K visualizações
Teoria de Resposta ao Item - TRI por Lanylldo Araujo
Teoria de Resposta ao Item - TRITeoria de Resposta ao Item - TRI
Teoria de Resposta ao Item - TRI
Lanylldo Araujo2K visualizações
Regressão - aula 03/04 por Rodrigo de Sá
Regressão - aula 03/04Regressão - aula 03/04
Regressão - aula 03/04
Rodrigo de Sá18.2K visualizações

Similar a Análise de correlação

IESB Logística Empresarial - Métodos Quantitativos - Volume III (incompleta) por
IESB Logística Empresarial - Métodos Quantitativos - Volume III (incompleta)IESB Logística Empresarial - Métodos Quantitativos - Volume III (incompleta)
IESB Logística Empresarial - Métodos Quantitativos - Volume III (incompleta)Rafael José Rorato
625 visualizações10 slides
Linear regression model por
Linear regression modelLinear regression model
Linear regression modelGabriel Peixe
269 visualizações47 slides
Pesquisa Correlacional por
Pesquisa CorrelacionalPesquisa Correlacional
Pesquisa CorrelacionalHilma Khoury
29K visualizações30 slides
Cap 2 gujarati alunos por
Cap 2 gujarati   alunosCap 2 gujarati   alunos
Cap 2 gujarati alunosSaulo Jardim
192 visualizações33 slides
Estatistica i por
Estatistica iEstatistica i
Estatistica iafpinto
444 visualizações8 slides
1 matemática e leitura por
1   matemática e leitura1   matemática e leitura
1 matemática e leituraAdriana Santos
474 visualizações8 slides

Similar a Análise de correlação(20)

IESB Logística Empresarial - Métodos Quantitativos - Volume III (incompleta) por Rafael José Rorato
IESB Logística Empresarial - Métodos Quantitativos - Volume III (incompleta)IESB Logística Empresarial - Métodos Quantitativos - Volume III (incompleta)
IESB Logística Empresarial - Métodos Quantitativos - Volume III (incompleta)
Rafael José Rorato625 visualizações
Linear regression model por Gabriel Peixe
Linear regression modelLinear regression model
Linear regression model
Gabriel Peixe269 visualizações
Pesquisa Correlacional por Hilma Khoury
Pesquisa CorrelacionalPesquisa Correlacional
Pesquisa Correlacional
Hilma Khoury29K visualizações
Cap 2 gujarati alunos por Saulo Jardim
Cap 2 gujarati   alunosCap 2 gujarati   alunos
Cap 2 gujarati alunos
Saulo Jardim192 visualizações
Estatistica i por afpinto
Estatistica iEstatistica i
Estatistica i
afpinto444 visualizações
1 matemática e leitura por Adriana Santos
1   matemática e leitura1   matemática e leitura
1 matemática e leitura
Adriana Santos474 visualizações
Trabalho de analise de regressao 2012 trab2 por Samuel Orlando Nhantumbo
Trabalho de analise de regressao 2012 trab2Trabalho de analise de regressao 2012 trab2
Trabalho de analise de regressao 2012 trab2
Samuel Orlando Nhantumbo3.3K visualizações
Apostila de metodos_quantitativos_-_prof._joao_furtado por Wannessa Souza
Apostila de metodos_quantitativos_-_prof._joao_furtadoApostila de metodos_quantitativos_-_prof._joao_furtado
Apostila de metodos_quantitativos_-_prof._joao_furtado
Wannessa Souza641 visualizações
Estatística 8.º ano por aldaalves
Estatística 8.º anoEstatística 8.º ano
Estatística 8.º ano
aldaalves33.8K visualizações
Estatística 8.º ano por aldaalves
Estatística 8.º anoEstatística 8.º ano
Estatística 8.º ano
aldaalves1.7K visualizações
Probabilidade estatatìstica e contabilidade por Leonel Boano
Probabilidade estatatìstica e contabilidadeProbabilidade estatatìstica e contabilidade
Probabilidade estatatìstica e contabilidade
Leonel Boano2.1K visualizações
5.1 correlaoduasvariaveis 1_20151006145332 por Samuel Ferreira da Silva
5.1 correlaoduasvariaveis 1_201510061453325.1 correlaoduasvariaveis 1_20151006145332
5.1 correlaoduasvariaveis 1_20151006145332
Samuel Ferreira da Silva926 visualizações
Media, moda e mediana por Jeremias Manhica
Media, moda e medianaMedia, moda e mediana
Media, moda e mediana
Jeremias Manhica604 visualizações
Atividade Prática Supervisionada - Engenharia Básica - Modelagem Matemática (... por Eduardo Malafaia
Atividade Prática Supervisionada - Engenharia Básica - Modelagem Matemática (...Atividade Prática Supervisionada - Engenharia Básica - Modelagem Matemática (...
Atividade Prática Supervisionada - Engenharia Básica - Modelagem Matemática (...
Eduardo Malafaia164 visualizações
Correlacao por José Pereira
CorrelacaoCorrelacao
Correlacao
José Pereira1.5K visualizações
Aula4 CENTROTEC.pptx por ssuser5ee745
Aula4 CENTROTEC.pptxAula4 CENTROTEC.pptx
Aula4 CENTROTEC.pptx
ssuser5ee7454 visualizações
Material de apoio estatística 2017 1 por Psicologia_2015
Material de apoio estatística 2017 1Material de apoio estatística 2017 1
Material de apoio estatística 2017 1
Psicologia_2015267 visualizações
Uma nota sobre a relação entre salário mínimo e inflação no Brasil a partir d... por Grupo de Economia Política IE-UFRJ
Uma nota sobre a relação entre salário mínimo e inflação no Brasil a partir d...Uma nota sobre a relação entre salário mínimo e inflação no Brasil a partir d...
Uma nota sobre a relação entre salário mínimo e inflação no Brasil a partir d...
(02) entenda - excel por Lincoln T Neves
(02)   entenda - excel(02)   entenda - excel
(02) entenda - excel
Lincoln T Neves613 visualizações
Estatistica resumo por Paulo Martins
Estatistica   resumoEstatistica   resumo
Estatistica resumo
Paulo Martins9.4K visualizações

Último

Olá, acadêmico(a)! Esta atividade corresponde à Atividade de Estudos 1. Vamos... por
Olá, acadêmico(a)! Esta atividade corresponde à Atividade de Estudos 1. Vamos...Olá, acadêmico(a)! Esta atividade corresponde à Atividade de Estudos 1. Vamos...
Olá, acadêmico(a)! Esta atividade corresponde à Atividade de Estudos 1. Vamos...assessoriaeliana9
54 visualizações3 slides
Você sabia que a história da educação dos surdos no Brasil e no mundo é marca... por
Você sabia que a história da educação dos surdos no Brasil e no mundo é marca...Você sabia que a história da educação dos surdos no Brasil e no mundo é marca...
Você sabia que a história da educação dos surdos no Brasil e no mundo é marca...AcademicaDlaUnicesum
6 visualizações3 slides
1 - QUAIS FORAM AS PRÁTICAS SUGERIDAS PARA O DESENVOLVIMENTO DAS FERRAMENTAS ... por
1 - QUAIS FORAM AS PRÁTICAS SUGERIDAS PARA O DESENVOLVIMENTO DAS FERRAMENTAS ...1 - QUAIS FORAM AS PRÁTICAS SUGERIDAS PARA O DESENVOLVIMENTO DAS FERRAMENTAS ...
1 - QUAIS FORAM AS PRÁTICAS SUGERIDAS PARA O DESENVOLVIMENTO DAS FERRAMENTAS ...jafabi6513
17 visualizações2 slides
As erosões de solos podem ser compreendidas como processos de desagregação de... por
As erosões de solos podem ser compreendidas como processos de desagregação de...As erosões de solos podem ser compreendidas como processos de desagregação de...
As erosões de solos podem ser compreendidas como processos de desagregação de...AaAssessoriadll
5 visualizações2 slides
CONSIDERANDO OS EXCERTOS ANTERIORES, PARA ESSA ATIVIDADE, TE CONVIDAMOS A CON... por
CONSIDERANDO OS EXCERTOS ANTERIORES, PARA ESSA ATIVIDADE, TE CONVIDAMOS A CON...CONSIDERANDO OS EXCERTOS ANTERIORES, PARA ESSA ATIVIDADE, TE CONVIDAMOS A CON...
CONSIDERANDO OS EXCERTOS ANTERIORES, PARA ESSA ATIVIDADE, TE CONVIDAMOS A CON...jafabi6513
20 visualizações4 slides
2.2- De que forma os moradores da cidade armazenarão corretamente o óleo de c... por
2.2- De que forma os moradores da cidade armazenarão corretamente o óleo de c...2.2- De que forma os moradores da cidade armazenarão corretamente o óleo de c...
2.2- De que forma os moradores da cidade armazenarão corretamente o óleo de c...PrimeAssessoriaAcadm3
5 visualizações5 slides

Último(20)

Olá, acadêmico(a)! Esta atividade corresponde à Atividade de Estudos 1. Vamos... por assessoriaeliana9
Olá, acadêmico(a)! Esta atividade corresponde à Atividade de Estudos 1. Vamos...Olá, acadêmico(a)! Esta atividade corresponde à Atividade de Estudos 1. Vamos...
Olá, acadêmico(a)! Esta atividade corresponde à Atividade de Estudos 1. Vamos...
assessoriaeliana954 visualizações
Você sabia que a história da educação dos surdos no Brasil e no mundo é marca... por AcademicaDlaUnicesum
Você sabia que a história da educação dos surdos no Brasil e no mundo é marca...Você sabia que a história da educação dos surdos no Brasil e no mundo é marca...
Você sabia que a história da educação dos surdos no Brasil e no mundo é marca...
AcademicaDlaUnicesum6 visualizações
1 - QUAIS FORAM AS PRÁTICAS SUGERIDAS PARA O DESENVOLVIMENTO DAS FERRAMENTAS ... por jafabi6513
1 - QUAIS FORAM AS PRÁTICAS SUGERIDAS PARA O DESENVOLVIMENTO DAS FERRAMENTAS ...1 - QUAIS FORAM AS PRÁTICAS SUGERIDAS PARA O DESENVOLVIMENTO DAS FERRAMENTAS ...
1 - QUAIS FORAM AS PRÁTICAS SUGERIDAS PARA O DESENVOLVIMENTO DAS FERRAMENTAS ...
jafabi651317 visualizações
As erosões de solos podem ser compreendidas como processos de desagregação de... por AaAssessoriadll
As erosões de solos podem ser compreendidas como processos de desagregação de...As erosões de solos podem ser compreendidas como processos de desagregação de...
As erosões de solos podem ser compreendidas como processos de desagregação de...
AaAssessoriadll5 visualizações
CONSIDERANDO OS EXCERTOS ANTERIORES, PARA ESSA ATIVIDADE, TE CONVIDAMOS A CON... por jafabi6513
CONSIDERANDO OS EXCERTOS ANTERIORES, PARA ESSA ATIVIDADE, TE CONVIDAMOS A CON...CONSIDERANDO OS EXCERTOS ANTERIORES, PARA ESSA ATIVIDADE, TE CONVIDAMOS A CON...
CONSIDERANDO OS EXCERTOS ANTERIORES, PARA ESSA ATIVIDADE, TE CONVIDAMOS A CON...
jafabi651320 visualizações
2.2- De que forma os moradores da cidade armazenarão corretamente o óleo de c... por PrimeAssessoriaAcadm3
2.2- De que forma os moradores da cidade armazenarão corretamente o óleo de c...2.2- De que forma os moradores da cidade armazenarão corretamente o óleo de c...
2.2- De que forma os moradores da cidade armazenarão corretamente o óleo de c...
PrimeAssessoriaAcadm35 visualizações
Como se sabe, e muito já foi discutido pela literatura, uma das mudanças traz... por AcademicaDlaUnicesum
Como se sabe, e muito já foi discutido pela literatura, uma das mudanças traz...Como se sabe, e muito já foi discutido pela literatura, uma das mudanças traz...
Como se sabe, e muito já foi discutido pela literatura, uma das mudanças traz...
AcademicaDlaUnicesum5 visualizações
b. Dentre os procedimentos que podem ser realizados em consultório para ameni... por azulassessoriaacadem3
b. Dentre os procedimentos que podem ser realizados em consultório para ameni...b. Dentre os procedimentos que podem ser realizados em consultório para ameni...
b. Dentre os procedimentos que podem ser realizados em consultório para ameni...
azulassessoriaacadem314 visualizações
QUESTÃO 1 O DIAGRAMA DE FASES EUTÉTICO BINÁRIO REPRESENTA UM TIPO FREQUENTE D... por jafabi6513
QUESTÃO 1 O DIAGRAMA DE FASES EUTÉTICO BINÁRIO REPRESENTA UM TIPO FREQUENTE D...QUESTÃO 1 O DIAGRAMA DE FASES EUTÉTICO BINÁRIO REPRESENTA UM TIPO FREQUENTE D...
QUESTÃO 1 O DIAGRAMA DE FASES EUTÉTICO BINÁRIO REPRESENTA UM TIPO FREQUENTE D...
jafabi65136 visualizações
APN - HALV STAK REWARDS - HALVING COIN (PORTUGUES) por Danillo Luziano
APN - HALV STAK REWARDS - HALVING COIN (PORTUGUES)APN - HALV STAK REWARDS - HALVING COIN (PORTUGUES)
APN - HALV STAK REWARDS - HALVING COIN (PORTUGUES)
Danillo Luziano8 visualizações
Um conhecimento razoável de Contabilidade não é necessário apenas para quem u... por PrimeEducacional
Um conhecimento razoável de Contabilidade não é necessário apenas para quem u...Um conhecimento razoável de Contabilidade não é necessário apenas para quem u...
Um conhecimento razoável de Contabilidade não é necessário apenas para quem u...
PrimeEducacional9 visualizações
Olá, acadêmico(a)! Esta atividade corresponde à Atividade de Estudos 1. Vamos... por AssessoriaDl1
Olá, acadêmico(a)! Esta atividade corresponde à Atividade de Estudos 1. Vamos...Olá, acadêmico(a)! Esta atividade corresponde à Atividade de Estudos 1. Vamos...
Olá, acadêmico(a)! Esta atividade corresponde à Atividade de Estudos 1. Vamos...
AssessoriaDl15 visualizações
MAPA TÉCNICA DIETÉTICA.docx por jafabi6513
MAPA TÉCNICA DIETÉTICA.docxMAPA TÉCNICA DIETÉTICA.docx
MAPA TÉCNICA DIETÉTICA.docx
jafabi65135 visualizações
As tendências educacionais contemporâneas estão em constante evolução para se... por AaAssessoriadll
As tendências educacionais contemporâneas estão em constante evolução para se...As tendências educacionais contemporâneas estão em constante evolução para se...
As tendências educacionais contemporâneas estão em constante evolução para se...
AaAssessoriadll15 visualizações
Texto 01 [...] os elementos da cultura maker são decisivos para o desenvolvim... por AcademicaDlaUnicesum
Texto 01 [...] os elementos da cultura maker são decisivos para o desenvolvim...Texto 01 [...] os elementos da cultura maker são decisivos para o desenvolvim...
Texto 01 [...] os elementos da cultura maker são decisivos para o desenvolvim...
AcademicaDlaUnicesum18 visualizações
ASSIM, COM BASE NAS SEIS CARACTERÍSTICAS DE UM BOM GESTOR CITADAS POR MAXIMIA... por jafabi6513
ASSIM, COM BASE NAS SEIS CARACTERÍSTICAS DE UM BOM GESTOR CITADAS POR MAXIMIA...ASSIM, COM BASE NAS SEIS CARACTERÍSTICAS DE UM BOM GESTOR CITADAS POR MAXIMIA...
ASSIM, COM BASE NAS SEIS CARACTERÍSTICAS DE UM BOM GESTOR CITADAS POR MAXIMIA...
jafabi65135 visualizações
- Cite as cinco categorias de conteúdos de atividades de lazer apresentados p... por PrimeEducacional
- Cite as cinco categorias de conteúdos de atividades de lazer apresentados p...- Cite as cinco categorias de conteúdos de atividades de lazer apresentados p...
- Cite as cinco categorias de conteúdos de atividades de lazer apresentados p...
PrimeEducacional51 visualizações
TREINAMENTO: etapa em que deve ser capacitada e treinada a equipe que realiza... por PrimeAssessoriaAcadm3
TREINAMENTO: etapa em que deve ser capacitada e treinada a equipe que realiza...TREINAMENTO: etapa em que deve ser capacitada e treinada a equipe que realiza...
TREINAMENTO: etapa em que deve ser capacitada e treinada a equipe que realiza...
PrimeAssessoriaAcadm311 visualizações
Dia Nacional do Campo Limpo 2023 celebra um marco: desde 2002, agricultores, ... por pauladiasuni
Dia Nacional do Campo Limpo 2023 celebra um marco: desde 2002, agricultores, ...Dia Nacional do Campo Limpo 2023 celebra um marco: desde 2002, agricultores, ...
Dia Nacional do Campo Limpo 2023 celebra um marco: desde 2002, agricultores, ...
pauladiasuni10 visualizações
Por que locais com morte violenta requerem maior atenção do Perito Criminal? ... por AcademicaDlaUnicesum
Por que locais com morte violenta requerem maior atenção do Perito Criminal? ...Por que locais com morte violenta requerem maior atenção do Perito Criminal? ...
Por que locais com morte violenta requerem maior atenção do Perito Criminal? ...
AcademicaDlaUnicesum10 visualizações

Análise de correlação

  • 1. Análise de correlação Introdução Nesta unidade serão estudados os princípios da análise de correlação e de regressão. Estas técnicas estatísticas são apropriadas para analisar o relacionamento entre variáveis de qualquer natureza. No nosso caso, estamos interessados no relacionamento entre variáveis do agronegócio, sejam elas de natureza econômica, financeira ou contábil. A análise de correlação tem por objetivo apenas medir o grau de relacionamento entre variáveis, enquanto a análise de regressão estabelece uma relação de dependência entre as variáveis e desenvolve métodos para estimar, com base em uma amostra de dados, os parâmetros que caracterizam essa relação. Correlação e regressão são técnicas bastante relacionadas e, de certa forma, complementares em muitos aspectos. Podemos estar interessados, por exemplo, no relacionamento entre o preço a vista e o preço futuro de café, entre gastos com propaganda e volume de vendas de uma empresa, ou entre salário do trabalhador e seu nível educacional. Pela correlação, vamos procurar medir o grau de relacionamento entre as variáveis, que será dado pelo coeficiente de correlação. Este coeficiente vai nos dizer se a relação é forte ou fraca e se é no mesmo sentido ou em sentido contrário. Já a regressão procura estimar o relacionamento entre as variáveis por meio de uma equação matemática que melhor descreve a relação. Embora a análise de correlação e de regressão lide com a dependência de uma variável em relação a outra, elas não implicam necessariamente relação de causalidade de uma variável para outra. A especificação das variáveis a serem analisadas tanto na correlação quanto na regressão deve ser feita com base na teoria subjacente ou no conhecimento a priori relacionado com a área em estudo. Um relacionamento forte entre as variáveis não identifica uma relação causa-efeito. Isto significa que, estatisticamente, podemos relacionar qualquer coisa, mas, na prática, só devemos relacionar aquilo que faz sentido de acordo com nosso conhecimento do problema. Nos 1
  • 2. estudos relacionados com o agronegócio, vamos usar com freqüência a teoria econômica para estabelecer relações causais a serem investigadas pela estatística. Os dados utilizados em análise empírica de correlação e regressão podem ser de série temporal ou de seção cruzada. Os dados de série temporal são aqueles coletados para períodos de tempo sucessivos e regulares. O período pode ser ano, mês, semana, dia, etc. Por exemplo, dados referentes à área, produção e produtividade de milho em Minas Gerais no período de 1980 a 2000 e dados mensais de preços de milho, arroz e feijão no mercado atacadista de Belo Horizonte, no período de janeiro de 1990 a dezembro de 2000, são dados de série temporal. Os dados de seção cruzada, também chamados de dados de corte seccional, são dados referentes a uma ou mais variáveis coletados em unidades amostrais (família, consumidor, firma, propriedade rural, estado, região, país) no mesmo período de tempo. Por exemplo, dados sobre a produção de soja, milho e trigo nos municípios do Estado do Paraná em 2000, ou dados sobre a produção diária de leite, número de vacas em lactação, número de empregados permanentes e quantidade usada de ração, coletados de uma amostra de 200 produtores de Minas Gerais em julho de 2000, são dados de seção cruzada. É possível combinar dados de seção cruzada e de série temporal para análise estatística. Neste caso, refere-se a dados de combinação de série temporal e seção cruzada. Quando as unidades amostrais de seção cruzada são as mesmas ao longo do tempo, denomina-se dados em painel. Tanto os dados de série temporal quanto os de seção cruzada podem ser de natureza quantitativa ou qualitativa. Dado quantitativo é aquele que se apresenta na forma numérica, como renda, produção, preço, etc. Já o dado qualitativo é aquele expresso na forma de um atributo ou uma característica qualitativa da unidade de observação. Normalmente, este dado refere-se à presença ou ausência de uma característica, ou à tomada ou não de uma decisão, como, por exemplo, dado referente a homem ou mulher, a casado ou solteiro, a empregado ou desempregado, ao setor rural ou setor urbano, se adota ou não adota certa tecnologia, se período com ou sem tabelamento de preços, se período com ou sem acordo comercial, etc. Os dados para a análise de correlação e de regressão provêm de observações de variáveis emparelhadas. É preciso ter várias observações (amostra) de cada variável. Por exemplo, um estudo com dados de seção cruzada sobre empresas do setor de alimentos pode focalizar volume de vendas, número de empregados, gastos com propaganda e 2
  • 3. parcela de mercado. Cada observação, que representa os dados de cada empresa, é composta de quatro valores, um para cada variável. Pode-se imaginar os dados dispostos em uma planilha em que as linhas são as observações e as colunas representam as variáveis. Objetivos específicos Ao finalizar esta unidade, você deverá ser capaz de: ⇒ Entender o significado e a finalidade da análise de correlação e de regressão. ⇒ Relacionar e explicar as premissas ou pressuposições fundamentais da análise de correlação e de regressão. ⇒ Diferenciar análise de correlação de análise de regressão. ⇒ Entender que o modelo de regressão linear pode ser usado para estimar vários tipos de modelos não-lineares. ⇒ Entender as limitações da análise de correlação e de regressão. ⇒ Calcular coeficientes de correlação e estimar modelos de regressão para análise de relações entre variáveis. ⇒ Entender e ser capaz de explicar resultados de análise de correlação e de regressão. 1. Análise de correlação 1.1. Introdução A estatística fornece vários métodos para se medir a associação entre variáveis, sendo a correlação um dos mais simples destes métodos. A análise de correlação constitui uma técnica própria de análise estatística com aplicações em inúmeras áreas. A correlação é intimamente ligada à regressão. O entendimento dos conceitos de correlação facilita muito o estudo das técnicas de regressão. 3
  • 4. 1.2. O significado da correlação entre variáveis O termo “correlação” significa literalmente “co-relacionamento” e indica até que ponto os valores de uma variável estão relacionados com os de outra. Na análise de correlação procura-se uma medida que “sintetize” o grau de relacionamento entre as variáveis. Tem-se um relacionamento forte entre duas variáveis sempre que valores altos de uma estejam relacionados com valores também altos ou baixos da outra variável. Por outro lado, se valores altos de uma variável ocorrem em conjunto com valores altos e baixos da outra variável, o grau de relacionamento entre elas não é forte. Muitos exemplos podem ser dados de variáveis que apresentam certo tipo de relacionamento: a) grau de escolaridade e nível de renda; b) notas de microeconomia e notas de matemática; c) idade e resistência física; d) produtividade e quantidade utilizada de fertilizante; e) idade e altura de uma planta; f) tempo depois do corte e resistência física da madeira; g) preço em nível de consumidor (varejo) e em nível de atacado; h) tamanho da propriedade e consumo de energia elétrica; i) preço e quantidade demandada de certa mercadoria; j) ordem de classificação em um concurso e sucesso profissional. O interesse de se conhecer melhor o relacionamento entre variáveis, como os casos citados anteriormente, conduz naturalmente à análise de correlação. O resultado é uma medida do grau de correlação, denominada “coeficiente de correlação”. A principal utilidade da medida de correlação é que se pode dizer o que se espera para uma variável com base no conhecimento de outra. Pode-se inferir uma com base na outra. Contudo, chama-se a atenção para o fato de que esse processo de inferência não significa que uma variável “causa” a outra. Ou seja, não implica, em hipótese alguma, a existência de relação causal entre as variáveis. Apenas o relacionamento esperado é indicado pela análise de correlação. Por exemplo, se existir um relacionamento forte na mesma direção entre grau de escolaridade e renda, só se pode inferir que pessoas com grau de instrução formal mais elevado deverão apresentar também níveis de renda mais altos. 1.3. Formas de correlação A correlação entre duas variáveis (X e Y) pode ser de várias formas: 4
  • 5. a) Correlação linear - quando todos os pontos (X, Y) colocados num diagrama de dispersão tendem a se concentrar ao longo de uma reta. b) Correlação não-linear - quando os pontos (X, Y) tendem a se concentrar em torno de uma curva. c) Correlação positiva - duas variáveis apresentam correlação positiva se elas tendem a mudar na mesma direção, ou seja, aumentam ou diminuem ao mesmo tempo. Exemplo deste tipo de correlação é a relação entre preço e quantidade ofertada (Figuras 2.1 e 2.2). Figura 2.1 - Correlação positiva linear. Figura 2.2 - Correlação positiva não-linear. d) Correlação negativa - neste caso, as variáveis tendem a mudar em direções opostas. Por exemplo, preço e quantidade demandada (Figuras 2.3 e 2.4). Figura 2.3 - Correlação negativa linear. Figura 2.4 - Correlação negativa não-linear. 5 . .. .. . . .. .. . . .. .. . . .. .. . . .. .. . . .. .. . . .. .. . . .. .. . . .. .. . . .. .. . . .. .. . . .. .. . . .. .. . . .. .. . . .. .. . . .. .. . . .. .. . . .. .. . .. .. . .. .. . .. .. . . .. .. . . .. .. . . .. .. . . .. .. . 0 X Y X Y 0 . .. .. . . .. .. . . .. .. . . .. .. . . .. .. . . .. .. . . .. .. . . .. .. . . .. .. . . .. .. . . .. .. . . .. .. . . .. .. . . .. .. . . .. .. . . .. .. . . .. .. . . .. .. . . .. .. . . .. .. . .. .. . . .. .. . .. .. . .. .. . . .. .. . . .. .. . . .. .. . . .. .. . . .. .. . . .. .. . . .. .. . . .. .. . . .. .. . . .. .. . . .. .. . X0 0 Y Y X
  • 6. e) Não-correlação ou correlação nula - duas variáveis são não-correlacionadas quando não é possível identificar nenhuma conexão entre elas. O diagrama de dispersão não apresenta forma definida (Figura 2.5). Figura 2.5 - Correlação nula. A correlação entre duas variáveis também será nula quando uma delas não apresentar variação, ou seja, assumir um valor constante (Figura 2.6). Figura 2.6 - Correlação nula. Quando, porventura, todos os pontos (X, Y) se localizarem exatamente sobre uma reta ou uma curva, diz-se que a correlação é perfeita. Quando a maioria dos pontos se concentra ao longo da reta ou da curva, a correlação será forte; caso contrário, a correlação será fraca. A teoria da correlação desenvolve medidas próprias e diretas somente para a correlação linear. A correlação não-linear é estudada de forma indireta através de 6 .......................... . .... ................. .......... X X0 0 Y (a) (b) Y .. . . .. . . . .. . . . . .. . . .. . .. . . .. . .. .. .. . . . . . . . . . . . Y X 0 . .
  • 7. transformações ou com uso de ajustamento de relações entre as variáveis. A seguir serão desenvolvidas medidas de correlação linear. 1.4. Correlação linear simples Na correlação linear simples procura-se medir o grau de relacionamento linear entre duas variáveis. A medida usada é o “coeficiente de correlação”. Coeficiente de correlação A correlação se refere ao grau de relacionamento entre as variáveis. A medida desse grau é feita pelo coeficiente de correlação. Dadas duas variáveis (X e Y) definidas para uma amostra de tamanho n, o coeficiente de correlação linear (rXY) é calculado com a seguinte fórmula:               −               − − ∑∑∑ ∑ ∑ ∑ ∑ === = = = = 2n 1i i n i 2 i n 1i 2n 1i i 2 i n 1i n 1i n 1i iiii XY YYnXXn YXYXn =r . (2.1) Propriedades do coeficiente de correlação 1. O coeficiente de correlação independe das unidades de medida das variáveis; é um número adimensional que varia entre –1 e +1, isto é, -1 ≤ r ≤ + 1. 2. O coeficiente de correlação de uma variável e ela mesma é igual a +1. 3. A permutação das variáveis não altera o resultado do coeficiente de correlação, isto é, rXY = rYX. 4. Somando-se ou subtraindo-se uma constante a uma ou a ambas as variáveis, o coeficiente de correlação não se altera. 5. Multiplicando-se ou dividindo-se uma ou ambas as variáveis por uma constante, o coeficiente de correlação não se altera. Interpretação do coeficiente de correlação Os valores possíveis do coeficiente de correlação limitados no intervalo –1 e +1 apresentam os seguintes significados: 1. r = +1: correlação positiva perfeita. Existe uma relação linear perfeita entre as variáveis cujos pares de valores se situam numa reta com inclinação positiva. 7
  • 8. 2. r próximo de +1: correlação positiva forte. A maioria dos pares de valores das variáveis se situa próxima a uma reta com inclinação positiva. 3. r positivo e próximo de zero: correlação positiva fraca. Os pares de valores formam uma nuvem de pontos com ligeira tendência de inclinação positiva. 4. r = 0: correlação nula. Os pares de valores formam uma nuvem de pontos sem nenhuma tendência de inclinação positiva ou negativa. As variáveis tendem a variar sem nenhuma relação uma com a outra. 5. r negativo e próximo de zero: correlação negativa fraca. Os pares de valores formam uma nuvem de pontos com ligeira tendência de inclinação negativa. 6. r próximo de -1: correlação negativa forte. A maioria dos pares de valores das variáveis se situa próxima a uma reta com inclinação negativa. 7. r = -1: correlação negativa perfeita. Existe uma relação linear perfeita entre as variáveis cujos pares de valores se situam numa reta com inclinação negativa. Normalmente, alerta-se para o fato de que um coeficiente de correlação igual a zero indica ausência de correlação linear entre as variáveis. Pode ocorrer, no entanto, que as variáveis sejam relacionadas, porém não linearmente. O coeficiente de correlação linear simples sempre se refere a duas variáveis. Num estudo com mais de duas variáveis podemos calcular o coeficiente para diferentes pares de variáveis. Neste caso, os coeficientes de correlação são organizados em uma tabela denominada matriz de correlação de tamanho definido pelo número de variáveis. Para quatro variáveis, X, Y, Z e W, por exemplo, os possíveis coeficientes de correlação das quatro variáveis tomadas duas a duas podem ser registrados como na Tabela 2.1. Tabela 2.1 - Coeficientes de correlação linear simples entre as variáveis X, Y, Z e W X Y Z W X rXX rXY rXZ rXW Y rYX rYY rYZ rYW Z rZX rZY rZZ rZW W rWX rWY rWZ rWW 8
  • 9. Observando-se que o coeficiente de correlação de uma variável com ela mesma é igual a + 1 e que a permutação das variáveis não altera o resultado do coeficiente, a Tabela 2.1 pode ser simplificada como se apresenta na Tabela 2.2. Tabela 2.2 - Coeficientes de correlação linear simples entre as variáveis X, Y, Z e W X Y Z W X 1 Y rYX 1 Z rZX rZY 1 W rWX rWY rWZ 1 Na prática, o cálculo do coeficiente de correlação é feito a mão, com o auxílio de uma calculadora, ou pelo computador. As planilhas eletrônicas e os programas estatísticos calculam coeficientes de correlação como procedimentos rotineiros. Como exemplo, apresentamos, a seguir, o cálculo do coeficiente de correlação entre duas variáveis X e Y, com o detalhamento dos cálculos dos componentes da fórmula. Exemplo 2.1 Calcular o coeficiente de correlação entre as variáveis X e Y registradas na Tabela 2.3. 9
  • 10. Tabela 2.3 - Cálculo do coeficiente de correlação entre as variáveis X e Y OBS. Xi Yi XiYi 2 iX 2 iY 1 6.5 16 104 42.25 256 2 5.5 13 71.5 30.25 169 3 5.5 15 82.5 30.25 225 4 5.5 14 77 30.25 196 5 4.5 10 45 20.25 100 6 2.5 8 20 6.25 64 7 3.5 14 49 12.25 196 8 2.5 9 22.5 6.25 81 9 3.0 10 30 9.0 100 10 2.5 8 20 6.25 64 11 4.5 13 58.5 20.25 169 12 4.5 13 58.5 20.25 169 13 5.5 13 71.5 30.25 169 14 2.5 6 15 6.25 36 15 3.5 11 38.5 12.25 121 SOMA 62 173 763.5 282.50 2115 Aplicando a fórmula 2.1, tem-se: 86,0 )173()2115)(15()62()5,282)(15( )173)(62()5,763)(15( r 22XY = −− − = . O coeficiente de correlação de 0,86 é relativamente alto, indicando correlação positiva e forte entre as variáveis. O resultado indica, então, que existe forte associação positiva entre as variáveis. Assim, pode-se dizer que, à medida que X aumenta, Y também aumenta, e à medida que X diminui, Y também diminui. As variáveis tendem a variar juntas e no mesmo sentido. No exemplo 2.2 analisa-se a correlação entre quatro variáveis, cujo resultado é apresentado em forma de matriz na Tabela 2.5. Exemplo 2.2 Os dados da Tabela 2.4 referem-se ao preço da soja recebido pelos agricultores (R$/t), preço do milho recebido pelos agricultores (R$/t), salário de tratorista (R$/mês) e preço de fertilizante (índice). Todos os preços foram deflacionados pelo IGP/FGV, 10
  • 11. base dezembro de 1999. O cálculo do coeficiente de correlação entre os pares de variáveis encontra-se na Tabela 2.5. Tabela 2.4 - Preço da soja (PRSO), preço do milho (PRMI), salário de tra-torista (SATO) e preço de fertilizante (PRFE) no Estado do Paraná, 1986-1999 ANO PRSO PRMI SATO PRFE 1986 577.89 364.43 358.22 74.64 1987 483.89 230.60 328.53 77.15 1988 366.60 183.59 224.20 142.22 1989 384.89 205.11 494.61 86.98 1990 268.89 204.42 280.32 110.00 1991 369.89 217.95 300.02 109.63 1992 289.26 175.73 332.03 116.64 1993 321.06 164.58 389.11 176.30 1994 278.24 146.37 315.54 180.68 1995 224.14 126.04 266.19 168.92 1996 285.64 156.00 265.14 160.55 1997 301.84 120.27 265.71 167.96 1998 250.47 134.70 272.06 173.83 1999 264.17 147.27 262.67 162.35 Fonte: FNP (2000). Tabela 2.5 - Matriz de correlação entre preço da soja (PRSO), preço do mi-lho (PRMI), salário de tratorista (SATO) e preço de fertilizan-te (PRFE) no Estado do Paraná, 1986-1999 PRSO PRMI SATO PRFE PRSO 1.000000 PRMI 0.898984 1.000000 SATO 0.404765 0.374035 1.000000 PRFE -0.772708 -0.821557 -0.464695 1.000000 11
  • 12. Verifica-se que o preço da soja e o preço do milho apresentam correlação alta e positiva (rPRSO,PRMI = 0,899). O preço da soja e o salário de tratorista apresentam correlação positiva moderada a fraca (rPRSO,SATO = 0,405). Já o preço da soja e o preço do fertilizante apresentam correlação negativa e relativamente forte (rPRSO,PRFE = -0,773). O preço do milho e o salário de tratorista também apresentam fraca correlação positiva (rPRMI,SATO = 0,374). O milho também apresenta preços correlacionados negativamente com o preço do fertilizante e com grau forte (rPRMI,PRFE = -0,822). Por fim, o salário de tratorista e o preço do fertilizante apresentam correlação negativa e relativamente fraca (rSATO,PRFE = -0,465). Teste estatístico de r A conclusão de que a correlação é forte ou fraca é de caráter dúbio. Não se sabe qual valor pode ser considerado baixo para caracterizar uma correlação fraca entre as variáveis e, da mesma forma, qual valor é alto para caracterizar uma correlação forte. Um teste estatístico do coeficiente pode auxiliar na interpretação de seu valor. Realizando um teste para verificar se o coeficiente é estatisticamente igual a zero, podemos ter suporte para afirmar que valores baixos de r podem ser considerados estatisticamente iguais a zero, ou que valores não muito altos de r podem ser considerados estatisticamente diferentes de zero. Para efetuar o teste estatístico é necessário conhecer a distribuição amostral de r. Admitindo que X e Y são variáveis aleatórias com distribuição normal bivariada, pode-se mostrar que a distribuição de r é uma distribuição de t. O teste para verificar se o coeficiente é estatisticamente igual a zero, que significa ausência de associação linear entre X e Y, consiste no cálculo de um valor de t dado por: ( ) 2-n2cal t~ )2n/(r-1 r =t − . (2.2) isto é, a variável tcal segue uma distribuição t de Student com n-2 graus de liberdade. Dessa forma, pode-se usar a distribuição de t para estabelecer a significância ou não- significância estatística de r. 12
  • 13. Exemplo 2.3 Suponha que, com base em uma amostra de 20 observações de preços e quantidades vendidas, calculou-se r = 0,62. Deseja-se testar se essa estimativa é estatisticamente igual a zero. Ou seja, pode-se inferir, em dado nível de significância, que as variáveis não são relacionadas? Calcula-se: Figura 2.7 - Distribuição de “t” e regiões de rejeição de H0. ( ) 3,353= )220/(0,62-1 0,62 =t 2cal − 13 0,025 0,025 RA H0 0,95 Região Crítica RRH0 Região Crítica t = - 2,10t = - 2,10 X σ μ-X t =
  • 14. Examinando a tabela de t para 18 graus de liberdade, verifica-se que tα/2 = 2,10 para α = 0,05. Graficamente, representa-se a distribuição de “t” com as regiões de rejeição da hipótese nula como na Figura 2.7. Cada área hachurada representa 2,5% de probabilidade. Estas áreas constituem o que se denomina região de rejeição da hipótese nula. Quando a estatística de teste calculada cai na área de rejeição, rejeita-se a hipótese estabelecida (hipótese nula); caso contrário, aceita-se. No caso, como tcal = 3,35 > tα/2 = 2,10, conclui-se que o coeficiente r = 0,62 é estatisticamente diferente de zero e que as variáveis preço e quantidade vendida são correlacionadas. Então, o teste estatístico dá suporte para interpretar o coeficiente r = 0,62 como um grau de correlação relativamente forte. Exemplo 2.4 Suponha que, com base em uma amostra de 20 observações de produção e volume de crédito utilizado, calculou-se r = 0,32. Deseja-se testar se essa estimativa é estatisticamente igual a zero. Ou seja, pode-se inferir, em nível de significância de 5%, que as variáveis não são relacionadas? Calcula-se: ( ) 1,33= )220/(0,30-1 0,30 =t 2cal − . Como tcal = 1,33 < tα/2 = 2,10, conclui-se que o coeficiente r = 0,30 é estatisticamente igual a zero e que as variáveis produção e volume de crédito utilizado não são correlacionadas. Então, o teste estatístico dá suporte para interpretar o coeficiente r = 0,30 como um grau de correlação fraco e praticamente nulo. 1.5. Correlação parcial A correlação simples, vista anteriormente, mede o grau de associação entre duas variáveis, desconsiderando a presença de outras variáveis, isto é, o coeficiente de correlação linear simples pode ser visto como uma medida da correlação “total” ou “bruta” entre duas variáveis. Um estudo normalmente envolve mais de duas variáveis e pode ser de interesse o conhecimento da correlação entre duas variáveis isolando o efeito das outras sobre estas. Este seria o caso do cálculo da correlação parcial. 14
  • 15. O coeficiente de correlação parcial mede o grau de associação entre duas variáveis mantendo constante as outras variáveis. Simbolicamente, supõe-se que existem três variáveis X1, X2 e X3. A correlação parcial entre X1 e X2, por exemplo, mede a associação entre elas independentemente da relação de X3 com X1 e de X3 com X2. Ou seja, controla-se o efeito de X3. Exemplo 2.5 Considere a produção de leite e as variáveis: X1 = produtividade (litros/vaca/dia), X2 = número de vacas em lactação e X3 = quantidade de concentrado (kg/vaca/dia) e X4 = índice de carga genética. A correlação linear simples entre essas variáveis mede o grau de relacionamento entre elas duas a duas, sem considerar a presença das outras. Já a correlação parcial mede o grau de relacionamento entre duas delas mantendo-se constante o nível das outras. Tanto a produtividade quanto a resposta à quantidade de concentrado estão relacionadas com a carga genética. Uma medida da correlação pura entre produtividade e uso de concentrado é obtida pela correlação parcial em que a influência de X4 é isolada de ambas as variáveis. Ou seja, mantém-se fixo o efeito de carga genética. De forma semelhante, pode-se medir a correlação parcial entre produtividade e uso de concentrado mantendo-se constante o número de vacas em lactação e a carga genética. Neste caso, são controlados os efeitos de duas variáveis. Quando se estuda a correlação parcial há necessidade de definir a “ordem” da correlação. Por ordem entende-se o número de variáveis controladas no cálculo da correlação. Como referência, o coeficiente de correlação simples é definido como “coeficiente de correlação de ordem zero”. Se existem três variáveis, X1, X2 e X3, pode- se definir três coeficientes de ordem zero: r12 = coeficiente de correlação entre X1 e X2. r13 = coeficiente de correlação entre X1 e X3. r23 = coeficiente de correlação entre X2 e X3. Escolhendo X3 como a variável de controle, define-se: r12.3 = coeficiente de correlação entre X1 e X2 mantendo-se X3 constante. Similarmente, pode-se definir r13.2 e r23.1, que são denominados “coeficientes de correlação de primeira ordem”. A mesma idéia pode ser expandida para o caso em que estão envolvidas mais de três variáveis. Assim, pode-se definir: r12.34 = coeficiente de correlação entre X1 e X2, 15
  • 16. mantendo-se constante X3 e X4. Este é um coeficiente de correlação de “segunda ordem”. Coeficientes de correlação parcial de ordens superiores podem ser definidos facilmente. O cálculo dos coeficientes de correlação parcial é feito por meio de fórmulas próprias. O coeficiente de correlação parcial de determinada ordem pode ser calculado através dos coeficientes de ordem inferior. Para o caso de três variáveis, o coeficiente de correlação de primeira ordem pode ser calculado em função dos coeficientes de correlação simples, ou de ordem zero. Por exemplo, o coeficiente de correlação parcial entre X1 e X2 mantendo-se constante X3 é dado por: ( )( )2 23 2 13 231312 3.12 r-1r-1 rr-r =r (2.3) Esta fórmula pode ser generalizada para qualquer correlação parcial, envolvendo três variáveis. Fazendo i, j, k = 1, 2, 3, tem-se: ( )( )2 jk 2 ik jkikij k.ij r-1r-1 rr-r =r (2.4) Dessa forma, vê-se que o coeficiente de correlação parcial de determinada ordem é calculado em função dos coeficientes de ordem imediatamente inferior. Para o caso de mais de três variáveis, podemos calcular o coeficiente de correlação parcial entre duas variáveis controlando para mais de uma variável. Desejando-se, por exemplo, o coeficiente de correlação parcial entre X1 e X2 mantendo constante X3 e X4, a fórmula seria dada por: ( )( ) ( )( )r-1r-1 rr-r = r-1r-1 rr-r =r 2 24.3 2 14.3 3.2414.312.3 2 23.4 2 13.4 4.2313.412.4 34.12 (2.5) Para se calcular, então, r12.34, seria necessário calcular primeiro os coeficientes de ordem zero, tipo r12, r23, etc., depois os de primeira ordem, tipo r12.3, r23.4, etc. 16
  • 17. O coeficiente de correlação parcial também varia de -1 a +1 e apresenta interpretação semelhante ao coeficiente de correlação simples, desde que ressaltado o aspecto da variável ou das variáveis de controle. Exemplo 2.6 Considere uma amostra de 10 crianças cujos dados referentes a peso (kg), altura (cm) e idade (anos) são apresentados na tabela a seguir. Peso (X1) 30 32 24 30 26 35 25 23 35 31 Altura (X2) 145 150 125 157 127 140 132 107 155 145 Idade (X3) 7 10 7 11 8 10 10 6 12 9 A aplicação da fórmula 2.1 fornece os seguintes resultados para os coeficientes de correlação simples ou de ordem zero: r12 = 0,81, r13 = 0,70 e r23 = 0,78. Com base nesses resultados, podemos calcular os coeficientes de correlação parcial de primeira ordem aplicando a fórmula 2.3. Obtém-se: r12.3 = 0,58, r13.2 = 0,19 e r23.1 = 0,51. Observa- se que, duas a duas, as variáveis peso, altura e idade apresentam correlações altas, acima de 0,70. Quando se controla o efeito de uma das variáveis, a correlação diminui. Verifica-se que o coeficiente de correlação linear simples entre peso e altura é r12 = 0,81 enquanto o coeficiente de correlação linear parcial entre peso e altura para crianças com a mesma idade é r12.3 = 0,58. Este valor representa o coeficiente de correlação linear entre peso e altura retirando-se o efeito de idade sobre peso e sobre altura. De forma semelhante, tem-se que o coeficiente de correlação linear simples entre peso e idade é r13 = 0,70, enquanto o coeficiente de correlação linear parcial entre peso e idade para crianças com a mesma altura cai para r13.2= 0,19, significando que existe fraca relação entre peso e idade para crianças de mesma altura. Por fim, o coeficiente de correlação linear simples entre altura e idade é r13 = 0,78, enquanto o coeficiente de correlação linear parcial entre altura e idade para crianças com o mesmo peso é r23.1 = 0,51, significando que existe relação não muito forte entre peso e idade para crianças de mesma altura. O teste de significância do coeficiente de correlação parcial é feito da mesma maneira que o do coeficiente de correlação simples. 17
  • 18. 1.6. Correlação múltipla À medida que se aprofunda na análise de correlação, distanciando da correlação simples, torna-se necessário usar conceitos da análise de regressão ou, mais especificamente, torna-se necessário usar o conceito de uma relação funcional linear entre as variáveis. A correlação múltipla envolve no mínimo três variáveis. Um relacionamento forte entre estas variáveis tomadas em conjunto pode ser entendido como um ajustamento bom de um plano em três dimensões. No caso de três variáveis X1, X2 e X3, por exemplo, pode-se estabelecer a relação X1 = a + bX2 + cX3 + e (2.6) em que a, b e c são parâmetros da relação e e é um erro aleatório. Se esta relação apresentar bom ajustamento aos dados, conclui-se que as variáveis têm alto grau de correlação múltipla. Qualquer uma das variáveis poderá ser escolhida como variável dependente. Todas são supostas aleatórias e a relação causal implícita pela relação não é relevante. O objetivo não é explicar o comportamento de X1, na relação anterior, mas apenas verificar o grau de associação linear entre as três variáveis. Para um número maior de variáveis o raciocínio é semelhante. Considerando três variáveis, o coeficiente de correlação múltipla pode ser calculado pela seguinte fórmula: 2 23 231312 2 13 2 12 23.1 r-1 rr2r-r+r =R (2.7) O valor de R1.23 varia de 0 a 1 e indica o grau da associação linear entre X1, X2 e X3 quando X1 é tomada como dependente. Este coeficiente pode ser visto, também, como um indicador do grau de relacionamento entre X2 e X3, tomadas como um grupo, e X1. O coeficiente de correlação múltipla pode ser calculado também como a raiz quadrada do coeficiente de determinação (R2 ) do modelo de regressão 2.6. 1.7. Correlação por posto ou correlação ordinal 18
  • 19. A análise de correlação pode ser aplicada também a variáveis de natureza qualitativa quando se pode dispor os valores em ordem de importância, de preferência, de ocorrência, ou qualquer outro critério de julgamento. Os valores das variáveis serão dados, neste caso, pelos números 1, 2, 3, ..., n, os quais indicam ordem, posição ou posto ocupado por cada um desses valores em relação aos demais. A medida de correlação, nesse caso, indica o grau de relacionamento entre as ordenações das variáveis, e, por isso, é denominada correlação por postos ou correlação ordinal. A correlação por posto se aplica principalmente às situações em que as variáveis são por natureza qualitativas, como preferência por diferentes tipos de produtos, julgamento de concurso, classificação em provas esportivas etc. Contudo, pode-se fazer a análise de correlação por posto também com variáveis quantitativas, desde que transformadas em escala ordinal. O objetivo do cálculo de um coeficiente de correlação, nesses casos, é determinar se as variáveis tendem a apresentar associação entre suas ordenações. Em princípio, qualquer variável quantitativa pode ser convertida em escala ordinal ou postos. O contrário não é, normalmente, possível, a menos que seja associada à ordem uma escala numérica qualquer. O objetivo da correlação por posto é fornecer uma medida que indique o grau de concordância entre os dois conjuntos de ordens de preferência. Coeficiente de correlação de Spearman O método desenvolvido por Spearman calcula o coeficiente de correlação por posto pela seguinte fórmula: 1)-n(n d6 -1=r 2 n 1=i 2 i s ∑ (2.8) em que d = diferença entre os postos de pares de valores correspondentes; e n = número de observações. O coeficiente rs assume valores compreendidos no intervalo [-1, +1], isto é, - 1 ≤ rs ≤ 1 19
  • 20. e deve ser interpretado da mesma forma que o coeficiente de correlação simples. Quando rs é próximo de +1, há alto grau de concordância entre as ordenações. Quando rs se aproxima de -1, há alto grau de discordância entre as classificações. E, quando rs é próximo de zero, não existe associação relevante entre os conjuntos de ordenações. A significância estatística do coeficiente de Spearman pode ser testada observando que a distribuição de rs pode ser aproximada por uma distribuição normal, com média zero e desvio-padrão 1-n1/=rsσ , isto é: rs ∼ N ( )1)-1/(n0, . Calcula-se a estatística de teste 1nr= r =Z s r s s − σ (2.9) que deve ser comparada com valores tabulares da distribuição normal padronizada. Para um nível de significância α = 5%, o valor da tabela e ±1,96 e a hipótese nula deve ser aceita se -1,96 ≤ Z ≤ +1,96. Este teste é considerado aceitável quando n > 10. Exemplo 2.7 Como exemplo de variáveis ordinais, considere a preferência dos eleitores por candidatos à Presidência da República. Considere dois grupos de eleitores: homens e mulheres. Ambos os grupos possuem características socioeconômicas semelhantes. Suponha a existência de 10 candidatos, designados por A, B, C, D, ..., J. Usando qualquer processo, os dois grupos classificam os candidatos em ordem de preferência dando a cada candidato um número de 1 a 10, referente à ordem de preferência. Considere os resultados da Tabela 2.6. Tabela 2.6 - Ordem de preferência de eleitores homens e mulheres para diferentes candidatos 20
  • 21. Candidato Homens Mulheres d d2 A 8 9 -1 1 B 3 5 -2 4 C 9 10 -1 1 D 2 1 1 1 E 7 8 -1 1 F 10 7 3 9 G 4 3 1 1 H 6 4 2 4 I 1 2 -1 1 J 5 6 -1 1 O coeficiente de correlação ordinal é dado por: ( ) 990 144 -1= 1-1010 6.24 -1= 2sr (2.10) rs = 0,855 Este valor indica que há correlação ordinal alta, ou seja, há boa concordância entre as preferências dos homens e das mulheres pelos candidatos. Para testar a significância estatística de rs = 0,885, calcula-se: Z = 0,855 110 − = 0,855 ⋅ 3 Z = 2,565. Como Z = 2,565 > 1,96 rejeita-se a hipótese nula de que o coeficiente é estatisticamente igual a zero. 1) Considere as seguintes variáveis: X1 = Exportações do Estado de São Paulo para outros estados; 21
  • 22. X2 = Renda dos estados importadores; X3 = Distância entre a cidade de São Paulo e as demais capitais. Com base em uma amostra de dados, obteve-se a seguinte matriz de correlação: X1 (exportações) X2 (renda) X3 (distância) X1 (Exportações) 1 0,74 -0,55 X2 (Renda) 0,74 1 -0,67 X3 (Distância) -0.55 -0,67 1 Interprete os resultados obtidos. 2) Com base nos dados do exercício anterior, calculou-se o coeficiente de correlação parcial entre exportações e renda, isolando-se a influência da distância. Obteve-se r12.3 = 0,69. Interpretar esta estimativa. 22