Este documento apresenta os conceitos e técnicas de regressão linear simples utilizando o software estatístico R. A análise é aplicada a um conjunto de dados sobre tartarugas nas ilhas Galápagos e estima a relação entre número de espécies e espécies endêmicas. Os resultados são analisados por meio de gráficos, testes estatísticos e intervalos de confiança para avaliar a significância do modelo.
Modelo de regressão linear: aspectos teóricos e computacionais
1.
2. Introdução A finalidade de uma equação de regressão seria então estimar valores de uma variável, com base em valores conhecidos da outra; Um economista pode tentar explicar as variações na procura de automóveis usados em termos de desemprego; Um agricultor pode suspeitar que a quantidade de fertilizante por ele usada tenha influenciado a safra; Dentro desse contexto, o objetivo desta monografia foi demonstrar as técnicas de análise de regressão dentro de uma abordagem teórica e computacional, utilizando o software estatístico R.
3.
4.
5. Se apenas uma variável explicativa é observada, temos: Os erros também podem ser devido a erros obtidos no processo de Mensuração da variável dependente. Modelo Estatístico Assim, o modelo ficaria:
6.
7. X Y Coeficiente angular Regressão Linear Simples Inclinação populacional Intercepto populacional Erro Aleatório Variável Independente Variável Dependente
8. Ao estabelecer o modelo de regressão linear simples, pressupomos que: A relação entre X e Y é Linear; Os valores de X são fixos, isto é, X não é uma variável aleatória; A média dos erros é nula, isto é: Para um dado valor x de X, a variância dos erros é sempre denotada variância residual, dizemos que o erro é homocedástico; O erro em uma observação é não correlacionado com o erro em qualquer outra observação; Os erros têm distribuição normal. Suposições do modelo
9. Os estimadores de e Uma vez que o modelo foi especificado e as suposições foram feitas, devemos estimar os parâmetros da regressão, e . Dados n pares de observações das var. X e Y, i=1,2,...,n, queremos encontrar uma equação do tipo: onde e são os estimadores de , e . Para cada par observado podemos estabelecer a seguinte relação: Resíduo
10. Os estimadores de e Na estimação por mínimos quadrados, queremos encontrar e que minimizam a soma dos quadrados dos resíduos. Ou seja, queremos tornar mínima a expressão: Para minimizar esta expressão em e , temos as derivadas em relação a e :
12. Coeficiente de Determinação O coeficiente de determinação ou simplesmente . É uma medida da proporção da variabilidade em uma variável que é explicada pela variabilidade da outra. Definimos o coeficiente de determinação ou explicação do modelo, que é dado por: O coeficiente está entre logo, quanto mais próximo de 1 Estiver o valor de , melhor será o ajuste do modelo e quanto mais Próximo de 0 (zero), pior é o ajuste.
13. Coeficiente de Determinação Corrigido É importante enfatizar que a medida depende do número de observações da amostra, sendo que tende a aumentar a medida que n diminui; Especialmente, para n=2 temos , já que dois pontos determinam uma única reta; Para contornar este problema, definimos o C.D.C para G.L; Dividindo as somas de quadrados pelos graus de liberdade temos:
14.
15. Análise de Variância A partir daí, procedemos à análise de variância do modelo linear, dado pela tabela a seguir: se H 0 verdadeiro (Não existe relação linear) se H 0 falso (existe relação linear)
16. Testes de Hipóteses Entretanto, ainda existe outra maneira de se testar : Lembremos que, sob as suposições usuais do modelo de regressão linear simples, temos que: Porém, não conhecemos o verdadeiro valor de e usamos o estimador. Logo: onde
17. Intervalos de Confiança Outra forma para se avaliar a significância dos resultados obtidos para b , que é o estimador de , é através da utilização de intervalos de confiança (IC's). Para construir um I.C para com de confiança, temos que encontrar um valor ,tal que:
18.
19. Função Potência Esta função é dada pela expressão: O gráfico desta função é esboçado como: Aplicando o log em ambos os lados da igualdade podemos linearizar a função: e então, temos um modelo: com:
20.
21. Análises de Resíduos “ ideal” 2 não constante não linearidade não independência tempo “ outlier”
23. Software Estatístico R O Software R é um conjunto integrado de pacotes ou bibliotecas para manipulação de dados, cálculo e visualização gráfica. Entre outras características, ele permite: Uma facilidade efetiva para manipulação e armazenagem de dados; Um conjunto de operadores para cálculos sobre quadros de dados, em particular as matrizes; Uma grande e coerente coleção integrada de ferramentas para análise de dados; Facilidades gráficas com capacidade de visualização na tela ou impressora; Uma linguagem de programação bem desenvolvida, simples e eficiente.
27. Teste de significância (summary) >summary (gfit) Call: lm(formula = Species ~ Endemics, data = gala) Residuals: Min 1Q Median 3Q Max -71.791 -15.894 3.507 12.088 78.200 Coefficients: Estimate Std. Error t value Pr > | t | (Intercept) -21.0480 7.1138 -2.959 0.00622 ** Endemics 4.0721 0.1899 21.443 < 2e-16 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1} Residual standard error: 27.95 on 28 degrees of freedom Multiple R-squared: 0.9426, Adjusted R-squared: 0.9406 F-statistic: 459.8 on 1 and 28 DF, p-value: < 2.2e-16
28. Intervalos de Confiança O intervalo de confiança para o coeficiente de regressão pode ser construído a partir do erro associado ao mesmo, usando a distribuição t , por exemplo, o valor crítico do t para os 28 graus de liberdade residuais do modelo, associado ao intervalo de confiança de 95% será: > qt(0.975,28) [1] 2.048407 E os limites de confiança para o coeficiente de regressão podem ser calculados como: > c(4.0721-2.048407*0.1899, 4.0721+2.048407*0.1899) [1] 3.683108 4.461092