Modelo de regressão linear: aspectos teóricos e computacionais

Introdução A finalidade de uma equação de regressão seria então estimar valores de uma variável, com base em valores conhecidos da outra; Um economista pode tentar explicar as variações na procura de automóveis usados em termos de desemprego; Um agricultor pode suspeitar que a quantidade de fertilizante por ele usada tenha influenciado a safra; Dentro desse contexto, o objetivo desta monografia foi demonstrar as técnicas de análise de regressão dentro de uma abordagem teórica e computacional, utilizando o software estatístico R.

Modelo Matemático ,[object Object],[object Object],[object Object],[object Object],[object Object]

[object Object],[object Object],[object Object],[object Object],[object Object],Modelo Estatístico

Se apenas uma variável explicativa é observada, temos: Os erros também podem ser devido a erros obtidos no processo de Mensuração da variável dependente. Modelo Estatístico Assim, o modelo ficaria:

[object Object],[object Object],[object Object],Regressão Linear Simples Modelo de Regressão Linear Simples

X Y  Coeficiente angular Regressão Linear Simples Inclinação populacional Intercepto populacional Erro Aleatório Variável Independente Variável Dependente

Ao estabelecer o modelo de regressão linear simples, pressupomos que: A relação entre X e Y é Linear; Os valores de X são fixos, isto é, X não é uma variável aleatória; A média dos erros é nula, isto é: Para um dado valor x de X, a variância dos erros é sempre denotada variância residual, dizemos que o erro é homocedástico; O erro em uma observação é não correlacionado com o erro em qualquer outra observação; Os erros têm distribuição normal. Suposições do modelo

Os estimadores de e Uma vez que o modelo foi especificado e as suposições foram feitas, devemos estimar os parâmetros da regressão, e . Dados n pares de observações das var. X e Y, i=1,2,...,n, queremos encontrar uma equação do tipo: onde e são os estimadores de , e . Para cada par observado podemos estabelecer a seguinte relação: Resíduo

Os estimadores de e Na estimação por mínimos quadrados, queremos encontrar e que minimizam a soma dos quadrados dos resíduos. Ou seja, queremos tornar mínima a expressão: Para minimizar esta expressão em e , temos as derivadas em relação a e :

Coeficiente de Determinação O coeficiente de determinação ou simplesmente . É uma medida da proporção da variabilidade em uma variável que é explicada pela variabilidade da outra. Definimos o coeficiente de determinação ou explicação do modelo, que é dado por: O coeficiente está entre logo, quanto mais próximo de 1 Estiver o valor de , melhor será o ajuste do modelo e quanto mais Próximo de 0 (zero), pior é o ajuste.

Coeficiente de Determinação Corrigido É importante enfatizar que a medida depende do número de observações da amostra, sendo que tende a aumentar a medida que n diminui; Especialmente, para n=2 temos , já que dois pontos determinam uma única reta; Para contornar este problema, definimos o C.D.C para G.L; Dividindo as somas de quadrados pelos graus de liberdade temos:

Análise de Variância ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],Assim, a estatística F é uma estatística para testar contra quanto maior o valor de F, maior evidência a favor de

Análise de Variância A partir daí, procedemos à análise de variância do modelo linear, dado pela tabela a seguir: se H 0 verdadeiro (Não existe relação linear) se H 0 falso (existe relação linear)

Testes de Hipóteses Entretanto, ainda existe outra maneira de se testar : Lembremos que, sob as suposições usuais do modelo de regressão linear simples, temos que: Porém, não conhecemos o verdadeiro valor de e usamos o estimador. Logo: onde

Intervalos de Confiança Outra forma para se avaliar a significância dos resultados obtidos para b , que é o estimador de , é através da utilização de intervalos de confiança (IC's). Para construir um I.C para com de confiança, temos que encontrar um valor ,tal que:

Ajuste do Modelo Muitas vezes, podemos encontrar problemas na especificação da função que relaciona as variáveis (não linearidade); Pode ser verificado através de um gráfico de dispersão entre X e Y; Existem funções que podem ser transformadas em modelos lineares; Existem vários tipos de funções que podemos transformar, tais como: ,[object Object],[object Object],[object Object]

Função Potência Esta função é dada pela expressão: O gráfico desta função é esboçado como: Aplicando o log em ambos os lados da igualdade podemos linearizar a função: e então, temos um modelo: com:

Análises de Resíduos ,[object Object],[object Object],[object Object],[object Object]

Análises de Resíduos “ ideal”  2 não constante não linearidade não independência tempo “ outlier”

Software Estatístico R O Software R é um conjunto integrado de pacotes ou bibliotecas para manipulação de dados, cálculo e visualização gráfica. Entre outras características, ele permite: Uma facilidade efetiva para manipulação e armazenagem de dados; Um conjunto de operadores para cálculos sobre quadros de dados, em particular as matrizes; Uma grande e coerente coleção integrada de ferramentas para análise de dados; Facilidades gráficas com capacidade de visualização na tela ou impressora; Uma linguagem de programação bem desenvolvida, simples e eficiente.

Sobre o banco de dados ,[object Object],[object Object],[object Object]

Estimando o modelo linear (lm()) > gfit = lm(Species ~ Endemics, data=gala) > gfit Call: lm(formula = Species ~ Endemics, data = gala) Coefficients: (Intercept) Endemics -21.048 4.072 ,[object Object],[object Object]

Plotando o gráfico de dispersão > plot(Species,Endemics) > abline(gfit)

Teste de significância (summary) >summary (gfit) Call: lm(formula = Species ~ Endemics, data = gala) Residuals: Min 1Q Median 3Q Max -71.791 -15.894 3.507 12.088 78.200 Coefficients: Estimate Std. Error t value Pr > | t | (Intercept) -21.0480 7.1138 -2.959 0.00622 ** Endemics 4.0721 0.1899 21.443 < 2e-16 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1} Residual standard error: 27.95 on 28 degrees of freedom Multiple R-squared: 0.9426, Adjusted R-squared: 0.9406 F-statistic: 459.8 on 1 and 28 DF, p-value: < 2.2e-16

Intervalos de Confiança O intervalo de confiança para o coeficiente de regressão pode ser construído a partir do erro associado ao mesmo, usando a distribuição t , por exemplo, o valor crítico do t para os 28 graus de liberdade residuais do modelo, associado ao intervalo de confiança de 95% será: > qt(0.975,28) [1] 2.048407 E os limites de confiança para o coeficiente de regressão podem ser calculados como: > c(4.0721-2.048407*0.1899, 4.0721+2.048407*0.1899) [1] 3.683108 4.461092

Resíduos e testes diagnósticos ,[object Object],[object Object],[object Object]

Resíduos e testes diagnósticos ,[object Object],> padronizados = rstandard(gfit) ,[object Object],> plot(Species,padronizados) > abline(h=0) ,[object Object],> gqtest(gfit) Goldfeld-Quand test Data: modelo GQ= p-value = 0.2960 ,[object Object]

Resíduos e testes diagnósticos ,[object Object],> qqnorm(padronizados) > qqline(padronizados) ,[object Object],> shapiro.test(padronizados) Shapiro-Wilk normality test data: padronizados W = 0.9268, p-value = 0.06041

Conclusão ,[object Object],[object Object],[object Object]

Modelo de regressão linear: aspectos teóricos e computacionais

Recomendados

Recomendados

Mais conteúdo relacionado

Mais procurados

Mais procurados (20)

Destaque

Destaque (14)

Semelhante a Modelo de regressão linear: aspectos teóricos e computacionais

Semelhante a Modelo de regressão linear: aspectos teóricos e computacionais (20)

Mais de Rodrigo Rodrigues

Mais de Rodrigo Rodrigues (20)

Modelo de regressão linear: aspectos teóricos e computacionais