Universidade Federal de Campina Grande
DSC/CEEI/UFCG
                Centro de Engenharia Elétrica e Informática
                 Departamento de Sistemas e Computação




        Regressão Múltipla
             Equipe 3

       Delano Oliveira, Izabela Vanessa, Jonathan Lincoln,
            Natã Venâncio, Savyo Igor, Solon Aguiar
O problema...
        Os dados descritos no arquivo salinidade.dat referem-se à
       salinidade da água durante a primavera em Pamlico Sound,
       North Carolina (Atkinson, 1985, p. 49). A variável resposta
       corresponde à salinidade quinzenal da   água, e as variáveis
       explicativas são a salinidade da água duas semanas antes, o
       período (de 0 a 5) e a descarga de rios . Os dados estão na
       ordem descrita acima.

        Faça inicialmente uma análise descritiva. Ajuste um modelo
       normal linear para explicar salinidade quinzenal da água contra
       as demais variáveis selecionando as variáveis explicativas que
       contribuem significativamente para o modelo. Interprete os
       diferentes parâmetros do modelo. Estime os parâmetros do
       modelo e apresente os respectivos erros padrões. Avalie a
       qualidade do ajuste do modelo. Faça uma análise de diagnóstico
       para verificar se existem afastamentos sérios das suposições
       feitas para o modelo e se existem observações discrepantes.


Equipe 3
                                                                         2
O problema...
        Os dados descritos no arquivo salinidade.dat referem-se à
       salinidade da água durante a primavera em Pamlico Sound,
       North Carolina (Atkinson, 1985, p. 49). A variável resposta
       corresponde à salinidade quinzenal da   água, e as variáveis
       explicativas são a salinidade da água duas semanas antes, o
       período (de 0 a 5) e a descarga de rios . Os dados estão na
       ordem descrita acima.

        Faça inicialmente uma análise descritiva. Ajuste um modelo
       normal linear para explicar salinidade quinzenal da água contra
       as demais variáveis selecionando as variáveis explicativas que
       contribuem significativamente para o modelo. Interprete os
       diferentes parâmetros do modelo. Estime os parâmetros do
       modelo e apresente os respectivos erros padrões. Avalie a
       qualidade do ajuste do modelo. Faça uma análise de diagnóstico
       para verificar se existem afastamentos sérios das suposições
       feitas para o modelo e se existem observações discrepantes.


Equipe 3
                                                                         3
O problema...
        Os dados descritos no arquivo salinidade.dat referem-se à
       salinidade da água durante a primavera em Pamlico Sound,
       North Carolina (Atkinson, 1985, p. 49). A variável resposta
       corresponde à salinidade quinzenal da água, e as variáveis
       explicativas são a salinidade da água duas semanas antes, o
       período (de 0 a 5) e a descarga de rios . Os dados estão na
       ordem descrita acima.

        Faça inicialmente uma análise descritiva. Ajuste um modelo
       normal linear para explicar salinidade quinzenal da água contra
       as demais variáveis selecionando as variáveis explicativas que
       contribuem significativamente para o modelo. Interprete os
       diferentes parâmetros do modelo. Estime os parâmetros do
       modelo e apresente os respectivos erros padrões. Avalie a
       qualidade do ajuste do modelo. Faça uma análise de diagnóstico
       para verificar se existem afastamentos sérios das suposições
       feitas para o modelo e se existem observações discrepantes.


Equipe 3
                                                                         4
O problema...
        Os dados descritos no arquivo salinidade.dat referem-se à
       salinidade da água durante a primavera em Pamlico Sound,
       North Carolina (Atkinson, 1985, p. 49). A variável resposta
       corresponde à salinidade quinzenal da água, e as variáveis
       explicativas são a salinidade da água duas semanas antes, o
       período (de 0 a 5) e a descarga de rios . Os dados estão na
       ordem descrita acima.

        Faça inicialmente uma análise descritiva. Ajuste um modelo
       normal linear para explicar salinidade quinzenal da água contra
       as demais variáveis selecionando as variáveis explicativas que
       contribuem significativamente para o modelo. Interprete os
       diferentes parâmetros do modelo. Estime os parâmetros do
       modelo e apresente os respectivos erros padrões. Avalie a
       qualidade do ajuste do modelo. Faça uma análise de diagnóstico
       para verificar se existem afastamentos sérios das suposições
       feitas para o modelo e se existem observações discrepantes.


Equipe 3
                                                                         5
O problema...
        Os dados descritos no arquivo salinidade.dat referem-se à
       salinidade da água durante a primavera em Pamlico Sound,
       North Carolina (Atkinson, 1985, p. 49). A variável resposta
       corresponde à salinidade quinzenal da   água, e as variáveis
       explicativas são a salinidade da água duas semanas antes, o
       período (de 0 a 5) e a descarga de rios . Os dados estão na
       ordem descrita acima.

        Faça inicialmente uma análise descritiva. Ajuste um modelo
       normal linear para explicar salinidade quinzenal da água contra
       as demais variáveis selecionando as variáveis explicativas que
       contribuem significativamente para o modelo. Interprete os
       diferentes parâmetros do modelo. Estime os parâmetros do
       modelo e apresente os respectivos erros padrões. Avalie a
       qualidade do ajuste do modelo. Faça uma análise de diagnóstico
       para verificar se existem afastamentos sérios das suposições
       feitas para o modelo e se existem observações discrepantes.


Equipe 3
                                                                         6
Análise Descritiva

   —  Quatro Variáveis:
       —  Salinidade quinzenal da água;
       —  Salinidade da água duas semanas antes;
       —  Período;
       —  Descarga dos rios.




Equipe 3
                                                    7
Tipos das variáveis
   —  Salinidade Quinzenal
           Quantitativa contínua

   —  Salinidade duas semanas antes
           Quantitativa contínua

   —  Período
           Quantitativa discreta


   —  Descarga dos rios
            Quantitativa contínua


Equipe 3
                                       8
Summary das variáveis
   analisadas
                          Assimétricas à esquerda




           Simétrica
                       Assimétrica à direita
                                                Maior dispersão



Equipe 3
                                                             9
Boxplot

 Assimétrica à                                                 Assimétrica à
   esquerda                                                      esquerda




                                                                  Pontos
   Simétrica                                                      atípicos

                                                                Assimétrica à
                                                                   direita
                 Figura 1 – Boxplot das variáveis analisadas
Equipe 3
                                                                        10
Matriz de Correlação Amostral
                                                         Correlação amostral
                                                              pequena




   Grande
 correlação
  amostral


           Tabela 2 – Matriz de correlação amostral das variáveis analisadas




Equipe 3
                                                                         11
Diagramas de Dispersão




           Relação linear crescente e positiva


Equipe 3
                                                 12
Diagramas de Dispersão




            Pontos     Não há relação
           dispersos       linear

Equipe 3
                                        13
Diagramas de Dispersão




           Relação linear decrescente


Equipe 3
                                        14
O problema...
        Os dados descritos no arquivo salinidade.dat referem-se à
       salinidade da água durante a primavera em Pamlico Sound,
       North Carolina (Atkinson, 1985, p. 49). A variável resposta
       corresponde à salinidade quinzenal da   água, e as variáveis
       explicativas são a salinidade da água duas semanas antes, o
       período (de 0 a 5) e a descarga de rios . Os dados estão na
       ordem descrita acima.

        Faça inicialmente uma análise descritiva. Ajuste um modelo
       normal linear para explicar salinidade quinzenal da água contra
       as demais variáveis selecionando as variáveis explicativas que
       contribuem significativamente para o modelo. Interprete os
       diferentes parâmetros do modelo. Estime os parâmetros do
       modelo e apresente os respectivos erros padrões. Avalie a
       qualidade do ajuste do modelo. Faça uma análise de
       diagnóstico para verificar se existem afastamentos sérios das
       suposições feitas para o modelo e se existem observações
       discrepantes.


Equipe 3
                                                                   15
Análise Inferencial
   —  Primeiramente, ajustamos o modelo


   —  Após realizar o ajuste inicial do modelo
       (segundo o R ), os valores dos coeficientes
       estimados são:




Equipe 3
                                                     16
Análise Inferencial
   —  Ajustando o modelo pelo critério AIC:




   —  Redefinindo o modelo, temos:

                yi = β 0 + β1 x1i + β 2 x2i + ξ i


Equipe 3
                                                    17
Análise Inferencial
   —  Estimativa dos parâmetros com o novo modelo:




                     Rejeitamos

             •  Variáveis significativas para o modelo;
Equipe 3     •  Modelo ajustado até o momento.            18
Análise Inferencial
   —  Estimativa dos Parâmetros
       —  Até agora, os parâmetros estimados são:




       —  A reta ajustada ficará:



       —  Erros padrões:
                                            Variabilidade ao
                                             redor da reta
                                              ajustada do
                                                modelo
Equipe 3
                                                               19
Análise Inferencial
   —  Interpretação dos parâmetros
       —  Observar arquivo .pdf




Equipe 3
                                      20
Análise Inferencial
   —  Qualidade do ajuste
       —  Usando como medida;
       —  Depois do comando summary(ajuste).




             Modelo bem ajustado pois aproxima-se de 1




Equipe 3
                                                         21
Análise Diagnóstico
                                Influencia
      Influencia          desproporcionalmente
desproporcionalmente o       as estimativas
       modelo




              Alto
            resíduo
                               Variância
                               constante




 Equipe 3
                                       22
Análise Diagnóstico
                         Observação
                           fora da
                          banda de
                          confiança




Equipe 3
                                      23
Análise Diagnóstico




Equipe 3
                         24
Análise Confirmatória
   —  Estimativas dos parâmetros do modelo excluindo a observação #
       16
            aumentou




                 diminuiu                        diminuiu

                 Diminui o risco de manter uma variável explicativa
                            equivocadamente no modelo
Equipe 3
                                                                       25
Análise Confirmatória
   —  O único ponto destacado tem influência
       proporcional sobre o modelo;

   —  Essa influência não chega ser desastrosa.



              P-valores continuam abaixo do nível
                     de significância (10%)




Equipe 3
                                                    26
Obrigado!




Equipe 3
               27

Regresão Múltipla

  • 1.
    Universidade Federal deCampina Grande DSC/CEEI/UFCG Centro de Engenharia Elétrica e Informática Departamento de Sistemas e Computação Regressão Múltipla Equipe 3 Delano Oliveira, Izabela Vanessa, Jonathan Lincoln, Natã Venâncio, Savyo Igor, Solon Aguiar
  • 2.
    O problema... Os dados descritos no arquivo salinidade.dat referem-se à salinidade da água durante a primavera em Pamlico Sound, North Carolina (Atkinson, 1985, p. 49). A variável resposta corresponde à salinidade quinzenal da água, e as variáveis explicativas são a salinidade da água duas semanas antes, o período (de 0 a 5) e a descarga de rios . Os dados estão na ordem descrita acima. Faça inicialmente uma análise descritiva. Ajuste um modelo normal linear para explicar salinidade quinzenal da água contra as demais variáveis selecionando as variáveis explicativas que contribuem significativamente para o modelo. Interprete os diferentes parâmetros do modelo. Estime os parâmetros do modelo e apresente os respectivos erros padrões. Avalie a qualidade do ajuste do modelo. Faça uma análise de diagnóstico para verificar se existem afastamentos sérios das suposições feitas para o modelo e se existem observações discrepantes. Equipe 3 2
  • 3.
    O problema... Os dados descritos no arquivo salinidade.dat referem-se à salinidade da água durante a primavera em Pamlico Sound, North Carolina (Atkinson, 1985, p. 49). A variável resposta corresponde à salinidade quinzenal da água, e as variáveis explicativas são a salinidade da água duas semanas antes, o período (de 0 a 5) e a descarga de rios . Os dados estão na ordem descrita acima. Faça inicialmente uma análise descritiva. Ajuste um modelo normal linear para explicar salinidade quinzenal da água contra as demais variáveis selecionando as variáveis explicativas que contribuem significativamente para o modelo. Interprete os diferentes parâmetros do modelo. Estime os parâmetros do modelo e apresente os respectivos erros padrões. Avalie a qualidade do ajuste do modelo. Faça uma análise de diagnóstico para verificar se existem afastamentos sérios das suposições feitas para o modelo e se existem observações discrepantes. Equipe 3 3
  • 4.
    O problema... Os dados descritos no arquivo salinidade.dat referem-se à salinidade da água durante a primavera em Pamlico Sound, North Carolina (Atkinson, 1985, p. 49). A variável resposta corresponde à salinidade quinzenal da água, e as variáveis explicativas são a salinidade da água duas semanas antes, o período (de 0 a 5) e a descarga de rios . Os dados estão na ordem descrita acima. Faça inicialmente uma análise descritiva. Ajuste um modelo normal linear para explicar salinidade quinzenal da água contra as demais variáveis selecionando as variáveis explicativas que contribuem significativamente para o modelo. Interprete os diferentes parâmetros do modelo. Estime os parâmetros do modelo e apresente os respectivos erros padrões. Avalie a qualidade do ajuste do modelo. Faça uma análise de diagnóstico para verificar se existem afastamentos sérios das suposições feitas para o modelo e se existem observações discrepantes. Equipe 3 4
  • 5.
    O problema... Os dados descritos no arquivo salinidade.dat referem-se à salinidade da água durante a primavera em Pamlico Sound, North Carolina (Atkinson, 1985, p. 49). A variável resposta corresponde à salinidade quinzenal da água, e as variáveis explicativas são a salinidade da água duas semanas antes, o período (de 0 a 5) e a descarga de rios . Os dados estão na ordem descrita acima. Faça inicialmente uma análise descritiva. Ajuste um modelo normal linear para explicar salinidade quinzenal da água contra as demais variáveis selecionando as variáveis explicativas que contribuem significativamente para o modelo. Interprete os diferentes parâmetros do modelo. Estime os parâmetros do modelo e apresente os respectivos erros padrões. Avalie a qualidade do ajuste do modelo. Faça uma análise de diagnóstico para verificar se existem afastamentos sérios das suposições feitas para o modelo e se existem observações discrepantes. Equipe 3 5
  • 6.
    O problema... Os dados descritos no arquivo salinidade.dat referem-se à salinidade da água durante a primavera em Pamlico Sound, North Carolina (Atkinson, 1985, p. 49). A variável resposta corresponde à salinidade quinzenal da água, e as variáveis explicativas são a salinidade da água duas semanas antes, o período (de 0 a 5) e a descarga de rios . Os dados estão na ordem descrita acima. Faça inicialmente uma análise descritiva. Ajuste um modelo normal linear para explicar salinidade quinzenal da água contra as demais variáveis selecionando as variáveis explicativas que contribuem significativamente para o modelo. Interprete os diferentes parâmetros do modelo. Estime os parâmetros do modelo e apresente os respectivos erros padrões. Avalie a qualidade do ajuste do modelo. Faça uma análise de diagnóstico para verificar se existem afastamentos sérios das suposições feitas para o modelo e se existem observações discrepantes. Equipe 3 6
  • 7.
    Análise Descritiva —  Quatro Variáveis: —  Salinidade quinzenal da água; —  Salinidade da água duas semanas antes; —  Período; —  Descarga dos rios. Equipe 3 7
  • 8.
    Tipos das variáveis —  Salinidade Quinzenal Quantitativa contínua —  Salinidade duas semanas antes Quantitativa contínua —  Período Quantitativa discreta —  Descarga dos rios Quantitativa contínua Equipe 3 8
  • 9.
    Summary das variáveis analisadas Assimétricas à esquerda Simétrica Assimétrica à direita Maior dispersão Equipe 3 9
  • 10.
    Boxplot Assimétrica à Assimétrica à esquerda esquerda Pontos Simétrica atípicos Assimétrica à direita Figura 1 – Boxplot das variáveis analisadas Equipe 3 10
  • 11.
    Matriz de CorrelaçãoAmostral Correlação amostral pequena Grande correlação amostral Tabela 2 – Matriz de correlação amostral das variáveis analisadas Equipe 3 11
  • 12.
    Diagramas de Dispersão Relação linear crescente e positiva Equipe 3 12
  • 13.
    Diagramas de Dispersão Pontos Não há relação dispersos linear Equipe 3 13
  • 14.
    Diagramas de Dispersão Relação linear decrescente Equipe 3 14
  • 15.
    O problema... Os dados descritos no arquivo salinidade.dat referem-se à salinidade da água durante a primavera em Pamlico Sound, North Carolina (Atkinson, 1985, p. 49). A variável resposta corresponde à salinidade quinzenal da água, e as variáveis explicativas são a salinidade da água duas semanas antes, o período (de 0 a 5) e a descarga de rios . Os dados estão na ordem descrita acima. Faça inicialmente uma análise descritiva. Ajuste um modelo normal linear para explicar salinidade quinzenal da água contra as demais variáveis selecionando as variáveis explicativas que contribuem significativamente para o modelo. Interprete os diferentes parâmetros do modelo. Estime os parâmetros do modelo e apresente os respectivos erros padrões. Avalie a qualidade do ajuste do modelo. Faça uma análise de diagnóstico para verificar se existem afastamentos sérios das suposições feitas para o modelo e se existem observações discrepantes. Equipe 3 15
  • 16.
    Análise Inferencial —  Primeiramente, ajustamos o modelo —  Após realizar o ajuste inicial do modelo (segundo o R ), os valores dos coeficientes estimados são: Equipe 3 16
  • 17.
    Análise Inferencial —  Ajustando o modelo pelo critério AIC: —  Redefinindo o modelo, temos: yi = β 0 + β1 x1i + β 2 x2i + ξ i Equipe 3 17
  • 18.
    Análise Inferencial —  Estimativa dos parâmetros com o novo modelo: Rejeitamos •  Variáveis significativas para o modelo; Equipe 3 •  Modelo ajustado até o momento. 18
  • 19.
    Análise Inferencial —  Estimativa dos Parâmetros —  Até agora, os parâmetros estimados são: —  A reta ajustada ficará: —  Erros padrões: Variabilidade ao redor da reta ajustada do modelo Equipe 3 19
  • 20.
    Análise Inferencial —  Interpretação dos parâmetros —  Observar arquivo .pdf Equipe 3 20
  • 21.
    Análise Inferencial —  Qualidade do ajuste —  Usando como medida; —  Depois do comando summary(ajuste). Modelo bem ajustado pois aproxima-se de 1 Equipe 3 21
  • 22.
    Análise Diagnóstico Influencia Influencia desproporcionalmente desproporcionalmente o as estimativas modelo Alto resíduo Variância constante Equipe 3 22
  • 23.
    Análise Diagnóstico Observação fora da banda de confiança Equipe 3 23
  • 24.
  • 25.
    Análise Confirmatória —  Estimativas dos parâmetros do modelo excluindo a observação # 16 aumentou diminuiu diminuiu Diminui o risco de manter uma variável explicativa equivocadamente no modelo Equipe 3 25
  • 26.
    Análise Confirmatória —  O único ponto destacado tem influência proporcional sobre o modelo; —  Essa influência não chega ser desastrosa. P-valores continuam abaixo do nível de significância (10%) Equipe 3 26
  • 27.