Caroline Godoy
Turma : Sistemas de Informação
Última aula
• Comparação de duas amostras independentes e dependentes;


• Comparação de duas populações – proporções;


• ANOVA (Análise de Variâncias): teste para comparar as diversas médias;


    • Conceitos e exemplos;
ANOVA




Princípio da ANOVA
• Estabelecer um modelo que possa representar os valores observados na
  seguinte forma:


                Observação = previsível + aleatória


• Ou seja, cada resposta obtida é resultado de algo controlado ou
  previsível, que incorpora o conhecimento que se tem sobre o assunto
  (expressa em termos de uma função matemática com parâmetros
  desconhecidos); + uma parte aleatória que pode ser representada por um
  modelo probabilístico;
ANOVA




Princípio da ANOVA



           YNx1  X Nxa  ax1   Nx1



   X Nxa
    ax1
ANOVA



       Modelo estatístico (one-way):
                                                                                       Tratamentos
                          y ij  μ i  ε ij          Efeito aleatório
                                                                        i=1,2,...,a,             j
        Efeito comum           μ  τ i  ε ij                          =1,2,...,r
                                
                                                                                        Observações
                                       μi         Efeito específico

yij= é a j-ésima observação do i-ésimo tratamento;
i é média do i-ésimo tratamento
 é uma constante para todas as observações (média geral);
i é o efeito do i-ésimo tratamento;
ij é o erro aleatório(erros de medida, fatores não controláveis, diferenças entre as unidades
experimentais, etc.).
       Pressuposições: 1) os erros aleatórios são independentes;
                          2) os erros aleatórios são normalmente distribuídos;
                          3) os erros aleatórios tem média 0 (zero) e variância 2;

    Ou, então:              yij ~ N (   i ; 2 ) e independentes
                                                                                                       5
ANOVA




   ANOVA – Análise de Variância
   • Objetivo: Utilizar a partição da variabilidade total da variável resposta
     (medida de interesse para comparação) como critério para o teste de
     igualdade entre as populações.




ou seja, quando ni é igual para todas as unidades experimentais
Aqui trabalharemos com experimentos balanceados e chamaremos a quantidade de
observações de r
ANOVA




ANOVA – Análise de Variância



              a


      r



          r
                  =
                      r

          r
ANOVA




ANOVA – Análise de Variância
          r


    i=1   j=1




                a
ANOVA




  Decomposição da soma de quadrados total
 A denominação de análise de variância resulta de decompor a variabilidade total dos
 dados em suas componentes. A soma de quadrado total (SQT) corrigido pela média global,



                          SQT   y ij  y..  ,
                                       a    r
                                                             2

                                      i 1 j1

  usa-se como medida de variabilidade total dos dados.



Pode-se    mostrar que a soma de quadrados total pode ser expressa através da seguinte
relação:


            y     ij  y..   n  y i.  y ..    y ij  y i. 
            a   r                       a                        a   r
                              2                          2                          2

           i 1 j1
                 1   
                                    i
                                         i 1 j1  
                    SQT                     SQtrat                       SQE

                           Espera-se valores                             Espera-se valores
                               grandes                                      pequenos
ANOVA




 Graus de liberdade:
 SQT tem ar-1 graus de liberdade; SQTrat tem a-1 g.l. e       SQE tem a(r-1) g.l.

Quadrados médios:
                            QMTrat  SQTrat
                                      a 1                QME  a(r-1)
                                                                SQE

                           Variância entre amostras       Dentro das amostras
 Esperanças dos quadrados médios:
                                E(QME) = 2
                                                  a
                                               r  τ i2
                          E(QMTrat)  σ 2       i 1
                                                a 1


                                         QMTrat
    Teste de hipótese:
                                    F 0  QME
ANOVA



         Análise Estatística

 F0 = QMTrat / QME
 Critério para rejeição de H0: F0 > F,a-1,n-a .


 Pode-se usar o nível descritivo (em inglês: p-value: É o menor valor de  para o qual
 rejeitamos a hipótese nula.
 Exemplo: para =5%, assim, se o nível descritivo < do que 0,05  rejeitar H0, caso
 contrário,  aceitar H0.
 Fórmulas para o cálculo das somas de quadrados:                 a    r  2
                                                                        y..
                                                       SQT   yij  2

                                                             i 1 j1   n
Hipóteses: H0: 1= 2=...= a = 
                                                                           2
                                                                1 a 2 y..
           H1: i  ᵥ para pelo menos um par (i,v)
                                                        SQTrat   y i. 
 Equivalentemente                                               r i 1    n
Hipóteses: H0: 1=  2=...=  a =0
           H1:  i  0 para pelo menos um i
                                                      SQE  SQT  SQTrat
ANOVA




Tabela da análise de variância de um experimento com um fator.
Causas de      Soma de Graus de Quadrados                F0          Valor p
variação       quadrados liberdade médios

Entre           SQTrat        a-1       QMTrat     QMTrat
tratamentos                                        QME

Erro (dentro    SQE           n-a       QME
tratamentos)

Total           SQT           n-1




n=ar



    y     ij  y..   n  y i.  y ..    y ij  y i. 
        a   r                       a                     a      r
                          2                        2                           2

   i 1 j1
         1   
                            i
                                 i 1 j1  
                SQT                      SQtrat                      SQE
ANOVA




 Coeficiente de Determinação
• Medida de Proporção da variabilidade total explicada pelo modelo
  obtido. (Quanto da variável resposta é explicada pelos tratamentos)

                                     SQTrat
                              R2 
                                     SQTot
• Considera-se aceitável um coeficiente acima de 0,70 ou 70%


• Serve para avaliar se o teste foi eficiente
ANOVA




Exemplo: Considerando o exemplo temos:


                    Tratamentos (servidores)
                      A       B         C       D
                      64      78        75      55   a=4
                      72      91        93      66   r=6
                      68      97        78      49   ar = 24=n
                      77      82        71      64
                      56      85        63      70
                      95      77        76      68
    Total (yi. )     432     510       456     372   1770        y..
    Média y i.      72      85       76       62   73.75       y ..
     y ij
        2
                    31994   43652    35144     23402 134192       y ij
                                                                     2

     j                                                           i, j
ANOVA




 Exemplo

    SQT  134192 
                   17702     134192  130558  3654
                      24
                     
                      
                        FC


         432 2  510 2  456 2  372 2
SQTrat                                 FC  132174  130559  1636
                       6

  SQE  SQT  SQTrat  3654  1636  2018

                        Montar a Tabela
                               ou
ANOVA




 Análise de Variância

  Causas de Variação         GL      SQ      QM       F
  Servidores
                              3     1636    545.3   5.40**
  (entre servidores)
  Erro Experimental
                             20     2018    100.9
  (dentro de servidores)
  Total                      23     3654



F.013.20   4,94         **SIGNIFICATIVO A 1%
ANOVA




Análise de Variância




 F   0
          5.40  F 0.01;(3;20)  4.94
 A diferença entre médias de tratamentos é significativa
 Rejeita-se H0
ANOVA




Análise de Variância
 CONCLUSÃO

     Os servidores    investigados se
 diferenciam em termos de tempo de
 transmissão de dados
ANOVA




  Software R
dados=read.table("anova.txt",header=T)
attach(dados)
# Gráfico de boxplot
boxplot(Tempo~Servidor,xlab="Servidores",ylab="Tempo")
# Tabela de anova
fit= aov(Tempo ~ Servidor, dados)
anova(fit)
ANOVA




 Diagnóstico do Modelo
 Verificar se as pressuposições básicas do modelo são válidas. Isso é realizado através
 de uma análise de resíduos.

Pressuposições: 1) os erros aleatórios são independentes;
                2) os erros aleatórios são normalmente distribuídos;
                3) os erros aleatórios tem média 0 (zero) e variância 2;

1) Define-se o resíduo da ij-ésima observação como:
                                                                         Não será abordada

                            e ij  y ij  y ij
                                          ˆ                            (homoscedasticidade)



onde yij  μ  τ i  yi.  valores preditos pelo modelo.
     ˆ     ˆ ˆ

           A suposição de normalidade

 Vamos usar o gráfico normal de probabilidades: sob normalidade dos erros este gráfico
 deve apresentar uma forma de reta.
Software R
## Análise de residuos
V_ajustados=fitted(fit)      # Valores preditos
res=residuals(fit)           # Valores residuais
# Gráfico de probabilidade
qqnorm(res, pch=20)
qqline(res)
## Gráfico de valores preditos e residuais
plot(V_ajustados,res, pch=20,ylab="Residuos", xlab="Valores ajustados")
abline(h=0,lty=2)
title(main=" Plot dos residuos vs valores ajustados")
Comparações entre Pares de Médias

• Quando rejeitamos Ho ou seja, quando pelo menos uma média é diferente e quando
   as pressuposições dos resíduos são aceitas, podemos comparar as diferentes médias e
   dizer qual é diferente das demais


• Devem ser realizadas após o teste F da análise de variância rejeitar a hipótese nula


• Existem vários testes como Intervalo de Bonferroni, LSD, porém o preferido dos
   pesquisadores é o Teste de Tukey
Teste de Tukey
Duas médias são diferentes significativamente se a diferença das médias amostrais
(em valor absoluto) for superior a DMS (Diferença Mínima Significativa):

                                                                 QME
                 IC ( i  k )  ( yi  yk )  q ;n 1
                                                                  n
Onde q é um apropriado nível de confiança superior da amplitude studentizada para k
médias (tratamentos) e f graus de liberdade associados a estimativa s2 de 2 (QME).

Exemplo: dados dos servidores. O valor da Diferença Mínima Significativa é:

                                              diff    lwr          upr              p adj
                                        A-D 10 -6.232221        26.23222      0.3378150
  Conclusão: pelo teste de              C-D 14 -2.232221        30.23222      0.1065573
  Tukey, ao nível de significância
  de 5%, as médias dos                  B-D 23 6.767779 39.23222              0.0039064
  servidores B e D, apresentam
  diferença significativa.              C-A 4 -12.232221       20.23222       0.8998057
                                        B-A 13 -3.232221       29.23222       0.1461929
                                        B-C 9 -7.232221        25.23222       0.4270717
Software R
  TukeyHSD(fit, ordered = TRUE)
Exercício
Exercício
Exercício




Não rejeitamos Ho a um nível de 5%
Exercício




Não rejeitamos Ho a um nível de 5%
Exercício

 Segue distribuição
      normal
Exercício

 Valores em torno da
       média 0
ANOVA COM 2 FATORES
• Mesma ideia de um fator:




• Gráfico de Interação: A interação entre os fatores corresponde a
  diferença de comportamento de um fator nos diferentes níveis do outro
  fator com respeito a característica de interesse. Uma das forma mais
  simples de avaliarmos a interação entre os fatores é o gráfico de
  interação.
ANOVA COM 2 FATORES
 • Mesma ideia de um fator:




Não há
interação
Regressão linear Simples
Próxima aula
Prova

Entrega do trabalho

Aula 7 - Sistemas de informação

  • 1.
    Caroline Godoy Turma :Sistemas de Informação
  • 2.
    Última aula • Comparaçãode duas amostras independentes e dependentes; • Comparação de duas populações – proporções; • ANOVA (Análise de Variâncias): teste para comparar as diversas médias; • Conceitos e exemplos;
  • 3.
    ANOVA Princípio da ANOVA •Estabelecer um modelo que possa representar os valores observados na seguinte forma: Observação = previsível + aleatória • Ou seja, cada resposta obtida é resultado de algo controlado ou previsível, que incorpora o conhecimento que se tem sobre o assunto (expressa em termos de uma função matemática com parâmetros desconhecidos); + uma parte aleatória que pode ser representada por um modelo probabilístico;
  • 4.
    ANOVA Princípio da ANOVA YNx1  X Nxa  ax1   Nx1 X Nxa  ax1
  • 5.
    ANOVA Modelo estatístico (one-way): Tratamentos y ij  μ i  ε ij Efeito aleatório i=1,2,...,a, j Efeito comum  μ  τ i  ε ij =1,2,...,r   Observações μi Efeito específico yij= é a j-ésima observação do i-ésimo tratamento; i é média do i-ésimo tratamento  é uma constante para todas as observações (média geral); i é o efeito do i-ésimo tratamento; ij é o erro aleatório(erros de medida, fatores não controláveis, diferenças entre as unidades experimentais, etc.). Pressuposições: 1) os erros aleatórios são independentes; 2) os erros aleatórios são normalmente distribuídos; 3) os erros aleatórios tem média 0 (zero) e variância 2; Ou, então: yij ~ N (   i ; 2 ) e independentes 5
  • 6.
    ANOVA ANOVA – Análise de Variância • Objetivo: Utilizar a partição da variabilidade total da variável resposta (medida de interesse para comparação) como critério para o teste de igualdade entre as populações. ou seja, quando ni é igual para todas as unidades experimentais Aqui trabalharemos com experimentos balanceados e chamaremos a quantidade de observações de r
  • 7.
    ANOVA ANOVA – Análisede Variância a r r = r r
  • 8.
    ANOVA ANOVA – Análisede Variância r i=1 j=1 a
  • 9.
    ANOVA Decomposiçãoda soma de quadrados total A denominação de análise de variância resulta de decompor a variabilidade total dos dados em suas componentes. A soma de quadrado total (SQT) corrigido pela média global, SQT   y ij  y..  , a r 2 i 1 j1 usa-se como medida de variabilidade total dos dados. Pode-se mostrar que a soma de quadrados total pode ser expressa através da seguinte relação:  y ij  y..   n  y i.  y ..    y ij  y i.  a r a a r 2 2 2 i 1 j1     1    i    i 1 j1   SQT SQtrat SQE Espera-se valores Espera-se valores grandes pequenos
  • 10.
    ANOVA Graus deliberdade: SQT tem ar-1 graus de liberdade; SQTrat tem a-1 g.l. e SQE tem a(r-1) g.l. Quadrados médios: QMTrat  SQTrat a 1 QME  a(r-1) SQE Variância entre amostras Dentro das amostras Esperanças dos quadrados médios: E(QME) = 2 a r  τ i2 E(QMTrat)  σ 2  i 1 a 1 QMTrat Teste de hipótese: F 0  QME
  • 11.
    ANOVA Análise Estatística F0 = QMTrat / QME Critério para rejeição de H0: F0 > F,a-1,n-a . Pode-se usar o nível descritivo (em inglês: p-value: É o menor valor de  para o qual rejeitamos a hipótese nula. Exemplo: para =5%, assim, se o nível descritivo < do que 0,05  rejeitar H0, caso contrário,  aceitar H0. Fórmulas para o cálculo das somas de quadrados: a r 2 y.. SQT   yij  2 i 1 j1 n Hipóteses: H0: 1= 2=...= a =  2 1 a 2 y.. H1: i  ᵥ para pelo menos um par (i,v) SQTrat   y i.  Equivalentemente r i 1 n Hipóteses: H0: 1=  2=...=  a =0 H1:  i  0 para pelo menos um i SQE  SQT  SQTrat
  • 12.
    ANOVA Tabela da análisede variância de um experimento com um fator. Causas de Soma de Graus de Quadrados F0 Valor p variação quadrados liberdade médios Entre SQTrat a-1 QMTrat QMTrat tratamentos QME Erro (dentro SQE n-a QME tratamentos) Total SQT n-1 n=ar  y ij  y..   n  y i.  y ..    y ij  y i.  a r a a r 2 2 2 i 1 j1     1    i    i 1 j1   SQT SQtrat SQE
  • 13.
    ANOVA Coeficiente deDeterminação • Medida de Proporção da variabilidade total explicada pelo modelo obtido. (Quanto da variável resposta é explicada pelos tratamentos) SQTrat R2  SQTot • Considera-se aceitável um coeficiente acima de 0,70 ou 70% • Serve para avaliar se o teste foi eficiente
  • 14.
    ANOVA Exemplo: Considerando oexemplo temos: Tratamentos (servidores) A B C D 64 78 75 55 a=4 72 91 93 66 r=6 68 97 78 49 ar = 24=n 77 82 71 64 56 85 63 70 95 77 76 68 Total (yi. ) 432 510 456 372 1770 y.. Média y i.  72 85 76 62 73.75 y ..  y ij 2 31994 43652 35144 23402 134192  y ij 2 j i, j
  • 15.
    ANOVA Exemplo SQT  134192  17702  134192  130558  3654 24    FC 432 2  510 2  456 2  372 2 SQTrat   FC  132174  130559  1636 6 SQE  SQT  SQTrat  3654  1636  2018 Montar a Tabela ou
  • 16.
    ANOVA Análise deVariância Causas de Variação GL SQ QM F Servidores 3 1636 545.3 5.40** (entre servidores) Erro Experimental 20 2018 100.9 (dentro de servidores) Total 23 3654 F.013.20   4,94 **SIGNIFICATIVO A 1%
  • 17.
    ANOVA Análise de Variância F 0  5.40  F 0.01;(3;20)  4.94 A diferença entre médias de tratamentos é significativa Rejeita-se H0
  • 18.
    ANOVA Análise de Variância CONCLUSÃO Os servidores investigados se diferenciam em termos de tempo de transmissão de dados
  • 19.
    ANOVA SoftwareR dados=read.table("anova.txt",header=T) attach(dados) # Gráfico de boxplot boxplot(Tempo~Servidor,xlab="Servidores",ylab="Tempo") # Tabela de anova fit= aov(Tempo ~ Servidor, dados) anova(fit)
  • 20.
    ANOVA Diagnóstico doModelo Verificar se as pressuposições básicas do modelo são válidas. Isso é realizado através de uma análise de resíduos. Pressuposições: 1) os erros aleatórios são independentes; 2) os erros aleatórios são normalmente distribuídos; 3) os erros aleatórios tem média 0 (zero) e variância 2; 1) Define-se o resíduo da ij-ésima observação como: Não será abordada e ij  y ij  y ij ˆ (homoscedasticidade) onde yij  μ  τ i  yi.  valores preditos pelo modelo. ˆ ˆ ˆ A suposição de normalidade Vamos usar o gráfico normal de probabilidades: sob normalidade dos erros este gráfico deve apresentar uma forma de reta.
  • 23.
    Software R ## Análisede residuos V_ajustados=fitted(fit) # Valores preditos res=residuals(fit) # Valores residuais # Gráfico de probabilidade qqnorm(res, pch=20) qqline(res) ## Gráfico de valores preditos e residuais plot(V_ajustados,res, pch=20,ylab="Residuos", xlab="Valores ajustados") abline(h=0,lty=2) title(main=" Plot dos residuos vs valores ajustados")
  • 24.
    Comparações entre Paresde Médias • Quando rejeitamos Ho ou seja, quando pelo menos uma média é diferente e quando as pressuposições dos resíduos são aceitas, podemos comparar as diferentes médias e dizer qual é diferente das demais • Devem ser realizadas após o teste F da análise de variância rejeitar a hipótese nula • Existem vários testes como Intervalo de Bonferroni, LSD, porém o preferido dos pesquisadores é o Teste de Tukey
  • 25.
    Teste de Tukey Duasmédias são diferentes significativamente se a diferença das médias amostrais (em valor absoluto) for superior a DMS (Diferença Mínima Significativa): QME IC ( i  k )  ( yi  yk )  q ;n 1 n Onde q é um apropriado nível de confiança superior da amplitude studentizada para k médias (tratamentos) e f graus de liberdade associados a estimativa s2 de 2 (QME). Exemplo: dados dos servidores. O valor da Diferença Mínima Significativa é: diff lwr upr p adj A-D 10 -6.232221 26.23222 0.3378150 Conclusão: pelo teste de C-D 14 -2.232221 30.23222 0.1065573 Tukey, ao nível de significância de 5%, as médias dos B-D 23 6.767779 39.23222 0.0039064 servidores B e D, apresentam diferença significativa. C-A 4 -12.232221 20.23222 0.8998057 B-A 13 -3.232221 29.23222 0.1461929 B-C 9 -7.232221 25.23222 0.4270717
  • 26.
    Software R TukeyHSD(fit, ordered = TRUE)
  • 28.
  • 29.
  • 30.
  • 31.
  • 32.
  • 33.
    Exercício Valores emtorno da média 0
  • 34.
    ANOVA COM 2FATORES • Mesma ideia de um fator: • Gráfico de Interação: A interação entre os fatores corresponde a diferença de comportamento de um fator nos diferentes níveis do outro fator com respeito a característica de interesse. Uma das forma mais simples de avaliarmos a interação entre os fatores é o gráfico de interação.
  • 35.
    ANOVA COM 2FATORES • Mesma ideia de um fator: Não há interação
  • 36.
  • 37.