Inferência Estatística:
Conceitos Básicos II
Distribuição Amostral e Teorema do Limite Central
Análise Exploratória de dados no SPSS
Vitor Vieira Vasconcelos
Flávia da Fonseca Feitosa
BH1350 – Métodos e Técnicas de Análise da Informação para o Planejamento
Junho de 2017
O Que Revisamos Na Aula
Passada
 Populações e Amostras
 Medidas de Tendência Central: Média, Moda, Mediana
 Medidas de Variabilidade: Variância e Desvio Padrão
 Curva Normal
 Distribuições de Frequência e Probabilidade
 Escores padrão (valor padronizado z)
 Cálculo da probabilidade sob a curva normal
 Ambiente SPSS
Aula de Hoje
Conceitos Básicos de Inferência Estatística
(Continuação)
Distribuição Amostral e Teorema do Limite Central
Leitura de Referência
Capítulo 1
Tudo o que você sempre quis
saber sobre estatística
(bem, quase tudo)
(parcialmente, p. 42 – 47)
Minha Amostra é
Representativa da
População?
DISTRIBUIÇÃO
AMOSTRAL
Convenções:
μ = média população
X = média amostra
σ = DP população
s = DP amostra
Usamos amostras para estimar o
comportamento/características de uma
população. Por exemplo, usamos a
média da amostra (X), para estimar a
média da população (μ).
Se pegarmos muitas amostras de uma
mesma população, cada amostra terá
sua própria média e em várias dessas
amostras as médias serão diferentes.
Minha Amostra é
Representativa da
População?
Podemos construir uma distribuição de
frequência com as médias destas
amostras!
DISTRIBUIÇÃO AMOSTRAL
Distribuição de frequências das médias
de todas as amostras de uma mesma
população. Está centrada no mesmo
valor que a média da população
DISTRIBUIÇÃO
AMOSTRAL
Convenções:
μ = média população
X = média amostra
σ = DP população
s = DP amostra
Características de uma
distribuição amostral
DISTRIBUIÇÃO
AMOSTRAL
1. Se aproxima de uma curva normal
(desde que o tamanho da amostra seja
razoavelmente grande – N > 30)
2. A média de uma distribuição amostral
(a média das médias) é igual à
verdadeira média populacional (μ).
3. O desvio padrão de uma distribuição
amostral (σX ) é menor do que o da
população (σ). A média amostral é mais
estável do que os escores que a compõe.
Erro Padrão da Média
DISTRIBUIÇÃO
AMOSTRAL
ERRO PADRÃO
Mede variabilidade
entre as médias de
diferentes amostras.
Na verdade, deveria ser o desvio padrão da população dividido
pela raiz quadrada do tamanho da amostra; no entanto, para
amostras grandes, essa aproximação é razoável.
ERRO PADRÃO DA MÉDIA (σX )
Desvio padrão das médias das amostras.
Medida de quão representativa a
amostra poderá ser da população
Na realidade não podemos selecionar
centenas de amostras para construir
uma distribuição amostral.
Técnica para estimar o erro padrão a
partir do desvio padrão da amostra (s):
Dividir s pela raiz quadrada do tamanho
da amostra (N)
Erro Padrão da Média
RECAPITULANDO:
 Normalmente estamos interessados em utilizar a média da
amostra como uma estimativa do valor da média da
população.
 No entanto, amostras diferentes fornecerão valores
diferentes da média.
 O Erro Padrão pode ser usado para se ter uma ideia da
diferença entre a média da amostra e a média da população.
 O Erro padrão pode ser estimado  maior quando o desvio
padrão da população é maior (na falta do desvio padrão da
população, usamos o da amostra); menor quando o número
da amostra é maior.
Erro Padrão da Média
Além de nos fornecer uma ideia da diferença entre a média da
amostra (X) e a média da população (μ)…
 Com ajuda do Erro Padrão da Média podemos estimar a
probabilidade de nossa média populacional situar-se
realmente dentro de um intervalo de valores médios 
Conceito de INTERVALO DE CONFIANÇA
Intervalos de Confiança
Uma abordagem para determinar a precisão da
média da amostra:
Calcular os limites entre os quais acreditamos que o
valor da média verdadeira estará
INTERVALO DE CONFIANÇA
Gama de valores (limites) entre os quais achamos que
o valor da população (parâmetro) estará
(no caso, o valor da média verdadeira)
Intervalos de Confiança
Um intervalo de confiança (IC) de 95%
Como interpreto???
Se selecionarmos 100 amostras, calcularmos a
média e, depois de determinarmos o intervalo de
confiança para aquela média, 95% dos intervalos
de confiança conterão o valor real da média da
população
OK! Agora
vamos ver como
se calcula o IC…
DISTRIBUIÇÃO
AMOSTRAL DE
MÉDIAS
A MÉDIA DA NOSSA AMOSTRA ESTÁ EM
ALGUM PONTO DA DISTRIBUIÇÃO
Intervalos de Confiança
Lembram por que o valor 1,96
é um valor de z importante???
Lembrem também como
podemos converter
escores em escores-z:
escores-z
E 2,58?
E 3,29?
Porque 95% dos escores de z estão
entre -1,96 e 1,96!!!
1,96-1,96
Intervalos de Confiança
Se soubermos que nossos limites serão -1,96 e 1,96,
em escores-z, quais são os escores correspondentes
em valores dos nossos dados?
[É o inverso do que fizemos na última aula]
Para encontrar isso, vamos recolocar z na equação
escores-z
escores-z
-
-
escores-z
Usamos o Erro Padrão e não o Desvio
Padrão porque estamos interessados
na variabilidade das médias das
amostras e não na variabilidade das
observações dentro da amostra
Intervalos de Confiança
Exemplo – IC 95%
Digamos que tenhamos coletados dados sobre o preço do m2 dos
imóveis em um determinado bairro. Temos uma amostra de 100
imóveis (N=100), com média = 3800 e desvio padrão (s) = 1500.
Cálculo do Erro Padrão (EP):
Exemplo – IC 95%
Digamos que tenhamos coletados dados sobre o preço do m2 dos
imóveis em um determinado bairro. Temos uma amostra de 100
imóveis (N=100), com média = 3800 e desvio padrão (s) = 1500.
Limite inferior do intervalo de confiança = 3800 – (1,96*150) = 3506
Limite superior do intervalo de confiança = 3800 + (1,96*150) = 4094
Exemplo – IC 95%
Digamos que tenhamos coletados dados sobre o preço do m2 dos
imóveis no Bairro W. Temos uma amostra de 100 imóveis (N=100),
com média = 3800 e desvio padrão (s) = 1500.
Limite inferior do intervalo de confiança = 3800 – (1,96*150) = 3506
Limite superior do intervalo de confiança = 3800 + (1,96*150) = 4094
Considerando que 95% dos intervalos de confiança contém a média
da população, podemos dizer que este intervalo entre 3506 e 4094
tem 95% de chance de conter a média real do preço do m2 nos
imóveis no Bairro W.
Intervalos de Confiança mais Exatos
Para amostras pequenas, onde s é uma estimativa menos confiável de σ
devemos construir nosso intervalo de confiança de maneira um pouco
diferente.
Ao invés de usar 1.96 (escore-z), usamos um valor ligeiramente maior
para refletir nossa redução na confiança. Este valor é baseado na
distribuição t.
Relembrando a aula passada:
Variância e Graus de Liberdade
VARIÂNCIA – “média do quadrado dos desvios”
No entanto, como geralmente
queremos usar o erro na amostra para
estimar o erro na população,
dividiremos o SS pelo
nr. de observações menos 1
(graus de liberdade).
Assim, aumentamos ligeramente a
variância amostral para produzir
estimativas não tendenciosas (mais
precisas) da variância populacional
Estimativa da variância da
população usando n amostras
aleatórias xi onde i = 1, 2, ..., n.
Intervalos de Confiança mais Exatos
Neste caso, o escore z é substituído pela razão t.
A razão t usa uma estimativa de erro padrão baseada em dados amostrais. À
medida que o tamanho da amostra aumenta, o valor de ambas se torna
muito parecido
(…)
t(i;0,05)
gl = N-1
P = 1 – nível de confiança
(área nas extremidades da
distribuição t)
Comparação entre Intervalos de
Confiança
Suponha que tenhamos dois ou mais grupos separados, por
exemplo, os municípios do ABC. Podemos construir um
intervalo de confiança de 95% para a média para cada um
dos grupos, e então construir um gráfico com esses
intervalos contra um eixo comum para verificar se existe
uma interseção (i.e. se existem alguns valores em comum).
Se os intervalos não se sobrepõem, então temos (pelo
menos) 95% de confiança de que as verdadeiras médias não
são iguais.
Intervalos de Confiança no SPSS
1. Abra o arquivo “AguaSNIS2010.sav”
2. No SPSS, vá em Analisar> Estatísticas Descritivas > Explorar…
3. Selecione a variável “Consumo de água per capita – pop
total” e, em “Estatísticas”, selecione “Descritivas” e 95%
Intervalos de Confiança no SPSS
Limite inferior= 24.77 – (1,96*0.25) = 24.28
Limite superior= 24.77 + (1,96*0.25) = 25.25
Intervalos de Confiança no SPSS
Intervalos de Confiança no SPSS
Assimetria
Intervalos de Confiança - Grupos
1. No SPSS, vá em Analisar> Estatísticas Descritivas > Explorar…
2. Selecione a variável “Consumo de água per capita – pop
total” na lista de variáveis dependents e a variável “REGIAO”
em lista de fatores.
3. Em “Estatísticas…”, selecione “Descritivas” e 95%
Intervalos de Confiança - Grupos
Intervalos de Confiança - Grupos
Os intervalos de confiança estão se sobrepondo?
Intervalos de Confiança - Grupos
• Como o desvio padrão e o número de casos
afetam o erro padrão de cada região?
• Quais regiões se aproximam mais de uma curva
normal?
• Como isso afeta a mediana e a média?
Atividade
Individual:
1. Qual a diferença entre desvio padrão e erro padrão?
2. O que é um intervalo de confiança?
3. Como interpretar um intervalo de confiança de 95%?
Em grupo:
4. Preparem uma planilha com no mínimo 3 variáveis que vocês
pretendam utilizar para o trabalho da disciplina
5. Cada componente do grupo escolherá uma variável e analisará,
no SPSS: histograma, a média, intervalo de 95% de confiança para
média, erro padrão, mediana, desvio padrão, assimetria e
curtose.

Conceitos Básicos de Estatística II

  • 1.
    Inferência Estatística: Conceitos BásicosII Distribuição Amostral e Teorema do Limite Central Análise Exploratória de dados no SPSS Vitor Vieira Vasconcelos Flávia da Fonseca Feitosa BH1350 – Métodos e Técnicas de Análise da Informação para o Planejamento Junho de 2017
  • 2.
    O Que RevisamosNa Aula Passada  Populações e Amostras  Medidas de Tendência Central: Média, Moda, Mediana  Medidas de Variabilidade: Variância e Desvio Padrão  Curva Normal  Distribuições de Frequência e Probabilidade  Escores padrão (valor padronizado z)  Cálculo da probabilidade sob a curva normal  Ambiente SPSS
  • 3.
    Aula de Hoje ConceitosBásicos de Inferência Estatística (Continuação) Distribuição Amostral e Teorema do Limite Central
  • 4.
    Leitura de Referência Capítulo1 Tudo o que você sempre quis saber sobre estatística (bem, quase tudo) (parcialmente, p. 42 – 47)
  • 5.
    Minha Amostra é Representativada População? DISTRIBUIÇÃO AMOSTRAL Convenções: μ = média população X = média amostra σ = DP população s = DP amostra Usamos amostras para estimar o comportamento/características de uma população. Por exemplo, usamos a média da amostra (X), para estimar a média da população (μ). Se pegarmos muitas amostras de uma mesma população, cada amostra terá sua própria média e em várias dessas amostras as médias serão diferentes.
  • 6.
    Minha Amostra é Representativada População? Podemos construir uma distribuição de frequência com as médias destas amostras! DISTRIBUIÇÃO AMOSTRAL Distribuição de frequências das médias de todas as amostras de uma mesma população. Está centrada no mesmo valor que a média da população DISTRIBUIÇÃO AMOSTRAL Convenções: μ = média população X = média amostra σ = DP população s = DP amostra
  • 7.
    Características de uma distribuiçãoamostral DISTRIBUIÇÃO AMOSTRAL 1. Se aproxima de uma curva normal (desde que o tamanho da amostra seja razoavelmente grande – N > 30) 2. A média de uma distribuição amostral (a média das médias) é igual à verdadeira média populacional (μ). 3. O desvio padrão de uma distribuição amostral (σX ) é menor do que o da população (σ). A média amostral é mais estável do que os escores que a compõe.
  • 8.
    Erro Padrão daMédia DISTRIBUIÇÃO AMOSTRAL ERRO PADRÃO Mede variabilidade entre as médias de diferentes amostras. Na verdade, deveria ser o desvio padrão da população dividido pela raiz quadrada do tamanho da amostra; no entanto, para amostras grandes, essa aproximação é razoável. ERRO PADRÃO DA MÉDIA (σX ) Desvio padrão das médias das amostras. Medida de quão representativa a amostra poderá ser da população Na realidade não podemos selecionar centenas de amostras para construir uma distribuição amostral. Técnica para estimar o erro padrão a partir do desvio padrão da amostra (s): Dividir s pela raiz quadrada do tamanho da amostra (N)
  • 10.
    Erro Padrão daMédia RECAPITULANDO:  Normalmente estamos interessados em utilizar a média da amostra como uma estimativa do valor da média da população.  No entanto, amostras diferentes fornecerão valores diferentes da média.  O Erro Padrão pode ser usado para se ter uma ideia da diferença entre a média da amostra e a média da população.  O Erro padrão pode ser estimado  maior quando o desvio padrão da população é maior (na falta do desvio padrão da população, usamos o da amostra); menor quando o número da amostra é maior.
  • 11.
    Erro Padrão daMédia Além de nos fornecer uma ideia da diferença entre a média da amostra (X) e a média da população (μ)…  Com ajuda do Erro Padrão da Média podemos estimar a probabilidade de nossa média populacional situar-se realmente dentro de um intervalo de valores médios  Conceito de INTERVALO DE CONFIANÇA
  • 12.
    Intervalos de Confiança Umaabordagem para determinar a precisão da média da amostra: Calcular os limites entre os quais acreditamos que o valor da média verdadeira estará INTERVALO DE CONFIANÇA Gama de valores (limites) entre os quais achamos que o valor da população (parâmetro) estará (no caso, o valor da média verdadeira)
  • 13.
    Intervalos de Confiança Umintervalo de confiança (IC) de 95% Como interpreto??? Se selecionarmos 100 amostras, calcularmos a média e, depois de determinarmos o intervalo de confiança para aquela média, 95% dos intervalos de confiança conterão o valor real da média da população
  • 15.
    OK! Agora vamos vercomo se calcula o IC… DISTRIBUIÇÃO AMOSTRAL DE MÉDIAS A MÉDIA DA NOSSA AMOSTRA ESTÁ EM ALGUM PONTO DA DISTRIBUIÇÃO
  • 16.
    Intervalos de Confiança Lembrampor que o valor 1,96 é um valor de z importante??? Lembrem também como podemos converter escores em escores-z: escores-z E 2,58? E 3,29? Porque 95% dos escores de z estão entre -1,96 e 1,96!!!
  • 17.
  • 18.
    Intervalos de Confiança Sesoubermos que nossos limites serão -1,96 e 1,96, em escores-z, quais são os escores correspondentes em valores dos nossos dados? [É o inverso do que fizemos na última aula] Para encontrar isso, vamos recolocar z na equação escores-z
  • 19.
  • 20.
    escores-z Usamos o ErroPadrão e não o Desvio Padrão porque estamos interessados na variabilidade das médias das amostras e não na variabilidade das observações dentro da amostra
  • 21.
  • 22.
    Exemplo – IC95% Digamos que tenhamos coletados dados sobre o preço do m2 dos imóveis em um determinado bairro. Temos uma amostra de 100 imóveis (N=100), com média = 3800 e desvio padrão (s) = 1500. Cálculo do Erro Padrão (EP):
  • 23.
    Exemplo – IC95% Digamos que tenhamos coletados dados sobre o preço do m2 dos imóveis em um determinado bairro. Temos uma amostra de 100 imóveis (N=100), com média = 3800 e desvio padrão (s) = 1500. Limite inferior do intervalo de confiança = 3800 – (1,96*150) = 3506 Limite superior do intervalo de confiança = 3800 + (1,96*150) = 4094
  • 24.
    Exemplo – IC95% Digamos que tenhamos coletados dados sobre o preço do m2 dos imóveis no Bairro W. Temos uma amostra de 100 imóveis (N=100), com média = 3800 e desvio padrão (s) = 1500. Limite inferior do intervalo de confiança = 3800 – (1,96*150) = 3506 Limite superior do intervalo de confiança = 3800 + (1,96*150) = 4094 Considerando que 95% dos intervalos de confiança contém a média da população, podemos dizer que este intervalo entre 3506 e 4094 tem 95% de chance de conter a média real do preço do m2 nos imóveis no Bairro W.
  • 25.
    Intervalos de Confiançamais Exatos Para amostras pequenas, onde s é uma estimativa menos confiável de σ devemos construir nosso intervalo de confiança de maneira um pouco diferente. Ao invés de usar 1.96 (escore-z), usamos um valor ligeiramente maior para refletir nossa redução na confiança. Este valor é baseado na distribuição t.
  • 26.
    Relembrando a aulapassada: Variância e Graus de Liberdade VARIÂNCIA – “média do quadrado dos desvios” No entanto, como geralmente queremos usar o erro na amostra para estimar o erro na população, dividiremos o SS pelo nr. de observações menos 1 (graus de liberdade). Assim, aumentamos ligeramente a variância amostral para produzir estimativas não tendenciosas (mais precisas) da variância populacional Estimativa da variância da população usando n amostras aleatórias xi onde i = 1, 2, ..., n.
  • 27.
    Intervalos de Confiançamais Exatos Neste caso, o escore z é substituído pela razão t. A razão t usa uma estimativa de erro padrão baseada em dados amostrais. À medida que o tamanho da amostra aumenta, o valor de ambas se torna muito parecido (…) t(i;0,05) gl = N-1 P = 1 – nível de confiança (área nas extremidades da distribuição t)
  • 28.
    Comparação entre Intervalosde Confiança Suponha que tenhamos dois ou mais grupos separados, por exemplo, os municípios do ABC. Podemos construir um intervalo de confiança de 95% para a média para cada um dos grupos, e então construir um gráfico com esses intervalos contra um eixo comum para verificar se existe uma interseção (i.e. se existem alguns valores em comum). Se os intervalos não se sobrepõem, então temos (pelo menos) 95% de confiança de que as verdadeiras médias não são iguais.
  • 29.
    Intervalos de Confiançano SPSS 1. Abra o arquivo “AguaSNIS2010.sav” 2. No SPSS, vá em Analisar> Estatísticas Descritivas > Explorar… 3. Selecione a variável “Consumo de água per capita – pop total” e, em “Estatísticas”, selecione “Descritivas” e 95%
  • 30.
    Intervalos de Confiançano SPSS Limite inferior= 24.77 – (1,96*0.25) = 24.28 Limite superior= 24.77 + (1,96*0.25) = 25.25
  • 31.
  • 32.
    Intervalos de Confiançano SPSS Assimetria
  • 33.
    Intervalos de Confiança- Grupos 1. No SPSS, vá em Analisar> Estatísticas Descritivas > Explorar… 2. Selecione a variável “Consumo de água per capita – pop total” na lista de variáveis dependents e a variável “REGIAO” em lista de fatores. 3. Em “Estatísticas…”, selecione “Descritivas” e 95%
  • 34.
  • 35.
  • 36.
    Os intervalos deconfiança estão se sobrepondo?
  • 37.
    Intervalos de Confiança- Grupos • Como o desvio padrão e o número de casos afetam o erro padrão de cada região? • Quais regiões se aproximam mais de uma curva normal? • Como isso afeta a mediana e a média?
  • 38.
    Atividade Individual: 1. Qual adiferença entre desvio padrão e erro padrão? 2. O que é um intervalo de confiança? 3. Como interpretar um intervalo de confiança de 95%? Em grupo: 4. Preparem uma planilha com no mínimo 3 variáveis que vocês pretendam utilizar para o trabalho da disciplina 5. Cada componente do grupo escolherá uma variável e analisará, no SPSS: histograma, a média, intervalo de 95% de confiança para média, erro padrão, mediana, desvio padrão, assimetria e curtose.