Conceitos Básicos de Estatística I

414 visualizações

Publicada em

Medidas de Tendência Central
Desvio Padrão
Variância
Distribuições de Frequência e Probabilidade
Intervalos de Confiança
Apresentação disponível em: https://youtu.be/njXvCxskhdM
Aula de métodos e técnicas de análise da informação para planejamento, UFABC, junho de 2017
Gravação da aula disponível em: https://youtu.be/bwmkSik9mYg

Publicada em: Educação
  • Seja o primeiro a comentar

Conceitos Básicos de Estatística I

  1. 1. Inferência Estatística: Conceitos Básicos I Introdução, Medidas de Tendência Central, Medidas de Variabilidade, Distribuições de Frequência e Probabilidade Vitor Vieira Vasconcelos Flávia da Fonseca Feitosa BH1350 – Métodos e Técnicas de Análise da Informação para o Planejamento Junho de 2017
  2. 2. O Que Estudaremos na Aula de Hoje • Populações e Amostras • Medidas de Tendência Central: Média, Moda, Mediana • Medidas de Variabilidade: Variância e Desvio Padrão • Curva Normal • Distribuições de Frequência e Probabilidade • Escores padrão • Cálculo da probabilidade sob a curva normal • Prática no SPSS
  3. 3. Leitura de Referência Capítulo 1 Tudo o que você sempre quis saber sobre estatística (bem, quase tudo) (parcialmente, p. 31 – 42)
  4. 4. Como pesquisadores, estamos interessados em investigar questões que se apliquem a toda uma população de pessoas ou coisas  A população pode ser geral (todos os seres humanos) ou pequena (todos os edifícios de São Caetano com mais de 15 andares)  Raramente temos acesso aos dados de toda a população, mas apenas de um subconjunto  uma amostra, que utilizamos para inferir coisas sobre toda a população Populações & Amostras
  5. 5.  Quanto maior a amostra maior a probabilidade de ela refletir a população inteira  Amostras aleatórias da mesma população podem fornecer resultados ligeiramente diferentes  Em média, resultados de grandes amostras deverão ser bastantes similares Populações & Amostras
  6. 6. Método científico para tirar conclusões sobre os parâmetros da população a partir da coleta, tratamento e análise dos dados de uma amostra recolhida dessa população Inferência Estatística
  7. 7. Média como um modelo estatístico Média do número de habitantes por domicílio Nos ajuda a representar simplificadamente (modelar) este aspecto particular da realidade Digamos que eu tenha uma amostra de 5 domicílios, cada qual com os seguintes números de habitantes: Em média temos 2,6 habitantes por domicílio 1 2 3 3 4
  8. 8. Média como um modelo estatístico Média do número de habitantes por domicílio Em média temos 2,6 habitantes por domicílio (considerando nossa amostra) Mas é impossível ter 2,6 habitantes em um domicílio!!! A média é um valor hipotético, um MODELO criado para resumir nossos dados
  9. 9. Média como um modelo estatístico Uma maneira útil de descrever um grupo como um todo: • Qual é a renda média das famílias residentes na Mooca? • Qual é a altura média dos edifícios em São Caetano? • Qual é o PIB médio dos municípios localizados no arco do desmatamento?
  10. 10. Inferência Estatística se resumindo a uma equação… Saídai = (Modeloi) + erroi Ou seja, os dados que observamos podem ser previstos pelo modelo que escolhemos para ajustar os dados mais um erro
  11. 11. Este modelo é preciso? O quão diferente nossos dados reais são do modelo criado? Média (2,6) Desvios (erro do modelo) Nr.dehabitantes Domicílio FIELD, A. Descobrindo a estatística usando o SPSS. ARTMED, 2009
  12. 12. Erro total = soma dos desvios Nr.dehabitantes Domicílio Zero??? Para evitar o problema do erro direcionado (ou seja, positivo ou negativo), elevamos cada erro ao quadrado Usando os desvios para estimar a precisão do modelo FIELD, A. Descobrindo a estatística usando o SPSS. ARTMED, 2009
  13. 13. Usando os desvios para estimar a precisão do modelo Soma dos erros ao quadrado (SS) Nr.dehabitantes Domicílio Boa medida de acurácia do nosso modelo! Só que… quanto mais dados, maior a SS. FIELD, A. Descobrindo a estatística usando o SPSS. ARTMED, 2009
  14. 14. Variância Uma opção: Dividir SS pelo número de observações (N)  média do quadrado do erro para a amostra Essa medida é conhecida como VARIÂNCIA – “média do quadrado dos desvios” No entanto, como geralmente queremos usar o erro na amostra para estimar o erro na população, dividiremos o SS pelo nr. de observações menos 1 (graus de liberdade). Assim, aumentamos ligeramente a variância amostral para produzir estimativas não tendenciosas (mais precisas) da variância populacional Estimativa da variância da população usando n amostras aleatórias xi onde i = 1, 2, ..., n.
  15. 15. Um problema com o uso da variância como medida de erro: Ela é expressa em unidades quadradas (colocamos cada erro ao quadrado no cálculo) No caso do exemplo, diríamos que o quadrado da média do erro do nosso modelo foi de 1,3 habitantes. [Alteramos nossa unidade de medida!] Estimativa da variância da população usando n amostras aleatórias xi onde i = 1, 2, ..., n. Variância Uma alternativa: Tirar a raiz quadrada da variância  DESVIO PADRÃO
  16. 16. É simplesmente a raiz quadrada da variância! O desvio padrão (s) é uma medida de quão bem a média representa os dados!  Média dos desvios a contar da média Desvio Padrão Que todos os escores são os mesmos! Revela a dispersão dos dados em relação à média. s pequeno: observações estão próximas da média s grande: observações estão distantes da média s = 0 : O que significa?
  17. 17. Média com boa aderência aos dados Médias iguais, mas desvios padrão diferentes Média com pobre aderência aos dados Nr.dehabitantes Domicílio Nr.dehabitantes Domicílio Desvio Padrão = 0,5 Desvio Padrão = 1,8
  18. 18. Distribuições de Frequências HISTOGRAMA: Gráfico com os valores observados no eixo horizontal, com barras mostrando quantas vezes cada valor ocorreu no conjunto de dados Útil para avaliar as propriedades de um conjunto de valores Moda Escore que ocorre mais frequentemente no conjunto de dados Frequência Valores
  19. 19. Curva Normal Maioria dos escores está em torno do centro da distribuição. A medida que nos distanciamos do centro (média), a frequência dos escores diminui.Frequência Valores
  20. 20. Propriedades das Distribuições de Frequências Uma distribuição pode se desviar de uma normal de 2 maneiras principais: (1) Falta de simetria ASSIMETRIA (2) Achatamento CURTOSE Leptocúrtica Platicúrtica Positivamente Assimétrica Negativamente Assimétrica Frequência Valores Frequência Valores Frequência Valores Frequência Valores DESVIO PADRÃO MAIOR DESVIO PADRÃO MENOR
  21. 21. Medidas de Tendência Central MODA (Mo): Valor mais frequente em uma distribuição MEDIANA (Me): Medida que separa a distribuição em duas partes iguais MÉDIA (X): Soma de um conjunto de escores dividida pelo número total de escores no conjunto Medidas utilizadas para representar um conjunto de valores
  22. 22. Curva Normal Simétrica. Média, mediana e moda coincidem! Nem leptocúrtica, nem platicúrtica  Mesocúrtica Do pico central, a curva cai gradualmente em ambas as extremidades, chegando cada vez mais perto da reta básica, sem nunca tocá-la É um modelo teórico ou ideal que foi obtido por meio de uma equação matemática e não de pesquisa e coleta de dados Entretanto, é útil para situação reais de pesquisa pois a distribuição de muitos fenômenos de interesse de pesquisa assume a forma da curva normal Frequência Valores
  23. 23. Distribuições de Probabilidade Distribuições de frequência podem ser usadas para obter uma ideia aproximada da probabilidade de um escore ocorrer (ou intervalo) Exemplo da Aula Anterior: Considerando que a distribuição do número de residentes por domicílio possui a forma de uma distribuição normal, qual seria a probabilidade de termos, nos dados, um domicílio com 4 habitantes ou menos? PROBABILIDADE: NOÇÃO IMPORTANTE PARA A TOMADA DE DECISÃO!!!
  24. 24. Distribuições de Probabilidade Distribuições de frequência podem ser usadas para obter uma ideia aproximada da probabilidade de um escore ocorrer (ou intervalo) Exemplo da Aula Anterior: Considerando que a distribuição do número de residentes por domicílio possui a forma de uma distribuição normal, qual seria a probabilidade de termos, nos dados, um domicílio com 4 habitantes ou menos?  Para facilitar nosso trabalho, estatísticos elaboraram uma forma matemática que especifica versões idealizadas das distribuições: DISTRIBUIÇÕES DE PROBABILIDADE
  25. 25. Distribuições de Probabilidade A distribuição de probabilidades associa uma probabilidade a cada resultado numérico de um experimento, ou seja, dá a probabilidade de cada valor (ou de intervalo de valores) de uma variável aleatória.  É análoga a uma distribuição de frequência, exceto por ser baseada em teoria ao invés de dados empíricos (observações do mundo real)  As probabilidades representam a chance de cada escore ocorrer, diretamente análoga às porcentagens em uma distribuição de frequência.
  26. 26. A curva normal como uma distribuição de probabilidade  A curva normal é um ideal teórico  No entanto, existem muitas distribuições de dados reais que se aproximam da forma da curva normal É sempre importante checar!!!! Construir um histograma é um bom começo! Algumas variáveis nas ciências sociais, não se enquadram (renda e distribuição etária, por exemplo)
  27. 27. A curva normal como uma distribuição de probabilidade
  28. 28. A curva normal como uma distribuição de probabilidade Exemplo Aula Anterior: Residentes por Domicílio Média = 2,6; s = 1,14 1,46 3,742,6
  29. 29. Voltando a nossa pergunta: Considerando que a distribuição do número de residentes por domicílio possui a forma de uma distribuição normal, qual seria a probabilidade de termos, nos dados, um domicílio com 4 habitantes ou menos? 1,46 3,742,6 4 Residentes por Domicílio Média = 2,6; s = 1,14
  30. 30. Distribuição Normal Padrão  Já calcularam a probabilidade de certos escores ocorrerem numa distribuição normal com Média = 0 & Desvio padrão = 1 DISTRIBUIÇÃO NORMAL PADRÃO
  31. 31. Distribuição Normal Padrão MAS… a distribuição dos meus dados não apresenta média = zero e desvio padrão = 1! E aí???? QUALQUER CONJUNTO DE DADOS PODE SER CONVERTIDO EM UM CONJUNTO QUE TENHA MÉDIA ZERO E DESVIO PADRÃO 1 ! OBA!!!! Como fazer: (1) Para centrar dados em zero, pegamos cada escore e subtraímos dele a média de todos os escores. (2) Dividimos o escore resultante pelo desvio padrão para assegurar os os resultados terão DP = 1 escores-z
  32. 32. Distribuição Normal Padrão Voltando a nossa pergunta: Considerando que a distribuição do número de residentes por domicílio possui a forma de uma distribuição normal, qual seria a probabilidade de termos, nos dados, um domicílio com 4 habitantes ou menos? Considerando que a distribuição dos dados possa ser descrita como uma distribuição normal, com média = 2,6 e desvio padrão = 1,14 escores-z Primeiro Passo: Converter o valor 4 em um escore-z  (4 - 2,6)/1,14 = 1,23
  33. 33. Distribuição Normal Padrão 1,23
  34. 34. Distribuição Normal Padrão Voltando a nossa pergunta: Considerando que a distribuição do número de residentes por domicílio possui a forma de uma distribuição normal, qual seria a probabilidade de termos, nos dados, um domicílio com 4 habitantes ou menos? Considerando que a distribuição dos dados possa ser descrita como uma distribuição normal, com média = 2,6 e desvio padrão = 1,14 escores-z Primeiro Passo: Converter o valor 4 em um escore-z  (4 - 2,6)/1,14 = 1,23 Segundo Passo: Verificar tabela
  35. 35. z = 1,23 A probabilidade de termos um domicílio com até 4 habitantes é de 0,8907 (89,07%) Complementarmente, a probabilidade de termos um domicílio com mais de 4 habitantes é de 0,1093 (10,93%)
  36. 36. z = 1,96 z = -1,96 Separa os 2,5% do topo/cauda inferior da distribuição. Ou seja, 95% dos escores estão entre -1,96 e 1,96 Alguns z-escores são pontos de corte que destacam pontos importantes da distribuição.
  37. 37. z = 1,96 z = -1,96 Separa os 2,5% do topo/cauda inferior da distribuição. Ou seja, 95% dos escores estão entre -1,96 e 1,96 Alguns z-escores são pontos de corte que destacam pontos importantes da distribuição. 1,96-1,96
  38. 38. z = -2,58 z = +2,58 99% dos escores estão entre -2,58 e 2,58 z = -3,29 z = +3,29 99,9% dos escores estão entre -3,29 e 3,29 Alguns z-escores são pontos de corte que destacam pontos importantes da distribuição.
  39. 39. Prática O Ambiente SPSS

×