Slides Probabilidade e Estatística

3.313 visualizações

Publicada em

Material de apoio para a disciplina de Probabilidade e Estatística, ofertado pela Faesa em Vitória/ES – 2012/2013

Publicada em: Engenharia
0 comentários
4 gostaram
Estatísticas
Notas
  • Seja o primeiro a comentar

Sem downloads
Visualizações
Visualizações totais
3.313
No SlideShare
0
A partir de incorporações
0
Número de incorporações
4
Ações
Compartilhamentos
0
Downloads
118
Comentários
0
Gostaram
4
Incorporações 0
Nenhuma incorporação

Nenhuma nota no slide

Slides Probabilidade e Estatística

  1. 1. MARIA ALICE V. F. DE SOUZA ESTATÍSTICA APLICADA
  2. 2. Pensar estatisticamente será um dia, para a eficiente prática da cidadania, tão necessário como a habilidade de ler e escrever. Herbert George Wells
  3. 3. Estatística – origens Censo – latim censere – significa taxar Estatística – latim status – significa estado. A Estatística nas mãos de governantes constituiu- se em ferramenta administrativa.
  4. 4. ARCE 2006 [FCC] O processo estatístico que consiste em uma avaliação direta de um parâmetro, utilizando-se todos os componentes da população, denomina- se: a) amostragem b) estimação c) Censo d) parametrização e) correlação
  5. 5. Essência da Estatística: a observação Objetivo básico: inferência (deduzir, concluir) Importância: Avaliar o grau de dependência entre duas variáveis como o tempo médio de alguém digitando e sintomas de dores nos dedos; Avaliar o tempo médio de duração de uma aula e o nível de atenção;
  6. 6. O fator previdenciário da Previdência Social; As previsões das pesquisas eleitorais; Conhecer o tempo médio de duração de um sinal de trânsito vermelho e a sua paciência. Controlar a qualidade na produção de componentes eletrônicos; Usos estatísticos pelas seguradoras;
  7. 7. Estatística É um ramo da Matemática que trata dos métodos de coleta, organização, resumo, apresentação e análise de dados. Estatística Descritiva 1ª etapa Estatística Indutiva 2ª etapa Estatística Coleta e organiza os dados. Avalia e controla os dados coletados.
  8. 8. TERRACAP 2009 [UNIVERSA] (parte da questão) Julgue os itens a seguir. III - Uma fábrica produz 100.000 lâmpadas por mês. São sorteadas 100 lâmpadas, e essas são mantidas acesas até queimarem, com o objetivo de calcular a vida média desse tipo de lâmpada. A experiência, que utiliza um subconjunto de um grupo para calcular determinado parâmetro e admite que esse parâmetro é válido para todo o grupo, é um problema estudado pela estatística inferencial. VERDADEIRO
  9. 9. Variável Qualitativa Quantitativa Nominal Ordinal Contínua Discreta Não pode ordenar: •Estado civil •Religião •Sexo •região Pode ordenar: •Nível de educação •Classe social Contáveis: •Idade •Capacidadede passageiros •N°de filhos Não Contáveis: •Peso •Altura •Largura •Medida de capacidade
  10. 10. PETROBRAS 2010 [CESGRANRIO] Uma variável aleatória numérica contínua é uma variável que possui a característica de não se poder saber a priori o seu valor, além de ser (A) qualitativa e de poder assumir qualquer valor dentro do intervalo no qual está definida. (B) qualitativa e de ser fruto de um processo de contagem (C) qualitativa e de ser fruto de um processo de mensuração. (D) quantitativa e de poder assumir qualquer valor dentro do intervalo no qual está definida. (E) quantitativa e de ser fruto de um processo de contagem.
  11. 11. População e Amostra População (ou Universo): é qualquer conjunto de informações que tenham, entre si, uma característica comum. Ex.: conj. de todas as estaturas – população de estaturas conj. de todas as cores de olhos – população de cores de olhos
  12. 12. Amostra : redução representativa da população, ou seja, sem perda das características essenciais. Escolha dos números – números aleatórios (tabelas, sorteios etc.) População Amostra
  13. 13. TERRACAP 2009 [UNIVERSA] (parte da questão) Julgue os itens a seguir. I Uma cidade possui 1.000 habitantes. Um estatístico, necessitando fazer uma determinada pesquisa, entrevistou 200 pessoas. É correto dizer que, nesse exemplo específico, de uma amostra de 1.000 pessoas, o estatístico entrevistou uma população de 200 indivíduos. FALSO
  14. 14. TIPOS DE AMOSTRAGEM É o conjunto de técnicas utilizadas para a seleção de uma amostra. Esse conjunto de técnicas pode ser subdividido em dois grupos básicos: AMOSTRAGEM ALEATÓRIA AMOSTRAGEM NÃO ALEATÓRIA •amostragem aleatória simples ou ao acaso; •amostragem sistemática; •amostragem estratificada •amostragem por conglomerados. •amostragem intencional; •amostragem voluntária. Não permitem o controle de variabilidade amostral, o que inviabiliza o controle de qualidade da estimação.
  15. 15. AMOSTRAGEM ALEATÓRIA SIMPLES OU AO ACASO É aquela em que se atribui aos grupos de mesma quantidade de elementos, a mesma probabilidade de participar da amostra. Cada elemento da população tem a mesma probabilidade de participar da amostra. Para se obter uma amostra aleatória simples, caso a população seja finita, podemos atribuir a cada elemento um número. Ex: Fichas numeradas podem ser misturadas em uma urna. O sorteio das fichas identificam os elementos que deverão participar da amostra, garantindo a mesma chance para cada um deles. AMOSTRAGEM ALEATÓRIA OU PROBABILÍSTICA
  16. 16. AMOSTRAGEM SISTEMÁTICA Quando se conhece uma listagem dos elementos da população pode-se obter uma amostra aleatória de n elementos dividindo-se o número de elementos da população pelo tamanho da amostra. Ex: É o caso, por exemplo, de um processo de auditoria em notas fiscais de uma empresa. Como as notas fiscais são numeradas, a escolha de uma amostra pode ser feita de maneira sistemática.
  17. 17. AMOSTRAGEM ESTRATIFICADA Pode ocorrer que a população seja formada por subgrupos diferentes, mas cada um deles homogêneo. Neste caso, vamos selecionar aleatoriamente uma quantidade de cada grupo para formar a amostra, proporcional ao tamanho desse grupo. Exemplo: Podemos dividir a população em 3 estratos: renda alta, renda média, renda baixa, e proceder à amostragem estratificada. Na amostragem estratificada é preciso selecionar elementos de todos os estratos. Ex.: analisar indivíduos de todas as idades presentes na população.
  18. 18. AMOSTRAGEM POR CONGLOMERADOS Em algumas situações, podemos identificar um grupo de elementos que tenha aproximadamente a mesma composição de população. Neste caso, pode ser interessante realizar amostragem usando somente os elementos desse grupo. Ex.: Algumas empresas, quando pretendem avaliar a aceitação de um produto no eixo Rio- São Paulo, lançam o produto em Curitiba, cuja população se comporta como uma miniatura desse mercado. Ex.: quarteirões em um bairro.
  19. 19. AMOSTRAGEM INTENCIONAL Ocorre quando o pesquisador seleciona intencionalmente os componentes da amostra; Ex.: Em um estudo sobre automóveis, o pesquisador procura apenas oficinas; Em uma pesquisa sobre preferência por determinado cosmético, o pesquisador entrevista os frequentadores de um grande salão de beleza. AMOSTRAGEM NÃO ALEATÓRIA OU NÃO PROBABILÍSTICA
  20. 20. AMOSTRAGEM VOLUNTÁRIA OU ACIDENTAL Ocorre quando o componente da população se oferece voluntariamente para participar da amostra independentemente do julgamento do pesquisador. Ex.: Coleta por amostragem voluntária, de sangue para identificação de doenças sexuais curáveis; Pesquisas de opinião em praças públicas, ruas movimentadas de grandes cidades, etc. AMOSTRAGEM NÃO ALEATÓRIA OU NÃO PROBABILÍSTICA
  21. 21. TERRACAP 2009 [UNIVERSA] A finalidade da amostragem é permitir fazer inferências sobre uma população após inspeção de apenas parte dela. Fatores como custo, tempo, ensaios destrutivos e populações infinitas tornam a amostragem preferível a um estudo completo (censo) da população. Naturalmente, espera-se que a amostra represente a população de que foi extraída. Entre os métodos de amostragem existentes, assinale a alternativa correta. (A) A amostragem estratificada consiste na divisão da população global em subgrupos heterogêneos (homogêneos), utilizando-se em seguida todos os elementos de alguns subgrupos escolhidos aleatoriamente
  22. 22. (B) A amostragem por conglomerados consiste na divisão da população de origem em, no mínimo, duas subpopulações com as mesmas características. Em seguida, extrai-se uma amostra (todos os elementos) de cada subdivisão. (C) A amostragem sistemática consiste na escolha de elementos na ordem em que aparecem em determinada lista. (D) Em nenhuma hipótese é permitido o uso da amostragem por julgamento, por não se tratar de um procedimento probabilístico. (é não probabilística; o julgamento do pesquisador influencia na amostra) (E) A amostragem aleatória simples é caracterizada pelo fato de cada elemento da população possuir a mesma chance de ser escolhido.
  23. 23. Gráficos Colunas Barras 0 20 40 60 80 100 1940 1950 1960 1970 População População 0 20 40 60 80 100 1940 1950 1960 1970 População do Brasil População do Brasil 0 50 100 150 200 250 Argentina Brasil México Portugal Concorrência dos vários meios publicitários em 1970 Montante da despesa em milhões de dólares Televisão Rádio Outdoors Revistas Jornais
  24. 24. Gráficos 0 100 200 300 400 500 1 2 3 4 5 6 7 Série1 Série2 Linhas 0 20 40 60 80 100 120 140 1980 1981 1982 A B C
  25. 25. Gráficos Setores Polar 0 5 10 15 20 Jan Fev Mar Abr Mai Jun Jul Ago Set Out Nov Dez Série1 Ônibus 60% Trem 5% Aviao 32 % Barco 3%
  26. 26. Pictórico Gráficos
  27. 27. Pictórico Gráficos
  28. 28. Área Outros Gráficos
  29. 29. Superfície Gráficos
  30. 30. gráfico de candlesticks/ box plot Fonte: site da bolsa de ações japonesa.
  31. 31. ESTATÍSTICA DESCRITIVA Distribuições de Frequência PROFª MARIA ALICE V. F. DE SOUZA
  32. 32. Distribuição de Frequência xifi213222232241254Total12Fonte: TítuloClassefi45 |- 551555 |- 653065 |- 753575 |- 851585 |- 955Total100Fonte: Título
  33. 33. Amplitude Total (R): diferença entre o maior e o menor valor observado nos dados. R = 25-21= 4 R = 95-45= 50 Classefi45 |- 551555 |- 653065 |- 753575 |- 851585 |- 955Total100Fonte: Títuloxifi213222232241254Total12Fonte: Título
  34. 34. Exemplo: Notas de Matemática de 80 estudantes de Engenharia da Universidade X no ano de 1990. Distribuição de Frequência 68 84 75 82 68 90 62 88 76 93 73 79 88 73 60 93 71 59 85 75 61 65 75 87 74 62 95 78 63 72 66 78 82 75 94 77 69 74 68 60 96 78 89 61 75 95 60 79 83 71 79 62 67 97 78 85 76 65 71 75 65 80 73 57 88 78 62 76 53 74 86 67 73 81 72 63 76 75 85 77
  35. 35. Dados Brutos: dados desorganizados Rol: são os dados brutos organizados em ordem crescente ou decrescente. Distribuição de Frequência 53 57 59 60 60 60 61 61 62 62 62 62 63 63 65 65 65 66 67 67 68 68 68 69 71 71 71 72 72 73 73 73 73 74 74 74 75 75 75 75 75 75 75 76 76 76 76 77 77 78 78 78 78 78 79 79 79 80 81 82 82 83 84 85 85 85 86 87 88 88 88 89 90 93 93 94 95 95 96 97
  36. 36. Notasfi50 |- 55155 |- 60260 |- 651165 |- 701070 |- 751275|- 802180 |- 85685 |- 90990 |- 95495 |- 100480Fonte: hipotéticaNotas de Matemática - Universidade X- 1990 - Engenharia 
  37. 37. fi – frequência absoluta – valores absolutos; fr – frequência relativa – é a freq. absoluta da classe em termos percentuais; fa – frequência acumulada – freq. total de todos os valores inferiores ao limite superior de um dado intervalo de classe; far – frequência acumulada relativa – é a freq. acumulada em termos relativos ou percentuais. Distribuição de Freqüência
  38. 38.  Distribuição de Frequência Notas fi fr (%) fa far (%) 50 |- 55 1 1,25 1 1,25 55 |- 60 2 2,50 3 3,75 60 |- 65 11 13,75 14 17,50 65 |- 70 10 12,50 24 30,00 70 |- 75 12 15,00 36 45,00 75 |- 80 21 26,25 57 71,25 80 |- 85 6 7,50 63 78,75 85 |- 90 9 11,25 72 90,00 90 |- 95 4 5,00 76 95,00 95 |- 100 4 5,00 80 100,00 80 100,00 Notas de Matemática - Universidade X - 1990 - Engenharia Fonte: hipotética
  39. 39. Ponto Médio de uma Classe: É o ponto intermediário do intervalo da classe e é obtido pela média aritmética entre o limite inferior e o superior de cada classe.  Notas fi ponto médio 50 |- 55 1 52,5 55 |- 60 2 57,5 60 |- 65 11 62,5 65 |- 70 10 67,5 70 |- 75 12 72,5 75 |- 80 21 77,5 80 |- 85 6 82,5 85 |- 90 9 87,5 90 |- 95 4 92,5 95 |- 100 4 97,5 80 Notas de Matemática - Universidade X - 1990 - Engenharia Fonte: hipotética Distribuição de Frequência
  40. 40. ESTATÍSTICA DESCRITIVA Medidas de Posição PROFª MARIA ALICE V. F. DE SOUZA
  41. 41. Medidas de Posição Estas medidas nos orientam quanto à posição da distribuição no eixo x, possibilitando comparações de séries de dados entre si pelo confronto desses números. São também conhecidas como medidas de tendência central, pois representam os fenômenos pelos seus valores médios, em torno dos quais tendem a concentrar-se os dados.
  42. 42. Média Aritmética ( ) __ X n x X n i i   1 __ n= n° de elementos do conjunto Ex.: de 3, 7, 8, 10, 11 7,8 5 __ 3 7 8 10 11         n x X Para dados não agrupados: Para dados agrupados: n x f X n i i i   1 __ . n= n° de elementos do conjunto fi=frequência simples __ X
  43. 43. Exemplo 1: 2,6 10 26 10 __ 1.1 2.3 3.5 4.1      X  f n i   Exemplo 2: Renda familiar (em milhares $) fi ponto médio 2 - 4 5 3 4 - 6 10 5 6 - 8 14 7 8 - 10 8 9 10 - 12 3 11 Total 40 6,7 40 268 40 __ 5.3 10.5 14.7 8.9 3.11       X  xi fi 1 1 2 3 3 5 4 1 Total 10
  44. 44. A média aritmética é influenciada pela soma, subtração, multiplicação e divisão. Propriedades da Média Aritmética
  45. 45. Mediana (Md) Colocados os dados em ordem crescente, mediana é o valor que divide a amostra, ou população, em duas partes iguais. 0% 50% 100% Md Para dados isolados: Se n for ímpar: a Md será o elemento central; Se n for par: a Md será a média aritmética entre os elementos centrais. 2 4 7 9 11 17 23 24 24
  46. 46. 2 4 7 9 11 17 23 24 24 25 Md = 14 2 11 17   Para dados isolados agrupados: xi fi fa 1 1 1 2 3 4 3 5 9 4 2 11 Total 11 elemento n Md     6 2 1 O 6° elemento se encontra na 3ª classe; Md = 3.
  47. 47. xi fi fa 82 5 5 85 10 15 87 15 30 89 8 38 90 4 42 Total 42 87 2 87 87 2 21 22      Md 
  48. 48. Para dados agrupados em classes: Md i f f h n Md l Md    ). 2 ( limite inferior da classe Md freqüência da classe Md soma das freq.anteriores à classe da Md. amplitude classe Md
  49. 49. Exemplo: Classes fi fa 35 - 45 5 5 45 - 55 12 17 55 - 65 18 35 65 - 75 14 49 75 - 85 6 55 85 - 95 3 58 Total 58 Classe Md (58/2=29) Md i f f h n Md l Md    ). 2 ( 61,67 18 120 55 18 17).10 2 58 ( 55     Md  
  50. 50. CGU 2008 [ESAF] Determine a mediana do seguinte conjunto de dados: 58, 95, 17, 44, 63, 9, 57, 21, 88, 12, 31, 28, 73, 5 e 56. a) 28 b) 31 c) 44 d) 50 e) 56
  51. 51. CGU 2008 [ESAF] - Solução Determine a mediana do seguinte conjunto de dados: 5 9 12 17 21 28 31 44 56 57 58 63 73 88 95 a) 28 b) 31 (é o sétimo dado) c) 44 d) 50 (média de 44 e 56) e) 56 (é o nono dado)
  52. 52. Separatrizes Quartis Decis Percentis
  53. 53. Quartis Os quartis dividem um conjunto de dados em 4 partes iguais. 0% 50% 100% Q2 25% 75% Q3 Q1 1° quartil separa os primeiros 25% dos elementos. 3° quartil separa os primeiros 75% dos elementos. 2° quartil coincide com a Md.
  54. 54. Cálculo do 1° Quartil Q1: 11). 4( 1QQfhfnlQ  
  55. 55. Cálculo do 3° Quartil Q3: 33). 43( 3QQfhfnlQ  
  56. 56. Exemplo: Classes fi fa 7 - 17 6 6 17 - 27 15 21 27 - 37 20 41 37 - 47 10 51 47 - 57 5 56 Total 56 classe do Q1 classe da Md classe do Q3 classe do Q1 classe da Md classe do Q3 elemento n  14 4 elemento n   28 2 elemento n   42 4 3
  57. 57. 22,33 15 6).10 4 56 ( 17 1   Q   30,5 20 21).10 2 56 ( 27   Md   38 10 41).10 4 3.56 ( 37 3   Q  
  58. 58. CGU 2008 [ESAF] Dado o conjunto de dados: 58, 95, 17, 44, 63, 9, 57, 21, 88, 12, 31, 28, 73, 5 e 56, determine a amplitude interquartílica Q3 – Q1. a) 33. b) 37. c) 40. d) 46. e) 51
  59. 59. CGU 2008 [ESAF] Solução Dado o conjunto de dados: 58, 95, 17, 44, 63, 9, 57, 21, 88, 12, 31, 28, 73, 5 e 56, determine a amplitude interquartílica Q3 – Q1. 5 9 12 17 21 28 31 44 56 57 58 63 73 88 95 15/4= 3,75 ~ 4 15.(3/4) = 11,25 ~ 12 63 – 17 = 46 a) 33 b) 37 c) 40 d) 46 e) 51
  60. 60. Moda (Mo) É o valor mais freqüente da distribuição. Para distribuições simples (sem agrupamentos em classes), verifica-se a moda pela simples observação do elemento que apresenta maior freqüência. Ex.: 2 – 4 – 4 - 5 – 7 – 8 – 10 Mo=4 Ex.: Mo=248 xifi24372451724823251203078Total75
  61. 61. Para dados agrupados: •identificar a classe modal •fórmula de Czuber M l h o i . 1 2 1       amplitude classe Mo limite inferior da classe Mo diferença entre a freqüência da classe modal e a imediatamente anterior. diferença entre a freqüência da classe modal e a imediatamente posterior.
  62. 62. Ex.: classes fi 0 - 1 3 1 - 2 10 2 - 3 17 3 - 4 8 4 - 5 5 Total 43 1  2  classe modal 2,44 16 7 .1 2 7 9 7 2 1 . (17 10) (17 8) (17 10) 2 . 1 2 1                   o o o i M M M l h Se a classe modal cair na 1ª ou na última classe, fazer a diferença com zero.
  63. 63. AFRFB 2009 [ESAF] Considere a seguinte amostra aleatória das idades em anos completos dos alunos em um curso preparatório. Com relação a essa amostra, marque a única opção correta: 29, 27, 25, 39, 29, 27, 41, 31, 25, 33, 27, 25, 25, 23, 27, 27, 32, 26, 24, 36, 32, 26, 28, 24, 28, 27, 24, 26, 30, 26, 35, 26, 28, 34, 29, 23, 28. a) A média e a mediana das idades são iguais a 27. b) A moda e a média das idades são iguais a 27. c) A mediana das idades é 27 e a média é 26,08. d) A média das idades é 27 e o desvio-padrão é 1,074. e) A moda e a mediana das idades são iguais a 27.
  64. 64. AFRFB 2009 [ESAF] - SOLUÇÃO Considere a seguinte amostra aleatória das idades em anos completos dos alunos em um curso preparatório. Com relação a essa amostra, marque a única opção correta: 29, 27, 25, 39, 29, 27, 41, 31, 25, 33, 27, 25, 25, 23, 27, 27, 32, 26, 24, 36, 32, 26, 28, 24, 28, 27, 24, 26, 30, 26, 35, 26, 28, 34, 29, 23, 28. 23 23 24 24 24 25 25 25 25 26 26 26 26 26 27 27 27 27 27 27 28 28 28 28 29 29 29 30 31 32 32 33 n=37 Md = 27 (décimo-nono) Mo = 27 a) A média e a mediana das idades são iguais a 27. b) A moda e a média das idades são iguais a 27. c) A mediana das idades é 27 e a média é 26,08. d) A média das idades é 27 e o desvio-padrão é 1,074. e) A moda e a mediana das idades são iguais a 27.
  65. 65. SEFAZ 2004 BA [FCC] Considere a tabela abaixo que mostra a distribuição de salários (em reais) de 160 funcionários de determinada empresa, com suas respectivas frequências relativas acumuladas. O valor modal dos salários (desprezando os centavos) é: a) 1784 b) 1666 c) 1648 d) 1636 e) 1628 Classes em reais Frequência relativa acumulada (%) [600,1000) 10 [1000,1400) 30 [1400,1800) 70 [1800,2200) 95 [2200,2600) 100
  66. 66. SEFAZ 2004 BA [FCC] - Solução Considere a tabela abaixo que mostra a distribuição de salários (em reais) de 160 funcionários de determinada empresa, com suas respectivas frequências relativas acumuladas. O valor modal dos salários (desprezando os centavos) é: a) 1784 b) 1666 c) 1648 d) 1636 e) 1628 Classes em reais far (%) Frequência absoluta [600,1000) 10 10 [1000,1400) 30 20 [1400,1800) 70 40 [1800,2200) 95 25 [2200,2600) 100 5
  67. 67. ESTATÍSTICA DESCRITIVA Outros Gráficos Estatísticos PROFª MARIA ALICE V. F. DE SOUZA
  68. 68. Outros Gráficos: Histograma  Retiradas (R$) Frequência pt. médio 500 |- 600 12 550 600 |- 700 36 650 700 |- 800 63 750 800 |- 900 81 850 900 |- 1000 77 950 1000 |- 1100 42 1050 1100 |- 1200 24 1150 335 Fonte: fictícia Retiradas diárias de um banco
  69. 69. Outros Gráficos: Polígono de frequência  Retiradas (R$) Frequência pt. médio 500 |- 600 12 550 600 |- 700 36 650 700 |- 800 63 750 800 |- 900 81 850 900 |- 1000 77 950 1000 |- 1100 42 1050 1100 |- 1200 24 1150 335 Fonte: fictícia Retiradas diárias de um banco
  70. 70. Outros Gráficos: Ogiva de Galton  Retiradas (R$) Frequência pt. médio 500 |- 600 12 550 600 |- 700 36 650 700 |- 800 63 750 800 |- 900 81 850 900 |- 1000 77 950 1000 |- 1100 42 1050 1100 |- 1200 24 1150 335 Fonte: fictícia Retiradas diárias de um banco
  71. 71. Petrobras 2010 [CESGRANRIO] Histogramas e polígonos de frequências são duas representações gráficas de distribuições (A) uniformes. (B) de frequências. (C) de acumulações. (D) não uniformes. (E) assimétricas.
  72. 72. IRB 2006 [ESAF] Histograma e Polígono de frequência são: a) a mesma representação gráfica (idênticas) de uma distribuição de frequência. b) um texto descritivo e uma representação gráfica de uma distribuição de frequência. c) um texto descritivo e uma função gráfica de uma distribuição de frequência. d) duas representações gráficas de uma distribuição de frequência. e) duas representações gráficas de uma distribuição de frequência, porém com sentidos opostos.
  73. 73. branco negro outros grupos étnicos Outros Gráficos: Box Plot
  74. 74. SEFAZ RJ 2009 [FGV] Para comparar as rendas de dois grupos de pessoas, A e B, foram preparados diagramas de caixas (box-plots) com os valores observados dos salários, representados na figura a seguir:
  75. 75. A respeito desses diagramas, considere as seguintes afirmativas: I.O salário médio dos dois grupos é o mesmo. II.A distribuição de salários no grupo A é assimétrica à direita. III.Há mais pessoas no grupo A do que no grupo B.
  76. 76. Assinale: (A)Se somente a afirmativa I for verdadeira; (B)Se somente a afirmativa II for verdadeira; (C)Se somente a afirmativa III for verdadeira; (D)Se somente as afirmativas I e II forem verdadeiras; (E)Se somente as afirmativas II e III forem verdadeiras.
  77. 77. I.O salário médio dos dois grupos é o mesmo. (não há como saber) II.A distribuição de salários no grupo A é assimétrica à direita. (sim) III.Há mais pessoas no grupo A do que no grupo B. (não há como saber) (B) Se somente a afirmativa II for verdadeira
  78. 78. Outros Gráficos: Ramo e Folhas 0 9 1 0 1 3 3 5 7 8 8 8 9 2 0 0 1 2 2 2 3 3 3 5 7 7 8 9 3 2 2 3 6 6 8 9 4 0 1 5 6 2
  79. 79. Tipos de Curvas CURVA SIMÉTRICA CURVA ASSIMÉTRICA POSITIVA CURVA ASSIMÉTRICA NEGATIVA
  80. 80. ESTATÍSTICA DESCRITIVA Medidas de Dispersão PROFª MARIA ALICE V. F. DE SOUZA
  81. 81. Medidas de Dispersão São medidas estatísticas utilizadas para avaliar o grau de variabilidade, ou dispersão, dos valores em torno da média. O termo dispersão indica o grau de afastamento de um conjunto de números em relação à sua média. __ X xi dispersão Exemplos: a) 20, 20, 20 a=20; b) 15, 10, 20, 25, 30 b=20 __ X __ X
  82. 82. Amplitude Total (Range - R) Diferença entre o maior e o menor dos valores da série. R = xmáx. - xmín. Ex.: para a série 10, 12, 20, 22, 25, 33, 38 R = 38 – 10 = 28 A amplitude total é uma medida de dispersão limitada pois não leva em consideração a dispersão dos valores internos.
  83. 83. Variância ( ) 2  Mede as variações ocorridas. É calculada a partir das diferenças entre cada elemento e a média do conjunto.     i i i f [(x x) . f ] 2 __ 2 
  84. 84. Desvio Padrão ( ) É também uma medida capaz de medir variação. 2             i i f x x f n x x ( ) . ( ) 2 __ 2 __  
  85. 85. AFPS 2002 [ESAF] Dada a sequência de valores 4, 4, 2, 7 e 3, assinale a opção que dá o valor da variância. Use o denominador 4 em seus cálculos. a)5,5 b)4,5 c)3,5 d)6,0 e)16,0
  86. 86. AFPS 2002 [ESAF] - Solução Dada a sequência de valores 4, 4, 2, 7 e 3, assinale a opção que dá o valor da variância. Use o denominador 4 em seus cálculos. 0 0 4 9 1 0 0 -2 3 -1
  87. 87. Logo… a)5,5 b)4,5 c)3,5 d)6,0 e)16,0
  88. 88. O desvio-padrão e a variância não são influenciados pela soma e subtração, mas sim pela multiplicação e divisão. Propriedades do Desvio-padrão e da Variância
  89. 89. TRE PI 2009 [FCC] Uma variável aleatória X apresenta uma média igual a 8 e variância 25. Define-se variância relativa de uma variável aleatória como sendo a divisão da respectiva variância pelo valor do quadrado da média, quando esta é diferente de zero. Então, a variância relativa da variável aleatória Y = 2X – 1 é (A) 25/64 (B) 2/9 (C) 4/9 (D) 16/36 (E) 25/36
  90. 90. TRE PI 2009 [FCC] - Solução Uma variável aleatória X apresenta uma média igual a 8 e variância 25. Define-se variância relativa de uma variável aleatória como sendo a divisão da respectiva variância pelo valor do quadrado da média, quando esta é diferente de zero. Então, a variância relativa da variável aleatória Y = 2X – 1 é (A) 25/64 (B) 2/9 (C) 4/9 (D) 16/36 (E) 25/36
  91. 91. Caso os dados sejam de uma amostra, as fórmulas passam a ser:      ( ) 1 ( ) . 2 __ 2 i i i f x x f S tamanho da amostra menos 1. ou        ] ( ) [ ( ) 1 1 2 2 2 i i i i i i f x f x f f S tamanho da amostra menos 1.
  92. 92. Grau de Curtose MENOR DISPERSÃO; MAIOR CONCENTRAÇÃO DE DADOS MAIOR DISPERSÃO; MENOR CONCENTRAÇÃO DE DADOS
  93. 93. Distribuição delgada; LEPTOCÚRTICA Distribuição nem chata, nem delgada; MESOCÚRTICA Distribuição achatada; PLATICÚRTICA
  94. 94. Cálculo do Grau de Curtose 2( ) 90 10 3 1 P P Q Q K    Se k < 0,263 LEPTOCÚRTICA Se K = 0,263 MESOCÚRTICA Se K > 0,263 PLATICÚRTICA P percentil P percentil Q quartil Q quartil         10 90 1 3 10 90 1 3
  95. 95. Cálculo do Coeficiente de Assimetria 3 1 1 3 __ 2 Q Q Q Q Md AS X Mo AS              0 0 0 AS AS AS Distribuição é Simétrica Distribuição é Assimétrica Positiva Distribuição é Assimétrica Negativa
  96. 96. MPU 2004 [ESAF] A mediana é uma medida de posição usualmente utilizada na análise de distribuições de renda porque as distribuições de renda a) têm intervalos de classe distintos. b) sempre são normais. c) tipicamente são do tipo uniforme. d) geralmente se mostram bastante assimétricas e) são sempre bimodais
  97. 97. INEP 2008 [CESGRANRIO] Analise as afirmações a seguir. Numa distribuição simétrica, a média e a mediana coincidem. PORQUE Numa distribuição simétrica a moda nem sempre existe. Quanto às afirmações acima, pode-se concluir que (A) as duas asserções são verdadeiras e a segunda é uma justificativa correta da primeira. (B) as duas asserções são verdadeiras e a segunda não é uma justificativa correta da primeira. (C) a primeira asserção é uma proposição verdadeira e a segunda, uma proposição falsa. (D) a primeira asserção é uma proposição falsa e a segunda, uma proposição verdadeira. (E) tanto a primeira como a segunda são proposições falsas.
  98. 98. Coeficiente de Variação (CV) Trata-se de uma medida relativa de dispersão útil para a comparação em termos relativos do grau de concentração em torno da média de séries distintas. 100.__ XCV  
  99. 99. Em geral, a distribuição possui: baixa dispersão: CV 15% média dispersão: 15%<CV<30% alta dispersão: CV 30%  
  100. 100. Senado 2008 [FGV] O coeficiente de variação amostral (em porcentagem) de um conjunto de salários é 110%. Se os salários desse conjunto forem reajustados em 20%, o novo coeficiente de variação amostral será: (A) 110%. (B) 112,2%. (C) 114,2%. (D) 122%. (E) 130%.
  101. 101. Senado 2008 [FGV] - Solução O coeficiente de variação amostral (em porcentagem) de um conjunto de salários é 110%. Se os salários desse conjunto forem reajustados em 20%, o novo coeficiente de variação amostral será: (A) 110%. (B) 112,2%. (C) 114,2%. (D) 122%. (E) 130%.
  102. 102. SEFAZ SP – 2006 [FCC] Considerando as respectivas definições e propriedades relacionadas às medidas de posição e de variabilidade, é correto afirmar: (A)Concedendo um reajuste de 10% em todos os salários dos empregados de uma empresa tem-se que a respectiva variância fica multiplicada por 1,10. (B) Definindo o coeficiente de variação (CV) como sendo o quociente da divisão do desvio-padrão pela respectiva média aritmética (diferente de zero) de uma sequência de valores, tem-se então que CV também poderá ser obtido dividindo a correspondente variância pelo quadrado da média aritmética.
  103. 103. (C) Subtraindo um valor fixo de cada salário dos funcionários de uma empresa, tem-se que o respectivo desvio-padrão dos novos valores é igual ao valor do desvio-padrão dos valores anteriores. (D) Dividindo todos os valores de uma sequência de números estritamente positivos por 4, tem-se que op respectivo desvio-padrão fica dividido por 2. (E) Em qualquer distribuição de valores em estudo, a diferença entre a mediana e a moda é sempre diferente de zero.
  104. 104. SEFAZ SP – 2006 [FCC] Considerando as respectivas definições e propriedades relacionadas às medidas de posição e de variabilidade, é correto afirmar: (A)Concedendo um reajuste de 10% em todos os salários dos empregados de uma empresa tem-se que a respectiva variância fica multiplicada por 1,10. 1,21 (B) Definindo o coeficiente de variação (CV) como sendo o quociente da divisão do desvio-padrão pela respectiva média aritmética (diferente de zero) de uma sequência de valores, tem-se então que CV também poderá ser obtido dividindo a correspondente variância pelo quadrado da média aritmética. Não, essa seria a variação relativa.
  105. 105. (C) Subtraindo um valor fixo de cada salário dos funcionários de uma empresa, tem-se que o respectivo desvio-padrão dos novos valores é igual ao valor do desvio-padrão dos valores anteriores. (D) Dividindo todos os valores de uma sequência de números estritamente positivos por 4, tem-se que o respectivo desvio-padrão fica dividido por 2. Não, fica dividido por 4. (E) Em qualquer distribuição de valores em estudo, a diferença entre a mediana e a moda é sempre diferente de zero. Há casos em que são iguais.
  106. 106. Escore z É o n° de desvios-padrão pelo qual um valor x dista da média (para mais ou para menos).  __ xxz  
  107. 107. -3 -2 -1 0 1 2 3 valores comuns valores incomuns valores incomuns __ X 1 __ 1 X  __ X  2 __ 2 X  __ X  z É uma escala que permite que você meça quantos desvios-padrão o valor em questão está acima/abaixo da . __ X
  108. 108. Exemplo 1: As alturas da população de homens adultos têm X=69,0 in, desvio-padrão =2,8 in (in=pol). O jogador Michael Jordan ganhou reputação de gigante, mas com 78 in, ele pode ser considerado excepcionalmente alto, comparado com a população geral de homens adultos americanos?  3,21 2,8 78 69 __       x x z A altura de Michael Jordan está 3,21 desvios-padrão acima da média. Sim, ele é alto para os padrões americanos. __ X
  109. 109. Vamos investigar como é essa curva.       15% 0,0406 4,06% 69 2,8 .100 __ CV X CV  baixa dispersão 99,7% 95,0% 68,0% A altura de Michael Jordan está contido nos 0,15% da população. __ X  __  X __ X 2 __ 2 X  __ X  3 __ 3 X  __ X 
  110. 110. PROBABILIDADE PROFª MARIA ALICE V. F. DE SOUZA
  111. 111. A probabilidade surgiu com os jogos de azar como jogos de cartas, de roletas, de números etc, no século XVI. Mais tarde, sua utilização foi ampliada para estudos de Genética por Mendel que, até hoje, continuam sendo válidos. Os resultados previsíveis são chamados de determinísticos. Por exemplo, o tempo gasto para um objeto atingir o solo sendo lançado de uma certa altura. Caso não saibamos o resultado final de um experimento com antecedência, chamamos de aleatório. Por exemplo, lançar uma moeda; jogar na loteria de números, jogar um dado etc.
  112. 112. Em Probabilidade estudamos experimentos aleatórios que tenham a mesma chance de ocorrência, isto é, a chance de acontecer os diferentes resultados é a mesma.
  113. 113. Espaço Amostral (S) Para cada experimento aleatório E defini-se Espaço Amostral – S - o conjunto de todos os possíveis resultados desse experimento. Ex.: Experimento E1 = jogar um dado e observar o número da face de cima. S = {1, 2, 3, 4, 5, 6} Ex.: Experimento E2 = jogar 2 moedas e observar o resultado. S = {(c,c), (c,k), (k,c), (k,k)} c – cara k - coroa
  114. 114. Evento O evento se caracteriza por ser qualquer subconjunto do conjunto S. Ex.: E1 = lançar um dado e observar o número de cima. S = {1, 2, 3, 4,, 5, 6} Evento A = ocorrer múltiplo de 2 = {2, 4, 6} 
  115. 115. Observações: 1- Quando o evento for igual ao espaço amostral, o evento é dito CERTO; 2- Quando o evento for , o evento é considerado IMPOSSÍVEL. 
  116. 116. Probabilidade amostralespaçoelementosneventoelementosnEventop    º º )( )(º )(º )( SnEvnEvp
  117. 117. Exemplos: 1- Seja o experimento aleatório: nascimento de 3 filhotes de um casal de gatos. Determine: a) O S deste experimento: S = {(MFF), (MFM), (MMF), (MMM), (FMM), (FMF), (FFM), (FFF)} b) A probabilidade do evento: exatamente 2 fêmeas. 8 3 8 ( )( )( ) ( ) ( ) ( )    MFF FMF FFM n S n Ev p Ev
  118. 118. c) A probabilidade do evento: nascimento de exatamente 3 machos. d) A probabilidade do evento: nascimento de, pelo menos, 2 fêmeas. 8 1 ( ) ( ) ( )   n S n Ev p Ev 50% 2 1 8 4 p(Ev)   
  119. 119. 2- Numa urna existem 4 bolas amarelas e 2 bolas rosas. Qual é o S retirando-se 3 bolas sucessivamente? S = {(AAA), (AAR), (ARA), (ARR), (RAA), (RAR), (RRA)} n(S)=7 A R A A A R R R A A A R R 
  120. 120. 3- Qual o espaço amostral no lançamento de 2 moedas simultaneamente? S = {(cc), (ck), (kc), (kk)} c c k k cc kc ck kk
  121. 121. 4- Qual o S do experimento aleatório lançamento simultâneo de 3 moedas diferentes? S = {(ccc), (cck), ... (kkk)} n(S) = 8 c k c c c k k k k c c c k k
  122. 122. 4.1- Calcule a probabilidade do evento: no mínimo 1 cara: 4.2- Calcule a probabilidade do evento: pelo menos 2 coroas: 8 7 p(Ev)  2 1 8 4 p(Ev)  
  123. 123. 4.3- Calcule a probabilidade do evento: no máximo 1 cara: 4.4- Calcule a probabilidade do evento: exatamente 2 coroas: 2 1 8 4 p(Ev)   8 3 p(Ev) 
  124. 124. Alguns Tipos de Eventos 1- Eventos Mutuamente Exclusivos ou Excludentes Dois eventos são chamados mutuamente exclusivos, se eles não puderem ocorrer simultaneamente, isto é, evento A e evento B são disjuntos, ou seja, BA
  125. 125. Ex.: lançar um dado e observar se vai dar par ou ímpar. S = {1, 2, 3, 4, 5, 6} Ev(A) = ocorrer nº par = {2,4,6} Ev(B) =ocorrer nºímpar ={1,3,5} AB 
  126. 126. 2- Eventos Complementares O complemento de um evento A, denotado por , consiste em todos os resultados em que o evento A não ocorre. Ex.: Se p(chuva)=0,4, determine p(ñ-chuva). p(ñ-chuva) = 1 – p(chuva) = 1 - 0,4 = 0,6 ___ A___ A
  127. 127. 3- Eventos Independentes Dois eventos A e B são independentes se a ocorrência de um deles não afeta a probabilidade de ocorrência do outro. (Analogamente, vários eventos são independentes se a ocorrência de qualquer um deles não afeta as probabilidades de ocorrência dos outros).
  128. 128. Ex.: a jogada de uma moeda e a jogada de um dado são eventos independentes, porque o resultado da moeda não afeta a probabilidade do resultado do dado. Então: )().()(BpApBAp
  129. 129. 4- Eventos Condicionais ou Probabilidade Condicional Se A e B são eventos de um espaço amostral S, com p(B) diferente de zero, então a probabilidade condicional do evento A, tendo ocorrido o evento B, é indicada por p(A/B). )( )( )/( BpBApBAp  
  130. 130. Ex.: Dois dados são lançados. Considere os eventos: onde x1 é o resultado do dado 1 e x2 é o resultado do dado 2. Calcule p(A/B) e p(B/A) }|),{( }10|),{( 21212121xxxxBxxxxA  
  131. 131. Solução: A={(4,6), (5,5), (6,4)} B={(2,1), (3,1), (3,2), (4,1), (4,2), (4,3), (5,1), (5,2), (5,3), (5,4), (6,1), (6,2), (6,3), (6,4), (6,5)}     {(2,1), (3,1),...(6,5)} {(6,4)} ( ) ( ) ( / ) p B p A B p A B 15 1 36 15 36 1 
  132. 132. Ainda podemos calcular a probabilidade condicional da seguinte maneira: Considere o primeiro evento como sendo um espaço amostral reduzido: Sreduzido={(2,1),(3,1),...,(6,5)}=15 elementos
  133. 133. E o segundo evento passa a ser um evento desse Sreduzido. Ev: x1+x2=10 : {(6,4)} 15 1     {(4,6), (5,5), (6,4)} {(6,4)} ( ) ( ) ( / ) p A p B A p B A 3 1 15 3 15 1 
  134. 134. Ou, pelo Sreduzido: Sreduzido: {(4,6), (5,5), (6,4)} Evento: x1>x2 = {(6,4)} p(Ev) = 3 1
  135. 135. Notem que, em geral, p(A/B) é diferente de p(B/A). Resumo: ( ) ( ) ( / ) p B p A B p A B   interseção do nºelementos de A e B dividido pelo S total. probabilidade de B dividido pelo total. OU p(B) se torna o Sreduzido e verificamos quantos elementos do conjunto A estão em B.
  136. 136. RESUMO Regra da Adição p(A ou B) A e B são mutuamente excludentes? p(A ou B)=p(A) + p(B) p(A ou B)=p(A) + p(B) – p(A e B) N S
  137. 137. RESUMO Regra da Multiplicação ou do Produto p(A e B) A e B são independentes? p(A e B)=p(A) . p(B) p(A e B)= p(A). p(B/A) N S ou )( )( )/( ApABpABp  
  138. 138. Teorema de Bayes Sejam os eventos A1, A2, ..., Ak, mutuamente excludentes e seja B um evento qualquer. Se quisermos saber a probabilidade p(A1/B), conhecidas as probabilidades p(B/A1), p(B/A2),..., p(B/Ak) e p(A1), p(A2),..., p(Ak) , então: ( / ) ( ) ... ( / ) ( ) ( / ) ( ) ( / ) 1 1 1 1 1 k k p B A p A p B A p A p B A p A p A B    para p(B)  0
  139. 139. Ex.: A probabilidade de que um teste médico identifique corretamente alguém com uma doença, dando positivo é 0,99; e a probabilidade de que o teste identifique corretamente alguém sem a doença, dando negativo, é 0,95. A incidência da doença na população em geral é 0,0001. Você fez o teste e o resultado foi positivo. Qual a probabilidade de que você tenha a doença? Seja D = ter doença = não ter doença S = teste positivo = teste negativo __ D__ S9999,0)(0001,0)( __ DpDp05,0)/(95,0)/( 99,0)/( ______   DSpDSpDSp
  140. 140. p(D/ S)  ??? ( / ). ( ) ( / ). ( ) ( / ). ( ) ( / ) __ __ p S D p D p S D p D p S D p D p D S   ( / ) 0,2% 0,001976... 0,002 0,050094 0,000099 ( / ) 0,000099 0,049995 0,000099 ( / ) 0,99.0,0001 0,05.0,9999 0,99.0,0001 ( / )         p D S p D S p D S p D S
  141. 141. Petrobras 2005 [CESGRANRIO] O gráfico a seguir é o box-plot da distribuição de renda, em mil reais, da população de um determinado município. 5 6 7 10 12 Qual é a probabilidade de um habitante desse município ter renda superior a 6 mil reais?
  142. 142. (A) 0,15 (B) 0,20 (C) 0,25 (D) 0,50 (E) 0,75
  143. 143. DISTRIBUIÇÕES DE PROBABILIDADE PROFª MARIA ALICE V. F. DE SOUZA
  144. 144. Modelos de Distribuições Discretas de Probabilidade Bernoulli Binomial Poisson Multinomial Geométrica Hipergeométrica Binomial Negativa etc Distribuição Binomial Trata-se de uma distribuição de probabilidade adequada aos experimentos que apresentam apenas dois resultados: sucesso e fracasso. Este modelo fundamenta-se em três hipóteses: H1- n provas independentes e do mesmo tipo são realizadas; H2- cada prova admite dois resultados: sucesso e fracasso; H3- a probabilidade de sucesso em cada prova é p e de fracasso é 1-p=q
  145. 145. Admita sucesso = 1 e fracasso = 0 Seja a variável Y = n° sucessos das n provas. Para Y=0, temos uma sequência de n zeros: 00000000...0 p(Y=0) = q.q.q...q=qn (p0.qn) Para Y=1, temos uma sequência do tipo 10000...0; 01000...0; 00100...0; ... p(Y=1) = n.p.qn-1 n n sequências
  146. 146. p(Y=1) = n.p.qn-1 Para Y=y tem-se y sucessos e (n-y) fracassos, correspondendo às sequências com y algarismos 1 e n-y zeros. Cada seqüência terá probabilidade py.qn-y e como há sequências distintas tem-se:         y n y n y p q y n p Y y          (  )  . .
  147. 147. Para Y=n tem-se uma sequência de n uns: 11111...1, logo, p(Y=n) = pn. n Binômio de Newton n n n n q p n n q p n q p n q p 0 1 1 0 ... 0 1 ) (                               Triângulo de Pascal Valor de n 0 1 1 1 1 2 1 2 1 3 1 3 3 1 4 1 4 6 4 1 5 1 5 10 10 5 1 6 1 6 15 20 15 6 1 7 1 7 21 35 35 21 7 1 8 1 8 28 56 70 56 28 8 1 9 1 9 36 84 126 126 84 36 9 1 10 1 10 45 120 210 252 210 120 45 10 1 Coeficientes do Binômio de Newton ( ) 121 ( ) 11 ( ) 1 2 1 0       a b a b a b ( ) 151051 ( ) 14641 ( ) 1331 5 4 3       a b a b a b
  148. 148. Variância de uma Distribuição Binomial n p q Y . . 2 ( )   Média Aritmética de uma Distribuição Binomial n p Y . ( )   Exemplo: Uma moeda não viciada é lançada 8 vezes. Encontre a probabilidade de: a)dar 5 caras; b)pelo menos 1 cara; c)no máximo 2 caras. 2 1 2 1 8    q p n sucesso para cara fracasso para cara Y=n° de caras (sucessos) n° de provas
  149. 149. b) pelo menos 1 cara c) no máximo 2 caras 99,6% 2 1 2 1 0 8 1 ( 1) 1 ( 0) 8 0                           p Y    p Y  p(Y  2)  p(Y  0)  p(Y 1)  p(Y  2) 0,14 14% 2 1 2 1 2 8 2 1 2 1 1 8 2 1 8 1 7 2 6                                         0,22 22% 2 1 2 1 . 5 8 ( 5) 5 8 5                      p Y Solução: a) dar 5 caras
  150. 150. (ESAF) Em uma cidade, 10% das pessoas possuem carro importado. Dez pessoas dessa cidade são selecionadas ao acaso. A probabilidade de que exatamente 7 das pessoas selecionadas possuam carro importado é: a) (0,1)7 . (0,9)3 b) (0,1)3 . (0,9)7 c) 120 . (0,1)7 . (0,9)3 d) 120 . (0,1) . (0,9)7 e) 120 . (0,1)7 . (0,9)
  151. 151. Distribuição Poisson Em muitos casos, conhece-se o n° de sucessos, porém, se torna difícil e, às vezes, sem sentido determinar o n° de fracassos ou o n° total de provas. Por exemplo: automóveis que passam numa esquina/tempo; chamadas recebidas por uma mesa telefônica durante um período de tempo; o n° finito de nós em uma rede.
  152. 152. Fórmula da Distribuição de Probabilidade de Poisson t x e x t p x t . . ! ( . ) ( , )     sendo o coeficiente de proporcionalidade específico para cada problema; x é o número que ocorre o evento; t é o espaço em que ocorre o evento (a unidade). 
  153. 153. Ex.: Em média há duas chamadas por hora num certo telefone. Calcular a probabilidade de se receber no máximo três chamadas em duas horas. Solução: chamadas/hora Média   2 aritmética (3,2) ? 2 3    p t X 2 1 2 .         t 2 chamadas 1 hora p(X  3,2)  p(X  0,2)  p(X 1,2)  p(X  2,2) p(X  3,2) 2.2 3 2.2 2 2.2 1 2.2 0 . 3! (2.2) . 2! (2.2) . 1! (2.2) . ! (2.2)      e  e  e  e o x,t  43,35%
  154. 154. E qual é a probabilidade de nenhuma chamada em 90 minutos.          . 0,0498 0! .90) 30 1 ( . ! ( ) ( 0,90) 3 .90 30 1 0 . e e e x t p X t x   4,98%        30 1 60 2 .t Continuam 2 chamadas/hora, mas agora são minutos e não horas. x,t
  155. 155. Observação: O intervalo pode ser o tempo, a distância, a área, o volume ou outra unidade análoga. Atenção: 1- A distribuição binomial é afetada pelo tamanho amostral n e pela probabilidade p, enquanto a distribuição de Poisson é afetada pela média ; 2- Em uma distribuição binomial, os valores possíveis da variável aleatória x são 0,1,2,...,n, enquanto em uma distribuição de Poisson os valores possíveis de x são 0,1,..., sem limite superior. 
  156. 156. Modelos de Distribuições Contínuas de Probabilidade Uniforme ou Retangular Normal Lognormal Exponencial Qui-quadrado t de Student Distribuição F
  157. 157. Distribuição de Probabilidade Contínua Se X é uma variável aleatória contínua, a probabilidade de X tomar um determinado valor é, em geral, zero. Não se pode definir uma função de probabilidade contínua da mesma maneira como o fizemos no caso de uma variável discreta. Para chegarmos a uma definição de distribuição de probabilidade contínua, notemos que o que tem sentido é falar-se da probabilidade de X estar compreendido entre dois valores diferentes. (Spiegel, 1978, p.55)      ( ) 1 ( ) 0 f x dx f x Função de probabilidade contínua
  158. 158. Probabilidade da Uniforme ou Retangular Definimos que a probabilidade de X estar entre a e b é dada por:  badxxfbXap)()(
  159. 159. Distribuição de Probabilidade Uniforme ou Retangular Uma distribuição de variável aleatória contínua é uniforme quando sua função densidade de probabilidade for constante dentro de um intervalo de valores da variável aleatória X. Assim, cada um dos possíveis valores que X com distribuição uniforme pode assumir tem a mesma probabilidade de ocorrer. a b X f(x) 1/b-a b a a x b b a f x      , , 1 Função ( ) densidade uniforme
  160. 160. Exemplo de Probabilidade Uniforme ou Retangular Devido à volatilidade do mercado, a estimativa do preço da ação X para os próximos 12 meses mostra que deverá ser um valor dentro do intervalo $10 e $50, com igual probabilidade para todos os valores de preço dentro desse intervalo. Calcule: a)a probabilidade de que o valor da ação seja maior do que $40. b)A média e o desvio-padrão da ação.
  161. 161. a)a probabilidade de que o valor da ação seja maior do que $40. a b X f(x) 1/b-a
  162. 162. OU AINDA… a) a probabilidade de que o valor da ação seja maior do que $40. a c d b X f(x) b a d c p c X d   (   )  10 40 50 X f(x)
  163. 163. b) A média e a variância da ação.       x  f x dx x f x dx x ( ) . ( ) . ( ) 2  Média = Valor Esperado = Expectância Variância
  164. 164. OU AINDA… b) A média e a variância da ação. 12 ( ) 2 2 2 b a a b x x      Média = Valor Esperado = Expectância  Variância
  165. 165. Distribuição Normal N ( , ) 2   É a mais importante distribuição de probabilidade sendo aplicada em inúmeros fenômenos e utilizada para o desenvolvimento teórico da Estatística. Também é conhecida como Distribuição de Gauss, Laplace ou Laplace-Gauss.
  166. 166. A forma gráfica da distribuição normal lembra um sino. É conhecida como: curva normal, curva em sino ou curva de Gauss. O gráfico é simétrico em relação à  .
  167. 167. Seja X uma variável aleatória contínua. X terá distribuição normal se:        x f x e x 2 ( ) 2 1 . 2 1 ( )     Parâmetros de uma Distribuição Normal: Média Aritmética: Variância:  2 
  168. 168. Existem infinitas distribuições normais. Basta variarmos um dos parâmetros para termos outra distribuição. A figura mostra quatro distribuições normais com mesma média, mas com variâncias distintas.    menor dispersão = menor variância maior dispersão
  169. 169. A figura mostra quatro distribuições normais com mesma variância, mas com médias diferentes.   A  B  C  D  D C B A     2 2 2 2 A B C D    
  170. 170. Área sob a Curva Normal É a porção do plano compreendida entre a curva e a linha de base (eixo x), que corresponde, em qualquer distribuição normal, à 100% dos dados considerados.
  171. 171. Vamos limitar uma porção dessa área total a partir de dois pontos quaisquer tomados na linha de base. Por exemplo, a média aritmética e um outro ponto que coincide com 1 desvio- padrão acima da média. Esta porção abrange 34,13% da frequência total.
  172. 172. Distribuição Normal N ( , ) 2   3 2 1  1  2 3 68,27% 95,45% 99,73%
  173. 173. y Exemplo: Suponhamos que a média aritmética dos pesos de certo objeto seja =500g e que o desvio-padrão seja =1,5g. Qual a probabilidade de selecionarmos um objeto com peso entre 500 e 501?   g g 1,5 500     x g tabela x g g      0,67 1,5 1 1 1 1,5   Tabela: 0,6 na vertical e 0,07 na horizontal = 24,86% 498,5 500 501,5 34,13% 501 x 68,27%
  174. 174. Tabela: Áreas de uma distribuição normal padrão A tabela informa a proporção sob a curva inteira entre z=o e um valor absoluto de z. As áreas para os valores de z negativos são obtidas por simetria. tabela x z       0,67 1,5 501 500   tabela24,86%
  175. 175. Tabela: Áreas de uma distribuição normal padrão
  176. 176. Exemplo: As alturas dos alunos de determinada escola são normalmente distribuídas com média 1,60m e desvio-padrão 0,30m. Encontre a probabilidade de um aluno medir: a)entre 1,50m e 1,80m 0,30 1,60     X= variável normal -altura dos alunos p(1,50  x 1,80)  p(0,33 z  0,67) tabela 0,67 0,30 1,80 1,60 0,33 0,33 0,30 1,50 1,60 2 1                 x z x z
  177. 177. Segundo a tabela... 0,12930,2486  0,3779  37,79%
  178. 178. b) mais de 1,75m 50% 19,15% 0,5000 0,1915 0,3085 30,85% ( 1,75) ( ) ( 0,5) 1    p X   p z  z  p z   0,5 0,1915 0,30 1,75 1,60 1     z  tabela média aritmética desvio-padrão
  179. 179. c) menos de 1,48m 0,3446 34,46% ( 1,48) ( 1,48) 0,5000 0,1554  p X   p z     0,4 0,1554 0,30 1,48 1,60 1      z  tabela 50%
  180. 180. d) Qual deve ser a medida mínima para escolhermos 10% dos mais altos? Neste caso, tem-se a probabilidade e deseja-se a medida. Para se encontrar o valor de z que deixa 0,10 à direita, deve-se consultar na tabela o valor 0,40. Assim, o valor de z mais próximo de 0,40 é z=1,28, logo... x m x x z 1,98 0,30 1,60 1,28        
  181. 181. Distribuição de Probabilidade Lognormal A lognormal é a distribuição de uma variável aleatória cujo logaritmo segue a distribuição normal. Só trabalha com dados positivos. Na Engenharia essa distribuição vem sendo usada para descrever o tempo de falha, o tempo de reparo e também em estudos sobre confiabilidade.
  182. 182. A distribuição lognormal, em geral, é assimétrica à direita:
  183. 183. Considere Y uma variável aleatória com distribuição normal e X uma variável aleatória com distribuição lognormal. Y = ln X
  184. 184. , 2 1 ( ; , ) ( 1/ 2)[(ln y ) / y ]² y x e x f x          Função Densidade da Lognormal em X é... x>0 Caso contrário f(x) = 0.
  185. 185. Média Aritmética: Variância: É útil conhecer a mediana e a moda de uma lognormal. A mediana ( ), é y e  E a moda (Mo) é 2 2 ( ) y y E X x e       ( ) ² ( 1) 2 ² ²    y  y y V X e e x     y y ² Mo e   
  186. 186. Exemplo: A concentração de poluentes produzidos por indústrias químicas é descrita historicamente como uma distribuição lognormal. Você é responsável pela adequação dos níveis de poluição de certa indústria ao cumprimento de regulamentações governamentais. Suponha que a concentração do poluente (em partes por milhão) tenha média de 3,2 e desvio-padrão igual a 1. Qual a probabilidade de que a concentração exceda oito partes por milhão?
  187. 187. X é a concentração de poluentes, então... Já que ln(X) tem distribuição normal com média 3,2 e desvio-padrão igual a 1, então... Então, a chance de que a concentração ultrapasse oito partes por milhão é de 13,14%.
  188. 188. Tabela: Áreas de uma distribuição normal padrão
  189. 189. Generalizando, a fórmula para cálculo da probabilidade da lognormal é:
  190. 190. Distribuição de Probabilidade Exponencial Descreve o tempo que se leva para completar uma tarefa. Ex.: tempo entre chegadas a um lava-carros, tempo exigido para se carregar um caminhão, distância entre os maiores defeitos em uma auto-estrada etc.   x f x e   1 ( ) Função exponencial de probabilidade
  191. 191. Exemplo Considere que o tempo médio que se leva para carregar um caminhão na doca de carregamento é de 15 minutos. A função densidade de probabilidade que descreve esse tempo de carregamento é: 15 15 1 ( ) x f x e  
  192. 192. Fórmula para cálculo da probabilidade 15 0 0 ( carregamen to ) 1 x P tempo x e      0 ( ) 1 0 x P x x e     Para o exemplo da doca de carregamento...
  193. 193. Qual a probabilidade que um caminhão seja carregado...  em até de 6 minutos? ( carreg. 6) 1 15 0,3297 6      P tempo e
  194. 194. Qual a probabilidade para um caminhão carregar...  E em até 18 minutos?  entre 6 e 18 minutos? 0,6988  0,3297  0,3691 ( carreg. 18) 1 15 0,6988 18      P tempo e
  195. 195. CORRELAÇÃO E REGRESSÃO LINEAR PROFª MARIA ALICE V. F. DE SOUZA
  196. 196. Correlação Linear É o estudo da relação entre duas variáveis com o auxílio de um gráfico (chamado diagrama de dispersão) e de uma medida (chamada coeficiente de correlação linear). Ex.:Poderíamos pesar um urso com uma fita métrica? Se houver alguma relação entre o comprimento de um urso e seu peso, sim. Mas qual é esta relação?
  197. 197. Quando uma variável está, de alguma forma, relacionada a outra, dizemos que existe uma CORRELAÇÃO. Vantagem: a presença de uma correlação pode conduzir-nos a um método para estimar o peso de um urso medindo o seu comprimento.
  198. 198. gastos com combustível e km rodados; renda pessoal e anos de estudo; nºde defeitos em peças e horas de treinamento em qualidade.
  199. 199. Ex.: Variável x – idades das pessoas de determinadas classes; Variável y – tempo médio de duração do banho diário das pessoas entrevistadas em cada idade. 0 2 4 6 8 10 12 14 0 5 10 15 20 25 30 35 40 45 Duração do Banho (min) Idade (anos) Diagrama de Dispersão X252627282930313233343536373839404142Y121113121181097889776645
  200. 200. A configuração do gráfico nos faz supor que existe uma certa correlação entre as duas variáveis, isto é, com o tempo, as pessoas parecem demorar-se menos no banho. Obs.: Devemos ter cuidado na análise de correlação, pois as variáveis correlacionadas, não necessariamente, estão sujeitas a uma relação de causa e efeito. No exemplo, pode não ser a idade mas a falta de tempo que as faça tomar banho mais rápido.
  201. 201. O coeficiente de correlação linear r mede o grau de relacionamento linear entre os valores emparelhados x e y em uma amostra. O coeficiente de correlação linear também é chamado de coeficiente de correlação momento-produto de Pearson (1857-1936). x  n y y n x x n x x y y rxy _ 2 2 _ _ _ ( ) . ( ) ( )( )         desvio-padrão de x desvio-y padrão de y  coeficiente de correlação linear
  202. 202. Mais fórmulas para o cálculo do coeficiente de correlação linear ] ( ) ].[ ( ) [ . . 2 2 2 2 n y y n x x n x y x y rxy            Obs.: Ao calcular r ou outros cálculos estatísticos, o arredondamento durante os cálculos pode ocasionar erros sérios; recorra à memória da calculadora para armazenar os resultados intermediários, fazendo o arredondamento somente no final.
  203. 203. 0 -1 1 Correlação Nula Correlação Negativa Perfeita Correlação Positiva Perfeita Aumenta a correlação positiva Aumenta a correlação negativa 2222)()(.)()( ))((. yynxxnyxyxnrxy   
  204. 204. A observação dos diagramas de dispersão pode nos fornecer informações:
  205. 205. Ex.: Calcule o coeficiente de correlação linear r, com os dados da tabela abaixo: Comprimento x (pol) Peso y (lb) 53,0 80 67,5 344 72,0 416 72,0 348 73,5 262 68,5 360 73,0 332 37,0 34 Fonte: Minitab e Gary Alt. Comprimentos e Pesos de Ursos Machos Solução: n=8 (porque há 8 pares de dados)
  206. 206.             2 2 2 2 ( ) ( ) . ( ) ( ) . ( )( ) n x x n y y n x y x y rxy      2 2 8(34.525,75) (516,50) . 8(728.520) (2.176) 8(151.879) (516,50)(2.176) xy r 0,897 9.433,75. 1.093.184 91.128   xy r Cálculo de  x y : 151.879 Cálculo de  x : 516,50 Cálculo de  y : 2.176 Cálculo de ( ) : 34.525,75 2 x Cálculo de ( ) : 728.520 2  y
  207. 207. Interpretação do Coeficiente de Correlação Linear O valor de r deve estar sempre entre –1 e +1, inclusive. Se o valor de r está próximo de zero, concluímos que não há correlação linear significativa entre x e y, mas se r está próximo de –1 ou +1, concluímos pela existência de correlação linear significativa entre x e y. Como a interpretação da expressão “próximo de” 0, ou 1, ou –1 é vaga, adotaremos o critério de decisão seguinte: Se o módulo do valor calculado de r excede o valor da tabela a seguir, concluímos que há correlação linear significativa. Caso contrário, não há evidência suficiente para apoiar a existência de uma correlação linear significativa.
  208. 208. Tabela de Valores Críticos do Coeficiente de Correlação Linear r 05,0n40,95050,87860,81170,75480,70790,666100,632110,602120,576130,553140,532150,514160,497Valores Críticos do Coef.Correlação r170,482180,468190,456200,444250,396300,361350,335400,312450,294500,279600,254700,236800,220900,2071000,196Fonte: Introdução à Estatística - Mário F.Triola
  209. 209. CLASSIFICAÇÃO DO GRAU DE DEPENDÊNCIA ENTRE AS VARIÁVEIS 0,0 a 0,09 - NENHUMA 0,10 a 0,39 – FRACA 0,40 a 0,59 – MODERADA 0,60 a 0,89 – FORTE 0,90 a 1 - PERFEITA
  210. 210. A tabela de valores críticos mostra que com 8 pares de dados amostrais, o valor crítico é 0,707. Isso significa que existe uma chance de 5% de que o valor absoluto do coeficiente de correlação linear calculado r exceda 0,707. Como o valor encontrado foi de 0,897, concluímos que há correlação linear significativa entre os comprimentos e os pesos de ursos.
  211. 211. Algumas observações: 1.Se os pesos dos ursos são dados em Kg em vez de lb, o valor de r não se modificará; 2. r mede a intensidade, ou grau, de um relacionamento linear. Não serve para medir a intensidade de um relacionamento não-linear; 3.evite a conclusão de que a correlação implica causalidade porque pode haver uma 3ª variável oculta influenciando as duas em questão; 4.a conclusão de que não há correlação linear significativa não quer dizer que x e y não estejam relacionados de alguma forma.
  212. 212. Regressão Linear Ao termos alto grau de correlação linear entre duas variáveis significa que percorrendo os valores de uma, a outra vai surgindo. Para sabermos o peso de uma pessoa só conhecendo a altura, por exemplo, é preciso encontrar a regra ou equação que relaciona as duas variáveis. Esta equação tem o nome de equação de regressão linear (se for linear), isto é, se a correlação for uma reta.
  213. 213. Exemplo de Regressão Linear X 2 2 3 3 3 4 4 5 6 6 6 Y 1 2 2 3 4 2 4 3 4 5 3 0 1 2 3 4 5 6 0 1 2 3 4 5 6 7 eixo y eixo x Reta de Regressão Linear 4 _ X  3 _ y   X
  214. 214. A reta de regressão deve ser traçada de modo que passe pela média x e y, precisando ter uma inclinação tal que garanta os menores desvios de cada ponto em relação a ela. O ajuste da regra de regressão ao conjunto de pontos é feito pelo método chamado de mínimos quadrados.
  215. 215. y = ax + b Regressão Linear x y xy a r    _ _ b  y a x COEFICIENTE ANGULAR COEFICIENTE LINEAR Coeficiente de correlação entre as variáveis x e y.
  216. 216. Para o exemplo anterior teríamos uma regressão linear de: 016,1496,0xy496,048,113,1.65,0a016,14.496,03b
  217. 217. Outras fórmulas para o coeficiente angular e linear da reta de regressão linear. 2 2 ( ) ( ) ( ) ( )( ) n x x n xy x y a         2 2 2 ( ) ( ) ( )( ) ( )( ) n x x y x x xy b          COEFICIENTE ANGULAR COEFICIENTE LINEAR
  218. 218. ESTIMATIVA PROFª MARIA ALICE V. F. DE SOUZA
  219. 219. ESTIMATIVA A busca de informações a respeito de um fenômeno qualquer é necessária para a tomada de decisões que envolvem este fenômeno. Em particular, quando este fenômeno é aleatório, a busca de informações é direcionada para estabelecer a forma de distribuição da variável que descreve o fenômeno e os parâmetros desta distribuição (toda distribuição tem parâmetros). Um dos processos para a solução deste problema consiste em obter essas informações de maneira indireta por um processo chamado ESTIMAÇÃO.
  220. 220. A estimação é um processo que consiste em avaliar os parâmetros de uma distribuição por meio de estimadores obtidos em uma amostra, com base no cálculo de probabilidades. O cálculo de probabilidades é o instrumental que viabiliza avaliar parâmetros da distribuição a partir dos estimadores. Veremos métodos de estimação de valores da média aritmética (parâmetros populacionais). DEFINIÇÃO: Um estimador é uma estatística amostral (como a X amostral) utilizada para obter uma aproximação de um parâmetro populacional. Uma estimativa é um valor específico, ou um intervalo de valores, usado para aproximar um parâmetro populacional.
  221. 221. QUALIDADE DA ESTIMAÇÃO A qualidade de uma estimação depende basicamente da representatividade da amostra, ou seja, a capacidade da amostra reproduzir as características importantes da população. Vejamos um exemplo: A nutricionista de uma empresa foi encarregada de avaliar a qualidade nutritiva de uma sopa preparada por um fornecedor, que será servida a seus funcionários, pois houve reclamações de funcionários que sugerem que a sopa não está satisfazendo o padrão de qualidade nutricional exigido pela empresa. Se isso, de fato, estiver ocorrendo pode acarretar em multa contratual.
  222. 222. O procedimento viável nesta situação é fazer esta avaliação por meio de uma amostra. Para uma amostra representativa da população é preciso mexer bem a sopa para se obter um bom grau de homogeneidade no produto e, uma pequena amostra retirada nessas condições, irá conter os ingredientes aproximadamente na mesma proporção em que figuram na sopa. Assim sendo, podemos fazer a avaliação com alto grau de precisão. Caso a nutricionista, mesmo mexendo a sopa, desconfie do grau de homogeneidade da sopa, a maneira de conseguir boa representatividade consiste em aumentar o tamanho da amostra.
  223. 223. A análise desta situação leva-nos a concluir que populações com pequeno grau de variabilidade de seus elementos podem ser estudadas a partir de pequenas amostras. À medida que esta variabilidade aumenta, é necessário aumentar o tamanho da amostra para manter sua representatividade.
  224. 224. Exemplo de ESTIMAÇÃO A maioria das pessoas crê que a temperatura média do corpo humano seja de 98,6°F, mas os dados da tabela abaixo parecem sugerir uma média efetiva de 98,20°F. Sabemos que as amostras tendem a variar, de forma que talvez a verdadeira temperatura média seja 98,6°F, e a média amostral de 98,20°F seja o resultado de uma flutuação aleatória. Mas o contrário pode ocorrer! Analisemos os dados amostrais da tabela abaixo e vejamos se a temperatura média do corpo humano é ou não 98,6°F
  225. 225. 98,6 98,6 98,0 98,0 99,0 98,4 98,4 98,4 98,4 98,6 98,6 98,8 98,6 97,0 97,0 98,8 97,6 97,7 98,8 98,0 98,0 98,3 98,5 97,3 98,7 97,4 98,9 98,6 99,5 97,5 97,3 97,6 98,2 99,6 98,7 99,4 98,2 98,0 98,6 98,6 97,2 98,4 98,6 98,2 98,0 97,8 98,0 98,4 98,6 98,6 97,8 99,0 96,5 97,6 98,0 96,9 97,6 97,1 97,9 98,4 97,3 98,0 97,5 97,6 98,2 98,5 98,8 98,7 97,8 98,0 97,1 97,4 99,4 98,4 98,6 98,4 98,5 98,6 98,3 98,7 98,8 99,1 98,6 97,9 98,8 98,0 98,7 98,5 98,9 98,4 98,6 97,1 97,9 98,8 98,7 97,6 98,2 99,2 97,8 98,0 98,4 97,8 98,4 97,4 98,0 97,0 Fonte: Temperaturas amostrais obtidas pelos Drs.Philip Mackowiak, Steven Wasserman e Myron Levine, pesquisadores da Universidade de Marylan. Temperaturas do corpo de 106 adaultos sadios Por exemplo, com base nos dados da tabela, poderíamos utilizar o estimador X para concluir que a estimativa da temperatura média do corpo de todos os adultos sadios é 98,20°F. Mas por que X?
  226. 226. Há duas razões importantes que explicam porque uma média amostral é um melhor estimador de uma média populacional do que quaisquer outros estimadores, como a mediana ou a moda. 1. Para muitas populações, a distribuição de médias amostrais X tende a ser mais consistente (apresentar menor variação) do que as distribuições de outras estatísticas amostrais. (Isto é, se utilizamos médias amostrais para estimar a média populacional , essas médias amostrais terão menor desvio-padrão do que outras estatísticas amostrais, tais como a mediana ou a moda.)  
  227. 227. 2. Para todas as populações, dizemos que a média amostral X é um estimador não-tendencioso da média populacional , o que significa que a distribuição de médias amostrais tende a centrar- se em torno da média populacional . (Isto é, as médias amostrais não tendem a sobreestimar nem a subestimar sistematicamente o valor de . Ao contrário, tendem para o valor-alvo que é o próprio valor de . Por estas razões utilizaremos a X amostral como melhor estimativa da XXX (média populacional). Como a X é um valor único que corresponde a um ponto na escala numérica, vamos chamá-la de estimativa pontual.     
  228. 228. Antes de prosseguirmos, precisamos entender Intervalos de Confiança. DEFINIÇÃO: Um intervalo de confiança (ou estimativa intervalar) é uma amplitude (ou um intervalo) de valores que tem probabilidade de conter o verdadeiro valor da população. No exemplo, vimos que 98,20°F era nossa melhor estimativa pontual da média populacional , mas não tínhamos qualquer indicação sobre quão boa era essa estimativa. Se conhecêssemos apenas as quatro primeiras temperaturas de 98,6, 98,6, 98,0 e 98,0, nossa melhor estimativa pontual de seria sua média  
  229. 229. (X=98,30°F), mas esta estimativa pontual não seria tão boa, porque se baseia em uma amostra demasiadamente pequena. Assim é que os estatísticos desenvolveram outro tipo de estimativa que, efetivamente, indica quão boa é uma estimativa pontual. Essa estimativa, chamada intervalo de confiança ou estimativa intervalar, consiste em uma amplitude (ou um intervalo) de valores, em lugar de um valor único. Um intervalo de confiança está associado a um grau de confiança que é uma medida de nossa certeza de que o intervalo contém o parâmetro populacional. A definição de grau de confiança utiliza para descrever uma probabilidade que corresponde a uma área. 
  230. 230. A figura abaixo esboça a probabilidade XX que está dividida igualmente entre duas regiões extremas sombreadas (geralmente chamadas caudas) na distribuição normal padronizada. 
  231. 231. O grau de confiança é a probabilidade 1- (comumente expressa como o valor percentual equivalente) de o intervalo de confiança conter o verdadeiro valor do parâmetro populacional. (O grau de confiança é também chamado nível de confiança, ou coeficiente de confiança). São escolhas comuns para o grau de confiança: 90% (com =0,10), 95% (com =0,05) e 99% (com XX=0,01). A mais comum é a opção 95%, porque proporciona bom equilíbrio entre a precisão (refletida na amplitude do intervalo de confiança) e a confiabilidade (expressa pelo grau de confiança).    
  232. 232. Eis um exemplo de intervalo de confiança, com grau de 95% (ou 0,95) de confiança da média populacional é ... 98,08°F < < 98,32°F Note que a estimativa consiste em um intervalo e está associada a um grau de confiança. Interpretamos este intervalo de confiança como segue: Se fôssemos selecionar muitas amostras diferentes de tamanho n=106 da população de todos os cidadãos sadios, e construíssemos um intervalo de 95% de confiança análogo para cada amostra, a longo prazo, 95% desses intervalos conteriam efetivamente a média populacional .   
  233. 233. Devemos ter em mente que é um valor fixo, e não uma variável aleatória; portanto, é errado dizer que há 95% de chance de estar no intervalo. Qualquer intervalo de confiança contém, ou não contém XX, e como é fixo, não existe a probabilidade de estar em um intervalo. Pelo teorema Central do Limite, sabemos que as médias amostrais X tendem a distribuir-se normalmente, como na figura que mostramos. As médias amostrais apresentam uma chance relativamente pequena de estar em uma das caudas extremas.     
  234. 234. Denotando por a área sombreada de cada cauda, vemos que há uma probabilidade total de a média amostral estar em uma das caudas. Pela regra do complemento, decorre que há uma probabilidade 1- de uma média amostral estar na região não-sombreada da figura. O escore z que separa a região da cauda direita é denotado comumente por , e é chamado valor crítico porque está na fronteira que separa as médias amostrais passíveis de ocorrerem, das médias amostrais que provavelmente não ocorrerão. 2    2 z
  235. 235. Calculemos o valor crítico correspondente a um grau de confiança de 95%. Solução: Um grau de confiança de 95% corresponde a =0,05. Obtemos =1,96. 2  z
  236. 236. Voltando ao problema... Quando coletamos um conjunto de dados amostrais, como o conjunto das 106 temperaturas, podemos calcular a X; essa média amostral é tipicamente diferente da . A diferença entre X e XX pode ser encarada como um erro. Podemos calcular essa margem de erro (E) (diferença máxima provável entre X e ) como...    n E z   . 2 
  237. 237. Cálculo de E quando é desconhecido Se n>30, podemos substituir na fórmula de E, pelo desvio-padrão amostral s. Se n 30, a população deve ter distribuição normal, e devemos conhecer para aplicar a fórmula de E. Com base na definição da margem de erro E, podemos agora identificar o intervalo de confiança para .      ),( ____ __ ____ EXEXouEXouEXEX    nzEonde  .2 
  238. 238. Vamos agora construir o intervalo de confiança para o estimador X das 106 temperaturas... 0,62 98,20 106 __     s X F n (desvio-padrão amostral) Para um grau de confiança de 95%... 0,12 106 0,62 . 1,96. 0,05 1,96 2 2       n E z z    
  239. 239. Logo, 98,08 98,32 98,20 0,12 98,20 0,12 __ __             X E  X E Concluímos que para a amostra de 106 temperaturas, o intervalo de confiança para a é 98,08°F< <98,32°F, e este intervalo de confiança tem um grau de confiança de 0,95. Isto significa que, se escolhêssemos muitas amostras diferentes de tamanho 106 e construíssemos intervalos de confiança como fizemos aqui, 95% deles conteriam o valor da média populacional .   
  240. 240. Observe que os limites que encontramos, 98,08°F e 98,32°F do intervalo de confiança não contém o valor 98,6°F, que se admite ser a temperatura média do corpo humano. Por isso, deduzimos que parece ser muito pouco provável que o valor correto de  seja 98,6°F. INTERPRETAÇÃO DE UM INTERVALO DE CONFIANÇA Devemos ter cuidado para interpretar corretamente os intervalos de confiança. Desde que utilizamos dados amostrais para achar os limites específicos X – E e X + E, esses limites incluirão, ou não incluirão, a média populacional ; e isto não podemos determinar sem conhecer o verdadeiro valor de  . 
  241. 241. É incorreto afirmar que tem 95% de chance de estar entre os limites específicos de 98,08 e 98,32, porque XXé uma constante, e não uma variável aleatória. Ou está entre esses limites, ou não está; não há qualquer probabilidade em jogo. É correto dizermos que, a longo prazo, esses métodos darão intervalos de confiança que conterão em 95% dos casos. Suponhamos que no exemplo das temperaturas, estas provenham de uma população cuja verdadeira média é 98,25°F. Então o intervalo de confiança obtido dos dados amostrais conteria a média populacional, porque 98,2 está entre 98,08 e 98,32.    
  242. 242. AMOSTRAGEM PROFª MARIA ALICE V. F. DE SOUZA
  243. 243. AMOSTRAGEM É o conjunto de técnicas utilizadas para a seleção de uma amostra. Esse conjunto de técnicas pode ser subdividido em dois grupos básicos:
  244. 244. AMOSTRAGEM ALEATÓRIA Inclui técnicas como: •amostragem aleatória simples ou ao acaso; •amostragem sistemática; •amostragem estratificada •amostragem por conglomerados.
  245. 245. AMOSTRAGEM NÃO ALEATÓRIA Inclui técnicas como: •amostragem intencional; •amostragem voluntária. Não permitem o controle de variabilidade amostral, o que inviabiliza o controle de qualidade da estimação.
  246. 246. AMOSTRAGEM ALEATÓRIA SIMPLES OU AO ACASO É aquela em que se atribui aos grupos de mesma quantidade de elementos a mesma probabilidade de participar da amostra. Em particular, cada elemento da população tem a mesma probabilidade de participar da amostra. Para se obter uma amostra aleatória simples, caso a população seja finita, podemos atribuir a cada elemento um número. Fichas com esses números podem ser misturadas em uma urna. O sorteio das fichas identificam os elementos que deverão participar da amostra, garantindo a mesma chance para cada um deles. AMOSTRAGEM ALEATÓRIA OU PROBABILÍSTICA
  247. 247. AMOSTRAGEM SISTEMÁTICA Quando se conhece uma listagem dos elementos da população pode-se obter uma amostra aleatória de n elementos dividindo-se o número de elementos da população pelo tamanho da amostra. Usando o número inteiro mais próximo anterior a esse resultado, selecionamos os elementos da lista que ocorrem com essa periodicidade. É o caso, por exemplo, de um processo de auditoria em notas fiscais de uma empresa. Como as notas fiscais são numeradas, a escolha de uma amostra pode ser feita de maneira sistemática.
  248. 248. AMOSTRAGEM ESTRATIFICADA Pode ocorrer que a população seja formada por subgrupos diferentes, mas cada um deles homogêneo. Neste caso, vamos selecionar aleatoriamente uma quantidade de cada grupo para formar a amostra, proporcional ao tamanho desse grupo. É o caso da seleção, por exemplo, de uma amostra para avaliar algum parâmetro cujo valor seja estável, como nos grupos com a mesma faixa de renda. Podemos dividir a população em 3 extratos: renda alta, renda média, renda baixa, e proceder à amostragem estratificada.
  249. 249. AMOSTRAGEM POR CONGLOMERADOS Em algumas situações, podemos identificar um grupo de elementos que tenha aproximadamente a mesma composição de população. Neste caso, pode ser interessante realizar amostragem usando somente os elementos desse grupo. Algumas empresas, quando pretendem avaliar a aceitação de um produto no eixo Rio-São Paulo, lançam o produto em Curitiba, cuja população se comporta como uma miniatura desse mercado.
  250. 250. AMOSTRAGEM INTENCIONAL Ocorre quando o pesquisador seleciona intencionalmente os componentes da amostra; AMOSTRAGEM VOLUNTÁRIA Ocorre quando o componente da população se oferece voluntariamente para participar da amostra independentemente do julgamento do pesquisador. AMOSTRAGEM NÃO ALEATÓRIA OU NÃO PROBABILÍSTICA

×