1
Disciplina Estatística
Apresentação
Este material é parte integrante da Disciplina Estatística. Você acessa o ambiente v...
2
3
Sumário
Unidade I – Conceitos básicos .....................................................................................
4
3.4 Mediana ...............................................................................................................
5
5.5.1 Regra do Produto para dois eventos independentes..........................................................59
5.6 D...
6
7
Unidade I – Conceitos básicos
 Conhecer os conceitos fundamentais para a utilização de técnicas
estatísticas de análise...
8
1.1 Estatística
De origem muito antiga, a Estatística teve durante séculos um caráter meramente
descritivo e de registro...
9
Por exemplo:
- a população dos alunos do curso de Administração da UniCarioca.
- a população dos eleitores do município ...
10
Percentual de fumantes: = 8/60 = 0,133! Ou seja, 13,3% de fumantes. Essa é uma variável
contínua! Sabe a razão? O valor...
11
Exemplos:
E1 - retirar uma carta de um baralho com 52 cartas e observar o resultado.
E2 - retirar com reposição bolas d...
12
Ponto Amostral X
(Ca,Ca) 2
(Ca,Co) 1
(Co,Ca) 1
(Co,Co) 0
X assim definida é uma Variável Aleatória.
Você saberia dizer ...
13
Tabela - É um quadro (linhas e colunas) que resume um conjunto de observações.
Composição de uma tabela
 Elementos ess...
14
Observação
De acordo com a Resolução nº 886 da Fundação IBGE, nas casas e células devemos colocar:
 um traço horizonta...
15
4. Apuração dos dados: consiste em resumir os dados através de sua contagem e
agrupamento. A apuração pode ser manual, ...
16
Unidade II – Organização de dados estatísticos
 Conhecer os principais tipos de séries estatísticas.
 Organizar e uti...
17
2.1 Série estatística
É toda tabela que apresenta a distribuição de um conjunto de dados estatísticos em função
da époc...
18
Série específica ou categórica: a variável é o fenômeno descrito.
Exemplo - Produção da Região “XY” em 2013
2.2 Distrib...
19
Um intervalo fechado à esquerda pode ser representado de duas formas:
Exemplo para 3 e 5 :  3├─ 5 ou [ 3 , 5).
Element...
20
Sabe dizer por que é inclusive 1 e exclusive 3?
Pense um pouco, já falamos sobre esse assunto em NOTAÇÃO!
f5 = 10  sig...
21
Frequência acumulada relativa (Fri): é a relação entre a frequência acumulada (Fi) e a frequência
total (Σfi).
Fri = Fi...
22
Tabela 2 – A tabela acima exibe o número de empregados com 0, 1, 2, 3, 4 ou 5 dependentes.
Os elementos da distribuição...
23
Esta tabela exibe as notas de Estatística em uma turma com 25 alunos. Todos os intervalos
têm a mesma amplitude (2) e s...
24
Polígono de frequência acumulada “abaixo de”
Polígono de frequência acumulada “acima de”
25
Exemplificaremos os demais tipos de gráficos a partir da tabela abaixo
TÍTULO - FATURAMENTO DAS FILIAIS - MIL R$
Filiai...
26
Colunas justapostas
É aquele em que os retângulos são dispostos um ao lado do outro.
Barras múltiplas
As barras são col...
27
Barras Superpostas
Observação: os gráficos de Colunas Justapostas, Barras Múltiplas, Colunas Superpostas e Barras
Super...
28
Unidade III – Medidas de Posição
 Utilizar medidas de posição para interpretar e analisar conjunto
de dados.
29
3.1 Medidas de Posição
São aquelas que indicam a posição da distribuição no eixo das abcissas. Se dividem em
Medidas de...
30
Neste caso, como as frequências são números indicadores da intensidade de cada valor da
variável, elas funcionam como f...
31
Precisamos preencher cada uma das colunas desta tabela para calcular a Média e os
respectivos desvios di. Vamos começar...
32
Agora já podemos calcular o valor da Média Aritmética.
Temos: ̅ , mas e
Logo: ̅
Então a altura média dessas 40 pessoas ...
33
3.3.4 Propriedades da média aritmética
1. A soma dos desvios em relação a média é igual a zero (0).
2. A média aritméti...
34
3. A mediana depende da posição e não dos valores dos elementos na série ordenada. Essa
é uma das diferenças entre a me...
35
Aplicando a regra prática para determinar a mediana vem:
= 20, logo a classe mediana é a Classe 3, pois 24 é a primeira...
36
Com Intervalos de classe
A classe que apresenta a maior frequência é denominada classe modal. Pela definição,
podemos a...
37
3.6 Posição relativa da média, mediana e moda
A posição relativa da Média, Moda e Mediana é importante para conhecermos...
38
Figura C
Aqui a Média é menor que a Mediana que por sua vez é menor que a Moda.
Percebeu que a Mediana está entre a Méd...
39
Temos, Md l
f
Faa
f
hi
i
md
 


[ ]
2
Onde:
= Limite inferior da classe do quartil k
= Frequência acumulada da cla...
40
PERCENTIS
São os valores que dividem uma série em 100 partes iguais.
0%
1% 2% 3% .......... 50% ........... 97% 98% 99%...
41
( )
( )
Exercícios - Resolução
1 - Temos
Primeiro Quartil
Vamos determinar a classe do Primeiro Quartil!
Temos: (como é...
42
Unidade IV – Medidas de Dispersão
 Utilizar as principais medidas de dispersão para interpretar e analisar
conjuntos d...
43
Medidas de Dispersão
As medidas de posição (média, mediana e moda) não são suficientes para caracterizar
perfeitamente ...
44
4.2 Principais Medidas de Dispersão
4.2.1 Amplitude Total
É a diferença entre o maior e o menor valor observados. Se os...
45
Obs: | |  significa Módulo e é sempre positivo! Assim, |2| = 2 e |-2| = 2!
4.2.3 Variância
É a média aritmética dos qu...
46
( ) ( ) ( ) ( ) ( )
( ) ( ) ( ) ( ) ( )
O desvio-padrão é dado por: √  √
4.2.5 Propriedades da variância e do desvio p...
47
Propriedades do Desvio Padrão
1. Somando-se ou subtraindo-se uma constante a todos os valores de um conjunto de
dados, ...
48
Exemplo - 1
Para um conjunto de dados relativos a estaturas têm-se:
Média =161 cm e Desvio Padrão S =5,57 cm.
Achar o C...
49
4.2.7 Propriedades do coeficiente de variação
1. Somando-se uma constante positiva a todos os elementos de um conjunto ...
50
Propriedade 2. Subtraindo-se uma constante positiva de todos os elementos de um conjunto de
dados o coeficiente de vari...
51
Realize os exercícios e depois confira a resposta na próxima página.
Lembre-se: Não vale olhar antes!
2 - Achar a variâ...
52
( )
Exercícios – Resolução (continuação)
1 - Precisamos abrir na tabela novas colunas para xi (ponto médio), fi x xi e ...
53
Unidade V – Probabilidade
 Conhecer os conceitos da teoria das probabilidades e sua utilização
na modelagem e solução ...
54
5.1 Introdução
5.1.1 O que é Probabilidade?
Os jogos de azar, que se caracterizam por ações como girar uma roleta, lanç...
55
Lembra como podemos descrever este evento? Obter um número maior que 6 no
lançamento de um dado. É impossível obter o n...
56
{1,1} {1,2} {1,3} {1,4} {1,5} {1,6}
{2,1} {2,2} {2,3} {2,4} {2,5} {2,6}
{3,1} {3,2} {3,3} {3,4} {3,5} {3,6}
{4,1} {4,2}...
57
ESPAÇO AMOSTRAL
Quantos elementos ele possui?
36 elementos!
Desses 36 elementos qual o que nos interessa?
Somente o que...
58
5.4 Probabilidade condicional
Se A e B são eventos de um espaço amostral S com P(B) 0, então a probabilidade
condiciona...
59
Temos, P(A∩B) = P(A) x P(B/A)
P(A) = 6/10 – essa é a probabilidade de se tirar uma peça defeituosa! Como são 6 peças
de...
60
No nosso curso vamos estudar apenas as distribuições contínuas e entre elas a mais
importante de todas que é a distribu...
61
Obviamente não podemos trabalhar com uma equação complexa como essa, pois exigiria
conhecimento mais aprofundado de Cál...
62
Perceba que como a curva é simétrica a soma das probabilidades à esquerda da
Média é igual a soma dos valores das proba...
63
Esse fato nos leva a seguinte reflexão: para cada variável (Normal) devemos ter uma Tabela
que especifique os valores d...
64
Temos então:
x1 = 2 x2 = 2,05  = 2 e  = 0,04
Vamos transformar a variável X na variável Z para poder usar a tabela no...
65
1,1 0,3643 0,3665 0,3686 0,3708 0,3729 0,3749 0,3770 0,3790 0,3810 0,3830
1,2 0,3849 0,3869 0,3888 0,3907 0,3925 0,3944...
66
Exercícios - Resolução
1- Temos:
Espaço Amostral S {1,2,3,4,5,6} n(S) = 6
Face ímpar, evento A = {1,3,5} n(A) = 3
P(A) ...
67
Unidade VI – Correlação e Regressão
 Conhecer técnicas de correlação e regressão para elaboração
de modelos de previsã...
68
6.1 Correlação
Um dos maiores problemas do investigador de fenômenos humanos e físicos é estabelecer
um modelo matemáti...
69
Neste caso o valor do coeficiente de correlação r está no intervalo  0 < r < 1!
Ou seja, a correlação linear entre X e...
70
6.2.4 Correlação linear negativa perfeita
Quando os pontos estão perfeitamente alinhados em sentidos opostos, ou seja, ...
71
2- Se duas variáveis aleatórias X e Y são independentes o coeficiente de correlação entre elas será
zero (0). O contrár...
Mdi   estatística
Mdi   estatística
Mdi   estatística
Mdi   estatística
Mdi   estatística
Mdi   estatística
Mdi   estatística
Mdi   estatística
Mdi   estatística
Mdi   estatística
Mdi   estatística
Mdi   estatística
Próximos SlideShares
Carregando em…5
×

Mdi estatística

464 visualizações

Publicada em

Apostila Completa

Publicada em: Educação
0 comentários
0 gostaram
Estatísticas
Notas
  • Seja o primeiro a comentar

  • Seja a primeira pessoa a gostar disto

Sem downloads
Visualizações
Visualizações totais
464
No SlideShare
0
A partir de incorporações
0
Número de incorporações
3
Ações
Compartilhamentos
0
Downloads
3
Comentários
0
Gostaram
0
Incorporações 0
Nenhuma incorporação

Nenhuma nota no slide

Mdi estatística

  1. 1. 1 Disciplina Estatística Apresentação Este material é parte integrante da Disciplina Estatística. Você acessa o ambiente virtual de aprendizagem: estuda, realiza as atividades, esclarece as dúvidas com seu professor-tutor! Aqui, você reforça o seu estudo, ainda tem a possibilidade de realizar mais atividades, aprimorando, assim, o seu aprendizado. Para ajudá-lo a consolidar seus conhecimentos, ao longo do material, você encontrará ícones com funções e objetivos distintos. Observe. Fique atento: destaca alguma informação importante que não deve ser esquecida por você. Também pode acrescentar um conhecimento novo ou uma experiência ao tema tratado. Dica: traz novos conhecimentos em relação ao tema tratado ou pode indicar alguma fonte de pesquisa para que você aprofunde ainda mais seus conhecimentos no futuro. Leitura complementar: indicação de um artigo com o objetivo de você se aprofundar no assunto a ser tratado. Consolidando a aprendizagem: são listas de perguntas cujo objetivo é você confirmar, negar ou criar um novo conhecimento ou opinião acerca do assunto que foi tratado no material. Objetivos da unidade: informam o que você precisa aprender em cada unidade. Aproveite! Você tem em mão a chance de desenvolver ou aprofundar seus conhecimentos na área de Estatística. Objetivos Gerais da Disciplina Introduzir os conceitos fundamentais para a utilização de técnicas estatísticas de análise de dados. Apresentar métodos para organização de dados por meio de tabelas e gráficos e sua aplicação utilizando pacotes estatísticos adequados. Utilizar medidas de posição para interpretar e analisar conjunto de dados. Introduzir os conceitos da teoria das probabilidades e técnicas de amostragem e sua utilização na modelagem e solução de problemas. Apresentar técnicas de correlação e regressão para elaboração de modelos de previsão.
  2. 2. 2
  3. 3. 3 Sumário Unidade I – Conceitos básicos .....................................................................................................6 1.1 Estatística ..............................................................................................................................8 1.2 População, atributos e variáveis ...........................................................................................8 1.3 Pesquisa, censo, amostragem e amostra............................................................................10 1.4 Experimento aleatório.........................................................................................................10 1.4.1 Espaço amostral (S) .............................................................................................................11 1.4.2 Evento..................................................................................................................................11 1.4.3 Variável aleatória.................................................................................................................11 1.5 Apresentação de dados estatísticos....................................................................................12 1.6 Fases do método estatístico................................................................................................14 Unidade II – Organização de dados estatísticos..........................................................................16 2.1 Série estatística ...................................................................................................................17 2.1.1 Série de dados grupados .....................................................................................................17 2.1.2 Série de dados não grupados ..............................................................................................17 2.2 Distribuição de frequências .................................................................................................18 2.2.1 Distribuição de frequências por intervalo...........................................................................18 2.2.2 Distribuição de frequências por pontos ..............................................................................21 2.3 Gráficos................................................................................................................................22 2.3.1 Tipos de gráficos..................................................................................................................22 Unidade III – Medidas de Posição..............................................................................................28 3.1 Medidas de Posição.............................................................................................................29 3.2 Medidas de tendência central.............................................................................................29 3.3 Média aritmética.................................................................................................................29 3.3.1 Desvios em relação à média................................................................................................29 3.3.2 Média aritmética para dados distribuídos por frequência..................................................29 3.3.3 Média aritmética para dados distribuídos em classes ........................................................30 3.3.4 Propriedades da média aritmética......................................................................................33
  4. 4. 4 3.4 Mediana ..............................................................................................................................33 3.4.1 Mediana para dados não agrupados..................................................................................33 3.4.2 Mediana para dados agrupados em classes.......................................................................34 3.5 Moda ...................................................................................................................................35 3.5.1 Moda para dados não agrupados........................................................................................35 3.5.2 Moda para dados agrupados em classes (Moda de Czuber)...............................................35 3.6 Posição relativa da média, mediana e moda ......................................................................37 3.7 Separatrizes: Quartis, Decis e Percentis..............................................................................38 Unidade IV – Medidas de Dispersão ..........................................................................................42 4.1 Conceito de Dispersão.........................................................................................................43 4.2 Principais Medidas de Dispersão ........................................................................................44 4.2.1 Amplitude Total...................................................................................................................44 4.2.2 Desvio médio.......................................................................................................................44 4.2.3 Variância..............................................................................................................................45 4.2.4 Desvio padrão......................................................................................................................45 4.2.5 Propriedades da variância e do desvio padrão ...................................................................46 4.2.6 Coeficiente de variação .......................................................................................................47 4.2.7 Propriedades do coeficiente de variação............................................................................49 Unidade V – Probabilidade........................................................................................................53 5.1 Introdução ............................................................................................................................54 5.1.1 O que é Probabilidade? ........................................................................................................54 5.2 Definição de Probabilidade...................................................................................................55 5.2.1 Eventos complementares.....................................................................................................55 5.2.2 Eventos independentes........................................................................................................56 5.2.3 Eventos mutuamente exclusivos..........................................................................................57 5.3 Probabilidade - Propriedades ...............................................................................................57 5.4 Probabilidade condicional ....................................................................................................58 5.5 Regra do produto..................................................................................................................58
  5. 5. 5 5.5.1 Regra do Produto para dois eventos independentes..........................................................59 5.6 Distribuição de probabilidade.............................................................................................59 5.6.1 Distribuição normal ............................................................................................................60 5.6.2 Propriedades da normal .....................................................................................................61 5.6.3 Aplicações da distribuição normal......................................................................................62 5.6.4 Variável Normal Padronizada.............................................................................................62 Unidade VI – Correlação e Regressão ........................................................................................67 6.1 Correlação............................................................................................................................68 6.1.1 Tipos de correlação .............................................................................................................68 6.2 Correlação linear simples....................................................................................................68 6.2.1 Coeficiente de correlação (Pearson) ..................................................................................68 6.2.2 Correlação linear positiva...................................................................................................68 6.2.3 Correlação linear NEGATIVA...............................................................................................69 6.2.4 Correlação linear negativa perfeita....................................................................................70 6.2.5 Correlação linear nula.........................................................................................................70 6.3 Covariância..........................................................................................................................72 6.4 Regressão ............................................................................................................................73 6.4.1 Determinação dos parâmetros do modelo .........................................................................74 6.4.2 Propriedades .......................................................................................................................75 6.4.3 Hipóteses da análise linear de regressão ............................................................................75 6.4.4 A regressão como técnica de previsão................................................................................75
  6. 6. 6
  7. 7. 7 Unidade I – Conceitos básicos  Conhecer os conceitos fundamentais para a utilização de técnicas estatísticas de análise de dados.  Conhecer métodos para organização de dados por meio de tabelas e gráficos e sua aplicação utilizando pacotes estatísticos adequados.
  8. 8. 8 1.1 Estatística De origem muito antiga, a Estatística teve durante séculos um caráter meramente descritivo e de registro de ocorrências. As primeiras atividades datam de cerca de 2000 a.C. e se referem a iniciativas como o recenseamento das populações agrícolas chinesas. O que modernamente se conhece como Ciências Estatísticas, ou simplesmente Estatística, é um conjunto de técnicas e métodos de pesquisa que, entre outros tópicos, envolve o planejamento do experimento a ser realizado, a coleta qualificada dos dados, a inferência e o processamento e análise das informações. Grande parte das informações divulgadas pelos meios de comunicação atual provém de pesquisas e estudos estatísticos. Estatística  é o estudo dos processos de obtenção, coleta, organização e análise de um conjunto de dados relativos a fenômenos numericamente quantificáveis, e dos métodos de obtenção de conclusões ou de realização de previsões com base nos dados coletados. A estatística de divide em: Estatística Descritiva (ou Dedutiva)  que trabalha com a coleta, análise e interpretação de dados relativos a uma população. Por exemplo, análise dos dados do censo realizado periodicamente no Brasil. Estatística Indutiva (ou Inferencial)  é aquela que partir de dados de uma amostra, permite a tomada de decisão sobre a população de origem. Consiste em concluir ou prever a evolução de fenômenos ao longo do tempo. Um exemplo típico são as pesquisas de intenção de voto realizadas durante o período eleitoral. Os institutos de pesquisa (IBOPE, DataFolha etc.) não perguntam a todos os eleitores em quem eles vão votar, pois esse processo é inviável do ponto de vista operacional e também porque tem custo muito elevado. As entrevistas são realizas apenas com uma pequena parte dos eleitores - uma amostra (que represente bem essa população de eleitores)! Por meio das análises feitas a partir de dados organizados podemos, em muitos casos, fazer previsões, determinar tendências, auxiliar na tomada de decisões e, portanto, elaborar um planejamento com mais precisão. No estudo que faremos aqui veremos como organizar um grupo de dados em tabelas e como construir gráficos a partir desses dados. Para iniciarmos os nossos estudos em Estatística, vamos definir alguns conceitos importantes: população, amostra, variáveis, pesquisa, censo e amostragem. 1.2 População, atributos e variáveis A Estatística parte da observação de grupos, geralmente numerosos, aos quais damos o nome de população ou universo estatístico. População é o total do grupo a ser observado (universo) e que possui pelo menos uma característica em comum. Por exemplo, a população dos alunos do curso de Administração da UniCarioca. Uma população pode ser finita ou infinita. Finita - Quando apresenta um número finito de elementos.
  9. 9. 9 Por exemplo: - a população dos alunos do curso de Administração da UniCarioca. - a população dos eleitores do município do Rio de Janeiro. Infinita - Quando apresenta um número infinito de elementos, ou seja, é aquela cujos elementos não podem ser contados. Por exemplo: - os pontos de uma reta. - a população de insetos (formigas, por exemplo!). Cada elemento da população estudada é denominado unidade estatística. Observe na tabela abaixo. População Estatística Unidade Estatística Alunos do curso de Pedagogia da UniCarioca Cada aluno que estuda no Curso de Pedagogia Clubes campeões cariocas de futebol Cada clube campeão carioca de futebol Características de uma População Atributos - São as características que não podem ser medidas numericamente (são qualitativas), como por exemplo: religião, estado civil, cor etc. Quando alguém pergunta a sua religião você não pode responder simplesmente: minha religião é 2,8! Ou dizer que seu estado civil é 1,9! Religião e estado civil são atributos - ou variáveis qualitativas! Assim, não podem assumir valores numéricos. Variáveis - São as características que podem ser medidas numericamente (quantitativas), como por exemplo: peso, altura, taxas de inflação, salário etc. Assim, se alguém pergunta o seu peso você pode responder tranquilamente: 57,3 kg! Aqui peso não é qualidade, mas uma variável que pode ser mensurada (medida) numericamente! As variáveis podem ser discretas ou contínuas. Variáveis Discretas - São aquelas que usualmente assumem valores inteiros (contagens). Exemplo: número de automóveis, número de ligações, número de habitantes, número de dependentes, número de filhos etc. Assim, se alguém perguntar quantos filhos você tem - você não pode responder que tem 2,8 filhos! Você vai responder que tem um número inteiro de filhos, 0,1,2,3,4.... Variáveis Contínuas - São aquelas que podem assumir qualquer valor em um intervalo de observação. Exemplo: rendimentos, taxas de inflação, peso, altura etc. Por exemplo, qual o seu peso? Meu peso é 57,3 Kg! Quanto foi a taxa de inflação mês passado? 2,19 %! Observe o seguinte exemplo! Número de fumantes em uma sala de 60 alunos? 8 alunos! Essa é uma variável discreta! Você não pode ter 8,2 fumantes! Agora veja! Qual o percentual de fumantes na sala? Percentual de fumantes: temos 8 alunos em um total de 60 alunos.
  10. 10. 10 Percentual de fumantes: = 8/60 = 0,133! Ou seja, 13,3% de fumantes. Essa é uma variável contínua! Sabe a razão? O valor desse percentual pode variar continuamente entre 0% (zero) e 100%!!! Se for 0% ninguém, se for 100% todos fumam! 1.3 Pesquisa, censo, amostragem e amostra Pesquisa - A pesquisa estatística pode ser feita através de CENSO ou AMOSTRAGEM. Censo - Contagem completa na população. Normalmente consideramos o tamanho da população como N (maiúsculo). Amostragem - É o processo de dimensionamento e coleta de informações de parte da população usando métodos de seleção adequados. Esse processo gera uma Amostra! Amostra - É uma parte representativa da população escolhida convenientemente. Normalmente consideramos o tamanho da amostra como n (minúsculo). Exemplo: quando os institutos (IBOPE etc.) vão realizar uma pesquisa sobre intenção de voto o tamanho da amostra, ou seja, a quantidade de eleitores que vão ser entrevistados é calculada a partir de técnicas da Teoria da Amostragem. Fração amostral (FA) - É o tamanho da amostra (n) dividido pelo tamanho da população (N). FA = n/N Por exemplo, se o tamanho da População (N) é 50 e o tamanho da Amostra (n) é 10 então a Fração Amostral FA = 10/50 = 20%. Estimação - É o processo que permite calcular a partir da amostra os correspondentes valores da população. Um exemplo são as pesquisas de intenção de voto que conseguem prever o resultado das eleições com base em uma amostra de eleitores. É claro que se usamos Amostra temos sempre um ERRO de previsão (estimação). Assim, quando os resultados das pesquisas são divulgados o percentual de ERRO é sempre informado. Rol - É uma lista em que os valores da variável de estudo estão organizados em ordem crescente ou decrescente. Exemplos: 1 ; 4 ; 6 ; 10  esse é um Rol crescente. 8; 6 ; 2 ; 1  esse é um Rol decrescente. E esse?  1 ; 4; 6; 6; 10  crescente ou decrescente? 1.4 Experimento aleatório Método científico de observação de um fenômeno sujeito ao acaso, ou seja, dependendo de fatores aleatórios (incertos). Assim, um experimento aleatório repetido sob as mesmas condições indefinidamente apresentará sempre variações nos resultados.
  11. 11. 11 Exemplos: E1 - retirar uma carta de um baralho com 52 cartas e observar o resultado. E2 - retirar com reposição bolas de uma urna que contém 5 bolas brancas e 6 pretas. E3 - jogar uma moeda 10 vezes e observar o número de caras. No experimento E1, por exemplo, você nunca sabe qual carta vai ser sorteada (são 52)! Será que a Megassena é um experimento aleatório? E o Jogo do Bicho? 1.4.1 Espaço amostral (S) É o conjunto de todos os resultados possíveis de um Experimento Aleatório. O Espaço Amostral pode ser designado por (S) ou por  ômega! Exemplos: lançamento de uma moeda: S = {Ca , Co}  não existem outras possibilidades! lançamento de um dado: S = {1,2,3,4,5,6}  não existem outras possibilidades! 1.4.2 Evento É qualquer subconjunto do espaço amostral S de um Experimento Aleatório. Exemplo: No lançamento de um dado o Espaço Amostral é S = {1,2,3,4,5,6} Então podemos ter os seguintes eventos: A = {2,4,6}  S é um evento de S, pois A está contido () em S. B = {1,2,3,4,5,6}  S é um evento de S denominado Evento Certo. C = {4}  S é um evento de S D = Ø  S é um evento de S denominado Evento Impossível. Um evento pode ser definido por uma sentença, logo os eventos acima podem ser assim definidos: A  obter um número par na face superior B  obter um número menor ou igual a 6 na face superior C  obter o número 4 na face superior D  obter um número maior que 6 na face superior! Não é possível obter um número maior do que 6 no lançamento de um dado! Por essa razão ele é chamado de evento impossível. 1.4.3 Variável aleatória Entende-se por variável aleatória uma função que associa um número aos eventos (pontos) do espaço amostral de um dado experimento aleatório. Uma variável aleatória é usualmente representada por uma letra maiúscula e seus valores por letras minúsculas. Exemplo: Suponha o espaço amostral (S) relativo ao “lançamento simultâneo” de duas moedas. Assim o nosso Espaço Amostra S = { (Ca,Ca), (Ca,Co), (Co,Ca), (Co,Co) }. Ou seja, não existe outra possibilidade de ocorrência quando lançamos 2 moedas além dessas quatro. Se escolhermos X para representar o “número de caras” que aparecem, podemos associar a cada ponto do espaço amostral (cada par (.,.)) um número para X. Esta associação está na tabela que se segue:
  12. 12. 12 Ponto Amostral X (Ca,Ca) 2 (Ca,Co) 1 (Co,Ca) 1 (Co,Co) 0 X assim definida é uma Variável Aleatória. Você saberia dizer qual a chance (a probabilidade!) de se obter 2 caras nesse experimento? Pense... Quantas possibilidades (pontos amostrais) nos temos? Temos no total 4 possibilidades! Dessas 4 possibilidades qual a que nos interessa? Somente uma que é (Ca,Ca)! Então a probabilidade é... 1/4 = 0,25 = 25 %! Olhou... e viu! Outros exemplos de variáveis aleatórias: - precipitação pluviométrica média na cidade do Rio de Janeiro no mês de julho. - produção brasileira anual de trigo. 1.5 Apresentação de dados estatísticos Existem duas formas básicas para sintetizar informações de uma ou mais variáveis - Tabelas e Gráficos. Tabular: é a apresentação de dados estatísticos através de tabelas. Gráficos: é a apresentação de dados estatísticos sob a forma de gráficos. Observação: tabela é uma das formas mais simples que nós seres humanos utilizamos para armazenar dados! Sempre que trabalhamos com amostra temos um erro de estimação (previsão). Quanto menor o tamanho da amostra maior o erro e quanto maior o tamanho da amostra menor o erro. Se a amostra é a própria população o erro é zero. Quanto maior a fração amostral menor o erro e quanto menor a fração amostral maior o erro.
  13. 13. 13 Tabela - É um quadro (linhas e colunas) que resume um conjunto de observações. Composição de uma tabela  Elementos essenciais: título, corpo, cabeçalho.  Elementos complementares: se situam no rodapé da tabela. Título: é a parte superior da tabela. Indica-se no título a natureza do fato estudado, o local e a época em que foi observado. Linha: parte da tabela que contém uma série horizontal de informações. Coluna: parte da tabela que contém uma série vertical de informações. Célula: cruzamento de uma linha com uma coluna. Corpo: parte da tabela composta de linhas e colunas. Cabeçalho: parte da tabela onde se informa a natureza do conteúdo de cada linha. É o conjunto de células que formam a parte superior do corpo da tabela. Coluna indicadora: é coluna que contém as discriminações correspondentes aos valores distribuídos pelas colunas numéricas. Rodapé: é o espaço após o fecho da tabela onde são colocadas as notas informativas (Fonte, Notas, Chamadas). Fonte: é a informação colocada no rodapé da tabela para indicar a entidade que fornece os dados exibidos. Notas e Chamadas: informações adicionais colocadas no rodapé (após a fonte) quando são necessários esclarecimentos específicos sobre os dados. Se houver mais de uma nota elas devem ser numeradas em algarismos romanos e as chamadas em algarismos arábicos. Observe o exemplo.
  14. 14. 14 Observação De acordo com a Resolução nº 886 da Fundação IBGE, nas casas e células devemos colocar:  um traço horizontal ( - ) quando o valor for zero, não só quanto à natureza dos dados, como quanto ao resultado.  três pontos (...) quando não temos dados.  um ponto de interrogação (?) quando temos dúvidas quanto à exatidão de determinado valor.  zero(0) quando o valor é muito pequeno para ser expresso pela unidade utilizada. 1.6 Fases do método estatístico Um estudo estatístico é composto de diversas fases que devem ser desenvolvidas para se chegar aos resultados finais. Principais fases do método estatístico 1. Definição do problema: escolha das características mensuráveis do fenômeno a ser estudado (variáveis/atributos) e das relações entre essas caraterísticas (modelagem). 2. Planejamento: consiste em se determinar o procedimento necessário para resolver o problema e como será o levantamento das informações (censo/amostragem) sobre o assunto que está sendo estudado. Outros elementos importantes são: o estabelecimento de um cronograma para as fases do projeto e os custos envolvidos. 3. Coleta de dados: é a obtenção, reunião e registro sistemático de dados com um objetivo determinado. A coleta de dados pode ser direta ou indireta. Coleta direta: quando é feita sobre elementos informativos de registro obrigatório como os nascimentos, os casamentos e os óbitos, a importação/exportação de mercadorias. Ou ainda, quando os dados são coletados (coligidos) pelo próprio pesquisador, através de inquéritos e questionários, como é o caso das notas de verificação, exames e do censo demográfico. A coleta direta se classifica em... Contínua: quando é feita continuamente, como nascimentos, óbitos, frequência de alunos às aulas. Periódica: quando é feita em intervalos constantes de tempo, como os censos (10/10 anos), as avaliações mensais de alunos. Ocasional: quando é feita ocasionalmente, com o objetivo de atender a uma conjuntura ou a uma emergência, como no caso de epidemias. Coleta indireta: quando é inferida a partir de elementos conseguidos pela coleta direta, ou através do conhecimento de outros fenômenos que, de algum modo, estejam relacionados com o fenômeno em questão. Um exemplo é uma pesquisa sobre mortalidade infantil, que é feita através de dados colhidos por uma coleta direta (óbitos).
  15. 15. 15 4. Apuração dos dados: consiste em resumir os dados através de sua contagem e agrupamento. A apuração pode ser manual, mecânica ou eletrônica (mais usada). 5. Apresentação dos dados: os dados podem ser apresentados através de tabelas e gráficos. 6. Análise e Interpretação dos dados: análise e interpretação objetivando tirar conclusões, obter informações e gerar previsões.
  16. 16. 16 Unidade II – Organização de dados estatísticos  Conhecer os principais tipos de séries estatísticas.  Organizar e utilizar dados estatísticos em tabelas.  Conhecer as Distribuições de Frequências e seus elementos.  Conhecer os principais tipos de gráficos.
  17. 17. 17 2.1 Série estatística É toda tabela que apresenta a distribuição de um conjunto de dados estatísticos em função da época, do local ou da espécie. Nessas tabelas os dados podem estar grupados ou não agrupados. 2.1.1 Série de dados grupados É a série onde o tempo, o espaço e a qualidade/espécie permanecem constantes e o fenômeno é agrupado em subintervalos do intervalo total. Estas séries serão estudadas a partir de tabelas chamadas de Distribuição de Frequências que veremos a seguir. 2.1.2 Série de dados não grupados É a série onde as variações do fenômeno são apresentadas de acordo com a época a que se referem ao espaço onde se observa, ou a qualidade/espécie do fenômeno. As principais são: Série temporal: é a série em que se verifica a variação do fenômeno em relação ao tempo. É também conhecida como série cronológica. Exemplo - População Brasileira - Urbana/Rural entre 1940 e 2010 Ano Urbana Rural 1940 12.880.182 28.356.133 1950 18.782.891 33.161.506 1960 31.303.034 38.767.423 1970 52.084.984 41.054.053 1980 80.436.409 38.566.297 2010 160.925.792 29.830.007 Fonte: IBGE Série estatística geográfica: é a série em que se verifica a variação do fenômeno em relação ao espaço geográfico. Exemplo - População Brasileira por Região - Censo 2010 Região No. Habitantes % por região Norte 15.864.454 8% Nordeste 53.081.950 28% Centro-Oeste 14.058.094 7% Sudeste 80.364.410 42% Sul 27.386.891 14% TOTAL 190.755.799 100% Fonte: IBGE
  18. 18. 18 Série específica ou categórica: a variável é o fenômeno descrito. Exemplo - Produção da Região “XY” em 2013 2.2 Distribuição de frequências É o método que consiste em agrupar dados em classes, categorias, ou intervalos. Existem dois tipos de Distribuição de Frequência: por intervalo e por pontos. 2.2.1 Distribuição de frequências por intervalo As variações do fenômeno são agrupadas em intervalos (só para variáveis contínuas). Vamos estudar os elementos de uma Distribuição de Frequências a partir de um exemplo prático. Na tabela abaixo nós temos os rendimentos dos empregados de uma empresa do ABC paulista por faixa (classe) de Salário Mínimo (SM). Nesse exemplo o pesquisador (que é você!) dividiu os Rendimentos em 5 classes. Na classe 1 estão os empregados que ganham entre 1 e 3 salários mínimos (SM), na 2 os que ganham entre 3 e 5 e assim por diante. Perceba que a tabela já está toda preenchida, o que vamos aprender é como montar essa tabela a partir das informações básicas que são as frequências simples(fi). Classe SM fi Fi (Abaixo de) fri Fri (abaixo de) Xi Fi Fri (Acima de) 1 1 ├─ 3 90 90 0.45 0,45 2 200 1,00 2 3├─ 5 50 140 0.25 0,70 4 110 0,55 3 5 ├─ 7 30 170 0.15 0,85 6 60 0,30 4 7 ├─ 9 20 190 0.10 0,95 8 30 0,15 5 9 ├─ 11 10 200 0.05 1,00 10 10 0,05 200 1.00 Tabela1 – Rendimento dos empregados de uma empresa do ABC paulista em salários mínimos (SM). Antes de apresentarmos os elementos básicos de uma Distribuição de Frequência (DF) vamos analisar a notação utilizada nos intervalos de classe. Notação O símbolo ├─ significa que o intervalo é FECHADO À ESQUERDA e ABERTO À DIREITA. Por exemplo, o intervalo 3 ├─ 5 significa que o 3 pertence ao intervalo, mas o 5 não pertence. Nesse intervalo estão os empregados que ganham 3 SM (inclusive) até os que ganham menos que 5 SM (4,99 SM por exemplo!). Assim, um empregado que ganha exatamente 5 SM pertence ao intervalo de classe 3 (5 ├─ 7) e não ao intervalo de classe 2 (3 ├─ 5). O entendimento dessa notação é fundamental para trabalharmos com esse tipo de tabela. Cereal Produção (Ton) Arroz 120.000 Feijão 110.000 Milho 145.000 Soja 150.000 Café 160.000
  19. 19. 19 Um intervalo fechado à esquerda pode ser representado de duas formas: Exemplo para 3 e 5 :  3├─ 5 ou [ 3 , 5). Elementos de uma distribuição de frequência (DF) por intervalo Como mencionado anteriormente os elemento básicos que serão apresentados aqui fazem referência à tabela anterior (Tabela1). Limite inferior da DF: valor a partir do qual são contadas as observações da distribuição. Logo, no nosso exemplo Li = 1 SM Limite superior da DF: valor até o qual são contadas as observações da distribuição. No nosso exemplo Ls = 11 SM Amplitude da DF: é a diferença entre o limite superior (Ls) e o limite inferior (Li). Amplitude = Ls - Li = 11 - 1 = 10 SM Classes da DF: são os subintervalos nos quais são contadas as observações da variável. Ou seja, são os intervalos que você (pesquisador) usou para dividir a variável que está sendo estudada. Que variável é essa? O rendimento dos empregados de uma empresa do ABC paulista! Como a amplitude total é 10 e dividimos a distribuição em 5 classes, cada uma delas terá amplitude igual a 2 (10/5 = 2!). Temos então - Classe1: 1˫3 SM, Classe4 - 7˫9 SM, e assim por diante! Limite inferior da classe: valor a partir do qual são contadas as observações dentro de cada classe. Exemplos: li2 = 3 (o limite inferior da classe2 é 3) li4 = 7 (o limite inferior da classe4 é 3)..... Limite superior da classe: valor até o qual são contadas as observações dentro da classe. Exemplos: ls2 = 5  o limite superior da classe2 é 5 ls5 = 11  o limite superior da classe5 é 11 Amplitude de classe: diferença entre ls e li da classe. Exemplo: Ampl4 = 9 - 7 = 2  Amplitude da classe 4 é 2! Qual seria a amplitude da classe1? E da classe 2? Essas amplitudes têm algo em comum? Frequência simples absoluta (fi): é o número de observações da variável dentro da classe (frequência de classe). f1 = 90  significa que 90 empregados ganham entre 1 (inclusive) e 3 (exclusive) salários mínimos!
  20. 20. 20 Sabe dizer por que é inclusive 1 e exclusive 3? Pense um pouco, já falamos sobre esse assunto em NOTAÇÃO! f5 = 10  significa que 10 empregados ganham entre 9 (inclusive) e 11 (exclusive) salários mínimos! Frequência acumulada absoluta “abaixo de” (Fi): é o número de observações da variável da classe 1 até a classe considerada (i). Assim Fk = f1 + f2 + f3 + ... + fk Exemplos: F1 = 90 = f1 = 90 F2 = f1 + f2 = 90 + 50 = 140 F3 = f1 + f2 + f3 = 90 + 50 + 30 = 170 F5 = f1 + f2 + f3 + f4 + f5 = 200  soma de todas as frequências, da classe 1 até a classe 5! Tem uma forma mais rápida (e racional) de calcular as frequências acumuladas? Veja F3 = f1 + f2 + f3 =, mas f1 + f2 = F2! (que já foi calculada!) Assim, F3 = F2 + f3 = 140 + 30 = 170! Muito mais fácil e rápido! Veja, estamos gerando informação! Assim, talvez seja importante saber não apenas quantos ganham menos que 3 SM (abaixo de), mas também saber quantos ganham 3 ou mais SM (acima de). Para responder essas questões temos o próximo elemento. Frequência Acumulada absoluta “acima de”. Frequência acumulada absoluta “acima de” (Fi): é o número de observações existentes com valores maiores ou iguais ao limite inferior da classe. Exemplo: F1 = 200  todos ganham 1 ou mais salários mínimos! F2 = 110  são os que ganham 3 ou mais salários mínimos. Confira na Tabela1! F5 = 10  somente 10 ganham 9 ou mais salários mínimos! Observe agora o seguinte: muitas vezes o pesquisador (ou o gestor - o que decide!) está mais interessado em percentuais do que em valores absolutos! Os próximos elementos que vamos trabalhar calculam esses percentuais! Frequência simples relativa (fri): é a relação entre a frequência simples da classe (fi) e a frequência total (soma das frequências Σfi). fri = fi / Σfi Na nossa tabela Σfi = 200. Exemplos: fr1 = f1 / Σfi = 90/200 = 0,45 = 45% fr4 = f4 / Σfi = 20/200 = 0,10 = 10% fr5 = f5 / Σfi = 10/200 = 0,05 = 5% Observe esses valores de frequências relativas! Você saberia dizer o que eles significam?
  21. 21. 21 Frequência acumulada relativa (Fri): é a relação entre a frequência acumulada (Fi) e a frequência total (Σfi). Fri = Fi / Σfi Exemplos: Fr1 = F1 / Σfi = 90/200 = 0,45 = 45% Fr4 = F4 / Σfi = 190/200 = 0,95 = 95% Observação 1. Da mesma forma que a Fi é a acumulada da fi a Fri é acumulada da fri! Observação 2. Frequências relativas (tudo que tem r!) são percentuais! Ponto médio da classe (xi): é a média aritmética entre o limite inferior (li) e o limite superior (ls) da classe. Exemplos: x1 = (1+3)/2 = 2 (soma e divide por 2!) x2 = (3+5)/2 = 4 x3 = (5+7)/2 = 6 x4 = (7+9)/2 = 8 e assim por diante! Você seria capaz agora de reconstruir a Tabela 1 a partir das frequências simples? Observe abaixo a Tabela 1 apenas com as frequências simples. Classe SM fi Fi Acumulada (Abaixo de) fri Relativa Fri Relativa (Abaixo de) xi (Ponto médio) Fi Acumulada (Acima de) Fri Relativa (Acima de) 1 1 ├─ 3 90 2 3 ├─ 5 50 3 5 ├─ 7 30 4 7 ├─ 9 20 5 9 ├─ 11 10  200 Tente é um excelente exercício para testar os conhecimentos adquiridos! Comece pela Frequência Acumulada (Abaixo de)! 2.2.2 Distribuição de frequências por pontos É uma série de pontos grupados na qual o número de observações da variável, está relacionado com um ponto real. São características das variáveis discretas. Classe nº de dependentes nº de empregados (fi) Fi (Abaixo de) fri Fri (abaixo de) Fi (acima de) Fri (Acima de) 1 0 20 20 0.10 0,10 200 1.00 2 1 30 50 0.15 0,25 180 0.90 3 2 50 100 0.25 0,50 150 0.75 4 3 70 170 0.35 0,85 100 0.50 5 4 20 190 0.10 0,95 30 0.15 6 5 10 200 0.05 1,00 10 0.05 Σ 200 1.00
  22. 22. 22 Tabela 2 – A tabela acima exibe o número de empregados com 0, 1, 2, 3, 4 ou 5 dependentes. Os elementos da distribuição de frequência por pontos acima são semelhantes aos da distribuição de frequência por intervalo vista na Tabela 1. Assim, todos os cálculos para preenchimento das colunas são exatamente os mesmos. A partir da tabela acima já preenchida veja alguns exemplos de informações que podem ser obtidas. Empregados com 0 (zero) dependentes - 20 Empregados com 1 dependente - 30 Empregados com 1 ou menos dependente - 50 (aqui é Abaixo de) Empregados com 4 ou menos dependentes - 190 (Abaixo de...) Empregados com 4 ou mais dependentes - 30 (aqui é Acima de) Percentual de empregados com 1 dependente - 15% (fr1 - frequência relativa!) Percentual de empregados com 3 dependentes - 35% (fr3 - frequência relativa!) Percentual de empregados com 3 ou menos dependentes - 85% (aqui é relativa acumulada Abaixo de...) Percentual de empregados com 3 ou mais dependentes - 50% (aqui é relativa acumulada Acima de...) 2.3 Gráficos É uma forma de apresentação de dados estatísticos, com o objetivo de produzir no investigador uma impressão mais rápida do fenômeno em estudo. A representação gráfica deve obedecer aos seguintes requisitos: simplicidade - O gráfico deve ser destituído de detalhes de importância secundaria. clareza - O gráfico deve possibilitar uma correta interpretação dos valores representativos do fenômeno em estudo. veracidade - O gráfico deve expressar a verdade sobre o fenômeno. 2.3.1 Tipos de gráficos A tabela a seguir servirá de exemplo para os primeiros tipos de gráficos que iremos estudar. Histograma, Polígono de Frequência e Polígono de Frequência Acumulada. Notas Frequências (fi) fri fri 0 ˫ 2 4 0,16 16% 2 ˫ 4 6 0,24 24% 4 ˫ 6 10 0,40 40% 6 ˫ 8 3 0,12 12% 8 ˫ 10 2 0,08 8% Σ 25 1,00 100% Tabela 3 - A tabela acima exibe as notas em uma prova de Estatística em uma turma com 25 alunos
  23. 23. 23 Esta tabela exibe as notas de Estatística em uma turma com 25 alunos. Todos os intervalos têm a mesma amplitude (2) e são fechados à esquerda e abertos à direita (como na maioria das distribuições). A coluna de frequência relativa (fri) está exibida de duas formas, no formato decimal usual (0,16 para a classe1, por exemplo) e no formato percentual (16%). Histograma É a representação gráfica de uma distribuição de frequência usando-se retângulos justapostos (um ao lado do outro). A base corresponde aos intervalos de classes (eixo das abscissas- horizontal), e a altura (proporcional à frequência de cada classe) é colocada no eixo das ordenadas (vertical). Na construção do histograma, as amplitudes dos intervalos de classe (base dos retângulos) são iguais. Dessa forma, as áreas de cada retângulo do histograma são proporcionais às frequências de cada classe. HISTOGRAMA DA TABELA3 Pergunta 1 - O que fornece um resultado mais imediato sobre o desempenho dos 25 alunos nessa prova, a Tabela3 ou o Histograma? Pergunta 2 - Vamos imaginar que na construção do Histograma em vez das frequências simples (fi) você tivesse usado as frequências relativas (fri). O que iria mudar no Histograma? Ele seria o mesmo? Teria o mesmo formato? Polígono de frequência É construído ligando-se os pontos médios dos topos dos retângulos de um histograma. Observação: a soma das áreas dos retângulos do histograma = Área total limitada pelo polígono de frequência e o eixo dos x.
  24. 24. 24 Polígono de frequência acumulada “abaixo de” Polígono de frequência acumulada “acima de”
  25. 25. 25 Exemplificaremos os demais tipos de gráficos a partir da tabela abaixo TÍTULO - FATURAMENTO DAS FILIAIS - MIL R$ Filiais Trim-1 Trim-2 Trim-3 Trim-4 Ano RJ 310 150 130 140 730 SP 200 120 160 210 690 PR 180 100 150 135 565 Total 690 370 440 485 1985 Tabela 4 Faturamento das filiais RJ, SP e PR nos 4 trimestres do ano em MIL R$. Gráfico de barras e colunas São representados por retângulos de base comum e altura proporcional à magnitude dos dados. Se os retângulos são colocados em uma posição vertical o gráfico é de colunas, se são colocados na posição horizontal o gráfico é de barras. Estes gráficos são usados para representar séries cronológicas, geográficas e categóricas.
  26. 26. 26 Colunas justapostas É aquele em que os retângulos são dispostos um ao lado do outro. Barras múltiplas As barras são colocadas uma ao lado da outra. Colunas Superpostas
  27. 27. 27 Barras Superpostas Observação: os gráficos de Colunas Justapostas, Barras Múltiplas, Colunas Superpostas e Barras Superpostas permitem a comparação de diversas variáveis. Gráfico de setores Representado por meio de setores em um círculo. Cada setor representa uma parte de um todo. Esse tipo de gráfico é utilizado quando desejamos observar as parte de um todo como no exemplo acima. 1. O que é frequência simples absoluta? 2. A frequência Acumulada “abaixo de” é crescente ou decrescente? 3. O que é frequência simples relativa? 4. Para que serve um Histograma?
  28. 28. 28 Unidade III – Medidas de Posição  Utilizar medidas de posição para interpretar e analisar conjunto de dados.
  29. 29. 29 3.1 Medidas de Posição São aquelas que indicam a posição da distribuição no eixo das abcissas. Se dividem em Medidas de Tendência Central e Separatrizes. 3.2 Medidas de tendência central São as medidas estatísticas que sintetizam os valores das variáveis de um conjunto de dados observados (média, moda, mediana). São assim chamadas porque tendem a se localizar no centro da distribuição. 3.3 Média aritmética Fórmula Geral: ̅ , onde: xi = variável em estudo N = número de observações ̅ = média aritmética Exemplo Calcular a média aritmética do seguinte conjunto de dados: 6, 8, 0, 10. Usando a fórmula N x x i temos: ̅ 3.3.1 Desvios em relação à média Denominamos de desvio em relação à média, a diferença entre cada elemento de um conjunto de valores e a média aritmética. Assim, cada desvio é dado por: di = xi - ̅ No exemplo acima, os desvios em relação à média são: d1 = 6 - 6 = 0; d2 = 8 - 6 = 2; d3 = 0 - 6 = -6; d4 = 10 - 6 = 4; Propriedade  a soma dos desvios em relação à média aritmética é 0 (zero)  0 + 2 - 6 + 4 = 0. 3.3.2 Média aritmética para dados distribuídos por frequência Se os valores x1, x2, x3,..., xn ocorrem f1, f2, f3,....., fn vezes respectivamente, a média aritmética será: ̅ Ou seja, ̅ onde xi é o valor da observação da classe i e fi é o valor da frequência da classe i. Fazendo (soma das frequências) podemos escrever que: ̅
  30. 30. 30 Neste caso, como as frequências são números indicadores da intensidade de cada valor da variável, elas funcionam como fatores de ponderação (média ponderada). Vamos ver em um exemplo prático como fazer. Exemplo Calcular a média aritmética da seguinte distribuição (dados agrupados): x 2 3 5 7 9 f 4 6 10 3 2 Antes de fazer os cálculos entenda o significado da tabela. O valor 2 ocorreu 4 vezes, o valor 3 ocorreu 6 vezes, e assim por diante... Usando a fórmula acima ̅ temos: Temos: ̅ Perceba que N é a soma das frequências, ou seja, N = 4+6+10+3+2 = 25! Então a média aritmética desse conjunto de valores vale 4,6! Era esperado que esse valor fosse próximo de 5? Você saberia dizer a razão? 3.3.3 Média aritmética para dados distribuídos em classes Neste caso, todos os valores incluídos em um determinado intervalo de classe (os xi) coincidem com seu ponto médio. Assim, ̅ , onde xi é o ponto médio do intervalo de classe i. N = Soma das frequências: Na tabela abaixo estão listadas as alturas (em cm) de um grupo de 40 pessoas. Calcular a média aritmética e os desvios da distribuição. i Estatura (cm) fi Ponto Médio (xi) fi × xi ̅ 1 150 ˫ 154 4 2 154 ˫ 158 9 3 158 ˫ 162 11 4 162 ˫ 166 8 5 166 ˫ 170 5 6 170 ˫ 174 3 40
  31. 31. 31 Precisamos preencher cada uma das colunas desta tabela para calcular a Média e os respectivos desvios di. Vamos começar calculando a coluna dos Pontos Médios! Como calcular os Pontos Médios? Lembra da UNIDADE-II? O Ponto Médio em cada classe (nesse caso são 6 classes) é igual a média aritmética entre os limites da classe. Temos então: E assim por diante... Mas será que precisamos calcular todos os pontos médios? Não! Basta calcular o da primeira classe (152) e somar a amplitude de cada intervalo de classe (no nosso exemplo essa amplitude vale 4). Assim se x1 = 152, x2 = 152 + 4 = 156, x3 = 156 + 4 = 160, e assim por diante... Refaça então o cálculo dos pontos médios dessa forma. Perceba que é muito mais fácil e muito mais rápido! Agora que os pontos médios estão prontos e colocados na tabela vamos calcular a coluna correspondente a fi xi. Nesse caso basta multiplicar cada valor da frequência pelo ponto médio da classe. Observa na tabela abaixo. Perceba que a soma dessa coluna é 6.440! i Estatura (cm) fi Ponto Médio (xi) fi x xi ̅ 1 150 ˫ 154 4 152 608 2 154 ˫ 158 9 156 1.404 3 158 ˫ 162 11 160 1.760 4 162 ˫ 166 8 164 1.312 5 166 ˫ 170 5 168 840 6 170 ˫ 174 3 172 516 40 6.440
  32. 32. 32 Agora já podemos calcular o valor da Média Aritmética. Temos: ̅ , mas e Logo: ̅ Então a altura média dessas 40 pessoas é 161cm, ou 1,61m (1 metro e 61 cm!) Cálculo dos Desvios O próximo passo é preencher a coluna dos desvios em relação à média. Mas essa tarefa é muito simples, pois cada desvio é dado por ̅ Ou seja, basta subtrair de cada ponto médio a média aritmética (161). Temos então: d1 = 152 - 161 = -9 d2 = 156 - 161 = -5 d3 = 160 - 161 = -1 d4 = 164 - 161 = ... Espere um pouco! Notou algum padrão? Veja, se cada ponto médio é igual ao anterior mais 4, então cada desvio é igual ao anterior mais 4! Fácil e imediato: -9 + 4 = -5 -5 + 4 = -1 -1 + 4 = 3 e assim por diante! Agora basta preencher na tabela a coluna dos desvios e depois multiplicar pelas frequências - não esqueça que essa tabela se chama Distribuição de Frequência! i Estatura (cm) fi Ponto Médio (xi) fi x xi ̅ 1 150 ˫ 154 4 152 608 -9 -36 2 154 ˫ 158 9 156 1.404 -5 -45 3 158 ˫ 162 11 160 1.760 -1 -11 4 162 ˫ 166 8 164 1.312 3 24 5 166 ˫ 170 5 168 840 7 35 6 170 ˫ 174 3 172 516 11 33 40 6.440 0 Notou que a soma dos desvios (na última coluna) é ZERO! Lembra dessa propriedade da média aritmética?
  33. 33. 33 3.3.4 Propriedades da média aritmética 1. A soma dos desvios em relação a média é igual a zero (0). 2. A média aritmética é um valor contido entre o menor valor (min) e o maior valor (max). 3. Multiplicando-se ou dividindo-se todos os valores de um conjunto de dados por uma constante, a média ficará multiplicada ou dividida por esta constante. 4. Somando-se ou subtraindo-se a todos os valores de um conjunto de dados uma constante, a média ficará aumentada ou subtraída desta constante. 3.4 Mediana É o valor que ocupa a posição central de um conjunto de N dados ordenados. Assim, se N for par, a mediana será a média aritmética entre os dois termos centrais. Se N for ímpar a mediana é o termo central. Observe os exemplos a seguir. 3.4.1 Mediana para dados não agrupados Achar a mediana do seguinte conjunto de dados: 5 13 10 2 18 15 6 16 9 Ordenando vem: 2 5 6 9 10 13 15 16 18 1 2 3 4 5 6 7 8 9 Termo central Logo a mediana será: Md = 10 Se o conjunto de dados tiver um número par de observações a mediana é igual a média aritmética entre os dois termos centrais. Observe o exemplo a seguir. 2 6 7 10 12 13 18 21 1 2 3 4 5 6 7 8 Termos centrais Aqui a mediana será: Observações 1. O valor da mediana pode ou não coincidir com um elemento da série, como vimos. Quando o número de elementos da série é ímpar, há a coincidência. O mesmo não acontece, em geral, quando esse número é par. 2. A mediana e a média aritmética não têm necessariamente, o mesmo valor.
  34. 34. 34 3. A mediana depende da posição e não dos valores dos elementos na série ordenada. Essa é uma das diferenças entre a mediana e a média (que é muito influenciada pelos valores extremos - outliers). 4. A mediana é designada muitas vezes por valor mediano. 3.4.2 Mediana para dados agrupados em classes Neste caso, o problema consiste em determinar o ponto do intervalo em que está compreendida a mediana. Fórmula Geral , onde: = Limite inferior da classe em que está a mediana = Frequência acumulada da classe anterior à classe da mediana = Amplitude do intervalo da classe da mediana = Frequência simples da classe da mediana Regra Prática 1. Determinar a frequência acumulada. 2. Calcular (metade das frequências) 3. Marcar a classe correspondente à frequência acumulada imediatamente superior a  essa será a classe mediana! 4. Aplicar a fórmula geral. Exemplo Determinar a mediana da seguinte distribuição de frequência: Classe i Estrutura (cm) fi Fi 1 150 ˫ 154 4 4 2 154 ˫ 158 9 13 3 158 ˫ 162 11 24 Classe da Mediana 4 162 ˫ 166 8 32 5 166 ˫ 170 5 37 6 170 ˫ 174 3 40 40
  35. 35. 35 Aplicando a regra prática para determinar a mediana vem: = 20, logo a classe mediana é a Classe 3, pois 24 é a primeira frequência acumulada maior do que 20! = 158  limite inferior da classe da mediana = 13  frequência acumulada anterior à classe da mediana = 4  amplitude da classe da mediana = (162-158) = 11  frequência simples da classe da mediana Aplicando a fórmula geral Vem: ( ) 3.5 Moda É o valor que ocorre com mais frequência (mais vezes) em um conjunto de dados. 3.5.1 Moda para dados não agrupados Na série 5, 6, 7, 7, 8, 9, 10, 10, 10, 11 a moda é 10, pois é o valor que ocorre mais vezes (3 vezes!). Nesse caso dizemos que a série é UNIMODAL - só tem uma moda! No entanto, podemos encontrar séries nas quais não existe uma moda. Exemplo: 5: 4, 5, 6, 7, 8, 9, 10  aqui ninguém se destaca, todos têm a mesma frequência! Dizemos então que essa série é AMODAL! Em outros casos pode haver dois ou mais valores de concentração. Exemplo: 6: 2, 2, 3, 4, 4, 4, 5, 6, 7, 8, 8, 9, 10, 10, 10, 11 Aqui temos duas modas 4 e 10 e nesse caso a série é chamada de BIMODAL! Exemplo: 7: 1, 1, 2, 3, 4, 4, 5, 5, 6, 7, 8, 9 Neste exemplo temos três modas: 1, 4 e 5 e a série é chamada de TRIMODAL ou POLIMODAL ou PLURIMODAL! 3.5.2 Moda para dados agrupados em classes (Moda de Czuber) Sem Intervalos de Classe Agrupados os dados é fácil determinar a moda, basta observar o valor da variável associada à maior frequência. A tabela abaixo exibe o número de meninos em 34 famílias. Como o valor correspondente à maior frequência (12) é 3, a moda da distribuição é Mo = 3. Ou seja, a “moda” é ter 3 filhos homens na família - 3 meninos! Nº meninos fi 0 2 1 6 2 40 Moda 3 12 Maior frequência 4 4
  36. 36. 36 Com Intervalos de classe A classe que apresenta a maior frequência é denominada classe modal. Pela definição, podemos afirmar que a moda, neste caso é o valor dominante que está compreendido entre os limites da classe modal. Existem várias fórmulas para o cálculo da Moda, no entanto a mais usual é a que veremos a seguir. Moda Czuber Fórmula de CZUBER , onde: = Limite inferior da classe modal = Amplitude do intervalo da classe da mediana D1 = D2 = = Frequência simples da classe modal = Frequência simples da classe anterior à classe modal = Frequência simples da classe posterior à classe modal Exemplo: Determinar a moda da seguinte distribuição de frequência (Fórmula de Czuber). Classe i Estrutura (cm) fi 1 150 ˫ 154 4 2 154 ˫ 158 9 3 158 ˫ 162 11 Classe Modal (maior frequência - 11) 4 162 ˫ 166 8 5 166 ˫ 170 5 6 170 ˫ 174 3 40 Temos: A maior frequência é 11, logo, a classe modal é a de ordem i = 3. Temos então: = 158 = 162 – 158 = 4 D1 = = 11 – 9 = 2 D2 = = 11 – 8 = 3 Aplicando a fórmula vem:
  37. 37. 37 3.6 Posição relativa da média, mediana e moda A posição relativa da Média, Moda e Mediana é importante para conhecermos o tipo de distribuição que estamos trabalhando. Em uma distribuição simétrica, por exemplo, as três medidas de posição são iguais, porém, quanto mais assimétrica for a curva, maior será a diferença entre essas medidas. Para uma distribuição em forma de sino (Normal) pode-se visualizar essas diferenças nos exemplos que se seguem. Em uma distribuição simétrica, verifica-se que: ̅ (Figura A). Figura A Em todas essas figuras marcamos os valores da média, mediana e da moda no eixo horizontal e no eixo vertical marcamos as frequências. Perceba que em todas as figuras o valor da Moda corresponde ao ponto mais alto da curva (o que tem a maior frequência!). Em uma distribuição assimétrica positiva (à direita), verifica-se que: ̅ (média > mediana > moda) (Figura B). Figura B Nesse tipo de distribuição a Média( ̅) é maior que a Mediana (Md) que por sua vez é maior que a Moda (Mo). Em uma distribuição com assimetria negativa (à esquerda), verifica-se que: ̅ (média < mediana < moda) (Figura C).
  38. 38. 38 Figura C Aqui a Média é menor que a Mediana que por sua vez é menor que a Moda. Percebeu que a Mediana está entre a Média e a Moda? Percebeu também que a Moda corresponde sempre ao ponto mais alto do gráfico - o de maior frequência! 3.7 Separatrizes: Quartis, Decis e Percentis Como vimos, a mediana separa a série em dois grupos que apresentam o mesmo número de observações (a metade para cada lado). Existe um grupo de medidas que juntamente com a mediana são conhecidas pelo nome genérico de separatrizes. Essas medidas são: os quartis, os decis e os percentis. QUARTIS Dividem os valores de uma série em 4 (quatro) partes iguais, ou seja, cada uma delas tem a mesma frequência – a mesma quantidade de dados! 0% 25% 50% 75% 100% 25% 25% 25% 25% Q1 Q2 Q3 Temos então: Q1 (1º quartil): é um valor tal que a quarta parte (25%) dos dados é menor que ele. Q2 (2º quartil): coincide com a mediana, deixa 50% dos valores abaixo e 50% acima dele. Q3 (3º quartil): é um valor tal que (75%) dos valores é menor que ele. A fórmula usada para determinação dos quartis é a mesma da mediana substituindo-se apenas: por , onde k é o número de ordem do quartil ( k = 1,2 e 3).
  39. 39. 39 Temos, Md l f Faa f hi i md     [ ] 2 Onde: = Limite inferior da classe do quartil k = Frequência acumulada da classe anterior à classe do quartil k = Frequência simples da classe do quartil k Assim, [ ] k = 1  (1/4=25%) [ ] k = 2  (2/4=50%), ou seja, Q2 = Mediana! [ ] k = 3  (3/4=75%) Observação: os QUARTIS são três: Q1, Q2 e Q3. DECIS Separatrizes que dividem a série em 10 partes iguais (de mesma frequência). 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% D1 D2 D3 D4 D5 D6 D7 D8 D9 Da mesma forma que os quartis, basta substituir na fórmula da mediana: por , onde k é o número de ordem do decil (k = 1,2,3,4,5,6,7,8,e 9). Assim, se k = 1 temos 1/10 = 10%, se k=2 temos 2/10 = 20%, se k = 3 temos 3/10 = 30%, se k=4 temos 4/10 = 40%, se k = 5 temos 5/10 =50% e assim por diante... Observações: Os DECIS são nove: D1 , D2 , D3 , D4 , D5 , D6 , D7 , D8 , D9! D5 = Md, ou seja, o quinto DECIL é igual a MEDIANA!
  40. 40. 40 PERCENTIS São os valores que dividem uma série em 100 partes iguais. 0% 1% 2% 3% .......... 50% ........... 97% 98% 99% 100% P1 P2 P3 ................................ P97 P98 P99 Para determinar os percentis basta substituir na fórmula da mediana: por , onde k é o número de ordem do percentil (k = 1,2,3,.......97,98,99) Observações Os PERCENTIS são 99  P1, P2, P3,................................,P97, P98, P99 P25 = Q1 (o percentil 25 é igual ao 1º quartil - Q1) P50 = Q2 (o percentil 50 é igual ao 2º quartil - Q2) = MEDIANA P75 = Q3 (o percentil 75 é igual ao 3º quartil - Q3) Da mesma forma: P10 = D1 (o percentil 10 é igual ao 1º decil - D1) P50 = D5 = Q2 = Md (o percentil 50 é igual ao 5º decil-D5 que é igual a o 2º quartil-Q2 que é igual a Mediana! P90 = D9 (o percentil 90 é igual ao 9º decil - D9). Realize o exercício a seguir e depois confira a resposta na próxima página. Lembre-se: não vale olhar antes! 1 - Determinar o 1º e o 3º quartis da seguinte distribuição de frequência: Classe i Estrutura (cm) fi Fi 1 150 ˫ 154 4 4 2 154 ˫ 158 9 13 3 158 ˫ 162 11 24 4 162 ˫ 166 8 32 5 166 ˫ 170 5 37 6 170 ˫ 174 3 40 40 Percebe que para facilitar a coluna de frequência acumulada (Fi) já está calculada!
  41. 41. 41 ( ) ( ) Exercícios - Resolução 1 - Temos Primeiro Quartil Vamos determinar a classe do Primeiro Quartil! Temos: (como é o Primeiro Quartil, k=1) , Como a primeira frequência acumulada maior do que 10 é 13 a classe do primeiro quartil é de ordem 2. Da tabela obtemos os valores abaixo: li = 154 Faa = 4 (frequência acumulada anterior à classe do 1º quartil) h = 4 (Amplitude do intervalo = 158-154). Todas são iguais! fq1 = 9 (frequência simples da classe do 1º quartil) Temos então: Perceba que esse valor está no intervalo que vai de 154 até 158 (como era esperado!) Terceiro Quartil (como é o Terceiro Quartil, k=3) Como a primeira frequência acumulada maior do que 30 é 32 a classe do terceiro quartil é de ordem 4. Da tabela obtemos os valores abaixo: li = 162 Faa = 24 (frequência acumulada anterior à classe do 3º quartil) h = 4 (Amplitude do intervalo = 162-158). Todas são iguais! fq1 = 8 (frequência simples da classe do 3º quartil) Temos então: Perceba que esse valor está no intervalo que vai de 162 até 166 (como também era esperado!).
  42. 42. 42 Unidade IV – Medidas de Dispersão  Utilizar as principais medidas de dispersão para interpretar e analisar conjuntos de dados.
  43. 43. 43 Medidas de Dispersão As medidas de posição (média, mediana e moda) não são suficientes para caracterizar perfeitamente um conjunto de dados. Duas distribuições (dois conjuntos de dados) podem ter a mesma média, mediana e moda, mas serem diferentes. Em uma delas, os valores podem se concentrar fortemente em torno da média, na outra, podem se espalhar nos dois lados desse valor médio. Os conjuntos X e Y a seguir exemplificam este fato. X = 11; 9; 8; 12; 7; 10; 10; 13 Y = 2; 18; 1; 5; 19; 5; 0; 30 Calculando as médias dos conjuntos X e Y obtemos: ̅ ̅ Apesar dos dois conjuntos de dados terem a mesma média, é fácil notar que o conjunto X é mais homogêneo que o conjunto Y. Ou seja, os valores do conjunto X, “variam menos” que os valores do conjunto Y. 4.1 Conceito de Dispersão Dispersão (variabilidade) - é a maior ou menor diversificação dos valores de uma variável, em torno de um valor de tendência central tomado como referência (média ou mediana). Para medir essa dispersão são utilizadas várias medidas e as mais usadas são: amplitude total, desvio médio, desvio-quartil, variância, desvio padrão e coeficiente de variação. Antes de estudarmos as principais Medidas de Dispersão dê uma olhada nos dois gráficos abaixo e responda: onde a Dispersão é maior, no Gráfico A ou no Gráfico B? Veremos agora as principais medidas que utilizamos para medir Dispersão. GRÁFICO - A X Y GRÁFICO - B X Y
  44. 44. 44 4.2 Principais Medidas de Dispersão 4.2.1 Amplitude Total É a diferença entre o maior e o menor valor observados. Se os dados forem distribuídos em intervalos de classe, será a diferença entre o limite superior da última classe e o limite inferior da primeira classe. Exemplo: vamos calcular a Amplitude Total dos conjuntos X e Y da página anterior. Temos então: X = {11; 9; 8; 12; 7; 10; 10; 13 }  maior valor (13) menor valor (7) Y = {2; 18; 1; 5; 19; 5; 0; 30 }  maior valor (30) menor valor (0) Ampl(X) = 13 - 7 = 6; Ampl(Y) = 30 - 0 = 30; Ou seja, a amplitude do conjunto Y é maior que a amplitude do conjunto X, o que significa que os valores de Y são mais dispersos que os valores do conjunto X. Em relação à amplitude total pode-se fazer as seguintes observações: 1. é afetada por valores extremos. 2. depende do tamanho da amostra. 3. apresenta muita variação de uma amostra para outra. 4.2.2 Desvio médio É a média aritmética dos desvios absolutos em relação à média aritmética ou a mediana. O mais usual é calcular os desvios em relação à média. Observação - Desvio Absoluto é o valor do desvio sem o sinal, ou seja, é sempre positivo. Dados não Agrupados ̅ Dados Agrupados ̅ Exemplo Determinar a amplitude total e o desvio médio do seguinte conjunto de dados: X = 4; 10; 2; 6; 8 Amplitude total = Maior valor - Menor valor: Ampl = 10 - 2 = 8 Cálculo dos Desvios Vamos calcular os desvios em relação à média aritmética. Média aritmética: ̅ Como os dados são não agrupados a fórmula é: ̅ Ou seja, a distância média entre cada ponto e a média aritmética é 2,4!
  45. 45. 45 Obs: | |  significa Módulo e é sempre positivo! Assim, |2| = 2 e |-2| = 2! 4.2.3 Variância É a média aritmética dos quadrados dos desvios em relação à média. Dados não Agrupados ( ̅) , onde n = número de observações. Não esqueça! Desvio  ̅ Desenvolvendo-se a expressão acima, obtém-se uma fórmula mais simples para a variância. ( ) , ou seja: ̅ Através da fórmula simplificada acima, pode-se então definir a variância como sendo: “a média dos quadrados, menos o quadrado da média”. É quase poético! A média dos quadrados... Menos o quadrado da média! Dados Agrupados ( ) ou ̅ Perceba que quando os dados estão agrupados a única diferença é termos que usar frequências! Ou seja, cada valor xi tem que ser multiplicado pela sua respectiva frequência! Variância é uma das três principais medidas de Dispersão, mas ela tem um pequeno problema que será analisado a seguir. Como a variância é calculada a partir dos quadrados dos desvios, ela possui a unidade de medida diferente da dos dados originais. Por exemplo, se os dados estão medidos em cm a variância está medida em cm 2 . Se os dados estão medidos em kg a variância está em kg 2 e assim por diante! Objetivando eliminar este inconveniente, usa-se outra medida de dispersão chamada Desvio Padrão que veremos a seguir. 4.2.4 Desvio padrão É a raiz quadrada da variância. Temos então: √ Simples! Conhecida a Variância para achar o Desvio Padrão basta calcular a sua raiz quadrada! Dessa forma o Desvio Padrão estará sempre medido na mesma unidade dos dados originais já que a variância está medida na unidade ao quadrado. Assim, se a variância for 16 cm2 , o valor do desvio padrão será 4cm2 . Exemplo Calcular a variância e o desvio-padrão do seguinte conjunto de dados X = 2; 4; 3; 6; 10 (dados não agrupados) Primeira providência  calcular a média aritmética! Temos: média aritmética: ̅ Como os dados são não agrupados a variância é dada por: ( ̅) Substituindo os valores vêm:
  46. 46. 46 ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) O desvio-padrão é dado por: √  √ 4.2.5 Propriedades da variância e do desvio padrão Propriedades da Variância 1. Somando-se ou subtraindo-se uma constante a todos os elementos de um conjunto de dados, a variância deste conjunto não de altera. 2. Multiplicando-se ou dividindo-se todos os elementos de um conjunto de dados por uma constante (diferente de zero), a variância deste conjunto fica multiplicada ou dividida pelo quadrado desta constante. Vamos verificar se estas duas propriedades são válidas. Veja, no exemplo anterior calculamos a Variância do conjunto de dados X = {2; 4; 3; 6; 10} e o resultado encontrado foi Var(X) = 8!  variância de X igual a 8! Crie um novo conjunto de dados Y = X + 2, ou seja, os valores do conjunto Y são os valores do conjunto X somado da constante 2. Assim, Y = { 4; 6; 5; 8; 12}. Problema proposto - Calcule a Variância do conjunto Y e comprove a Propriedade1 da Variância, ou seja: se Y = X + 2 então  Var(Y) = Var(X)! Faça os cálculos e comprove esse resultado! Vamos agora comprovar a Propriedade2 da Variância. Crie um novo conjunto de dados Z = 2X, ou seja, os valores do conjunto Z são os valores do conjunto X multiplicados pela constante 2. Assim, se X = {2; 4; 3; 6; 10} , Z = { 4; 8 ; 6 ; 12; 20}. Problema proposto - Calcule a Variância do conjunto Z e comprove a Propriedade2 da Variância, ou seja: se Z = 2X a nossa constante é 2) então Var(Z) = 22 Var(X)  Var(Z) = 4Var(X). Ou seja, se multiplicamos todos os elementos de um conjunto por uma constante (no nosso caso 2) a Variância fica multiplicada pelo quadrado da constante (4)! Assim Var(Z) = 4 × Var(X) = 4×8 = 32! Faça os cálculos e comprove esse resultado!
  47. 47. 47 Propriedades do Desvio Padrão 1. Somando-se ou subtraindo-se uma constante a todos os valores de um conjunto de dados, o desvio padrão não se altera. 2. Multiplicando-se ou dividindo-se todos os valores de um conjunto de dados por uma constante (diferente de zero), o desvio padrão ficará multiplicado ou dividido por essa constante. 3. O desvio-padrão não tem interpretação física como ocorre com a média, a mediana e a moda. 4. Em uma distribuição normal tem-se entre: [ ̅ ̅ ] - 68,25% das observações [ ̅ ̅ ] - 95,46% das observações [ ̅ ̅ ] - 99,73% das observações Veja, se o Desvio Padrão é a raiz quadrada da Variância, as propriedades 1 e 2 são decorrência das propriedades 1 e 2 da Variância! Na próxima seção vamos estudar o Coeficiente de Variação que juntamente com a Variância e o Desvio Padrão compõe o conjunto das medidas de dispersão mais importantes. 4.2.6 Coeficiente de variação Algumas medidas estatísticas quando observadas isoladamente não trazem muita informação. Dessa forma, um desvio padrão de 5 unidades pode ser considerado pequeno para um conjunto de valores cuja média é 500, no entanto, se a média for igual a 50 o mesmo não pode ser dito. Por outro lado, por ser o desvio padrão expresso na mesma unidade que os dados originais, é complicado o seu uso para efeito de comparação da dispersão entre dois conjuntos de dados expressos em unidades diferentes. Objetivando-se contornar essas dificuldades e limitações, criou-se uma nova medida chamada Coeficiente de Variação (CV) assim definida: ̅ (Desvio padrão dividido pela Média aritmética) Ou seja, o Coeficiente de Variação é o Desvio Padrão dividido pela Média Aritmética! Esse é o Coeficiente de Variação de Pearson! KARL PEARSON (Londres-1857 / Londres -1898) Matemático - criador da Estatística Aplicada. Principais contribuições  Correlação (Coeficiente de Correlação de Pearson)  Regressão Linear  Classificação das Distribuições de Probabilidade  Teste Chi-Quadrado de Pearson  Coeficientes de Assimetria Observação - Perceba que o Coeficiente de Variação (CV) é adimensional, pois é a relação entre dois valores (Desvio Padrão e Média) que são medidos na mesma unidade. Assim, o CV é sempre expresso em percentual (%) como veremos nos exemplos seguintes.
  48. 48. 48 Exemplo - 1 Para um conjunto de dados relativos a estaturas têm-se: Média =161 cm e Desvio Padrão S =5,57 cm. Achar o CV deste conjunto de dados. Temos: aplicação direta da nossa fórmula! ̅ Exemplo-2 Consideremos os resultados das medidas de altura e peso de um mesmo grupo de indivíduos exibidos na tabela abaixo: Medidas x S Estatura 175 cm 5,0 cm Peso 68 Kg 2,0 Kg Qual apresenta maior grau de dispersão? Veja, aqui não podemos comparar o Desvio Padrão das Estaturas medido em cm (5,0 cm) com Desvio Padrão do Peso medido em kg (2 kg)! Essa é uma das grandes limitações da utilização do Desvio Padrão para comparar dispersão de conjuntos de dados que estão medidos em unidades diferentes. Nesse caso temos que usar o Coeficiente de Variação. Temos: ̅ 0285,0 175 5 ECV  2,85%  CV das estaturas! 0294,0 68 2 PCV  2,94%  CV dos pesos! Logo, os pesos (2,94%) apresentam maior grau de dispersão RELATIVA que as alturas (2,85%), embora a dispersão ABSOLUTA (desvio padrão) seja maior para as alturas (5 cm). Veja, aqui fizemos referência a dois conceitos - Dispersão Absoluta e Dispersão Relativa! Dispersão Absoluta  é a Variância ou o Desvio Padrão! Dispersão Relativa  é o Coeficiente de Variação! Da mesma forma que a Variância e o Desvio Padrão o Coeficiente de Variação tem também as suas propriedades. Esse assunto será apresentado no próximo item.
  49. 49. 49 4.2.7 Propriedades do coeficiente de variação 1. Somando-se uma constante positiva a todos os elementos de um conjunto de dados o coeficiente de variação diminui. No entanto, não é possível determinar o novo valor a partir apenas do valor original. 2. Subtraindo-se uma constante positiva de todos os elementos de um conjunto de dados o coeficiente de variação aumenta. No entanto, não é possível determinar o novo valor a partir apenas do valor original. 3. Multiplicando-se ou dividindo-se todos os elementos de um conjunto de dados por uma constante positiva, o coeficiente de variação não se altera. Vamos fazer uma reflexão e tentar comprovar essas propriedades usando o nosso conhecimento sobre as propriedades dos elementos que são usados no cálculo do Coeficiente de Variação, ou seja, o Desvio Padrão e a Média. Observe. Vamos supor um conjunto de Dados que tenha Média = 40 e Desvio Padrão = 4 O seu coeficiente de Variação será: %1010,0 40 4 CV Vamos agora verificar se as propriedades do Coeficiente de Variação são válidas. Propriedade 1. Somando-se uma constante positiva a todos os elementos de um conjunto de dados o coeficiente de variação diminui. No entanto, não é possível determinar o novo valor a partir apenas do valor original. Vamos somar a constante c = 10 ao nosso conjunto de dados. O que acontece com a Média? Fica somada de 10! Então Média Nova = 40 + 10 = 50! Esqueceu essa propriedade? Está na Unidade 3! O que acontece com o Desvio Padrão? Não se altera! Então o Desvio Padrão continua igual a 4! Esqueceu essa propriedade também? Está nesta Unidade, acabamos de ver! Assim, o novo CV será: %808,0 50 4 1040 4   CV Ou seja... O CV passou de 10% para 8%  DIMINUIU!
  50. 50. 50 Propriedade 2. Subtraindo-se uma constante positiva de todos os elementos de um conjunto de dados o coeficiente de variação aumenta. No entanto, não é possível determinar o novo valor a partir apenas do valor original. Vamos subtrair a constante c = 10 ao nosso conjunto de dados. O que acontece com a Média? Fica subtraída de 10! Então Média Nova = 40 - 10 = 30! Esqueceu dessa propriedade? Está na Unidade 3! O que acontece com o Desvio Padrão? Não se altera! Então o Desvio Padrão continua igual a 4! Esqueceu dessa propriedade? Está nesta Unidade, acabamos de ver! Assim, o novo CV será: %33,131333,0 30 4 1040 4   CV Ou seja... O CV passou de 10% para 13,33%  AUMENTOU! Propriedade 3. Multiplicando-se ou dividindo-se todos os elementos de um conjunto de dados por uma constante positiva, o coeficiente de variação não se altera. Vamos multiplicar o nosso conjunto de dados pela constante c = 10. O que acontece com a Média? Fica multiplicada por 10! Então Média Nova = 10 × 40 = 400! Esqueceu essa propriedade? Está na Unidade 3! O que acontece com o Desvio Padrão? multiplicado por 10! Então o Desvio Padrão Novo = 4 ×10 = 40! Esqueceu essa propriedade? Está nesta Unidade, acabamos de ver! Assim, o novo CV será: %1010,0 400 40 CV Ou seja, o CV passou de 10% para 10%  NÃO SE ALTERA!
  51. 51. 51 Realize os exercícios e depois confira a resposta na próxima página. Lembre-se: Não vale olhar antes! 2 - Achar a variância e o desvio-padrão da seguinte distribuição de frequência: Classe i Estrutura (cm) fi 1 150 ˫ 154 4 2 154 ˫ 158 9 3 158 ˫ 162 11 4 162 ˫ 166 8 5 166 ˫ 170 5 6 170 ˫ 174 3 40
  52. 52. 52 ( ) Exercícios – Resolução (continuação) 1 - Precisamos abrir na tabela novas colunas para xi (ponto médio), fi x xi e fi x xi 2 . Classe i Estrutura (cm) fi xi fi x xi fi x xi 2 1 150 ˫ 154 4 152 608 92.416 2 154 ˫ 158 9 156 1.404 219.024 3 158 ˫ 162 11 160 1.760 281.600 4 162 ˫ 166 8 164 1.312 215.168 5 166 ˫ 170 5 168 840 141.120 6 170 ˫ 174 3 172 516 88.754 40 6.440 1.038.080 Cálculo da Variância Como os dados estão distribuídos em intervalos devemos usar a fórmula: ( ) onde os xi são os pontos médios de cada intervalo. Da Tabela acima obtemos que: e ( ) ( ) Substituindo os valores na fórmula da Variância vem: O Desvio Padrão é a raiz quadrada da variância. Assim, √ Coeficiente de Variação %45,30345,0 161 57,5  x S CV
  53. 53. 53 Unidade V – Probabilidade  Conhecer os conceitos da teoria das probabilidades e sua utilização na modelagem e solução de problemas.
  54. 54. 54 5.1 Introdução 5.1.1 O que é Probabilidade? Os jogos de azar, que se caracterizam por ações como girar uma roleta, lançar dados ou retirar carta de baralho têm duas características básicas: a incerteza e a regularidade. Assim, por exemplo, toda vez que se joga um dado, pode ocorrer qualquer uma das faces. No entanto, o jogo, embora incerto, tem regularidade. Se forem feitos muitos lançamentos espera-se que todas as faces ocorram igual número de vezes. Essas características de jogos de azar, percebidas há muito tempo, criaram a ideia de que seria possível achar uma “fórmula” ou um “método”, que permitisse ao jogador ganhar sempre, ou pelo menos, ganhar na maioria das vezes. Isso não é possível, mas foi essa ideia que incentivou o estudo de tais jogos, o que levou a formulação da teoria da probabilidade, base da estatística moderna. Relembrando alguns conceitos vistos na unidade I Experimento Aleatório, Espaço Amostral (S) e Evento Chama-se experimento aleatório a todo experimento que, repetido inúmeras vezes nas mesmas condições, fornece resultados imprevisíveis. Ou seja, são experimentos cujos resultados são devidos ao acaso. O espaço amostral (S) é o conjunto de todos os resultados possíveis de um experimento aleatório. Exemplos Experimento 1 - Retirar uma carta de um baralho com 52 cartas e observar o seu naipe; Espaço amostral S1 = {Ouro, Paus, Espada, Copas}  só existem estes 4 naipes no baralho. Experimento 2 - Jogar um dado e observar o resultado Espaço amostral S2 = {1,2,3,4,5,6}  só existem estas 6 possibilidades. Experimento 3 - Jogar duas moedas e observar o resultado. Espaço Amostral S3 = {(c, c), (c, k), (k, c), (k, k)}  onde c = coroa; e k = cara Evento - é qualquer subconjunto do espaço amostral S de um Experimento Aleatório. Exemplo - No lançamento de um dado o Espaço Amostral é S = {1,2,3,4,5,6} Então podemos ter os seguintes exemplos de eventos: A = {2,4,6}  S é um evento de S, pois A está contido () em S. Este evento pode ser descrito como: lançar o dado e obter um número PAR! B = {1,2,3,4,5,6}  S é um evento de S denominado Evento Certo. Este evento pode ser descrito como: lançar o dado e obter um número de 1 até 6 ! Você saberia dizer por que B é um evento certo? C = {4}  S é um evento de S D = Ø  S é um evento de S denominado Evento Impossível.
  55. 55. 55 Lembra como podemos descrever este evento? Obter um número maior que 6 no lançamento de um dado. É impossível obter o número 9 no lançamento de um dado! 5.2 Definição de Probabilidade Considere um espaço amostral S e A um evento de S. Chama-se probabilidade do evento A, ao número real P(A) tal que: ( ) ( ) ( ) , onde: ( ) = nº de elementos de A ( ) = de elementos de S Exemplo - Qual é a probabilidade de se obter cara no lançamento de uma moeda? Temos: Espaço Amostral S = {Ca, Co} n(S) = 2. Seja A o evento - aparecer cara, então, A é dado por: A = {Ca} e n(A) = 1 Logo, ( ) ( ) ( ) .  A probabilidade de jogar uma moeda e aparecer cara é 50%! Observação: a probabilidade de um evento A é também assim definida: ( ) , onde: NCF - número de casos favoráveis à ocorrência do evento A. NTC - número total de casos. Ou seja: “probabilidade é o que eu quero dividido pelo total de possibilidades“. Assim, se no lançamento de um dado desejo um número menor do que 3, a probabilidade deste evento ocorrer é 2 (o que eu quero!) sobre o total de possibilidades 6. Assim p = 2/6! Ou seja: o que quero  um número menor do que 3 = 1 ou 2! Quantas possibilidades temos ao todo?  6 possibilidades! 5.2.1 Eventos complementares Um evento pode ocorrer ou não ocorrer. Sendo p a probabilidade que ele ocorra (sucesso) e q a probabilidade que ele não ocorra (insucesso), para um mesmo evento existe sempre a relação. p + q = 1 ou q = 1 - p Exemplo: se a probabilidade de ocorrer 4 no lançamento de um dado é p = 1/6, a probabilidade de não ocorrer 4 é, q = 1 - 1/6 = 5/6. A probabilidade de não ocorrer 4 é o evento {1,2,3,5,6}, ou seja tem 5 elementos!
  56. 56. 56 {1,1} {1,2} {1,3} {1,4} {1,5} {1,6} {2,1} {2,2} {2,3} {2,4} {2,5} {2,6} {3,1} {3,2} {3,3} {3,4} {3,5} {3,6} {4,1} {4,2} {4,3} {4,4} {4,5} {4,6} {5,1} {5,2} {5,3} {5,4} {5,5} {5,6} {6,1} {6,2} {6,3} {6,4} {6,5} {6,6} 5.2.2 Eventos independentes Dois eventos são independentes quando a realização ou não realização de um deles não afeta a probabilidade de realização ou não do outro e vice-versa. Exemplo: quando lançamos dois dados, o resultado obtido em um deles independe do resultado obtido no outro dado. A probabilidade de ocorrência simultânea de dois eventos independentes é igual ao produto das probabilidades de realização dos dois eventos. Assim, se p1 e p2 são respectivamente as probabilidades do primeiro e do segundo evento ocorrerem, a probabilidade para que tais eventos se realizem simultaneamente é dada por: Exemplo Lançamento de dois dados. A probabilidade de obtermos 1 no primeiro dado é p1 = 1/6. A probabilidade de obtermos 5 no segundo dado é p2 = 1/6. A probabilidade de obtermos simultaneamente 1 no primeiro e 5 no segundo é: Vamos comprovar esse resultado! Veja, na tabela abaixo montamos o Espaço Amostral S correspondente ao lançamento simultâneo de 2 dados. Na primeira linha temos os resultados em que aparece 1 no primeiro dado, na segunda linha os resultados em que aparece 2 no primeiro dado e assim por diante... Observe na tabela abaixo:
  57. 57. 57 ESPAÇO AMOSTRAL Quantos elementos ele possui? 36 elementos! Desses 36 elementos qual o que nos interessa? Somente o que tem 1 no primeiro dado e 5 no segundo dado (1,5) ! Logo a probabilidade desse evento ocorrer é p = 1/6! 5.2.3 Eventos mutuamente exclusivos Dois ou mais eventos são mutuamente exclusivos se a realização de um excluir a realização do outro ou dos outros. Exemplo - No lançamento de uma moeda, o evento “tirar cara” e o evento “tirar coroa” são mutuamente exclusivos já que ao se realizar um deles o outro não pode se realizar. Se dois eventos são mutuamente exclusivos a probabilidade de que um ou outro se realize é igual a soma das probabilidades de que cada um deles se realize. Exemplo Lançamento de um dado. A probabilidade de se tirar o 3 ou o 5 é: 5.3 Probabilidade - Propriedades 1. A probabilidade de um evento A é um número maior ou igual a zero e menor ou igual a 1. 0 ≤ P(A) ≤ 1 2. A probabilidade de um evento certo é igual a 1. P(S) = 1 3. A probabilidade de um evento impossível é igual a zero. P(Ø) = 0 4. Regra da Soma - Se A e B são eventos mutuamente exclusivos, (A B) = Ø então: P(A B) = P(A + B) = P(A) + P(B) 5. Se A e B não são mutuamente exclusivos, então: P (A B) = P(A) + P(B) - P(A B) 6. Se B é o evento complementar de A então: P(B) = 1 - P(A)
  58. 58. 58 5.4 Probabilidade condicional Se A e B são eventos de um espaço amostral S com P(B) 0, então a probabilidade condicional do evento A, tendo ocorrido o evento B é indicada por P(A/B) e dada por: ( )⁄ ( ) ( )  esta é a probabilidade do evento A ocorrer dado que o evento B já ocorreu! Ou ainda: ( )⁄ Exemplo Um número é sorteado ao acaso entre os inteiros: 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15. Se o número sorteado for PAR, qual a probabilidade de que seja o número 6? Temos: S = {1,2,3,4,5,6,7,8,9,10,11,12,13,14,15}  Espaço Amostral A = {o número 6} B = {o número par} Temos então: ( )⁄ Observação Sem a informação da ocorrência de B, P(A) seria 1/15! Perceba nesse exemplo simples o valor da INFORMAÇÃO! O fato de saber que o número sorteado é PAR aumenta nossa chance de acerto! Ou seja, passa de 1/15 (7%) para 1/7 (14%)! 5.5 Regra do produto Permite calcular a probabilidade da interseção de dois eventos A e B. Ou seja, a probabilidade de ocorrer o primeiro evento E o segundo evento! P(A∩B) = P(B) x P(A/B) ou P(A∩B) = P(A) x P(B/A) Exemplo Retiram-se sem reposição duas peças de um lote de 10 peças onde 4 são boas. Qual a probabilidade de que ambas sejam defeituosas? Temos: 10 peças  4 Boas e 6 Defeituosas ! A - {a 1ª peça ser defeituosa} B - {a 2ª peça ser defeituosa} Precisamos calcular P(A∩B) (ocorrência simultânea), ou seja, a primeira ser Defeituosa e a segunda também ser Defeituosa.
  59. 59. 59 Temos, P(A∩B) = P(A) x P(B/A) P(A) = 6/10 – essa é a probabilidade de se tirar uma peça defeituosa! Como são 6 peças defeituosas em um total de 10 a probabilidade é 6/10! Vamos calcular agora a probabilidade da segunda peça retirada também ser defeituosa! Veja, agora só temos 9 peças! Como a primeira peça retirada foi defeituosa, destas 9 restantes nos temos 4 boas e 5 defeituosas! Qual a probabilidade de retirarmos uma peça defeituosa? Veja, agora temos: 9 peças  4 Boas e 5 Defeituosas! Logo, (B/A) = 5/9  como a 1ª era defeituosa - sobram 5 defeituosas em um total de 9! Então, ( ) 5.5.1 Regra do Produto para dois eventos independentes P(A∩B) = P(A) x P(B)  se dois eventos são independentes a probabilidade de ocorrência simultânea dos dois eventos é o produto das probabilidades de ocorrência de cada um desses eventos! Exemplo Retiram-se com reposição duas cartas de um baralho com 52 cartas. Qual a probabilidade de que ambas sejam de “paus”? Temos: A = {a 1ª carta é de paus}  P(A) = 13/52 B = {a 2ª carta é de paus}  P(B) = 13/52 ( ) Veja, aqui como é com reposição o Espaço Amostral não se altera, ou seja, continuamos a ter as 52 cartas originais! 5.6 Distribuição de probabilidade Para uma variável aleatória discreta é uma tabela, especificando a probabilidade de que a variável aleatória assuma cada um dos valores possíveis. Para uma variável aleatória contínua é uma função, especificando a probabilidade de que a variável aleatória assuma um valor em cada um dos intervalos de variação possíveis para a variável considerada. Assim distribuição de probabilidade de uma variável aleatória discreta X é a função P (X = x), ou seja, é a função que determina a probabilidade de X assumir o valor x. Para uma variável aleatória contínua é a função que determina a probabilidade de X assumir valores em um determinado intervalo, por exemplo, P(a ≤ X ≤ b).
  60. 60. 60 No nosso curso vamos estudar apenas as distribuições contínuas e entre elas a mais importante de todas que é a distribuição Normal. Além disso, veremos algumas aplicações práticas, como por exemplo, como a Receita Federal coloca os declarantes na Malha Fina do Imposto de Renda. As distribuições discretas são estudadas em uma disciplina chamada Processos Estocásticos, que faz parte da grade de alguns cursos como CCOMP e ENGENHARIA e é eletiva para outros, dentre eles ADM, ADS, CONTAB e LOGÍSTICA. 5.6.1 Distribuição normal Um dos mais importantes exemplos de distribuição de probabilidade contínua é a chamada distribuição Normal. Muitas variáveis analisadas especialmente em pesquisas econômicas seguem essa distribuição ou dela se aproximam, sendo aplicada em inúmeros fenômenos e utilizada para o desenvolvimento teórico da Estatística. Uma distribuição Normal é representada graficamente como a seguir. FIGURA 5.1 No eixo horizontal temos os valores da variável X e no eixo vertical a frequência. Assim, dizemos que uma variável aleatória X que pode ser representada por um gráfico como o da figura acima tem distribuição Normal com média e desvio padrão , e representamos da seguinte maneira X. Ou seja, X é uma Normal com Média  e Desvio Padrão  A equação da curva Normal é dada pela expressão abaixo, onde x é o valor da variável aleatória considerada e e  são parâmetros conhecidos da variável, ou seja, média e desvio padrão.   2 2 2e. 2 1 )(      x xf , onde π = 3.14159 e e = 2.71828 Assim, a curva normal é uma distribuição que possibilita determinar as probabilidades associadas a todos os valores de x, ou seja, é uma distribuição de frequências, sendo a frequência total sob a curva (soma das probabilidades) igual a 1 (ou 100%).
  61. 61. 61 Obviamente não podemos trabalhar com uma equação complexa como essa, pois exigiria conhecimento mais aprofundado de Cálculo Diferencial e Integral. 5.6.2 Propriedades da normal A distribuição Normal tem as seguintes propriedades:  tem forma de SINO  é SIMÉTRICA (média = moda = mediana)  é UNIMODAL  são válidos os valores de probabilidades exibidos na figura e tabela abaixo FIGURA 5.2 Obs:  = Média  = Desvio Padrão Observe na Figura abaixo (mais detalhada) os valores da Probabilidade em uma curva Normal. FIGURA 5.3 In tervalo Probabilidade (%) SIGNIFICADO   68,26% Entre a média e  um desvio temos 68,26% das observações   95,45% Entre a média e  dois desvios temos 95,45% das observações   99,73% Entre a média e  três desvios temos 99,73% das observações
  62. 62. 62 Perceba que como a curva é simétrica a soma das probabilidades à esquerda da Média é igual a soma dos valores das probabilidades à direita da média (50% à esquerda e 50% à direita). Essa propriedade é fundamental, pois vai nos ajudar a resolver muitos problemas. 5.6.3 Aplicações da distribuição normal As aplicações da distribuição Normal são inúmeras, mesmo porque muitas variáveis seguem essa distribuição. Dois exemplos clássicos são: peso e altura! Esta distribuição também é muito usada em Teste de Hipóteses, determinação de Intervalos de Confiança em Controle de Qualidade e até mesmo na Malha Fina do Imposto de Renda como veremos mais adiante nos nossos exercícios. A título de ilustração observe na figura a seguir a distribuição do Quociente de Inteligência (QI) que também segue uma distribuição Normal. FIGURA 5.4 Obviamente as pessoas possuem inteligências múltiplas, ou seja, essa medida não é única como se pensava (mais) antigamente. No entanto, uma pessoa como Chico Anísio, por exemplo, era dotado de inteligências múltiplas em altíssimo grau! Entre outras habilidades mais conhecidas (autor, ator, humorista, comediante, diretor, escritor, diretor, pintor...) era também compositor! Certamente você já cantou várias músicas composta por ele - Rio Antigo, Praça Onze...! Onde será que Madonna, Shakira, Sharon Stone e Nicole Kidman estão nesse gráfico? E o Stephen Hawking...Bill Gates? Veja, para ter sucesso na vida não basta ter QI alto, são necessários também outros ingredientes! Muitas pessoas têm QI altíssimo, mas não têm determinação, por exemplo! No entanto, quando esses atributos estão juntos o sucesso é quase uma certeza! 5.6.4 Variável Normal Padronizada Como trabalhar então com essa distribuição Normal? Observe na Tabela abaixo que essas propriedades dependem essencialmente de dois valores que pertencem a variável que você está tralhando - Média e Desvio Padrão!
  63. 63. 63 Esse fato nos leva a seguinte reflexão: para cada variável (Normal) devemos ter uma Tabela que especifique os valores das probabilidades em cada um dos intervalos, já essas probabilidades dependem da Média e do Desvio Padrão (que são diferentes para cada variável)! Ora, mas isso é impossível, pois se assim fosse seriam necessárias infinitas tabelas - uma para cada variável. Nesse ponto é que entra a Normal Padronizada, ou seja, fazemos uma transformação de variável de tal forma que essa variável transformada tenha propriedades que permitam que seja utilizada uma única Tabela - a Tabela Normal Padrão! Normal Padrão Dizemos que a variável aleatória Z tem distribuição normal padrão quando tem e, isto é, Z N(0,1). Ou seja, Z tem Média 0 (zero) e Desvio Padrão 1! Toda variável X N() pode ser reduzida a uma variável com distribuição normal padrão (Z) através da seguinte transformação:    X Z , onde Xe Ou seja, a variável Z é obtida subtraindo-se de cada valor observado de X sua média  e em seguida dividindo-se pelo seu desvio padrão . As probabilidades associadas à distribuição normal padrão (Z) são encontradas em tabelas, não sendo necessário realizar cálculos para determiná-las. Assim, para resolver nossos exercícios precisamos saber como usar essa Tabela Normal Padrão que está disponível na nossa Midiateca. Como usar a Tabela Normal Vamos aprender a usar a Tabela Normal a partir de um exemplo prático. Exemplo - Seja X a variável aleatória que representa os diâmetros de parafusos produzidos por determinada máquina. Suponha que esta variável tenha distribuição normal com média  = 2 cm e desvio padrão  = 0,04 cm. Calcular a probabilidade de um parafuso produzido pela máquina ter um diâmetro com valor entre 2 cm e 2,05 cm. Temos: X ~ N( 2 ; 0,04)  X tem distribuição Normal com Média 2 e Desvio Padrão 0,04. Queremos calcular P( 2 < x < 2,05 ). Para poder utilizar os valores tabelados da distribuição normal padrão precisamos transformar os valores da variável X em valores da variável Z utilizando a transformação:    X Z Intervalo Probabilidade (%)  68,26%  95,45%  99,73%
  64. 64. 64 Temos então: x1 = 2 x2 = 2,05  = 2 e  = 0,04 Vamos transformar a variável X na variável Z para poder usar a tabela normal. 0 04,0 22 1   z 25,1 04,0 205,2 2   z Observe na figura que o que queremos é a área entre z = 0 e z = 1,25. A nossa tabela já nos fornece esse valor diretamente, pois o que está tabulado é sempre a área entre 0 (zero) e o valor que você quer (no nosso caso x=2,05 que corresponde a z=1,25). Observe na Tabela abaixo como achar o valor da probabilidade correspondente a z =1,25. Observação: o que está sendo exibido é apenas uma parte da Tabela Normal necessária para resolver o nosso problema. Segunda decimal de z 0 1 2 3 4 5 6 7 8 9 0,0 0,0000 0,0040 0,0080 0,0120 0,0160 0,0199 0,0239 0,0279 0,0319 0,0359 0,1 0,0398 0,0438 0,0478 0,0517 0,0557 0,0596 0,0636 0,0675 0,0714 0,0753 0,2 0,0793 0,0832 0,0871 0,0910 0,0948 0,0987 0,1026 0,1064 0,1103 0,1141 0,3 0,1179 0,1217 0,1255 0,1293 0,1331 0,1368 0,1406 0,1443 0,1480 0,1517 0,4 0,1554 0,1591 0,1628 0,1664 0,1700 0,1736 0,1772 0,1808 0,1844 0,1879 0,5 0,1915 0,1950 0,1985 0,2019 0,2054 0,2088 0,2123 0,2157 0,2190 0,2224 0,6 0,2257 0,2291 0,2324 0,2357 0,2389 0,2422 0,2454 0,2486 0,2517 0,2549 0,7 0,2580 0,2611 0,2642 0,2673 0,2704 0,2734 0,2764 0,2794 0,2823 0,2852 0,8 0,2881 0,2910 0,2939 0,2967 0,2995 0,3023 0,3051 0,3078 0,3106 0,3133 0,9 0,3159 0,3186 0,3212 0,3238 0,3264 0,3289 0,3315 0,3340 0,3365 0,3389 1,0 0,3413 0,3438 0,3461 0,3485 0,3508 0,3531 0,3554 0,3577 0,3599 0,3621
  65. 65. 65 1,1 0,3643 0,3665 0,3686 0,3708 0,3729 0,3749 0,3770 0,3790 0,3810 0,3830 1,2 0,3849 0,3869 0,3888 0,3907 0,3925 0,3944 0,3962 0,3980 0,3997 0,4015 1,3 0,4032 0,4049 0,4066 0,4082 0,4099 0,4115 0,4131 0,4147 0,4162 0,4177 1,4 0,4192 0,4207 0,4222 0,4236 0,4251 0,4265 0,4279 0,4292 0,4306 0,4319 Observe: z= 1,25. Como achar na Tabela o valor da probabilidade correspondente a 1,25? Usamos a parte inteira e a primeira decimal (1,2) de z para entrar na primeira coluna da tabela. Usamos a segunda decimal (5) para a outra coluna. Assim o valor que corresponde a z = 1,25 é 0,3944. Observe na tabela acima. Se z = 1,24 esse valor seria 0,3925, se z = 1,26 esse valor seria 0,3962! Simples e imediato! Então P(2 < X < 2,05 ) = P( 0 < Z < 1,25) = 0,3944 (39,44%), ou seja, a probabilidade da máquina produzir uma peça com diâmetro entre 2,0 cm e 2,05 cm é 39,44% . Qual seria o valor de Probabilidade para: z = 0,19 z = 0,73 z = 0,82 z = 1,46 Realize os exercícios e depois confira a resposta a seguir. Lembre-se: Não vale olhar antes! 1- Qual é a probabilidade de aparecer uma face ímpar (número ímpar) no lançamento de um dado? 2- Qual é a probabilidade de se tirar um rei em um baralho de 52 cartas?
  66. 66. 66 Exercícios - Resolução 1- Temos: Espaço Amostral S {1,2,3,4,5,6} n(S) = 6 Face ímpar, evento A = {1,3,5} n(A) = 3 P(A) = n(A)/n(S) = 3/6 = ½ = 0,5 ou 50% 2- Evento A - aparecer um rei n(A) = 4 - (número de reis do baralho) n(S) = 52 - (número de cartas do baralho) P(A) = n(A)/n(S) = 4/52 = 1/13
  67. 67. 67 Unidade VI – Correlação e Regressão  Conhecer técnicas de correlação e regressão para elaboração de modelos de previsão.
  68. 68. 68 6.1 Correlação Um dos maiores problemas do investigador de fenômenos humanos e físicos é estabelecer um modelo matemático que descreva e explique o fenômeno real com uma boa aproximação. Para isso, é necessário que se consiga medir e avaliar o grau de relação existente entre as variáveis do modelo. Assim, correlação é o estudo da interdependência entre duas ou mais variáveis quantitativas. Podemos medir, por exemplo, se a demanda de um produto decresce linearmente com o acréscimo do seu preço ou se o número de filhos de uma família tem uma relação forte com o grau de instrução dos pais. Podemos avaliar, por exemplo, se o aumento da ação fiscal tem um impacto direto no aumento de arrecadação ou se o gasto com propaganda em uma empresa tem uma relação direta com aumento das vendas? 6.1.1 Tipos de correlação A correlação pode ser simples ou múltipla. Correlação Linear Simples: quando se estuda a relação entre duas variáveis. Correlação Linear Múltipla: quando se estuda a relação entre mais de duas variáveis. No nosso curso estudaremos a Correlação Linear Simples. 6.2 Correlação linear simples A correlação fornece um número compreendido no intervalo [-1,1] que indica o grau de relacionamento entre duas variáveis. Um valor próximo de 1 indica uma forte correlação positiva. Por outro lado, um valor próximo de -1 indica que as variáveis encontram-se fortemente correlacionadas negativamente. Um valor próximo de zero indica ausência de correlação. 6.2.1 Coeficiente de correlação (Pearson) O coeficiente de correlação mede a dependência linear entre as variáveis, sendo definido por: √[ ( ) ] [ ( ) ] , onde n é o número de observações. Demonstra-se que r varia entre -1 e 1. (-1 ≤ r ≤ 1) Este é o coeficiente de correlação de Pearson, Matemático e criador da Estatística Aplicada sobre o qual falamos na Unidade-IV 6.2.2 Correlação linear positiva A correlação linear será positiva se valores crescentes de Y estão associados a valores crescentes de X, ou valores decrescentes de Y estiverem associados a valores decrescentes de X.
  69. 69. 69 Neste caso o valor do coeficiente de correlação r está no intervalo  0 < r < 1! Ou seja, a correlação linear entre X e Y é POSITIVA r > 0! Observe no gráfico, quando X cresce o Y também cresce. Você poderia dar um exemplo prático de uma correlação desse tipo? 6.2.3 Correlação linear NEGATIVA Quando valores crescentes de X estão associados a valores decrescentes de Y, ou valores decrescentes de X estiverem associados a valores crescentes de Y. (-1< r < 0). Neste caso o valor do coeficiente de correlação r está no intervalo  -1 < r < 0! Ou seja, a correlação entre X e Y é NEGATIVA r < 0! Observe no gráfico, quando X cresce o Y decresce. Você poderia dar um exemplo prático de uma correlação desse tipo?
  70. 70. 70 6.2.4 Correlação linear negativa perfeita Quando os pontos estão perfeitamente alinhados em sentidos opostos, ou seja, valores crescentes de Y correspondem a valores decrescentes de X e vice-versa. (r = -1) Neste caso os pontos estão perfeitamente alinhados sobre uma reta sinalizando que as variáveis X e Y estão fortemente correlacionadas negativamente com r = -1. Ou seja, se X cresce, Y decresce, mas de uma forma uniforme e constante. 6.2.5 Correlação linear nula Quando não há relação entre as variáveis X e Y, ou seja, quando as variáveis X e Y são independentes. (r = 0) Neste caso as variáveis X e Y são ditas independentes. Observação: todos esses gráficos que analisamos são chamados de DIAGRAMAS DE DISPERSÃO. OBSERVAÇÕES 1- Observando os diagramas de dispersão conclui-se que, quanto mais os pontos estiverem próximos da reta, mais forte será a correlação, ou seja, r estará mais próximo de 1. Quanto mais fraca for a correlação, mais próximo de zero (0) será o valor do coeficiente de correlação(r).
  71. 71. 71 2- Se duas variáveis aleatórias X e Y são independentes o coeficiente de correlação entre elas será zero (0). O contrário nem sempre é verdadeiro! 3- Para o cálculo da correlação é conveniente montar uma tabela como a seguinte: Y X X2 Y2 X x Y ΣY ΣX ΣX2 ΣY2 Σ X x Y Exemplo Calcular o coeficiente de correlação linear para as variáveis X e Y da tabela abaixo. X Y 2 10 4 8 6 6 8 10 10 12 ΣX=30 ΣY= 46 Temos 5 observações (n=5) para cada uma das variáveis. Precisamos criar novas colunas na tabela para calcular os valores que serão necessários para utilizar a fórmula do coeficiente de correlação. Observe na tabela abaixo que criamos uma coluna para X2 , uma para Y2 e outra para o produto de X por Y (X ×Y). Observação X Y X2 Y2 X x Y 1 2 10 4 100 20 2 4 8 16 64 32 3 6 6 36 36 36 4 8 10 64 100 80 5 10 12 100 144 120  30 46 220 444 288 Não esqueça que a última linha dessa matriz contém a soma de cada coluna e que o número de observações é n=5.

×