SlideShare uma empresa Scribd logo
1 de 140
Baixar para ler offline
104
Introdução ao e-learning
FMD_i.p65 15-01-2004, 10:49104
Manual de Exercícios
Estatística Aplicada 2
ÍNDICE
1. INTRODUÇÃO .............................................….................................... 4
1.1 Definições Gerais ........................................................................ 5
1.1.1. População 5
1.1.2. Variáveis ou atributos 5
1.1.3. Processo de amostragem 5
1.2 A Estatística Descritiva e a Estatística Indutiva .............…...... 6
2. ESTATÍSTICA DESCRITIVA .............................................…................... 8
2.1 Variáveis Qualitativas ................................................................. 8
2.2 Variáveis Quantitativas Discretas ............................................. 9
2.3 Variáveis Quantitativas Contínuas ............................................ 10
2.4 Medidas de Localização ............................................................. 11
2.4.1. Média 11
2.4.2. Mediana 12
2.4.3. Moda 13
2.5 Medidas de Ordem ...................................................................... 13
2.6 Medidas de Assimetria ............................................................... 14
2.7 Medidas de Dispersão ................................................................ 15
2.7.1. Dispersão Absoluta 15
2.7.2. Dispersão Relativa 16
2.8 Análise de Concentração ........................................................... 17
2.8.1. Curva de Lorenz 17
2.8.2. Índice de Gini 18
2.9 Estatística Descritiva Bidimensional ........................................ 19
Manual de Exercícios
Estatística Aplicada 3
3. ESTATÍSTICA INDUTIVA .............................................…...................... 45
3.1 Noções básicas de probabilidades ........................................... 45
3.2 Probabilidade condicionada ...................................................... 48
3.3 Funções de Probabilidade ........................................….............. 49
3.4 Estimação por Intervalos ..........................................….............. 76
3.5 Testes de hipóteses ..................................................….............. 89
3.6 Aplicações Estatísticas: Fiabilidade ......................................... 105
3.6.1. Conceito de fiabilidade 105
3.6.2. Fiabilidade de um sistema 105
3.7 Aplicações Estatísticas: Controlo Estatístico de Qualidade .. 110
3.8 Aplicações Estatísticas: Tratamento Estatístico de Inquéritos . 114
3.8.1. Teste de independência do qui-quadrado 114
Manual de Exercícios
Estatística Aplicada 4
"A estatística é a técnica de torturar os números até que eles confessem".
Autor desconhecido
1. INTRODUÇÃO
Inicialmente, a actividade estatística surgiu como um ramo da Matemática.
Limitava-se ao estudo de medições e técnicas de contagem de fenómenos
naturais e ao cálculo de probabilidades de acontecimentos que se podiam
repetir indefinidamente. Actualmente, os métodos estatísticos são utilizados em
muitos sectores de actividade, tendo como algumas aplicações estudos de
fiabilidade, pesquisas de mercado, testes de controle de qualidade, tratamento
de inquéritos, sondagens, modelos econométricos, previsões, etc.
Exemplo de uma estatística: os valores da inflação entre 1980 e 1990
constituem uma estatística. Fazer estatística sobre estes dados poderia
consistir, por exemplo, em traçar gráficos, calcular a inflação média trimestral
ou prever a inflação para 1991.
A análise de um problema estatístico desenvolve-se ao longo de várias fases
distintas:
(i) Definição do Problema
Saber exactamente aquilo que se pretende pesquisar; estabelecer o
objectivo de análise e definição da população
(ii) Amostragem e Recolha de Dados
Fase operacional. É o processo de selecção e registo sistemático de dados,
com um objectivo determinado. Os dados podem ser primários (publicados
pela própria pessoa ou organização) ou secundários (quando são
publicados por outra organização).
(iii) Tratamento e Apresentação dos Dados
Resumo dos dados através da sua contagem e agrupamento. É a
classificação de dados, recorrendo a tabelas ou gráficos.
Manual de Exercícios
Estatística Aplicada 5
(iv)Análise e Interpretação dos Dados
A última fase do trabalho estatístico é a mais importante e delicada. Está
ligada essencialmente ao cálculo de medidas e coeficientes, cuja finalidade
principal é descrever o comportamento do fenómeno em estudo (estatística
descritiva). Na estatística indutiva a interpretação dos dados se
fundamentam na teoria da probabilidade.
1.1. Definições Gerais
1.1.1. População
Fazer estatística pressupõe o estudo de um conjunto de objectos bem
delimitado com alguma característica em comum sobre os quais observamos
um certo número de atributos designados por variáveis.
Exemplo: Empresas existentes em Portugal
1.1.2. Variáveis ou atributos
As propriedades de uma população são estudadas observando um certo
número de variáveis ou atributos. As variáveis podem ser de natureza
qualitativa ou quantitativa. As variáveis quantitativas podem ainda dividir-se
entre discretas e contínuas. As variáveis discretas assumem apenas um
número finito numerável de valores. As variáveis contínuas podem assumir um
número finito não numerável ou um número infinito de valores.
Exemplo: um conjunto de empresas pode ser analisado em termos de sector
de actividade (atributo qualitativo), número de trabalhadores (atributo
quantitativo discreto), rácio de autonomia financeira (atributo quantitativo
contínuo), etc
1.1.3. Processo de amostragem
Para conhecer de forma completa a população, podem efectuar-se:
Manual de Exercícios
Estatística Aplicada 6
- recenseamentos (indagação completa de todos os elementos da
população); este processo é, no entanto, tipicamente moroso e
dispendioso, sendo esses os motivos porque os Censos são realizados
apenas em cada 10 anos.
- estudos por amostragem (observação de apenas um subconjunto, tido
como representativo do universo). As técnicas de recolha de amostras
garantem a sua representatividade e aleatoriedade.
1.2. A Estatística Descritiva e a Estatística Indutiva
Para além do ramo de amostragem, a estatística compreende dois grandes
ramos: a estatística descritiva e a estatística indutiva.
A estatística descritiva é o ramo da estatística que se encarrega do tratamento
e análise de dados amostrais. Assim, depois de recolhida a amostra de acordo
com técnicas que garantem a sua representatividade e aleatoriedade, fica
disponível um conjunto de dados sobre o universo “em bruto” ou não
classificados. Para que seja possível retirar qualquer tipo de conclusões, torna-
se necessário classificar os dados, recorrendo a tabelas de frequências e a
representações gráficas, isto é, é preciso tratar os dados. Depois de tratados,
será possível proceder à análise dos dados através de várias medidas que
descrevem o seu comportamento: localização, dispersão, simetria dos dados,
concentração, etc. São disso exemplo indicadores numéricos bem conhecidos
como a média ou a variância.
A estatística indutiva é o ramo da estatística que se ocupa em inferir das
conclusões retiradas sobre a amostra para a população. De facto, a amostra
não é mais do que um passo intermédio e exequível de obter informações
sobre o verdadeiro objecto de estudo, que é o universo. A estatística indutiva
(ou inferência estatística) garante a ligação entre amostra e universo: se algo
se concluiu acerca da amostra, até que ponto é possível afirmar algo
semelhante para o universo? É nesta fase que se procuram validar as
hipóteses formuladas numa fase prévia exploratória. Claro que o processo de
Manual de Exercícios
Estatística Aplicada 7
indução implica um certo grau de incerteza associado à tentativa de
generalização de conclusões da “parte” (amostra) para o “todo” (universo). O
conceito de probabilidade vai ter aqui, então, um papel fundamental. Isto é, não
vai ser possível afirmar com toda a certeza que o comportamento da amostra
ilustra perfeitamente o comportamento do universo, mas apenas que o faz com
forte probabilidade. As inferências indutivas são assim elaboradas medindo, ao
mesmo tempo, o respectivo grau de incerteza. Daí que, na ficha das técnicas
das sondagens eleitorais, por exemplo, apareçam referências ao “nível de
confiança” associado aos resultados e ao “erro” cometido.
O esquema seguinte ilustra a “roda” da disciplina de estatística, relacionando
os seus diferentes ramos:
POPULAÇÃO
OU UNIVERSO
Amostragem
TRATAMENTO E
ANÁLISE DA AMOSTRA
Estatística
Descritiva
Inferência
Estatística
INFERIR DA AMOSTRA
PARA O UNIVERSO
Gráficos; tabelas; medidas descritivas
Previsões
Estimação
Erros
AMOSTRA
Manual de Exercícios
Estatística Aplicada 8
2.ESTATÍSTICA DESCRITIVA
Os resultados da observação de um atributo sobre os elementos do conjunto a
analisar constituem os dados estatísticos. O ramo da estatística que se ocupa
do tratamento, apresentação e análise de dados amostrais denomina-se de
estatística descritiva.
2.1. Variáveis Qualitativas
Os dados qualitativos são organizados na forma de uma tabela de frequências,
que representa o número ni de elementos de cada uma das categorias ou
classes e que é chamado de frequência absoluta. A soma de todas as
frequências é igual à dimensão da amostra (n).
Numa tabela de frequências, além das frequências absolutas, também se
apresentam as frequências relativas (fi), obtida dividindo a frequência absoluta
pelo número total de observações.
Modalidades Frequências absolutas Frequências relativas
Mod. 1 n1 f1
Mod. j nj fj
Mod. n nn fn
Total n: dimensão da amostra 1
n
ni
fi = ; ni: nºde vezes que cada modalidade da variável foi observada.
Manual de Exercícios
Estatística Aplicada 9
Estes dados podem também ser representados graficamente através de:
Diagrama de barras
Para cada modalidade, desenha-se uma barra de altura igual à frequência
absoluta ou relativa (as frequências relativas são de preferir, pois permitem a
comparação de amostras de diferentes dimensões).
Diagrama sectorial ou circular
Esta representação é constituída por um círculo, em que se apresentam tantas
“fatias” quantas as modalidades em estudo. O ângulo correspondente a cada
modalidade é proporcional às frequências das classes, fazendo corresponder o
total da amostra (n) a 360º Geralmente, juntamente com a identificação da
modalidade, indica-se a frequência relativa respectiva.
2.2. Variáveis Quantitativas Discretas
São variáveis que assumem um número finito ou infinito numerável de valores.
A apresentação destas amostras é semelhante às variáveis qualitativas,
fazendo-se uma tabela de frequências e uma representação gráfica recorrendo
ao diagrama de barras.
Valores da variável Frequências absolutas Frequências relativas
X1 n1 f1
Xj nj fj
Xn nn fn
Total n: dimensão da amostra 1
Também é possível calcular as frequências (absolutas – Ni - e relativas - Fi)
acumuladas, como se pode ver no exemplo:
Nºdefeituosos (X) Nºembalagens (ni) % embalagens (fi) Ni Fi
0 80 40% 80 40%
1 60 30% 80+60 40%+30%
2 30 15% 170 85%
3 20 10% 190 95%
4 10 5% 200 100%
Total 200 1
Manual de Exercícios
Estatística Aplicada 10
2.3. Variáveis Quantitativas Contínuas
Como foi dito anteriormente, uma variável (ou atributo) é contínua quando
assume um número infinito não numerável de valores, isto é, podem assumir
qualquer valor dentro de um intervalo.
Neste caso, a construção da tabela compreende duas etapas:
(i) Definição de classes de valores disjuntas, correspondentes a intervalos de
números reais fechados à esquerda e abertos à direita, cuja constituição
obedece a certas regras
(ii) Contagem das observações pertencentes a cada classe
Regra de construção de classes
(pressupõe a formação de classes de igual amplitude)
- Número de classes a constituir
Depende de n = dimensão da amostra
Se n≥25, o número de classes a constituir deve ser 5
Se n<25, o número de classes a constituir deve ser n
- Amplitude comum a todas as classes
Sendo a amplitude total dos dados dada pela diferença entre o valor
máximo e o valor mínimo observados, então a amplitude de cada classe
será:
Valor máximo da variável observado – Valor mínimo da variável observado
Nºde classes a constituir
Classes de
valores da variável
Frequências absolutas Frequências relativas
[x1; x2[ n1 f1
[x2; x3[
[x3; x4[ nj fj
[xn-1; xn] n fn
Total n: dimensão da amostra 1
A distribuição de frequências representa-se através de um histograma.
Um histograma é uma sucessão de rectângulos adjacentes, em que a base é
uma classe e a altura a frequência (relativa ou absoluta) por unidade de
amplitude (ni/ai ou fi/ai), sendo a amplitude de cada classe ai=ei-ei-1. A área total
do histograma é a soma das frequências relativas, isto é, 1.
Manual de Exercícios
Estatística Aplicada 11
1. Esta distribuição permite visualizar o tipo de distribuição e deve salientar
alguns aspectos mais relevantes desta (moda, classe modal, ...). Como
as classes podem ter amplitudes diferentes, para que todos os
rectângulos (colunas) sejam comparáveis é necessário corrigir as
frequências das classes (calculando as frequências que se teria se a
amplitude de todas as classes fosse igual e igual a 1)
2. É preferível representar o histograma com fi/hi do que com ni/hi uma vez
que deste modo é possível comparar distribuições com diferente número
de observações amostrais.
Também é possível calcular as frequências (absolutas – Ni - e relativas - Fi)
acumuladas.
2.4. Medidas de localização
2.4.1. Média ( X )
É a medida de localização mais usada, sobretudo pela sua facilidade de
cálculo.
Dados não-classificados (não agrupados numa tabela de frequências)
=
=
n
i
ix
n
x
1
1
Média aritmética simples
Dados classificados (isto é, agrupados numa tabela de frequências)
Variáveis discretas
==
==
n
i
iii
n
i
i xfxn
n
x
11
1
Média ponderada dos valores de X
Dados classificados (isto é, agrupados numa tabela de frequências)
Variáveis contínuas
==
==
n
i
iii
n
i
i cfcn
n
x
11
1
Média ponderada dos pontos médios das classes
Manual de Exercícios
Estatística Aplicada 12
onde ci é o ponto médio de cada classe (
2
.sup.lim.inf.lim +
)
A média é uma medida de localização que, geralmente, indica o valor central
da distribuição, entendido como o valor em torno do qual se distribuem os
valores observados. Desta forma, a média é muitas vezes utilizada como valor
representativo da amostra.
No entanto, a média tem o grande inconveniente de ser sensível a valores
muito extremados ou aberrantes da distribuição (outliers). Em casos desses, a
média deixa de ser um valor que aparece na parte central da distribuição para
ser “empurrada” para os extremos. Nestes casos, é preferível recorrer à
informação complementar fornecida por outras medidas de localização, como a
moda e a mediana, que se definem a seguir.
2.4.2. Mediana (Me)
A mediana não se calcula a partir do valor de todas as observações, mas a
partir da posição dessas observações.
Dados não-classificados
Se tivermos n valores x1, x2, ... xn
Se n fôr ímpar,
2
1+= nxMe
Se n fôr par,
2
1
22
+
+
=
nn xx
Me
Dados classificados
A mediana é o valor tal que Fi = 0,5
Variáveis discretas
Se existe um valor de xi para o qual Fi = 0,5, então fala-se em intervalo
mediano.
Manual de Exercícios
Estatística Aplicada 13
Se não existe nenhum valor de xi para o qual Fi = 0,5, então a mediana é
o primeiro valor para o qual Fi > 0,5.
Variáveis contínuas
Em geral, determina-se o valor para o qual Fi = 0,5 através de uma regra
de três simples, atendendo a que as frequências acumuladas variam
uniformemente dentro de cada classe.
De uma forma geral:
medianaclassexamp
FLFL
FL
LMe .
infsup
inf5.0
inf
−
−
+=
2.4.3. Moda (Mo)
Variáveis discretas
A moda é valor de X para o qual fi é máximo, isto é, é o valor mais
frequente da distribuição.
Variáveis contínuas
A classe modal é a classe de valores de X para o qual fi/hi é máximo,
isto é, é a classe a que corresponde maior frequência por unidade de
amplitude.
2.5. Medidas de ordem
Tal como se definiu para a mediana, é possível definir outros valores de
posição ou valores separadores da distribuição em partes iguais.
Chama-se quantil de ordem p ao valor de x a que corresponde Fi = p.
- Se p=0,01; 0,02;.....0,99, chama-se ao quantil percentil
- Se p=0,1; 0,2;...0,9, chama-se ao quantil decil
- Se p=0,25, 0,5, 0,75, chama-se ao quantil QUARTIL (Q1, Q2 e Q3). A
mediana é uma caso particular dos quartis (coincide com Q2)
Variável discreta
O quantil de ordem p é o primeiro valor de x para o qual i>p.
Manual de Exercícios
Estatística Aplicada 14
Variável contínua
Calcula-se por uma regra de três simples, como a mediana.
De uma forma geral:
1.
infsup
inf25.0
inf1 Qclassexamp
FLFL
FL
LQ
−
−
+=
3.
infsup
inf75.0
inf3 Qclassexamp
FLFL
FL
LQ
−
−
+=
A representação gráfica destas medidas designa-se de diagrama de
extremos e quartis e serve para realçar algumas características da amostra.
Os valores da amostra compreendidos entre os 1º e 3º quartis são
representados por um rectângulo (caixa) com a mediana indicada por uma
barra. Seguidamente, consideram-se duas linhas que unem os meios dos
lados do rectângulo com os extremos da amostra.
A partir deste diagrama, pode reconhecer-se a simetria ou enviesamento dos
dados e a sua maior ou menor concentração:
2.6. Medidas de assimetria
A assimetria é tanto maior quanto mais afastados estiverem os valores da
média, mediana e moda. Concretamente, se:
− X = Me = Mo, a distribuição diz-se simétrica
− X > Me > Mo, a distribuição diz-se assimétrica positiva (ou enviesada à
esquerda)
− X < Me < Mo, a distribuição diz-se assimétrica negativa (ou enviesada à
direita)
Coeficiente de assimetria de Bowley (g’):
13
)12()23(
QQ
QQQQ
−
−−−
Se g’ = 0 ..............a distribuição é simétrica positiva ou equilibrada
Os quartis estão à mesma distância da mediana.
Se g’ > 0 ..............a distribuição é assimétrica positiva ou “puxada” para
25%
maiores
Manual de Exercícios
Estatística Aplicada 15
a esquerda (se fôr = 1, assimetria é máxima)
A mediana desliza para o lado do Q1,
logo Q3-Q2 > Q2-Q1
Se g’ < 0 ..............a distribuição é assimétrica negativa ou “puxada” para
a direita (se fôr = -1, assimetria é máxima)
A mediana desliza para o lado do Q3,
logo Q2-Q1 > Q3-Q2
2.7. Medidas de dispersão
Duas distribuições podem distinguir-se na medida em que os valores da
variável se dispersam relativamente ao ponto de localização (média, mediana,
moda). Apresentam-se de seguida algumas das mais utilizadas, classificadas
consoante a medida de localização usada para referenciar a dispersão das
observações:
2.7.1 Medidas de dispersão absoluta
(i) Em relação à mediana
Amplitude inter-quartis = Q = Q3 – Q1
Significa que 50% das observações se situam num intervalo de
amplitude Q. Quanto maior (menor) a amplitude do intervalo, maior
(menor) a dispersão em torno da mediana.
(ii) Em relação à média
Variância amostral: mede os desvios quadráticos de cada valor
observado em relação à média, havendo pouca dispersão se os desvios
forem globalmente pequenos, e havendo muita dispersão se os desvios
forem globalmente grandes.
Q1 Q2 Q3
Assimétrica positiva
Assimétrica negativa
Q1 Q2
Q3
Manual de Exercícios
Estatística Aplicada 16
Dados não-classificados
( )
2
1
2 1
=
−=
n
i
xxi
n
s
Dados classificados
Variáveis discretas
( ) ( )
==
−=−=
n
i
n
i
xxifixxini
n
s
1
2
2
1
2 1
Dados classificados
Variáveis contínuas
( ) ( )
==
−=−=
n
i
n
i
xcifixcini
n
s
1
2
2
1
2 1
onde ci é o ponto médio de cada classe i.
Desvio-padrão: Medida de dispersão com significado real, mas que só é
possível calcular indirectamente, através da raiz quadrada da variância.
Está expressa nas mesmas unidades da variável.
2.7.2 Medidas de dispersão relativa
Muitas vezes, avaliar a dispersão através de um indicador de dispersão
absoluta não é conveniente, assim como comparara a dispersão de duas
distribuições, uma vez que estas medidas vêm expressas na mesma unidade
da variável – como é o caso, por exemplo, da variância. Assim, é de esperar
que os valores da variância sejam mais elevados quando os valores da variável
são maiores, o que não significa que a distribuição seja muito dispersa. Para
comparar diferentes distribuições de frequência são precisas medidas de
dispersão relativa:
definidaestáqualàrelaçãoemolocalizaçãdeMedida
absolutaDispersão
relativaDispersão =
Manual de Exercícios
Estatística Aplicada 17
Coeficiente de variação
x
s
CV = x100%
Outras medidas
2
13
Q
QQ −
Estas medidas não estão expressas em nenhuma unidade, e permitem
comparar dispersões entre duas amostras, pois não são sensíveis à escala
(eventualmente diferente) em que as variáveis estejam expressas.
2.8. Análise da concentração
A noção de concentração apareceu associada ao estudo de desigualdades
económicas, como a repartição do rendimento ou a distribuição de salários. O
fenómeno de concentração está relacionado com a variabilidade ou dispersão
dos valores observados, apesar de não poder ser analisado através das
medidas de dispersão atrás descritas, que apenas medem a dispersão dos
valores em relação a um ponto. O objectivo é determinar como o atributo
(rendimento, salários, número de empresas) se distribui (se de forma mais ou
menos uniforme) pelos diferentes indivíduos da amostra (que devem ser
susceptíveis de serem adicionados, isto é, a análise de concentração não se
aplica a idade, altura, peso, etc).
Se o atributo estiver igualmente repartido pelos indivíduos, temos uma situação
extrema de igual distribuição; e vice-versa de o atributo estiver concentrado
num só indivíduo, temos uma situação extrema de máxima concentração. Em
geral, interessa medir o grau de concentração em situações intermédias.
Para analisar a concentração, existem dois instrumentos: a Curva de Lorenz e o Índice
de Gini.
2.8.1 Curva de Lorenz
Manual de Exercícios
Estatística Aplicada 18
O objectivo é comparar a evolução das frequências acumuladas (Fi = pi) com a
evolução da soma dos valores da variável (qi)
Quadro de dados
Classes de
valores da variável
ni
Quantidade
atributo
Freq.relativa
acumuladas
Proporção
atrib.acumul,
[x1; x2[ n1 yi p1 q1
[x2; x3[
[x3; x4[ nj yj pj qj
[xn-1; xn[ nn yn pn=1 qn=1
Total n
Os pontos (pi;qi) pertencem ao quadrado (0,1) por (0,1). A curva que os une é
a curva de Lorenz. Se houver igual distribuição, a frequência das observações
deve ter uma evolução igual à proporção do atributo correspondente, isto é,
pi=qi. Nesse caso, a curva de Lorenz coincide com a diagonal do quadrado,
que é designada de recta de igual repartição. Quanto mais a curva se afastar
da recta, maior é a concentração. A zona entre a diagonal e acurva de Lorenz
designa-se, por isso, de zona de concentração.
2.8.2 Índice de Gini
O índice de Gini é calculado pela seguinte expressão
−
=
−
=
−
= 1
1
1
1
)(
n
i
n
i
pi
qipi
G
Quando G = 0, a concentração é nula, havendo igual repartição. Caso o valor
de G seja 1, a concentração será máxima. O valor de G varia entre 0 e 1, e
quanto maior o seu valor, maior a concentração.
Manual de Exercícios
Estatística Aplicada 19
2.9. Estatística Descritiva Bidimensional
Numa situação em que se observam pares de valores (xi; yj), pode ter interesse
estudar as relações porventura existentes entre os dois fenómenos,
nomeadamente relações estatísticas. Não se trata de estudar relações
funcionais (isto é, a medida em que o valor de uma variável é determinado
exactamente pela outra), mas sim de estudar a forma como a variação de uma
variável poderá afectar a variação da outra, em média. (por exemplo, o peso e
a altura normalmente estão relacionados, mas a relação não é determinística).
Duas variáveis ligadas por uma relação estatística dizem-se correlacionadas.
Se as variações ocorrem, em média ou tendencialmente, no mesmo sentido, a
correlação diz-se positiva. Se ocorrem em sentidos opostos, a correlação diz-
se negativa.
Trata-se então de estudar se:
- Se existe alguma correlação entre os fenómenos ou variáveis
observadas
- A existir, se é traduzível por alguma lei matemática, nem que
tendencialmente
- A existir, se é possível medi-la
Por vezes, a representação gráfica do conjunto de dados bivariados sugere o
ajustamento de uma recta a este conjunto de pontos, indicando a existência de
uma tendencial correlação linear entre as duas variáveis, como é o caso do
exemplo atrás descrito. A essa recta chama-se recta de regressão de y sobre
x, que permite descrever como se reflectem em y (variável dependente ou
explicada) as modificações processadas em x (variável independente ou
explicativa). Essa recta torna possível, por exemplo, inferir (em média) a altura
de um indivíduo, conhecendo o respectivo peso.
Um dos métodos mais conhecidos de ajustar uma recta a um conjunto de
dados é o Método dos Mínimos Quadrados, que consiste em determinar a recta
que minimiza a soma dos quadrados dos desvios entre os verdadeiros valores
de y e os obtidos a partir da recta que se pretende ajustar. Obtém-se assim a
Manual de Exercícios
Estatística Aplicada 20
recta de regressão ou recta dos mínimos quadrados. Assim, se a recta de
regressão obedecer à seguinte fórmula geral:
y = a + bx
o método permite minimizar a soma dos desvios quadráticos yi - (a + bxi).
Assim sendo, obtém-se:
−
−
= 22
xnx
yxnyx
b
i
ii
e xbya −=
Matematicamente, b designa o declive da recta. Em termos estatísticos, b
corresponde ao coeficiente de regressão de y sobre x, que indica a variação
média de y que acompanha uma variação unitária de x.
O valor de a designa a ordenada na origem, isto é, o valor que y assume
quando x=0.
Quando, quer através do diagrama de dispersão, quer através da recta de
regressão, se verifica a existência de uma associação linear entre as variáveis,
pode-se medir a maior ou menor força com que as variáveis se associam
através do coeficiente de correlação linear r:
))((,
1
yyxxs
ss
s
r i
n
i
ixy
yyxx
xy
−−==
=
Este indicador da correlação tem a vantagem de não depender das unidades
ou da ordem de grandeza em que as variáveis estão expressas. O coeficiente
de correlação linear está sempre compreendido entre –1 e 1.
Se r > 0, então pode dizer-se que existe uma correlação positiva entre as
variáveis, isto é, as variáveis variam no mesmo sentido: um aumento
(diminuição de x) provoca um aumento (diminuição) de y, mas menos que
proporcional.
Manual de Exercícios
Estatística Aplicada 21
Se r < 0, então pode dizer-se que existe uma correlação negativa entre as
variáveis, isto é, as variáveis variam em sentidos opostos: um aumento
(diminuição de x) provoca uma diminuição (aumento) de y, mas menos que
proporcional.
Se r = 0, então pode dizer-se que as variáveis não estão correlacionadas
linearmente.
Antes de se efectuar um estudo de correlação, deve-se procurar justificação
teórica para a existência ou inexistência de correlação. Caso contrário, poderá
acontecer que variáveis sem relação de causalidade entre si, variem num certo
sentido por razões exteriores. A esta correlação ilusória, chama-se correlação
espúria.
Nos extremos, se r = 1 ou se r = -1, então pode dizer-se que existe uma
correlação positiva ou negativa perfeita, respectivamente, entre as variáveis,
isto é, uma variação numa variável provoca na outra uma variação
exactamente proporcional no mesmo sentido ou em sentido contrário. Isto é, a
correlação é máxima.
Correlação ordinal
Por vezes, as variáveis vêm expressas numa escala ordinal, isto é, interessa
mais conhecer a ordenação dos valores do que os valores observados
propriamente ditos. Neste caso, em vez do coeficiente de correlação linear,
calcula-se o coeficiente de correlação ordinal:
y
i
x
ii
n
i
i
s RRd
nn
d
r −=
−
−= =
,
)1(
61 2
1
2
Ordens (“ranks”) das
observações de X e
de Y, respectivamente
Manual de Exercícios
Estatística Aplicada 22
ESTATÍSTICA DESCRITIVA
Exercícios resolvidos
Exercício 1
Considere a distribuição de 1000 empresas de um sector de actividade
segundo os resultados líquidos (em milhares de u.m.):
Resultado Líquido Frequência. Relativa (%)
[0; 1[ 10
[1; 3[ 25
[3; 5[ 35
[5; 15[ 15
[15; 25[ 10
[25; 50[ 5
Total 100
a) Represente a distribuição graficamente.
b) Determine a média e a moda da distribuição. Qual o significado dos
valores encontrados?
c) Calcule as frequências acumuladas e represente-as graficamente.
Determine a mediana da distribuição.
d) Determine os quartis da distribuição. Faça a sua representação gráfica.
e) Analise a (as)simetria da distribuição em causa.
f) Analise a concentração através do Índice de Gini e da Curva de Lorenz.
Resolução
a)
0
0,02
0,04
0,06
0,08
0,1
0,12
0,14
0,16
0,18
0,2
0 10 20 30 40 50 60
fi/hi
Manual de Exercícios
Estatística Aplicada 23
b) 325,7%)55.37(...%)252(%)105,0(
1
11
=+++===
==
xxxcfcn
n
x
n
i
iii
n
i
i
Em média, o resultado líquido de uma empresa é de 7325 unidades
monetárias.
A classe modal é aquela a que corresponde maior frequência por unidade de
amplitude. Neste caso, o maior valor de fi / hi é 0,175. correspondente à classe
[3; 5[, isto é, os valores de resultado líquido mais prováveis para uma empresa
situam-se entre 3000 u.m. e 5000 u.m.
c) A representação gráfica das frequências acumuladas (ver tabela) designa-se
de polígono integral:
Classe mediana (classe a que corresponde uma frequência acumulada 0,5): [3; 5[
3 : Fi=0,35
5 : Fi = 0,7
Fi
0
0,2
0,4
0,6
0,8
1
0 20 40 60 80 100 120
X fi hi fi/hi Fi ci
[0; 1[ 10% 1 0.1 10% 0.5
[1; 3[ 25% 2 0.125 35% 2
[3; 5[ 35% 2 0.175 70% 4
[5; 15[ 15% 10 0.015 85% 10
[15; 25[ 10% 10 0.01 95% 20
[25; 50] 5% 25 0.002 100% 37.5
Total 1
Manual de Exercícios
Estatística Aplicada 24
Cálculo da mediana:
0,7 - 0,35 ------------ 5 - 3
0,5 – 0,35 -------------- Me – 3
Me = 3 + ((2x0,15)/0,35) = 3,857
50% das empresas apresentam resultados líquidos inferiores a 3857 u.m.
d) Classe a que pertence Q1 (classe a que corresponde uma frequência
acumulada 0,25): [1; 3[
1 : Fi=0,1
3 : Fi = 0,35
Cálculo do Q1:
0,35 - 0,1 ------------ 3 - 1
0,25 – 0,1 -------------- Q1 – 1
Q1 = 1 + ((2x0,15)/0,25) = 2,2
25% das empresas apresentam resultados líquidos inferiores a 2200 u.m.
Classe a que pertence Q3 (classe a que corresponde uma frequência
acumulada 0,75): [5; 15[
5 : Fi=0,7
15 : Fi = 0,85
Cálculo do Q3:
0,85 - 0,7 ------------ 15 - 5
0,75 – 0,7 -------------- Q3 – 5
Q3 = 5 + ((10x0,05)/0,15) = 8,333(3)
75% das empresas apresentam resultados líquidos inferiores a 8333 u.m.
e)
04596,0
2,2333,8
)2,2857,3()857,3333,8(
13
)12()23(
' >=
−
−−−
=
−
−−−
=
QQ
QQQQ
g
A distribuição é assimétrica positiva ou enviesada à esquerda.
Manual de Exercícios
Estatística Aplicada 25
f)
X fi ni ci Atributo pi (=Fi) qi
[0; 1[ 10% 1000x10%=100 0.5 100x0.5=50 0.1 0.007
[1; 3[ 25% 250 2 250x2=500 0.35 0.075
[3; 5[ 35% 350 4 1400 0.7 0.266
[5; 15[ 15% 150 10 1500 0.85 0.471
[15; 25[ 10% 100 20 2000 0.95 0.744
[25; 50[ 5% 50 37.5 1875 1 1
Total 1 n=1000 7325
47,0
95,085,07,035,01,0
)744,095,0(...)007,01,0(
=
++++
−++−
=G
A distribuição dos resultados líquidos
apresenta concentração média (G=0,5
corresponde ao centro da escala
possível, entre 0 e 1). Por exemplo,
70% das empresas apresentavam
resultados até 5000 u.m., mas isso
representava apenas 26,6% do total
de resultados das empresas da
amostra, o que sugere um tecido
empresarial com muitas PMEs, mas
em que cada uma tem baixo resultado
líquido.
Exercício 2
Considere a seguinte amostra de dimensão 200, referente aos lucros obtidos
por empresas de um dado sector industrial, expressas numa determinada
unidade monetária.
Analise a concentração através do Índice de Gini e da Curva de Lorenz.
Res.Liq.Totais
7325
140050050 ++
Curva de Lorenz
0
0,2
0,4
0,6
0,8
1
0 0,2 0,4 0,6 0,8 1
Manual de Exercícios
Estatística Aplicada 26
Resolução
Lucros ni Lucro total pi (=Fi) qi
[0; 50[ 20 600 0.1 0.02
[50; 100[ 60 4400 0.4 0.16(6)
[100; 200[ 80 14000 0.8 0.63(3)
[200; 300[ 30 7500 0.95 0.883(3)
[300; 500] 10 3500 1 1
Total 200 30000
243,0
25,2
)6(546,0
)(
1
1
1
1
==
−
= −
=
−
=
n
i
n
i
pi
qipi
G
Tanto pela análise da Curva de Lorenz, como pelo valor do Índice de Gini,
conclui-se que esta amostra apresenta concentração moderada, encontrando-
se os valores razoavelmente repartidos.
Exercício 3
Considere o exemplo abaixo referente ao peso e altura de 10 indivíduos.
a) Represente o diagrama de dispersão.
b) Analise a correlação existente entre peso e altura.
c) Ajuste, pelo Método dos Mínimos Quadrados, uma função linear que
exprima as peso em função da altura.
Curva de Lorenz
0
0,2
0,4
0,6
0,8
1
0 0,2 0,4 0,6 0,8 1
Manual de Exercícios
Estatística Aplicada 27
Indivíduo Peso (kg) Altura (cm)
A 72 175
B 65 170
C 80 185
D 57 154
E 60 165
F 77 175
G 83 182
H 79 178
I 67 175
J 68 173
Resolução
a)
b) No exemplo, r = 0,90681871, isto é, existe uma correlação positiva forte
entre as duas variáveis, quase perfeita.
c)
Diagrama de Dispersão
150
160
170
180
190
50 60 70 80 90
Peso (kg)
Altura(cm)
Recta de Regressão
y = 0,9016x + 109,36
150
160
170
180
190
50 60 70 80 90
Peso (kg)
Altura(cm)
Manual de Exercícios
Estatística Aplicada 28
A equação desta recta traduz-se em
Altura = 109,36 + 0,9016 x Peso
Isto é, se um indivíduo pesar 70 kg, a altura esperada será de 109,36 + 0,9016
x 70 = 172,472.
Por cada kg de peso adicional, espera-se que a altura do indivíduo aumente
0,9016 cm.
Exercício 4
O quadro abaixo apresenta as vendas e as despesas em publicidade (ambas
em milhares de u.m.) de uma empresa no período de 7 anos:
Ano Vendas Desp. Publicidade
1 10 3
2 13 3
3 18 5
4 19 6
5 25 8
6 30 9
7 35 13
a) Compare as vendas e as despesas em publicidade quanto à dispersão.
b) Analise a correlação existente entre volume e custo de produção.
c) Ajuste, pelo Método dos Mínimos Quadrados, uma função linear que
exprima as vendas em função das despesas em publicidade.
Resolução
a) Para comparar a dispersão das duas distribuições, é necessário calcular os
coeficientes de variação (medidas de dispersão relativa):
Dados não-classificados
429,21
1
1
==
=
n
i
ix
n
x 714,6
1
1
==
=
n
i
iy
n
y
( ) 9408,69
1
2
1
2
=−=
=
n
i
x xxi
n
s ( ) 0651,11
1
2
1
2
=−=
=
n
i
y yyi
n
s
39,0
429,21
9408,69
===
x
s
CV x
x < 495,0
714,6
0651,11
===
y
s
CV
y
y
A dispersão das despesas em publicidade é superior à dispersão das vendas.
Manual de Exercícios
Estatística Aplicada 29
b)
( )( ) ( )( )[ ]
98,0
0651,119408,69
714,613429,2135...714,63429,2110
7
1
=
−−++−−
==
xss
s
r
yyxx
xy
Existe uma correlação positiva linear forte entre as duas variáveis. Em média,
quando as despesas em publicidade aumentam (diminuem), as vendas
aumentam (diminuem) de forma quase exactamente proporcional.
c)
Exercício 5
Considere que 10 estudantes foram sujeitos a uma prova de avaliação no início
e no final do curso. No quadro abaixo, encontram-se as ordenações desses 10
estudantes segundo as classificações obtidas em cada uma das provas:
Aluno
Prova inicial
Ri
x
Prova final
Ri
y
di
Ri
x
- Ri
y
A 1 1 0
B 3 2 1
C 2 3 -1
D 5 4 1
E 7 6 1
F 8 8 0
G 9 7 2
H 10 9 1
I 6 10 -4
J 4 5 -1
Recta de Regressão
y = 2,4649x + 4,8782
0
10
20
30
3 8 13
Desp. Public.
Vendas
Manual de Exercícios
Estatística Aplicada 30
Resolução
Como não dispomos das classificações dos alunos, mas sim das ordenações
das classificações (do 1º ao 10º classificado), para avaliar a correlação
existente entre as 2 provas calcula-se o coeficiente de correlação ordinal:
8424,0
)1100(10
)11614011110(6
1
)1(
61 2
1
2
=
−
+++++++++
−=
−
−= =
x
x
nn
d
r
n
i
i
s
A correlação é positiva e elevada (rs varia entre –1 e 1), isto é, os alunos que
tiveram boa nota na prova inicial tiveram, em média, igualmente boa nota na
prova final.
Exercício 6
O quadro que se segue descreve a distribuição do rendimento anual (em
milhares de u.m.) de 2500 famílias da população de um país:
Rendimento anual Nºde famílias
[0, 1[ 250
[1, 2[ 375
[2, 5[ 625
[5, 15[ 750
[15, 25[ 375
[25, 50[ 125
a) Represente as frequências acumuladas graficamente.
b) Determine o rendimento médio e mediano.
c) Determine os três primeiros quartis. Que indicações lhe dão sobre a
(as)simetria?
d) O que pode concluir quanto à dispersão?
e) Calcule o índice de Gini. O que conclui sobre a concentração do
rendimento?
Resolução
a)
Rendimento anual Nºde famílias % de famílias Fi (%) ci
[0, 1[ 250 10 10 0.5
[1, 2[ 375 15 25 1.5
[2, 5[ 625 25 50 3.5
[5, 15[ 750 30 80 10
[15, 25[ 375 15 95 20
[25, 50[ 125 5 1 37.5
Manual de Exercícios
Estatística Aplicada 31
b) 025,9%)55.37(...%)155.1(%)105,0(
1
11
=+++===
==
xxxcfcn
n
x
n
i
iii
n
i
i
Em média, o rendimento anual de uma família é de 9025 unidades monetárias.
Classe mediana (classe a que corresponde uma frequência acumulada 0,5): [2; 5[
5 : Fi = 0,5. Logo, a mediana é 5 (50% das famílias têm rendimentos anuais até
5000 unidades monetárias).
c) Classe a que pertence Q1 (classe a que corresponde uma frequência
acumulada 0,25): [1; 2[
3 : Fi = 0,25
25% das famílias apresentam rendimentos anuais inferiores a 2000 u.m.
Classe a que pertence Q3 (classe a que corresponde uma frequência
acumulada 0,75): [5; 15[
5 : Fi=0,5
15 : Fi = 0,8
Cálculo do Q3:
0,8 - 0,5 ------------ 15 - 5
0,75 – 0,5 -------------- Q3 – 5
Q3 = 5 + ((10x0,25)/0,3) = 13,333(3)
75% das famílias apresentam rendimentos anuais inferiores a 13333 u.m.
0
0,2
0,4
0,6
0,8
1
0 10 20 30 40 50 60 70 80 90 100
Manual de Exercícios
Estatística Aplicada 32
047,0
2333,13
)25()5333,13(
13
)12()23(
' >=
−
−−−
=
−
−−−
=
QQ
QQQQ
g
A distribuição é assimétrica positiva ou enviesada à esquerda.
d) ( ) 286875,82*
2
1
2
2
1
2
=−=−=
==
xficixcifis
n
i
n
i
x
071,9286875,82
2
=== xx ss
e)
Rendimento anual ni ci Rend. total pi (=Fi) qi
[0, 1[ 250 0.5 125 0,1 0.00554
[1, 2[ 375 1.5 562,5 0,25 0.0305
[2, 5[ 625 3.5 2187,5 0,5 0.1274
[5, 15[ 750 10 7500 0,8 0.46
[15, 25[ 375 20 7500 0,95 0.7922
[25, 50[ 125 37.5 4687.5 1 1
Total 2500 22562,5
4555,0
6,2
18436,1
)(
1
1
1
1
==
−
= −
=
−
=
n
i
n
i
pi
qipi
G Concentração moderada do rendimento
Exercício 7
Considere a seguinte tabela que representa a distribuição dos empregados de
uma instituição bancária segundo a remuneração bruta mensal (em milhares de
unidades monetárias):
Remuneração
Frequência. Relativa
(%)
[60; 80[ 7.8
[80; 100[ 15.2
[100; 120[ 31.2
[120; 140[ 19.5
[140; 160[ 7.2
[160; 200[ 8.1
[200; 250[ 5.4
[250, 300[ 2.6
[300; 350] 3.0
Total 100
Manual de Exercícios
Estatística Aplicada 33
a) Calcule os quartis da distribuição.
b) Analise a dispersão da distribuição em causa.
c) Analise a assimetria da distribuição em causa.
Resolução
a)
Remuneração Frequência. Relativa (%)
Fi
(%)
[60; 80[ 7.8 7.8
[80; 100[ 15.2 23
[100; 120[ 31.2 54.2
[120; 140[ 19.5 73.7
[140; 160[ 7.2 80.9
[160; 200[ 8.1 89
[200; 250[ 5.4 94.4
[250, 300[ 2.6 97
[300; 350] 3.0 100
Total 100
Classe a que pertence Q1 (classe a que corresponde uma frequência acumulada
0,25): [100; 120[
1 : Fi=0,23
3 : Fi = 0,542
Cálculo do Q1:
0,542 - 0,23 ------------ 120 - 100
0,25 - 0,23 -------------- Q1 - 100
Q1 = 100 + ((20x0,02)/0,312) = 101,28
25% dos empregados auferem remunerações inferiores a 101,28 milhares u.m.
Classe a que pertence Q2 (classe a que corresponde uma frequência acumulada
0,5): [100; 120[
100 : Fi=0,23
120 : Fi = 0,542
Cálculo do Q2:
0,542 - 0,23 ------------ 120 - 100
0,5 - 0,23 -------------- Q2 - 100
Q2 = 100 + ((20x0,27)/0,312) = 117,3
50% dos empregados auferem remunerações inferiores a 117,3 milhares u.m.
Manual de Exercícios
Estatística Aplicada 34
Classe a que pertence Q3 (classe a que corresponde uma frequência
acumulada 0,75): [140; 160[
120 : Fi=0,737
140 : Fi = 0,809
Cálculo do Q3:
0,809 - 0,737 ------------ 160 - 140
0,75 – 0,737 -------------- Q3 - 140
Q3 = 140 + ((20x0,013)/0,072) = 143,61(1)
75% dos empregados auferem remunerações inferiores a 143,61(1) milhares u.m.
b) Amplitude do intervalo inter-quartis = Q3 - Q1 = 143,61(1) - 101,28 = 42,33
(dispersão reduzida em torno da mediana)
c) 0243,0
28,10161,143
)28,1013,117()3,11761,143(
13
)12()23(
' >=
−
−−−
=
−
−−−
=
QQ
QQQQ
g
A distribuição é assimétrica positiva ou enviesada à esquerda.
Exercício 8
Os dados seguintes referem-se ao peso, expresso em gramas, do conteúdo de
uma série de 100 garrafas que, no decurso de um teste, saíram de uma linha
de enchimento automático:
Peso (em gramas)
Frequência. Relativa
(%)
[297; 298[ 8
[298; 299[ 21
[299; 300[ 28
[300; 301[ 15
[301; 302[ 11
[302; 303[ 10
[303; 304[ 5
[304; 305[ 1
[305; 306] 1
Total 100
a) Represente graficamente os dados acima.
b) Calcule as frequências acumuladas e represente-as graficamente.
Manual de Exercícios
Estatística Aplicada 35
c) Determine o peso médio, mediano e modal. Qual o seu significado?
d) Determine os quartis da distribuição.
e) Analise a dispersão do peso das garrafas.
Resolução
a)
b)
Peso (em gramas) Frequência Relativa (%) Fi (%)
[297; 298[ 8 8
[298; 299[ 21 29
[299; 300[ 28 57
[300; 301[ 15 72
[301; 302[ 11 83
[302; 303[ 10 93
[303; 304[ 5 98
[304; 305[ 1 99
[305; 306] 1 100
Total 100
c)
11,300%)15,305(...%)215,298(%)85,297(
1
11
=+++===
==
xxxcfcn
n
x
n
i
iii
n
i
i
O peso médio das garrafas é de 300,11 kg.
0
0,05
0,1
0,15
0,2
0,25
0,3
296 297 298 299 300 301 302 303 304 305 306 307
Histograma
0
0,2
0,4
0,6
0,8
1
295 296 297 298 299 300 301 302 303 304 305 306 307 308 309 310
F*
Manual de Exercícios
Estatística Aplicada 36
Classe mediana (classe a que corresponde uma frequência acumulada 0,5): [299;
300[
299 : Fi = 0,29
300 : Fi = 0,57
Cálculo do Q2:
0,57 - 0,29 ------------ 300 - 299
0,5 - 0,29 -------------- Q2 - 299
Q2 = 299 + ((1x0,21)/0,28) = 299,75
50% das garrafas têm peso inferior a 299,75 kg.
A classe modal é aquela a que corresponde maior frequência relativa. Neste
caso, o maior valor de fi é 0,28 correspondente à classe [299; 300[, isto é, os
pesos mais prováveis das garrafas situam-se entre 299 kg e 300 kg.
d) Classe a que pertence Q1 (classe a que corresponde uma frequência
acumulada 0,25): [298; 299[
298 : Fi=0,08
299 : Fi = 0,29
Cálculo do Q1:
0,29 - 0,08 ------------ 298 - 299
0,25 - 0,08 ------------ Q1 - 299
Q1 = 299 + ((1x0,17)/0,21) = 299,0357
25% das garrafas têm peso inferior a 299,0357 kg.
Classe a que pertence Q3 (classe a que corresponde uma frequência
acumulada 0,75): [301; 302[
301 : Fi=0,72
302 : Fi = 0,83
Cálculo do Q3:
0,83 - 0,72 ------------ 302 - 301
0,75 – 0,72 -------------- Q3 - 301
Q3 = 301 + ((1x0,03)/0,11) = 301,27(27)
75% das garrafas têm peso inferior a 301,27(27) kg.
Manual de Exercícios
Estatística Aplicada 37
e) Amplitude do intervalo inter-quartis = Q3 - Q1 = 301,27(27) - 299,0357 = 2,237
(dispersão reduzida em torno da mediana)
Exercício 8
Numa faculdade, mediram-se as alturas de 100 alunos do primeiro ano:
Altura (em metros) NºAlunos
[1,4; 1,5[ 2
[1,5; 1,55[ 10
[1,55; 1,6[ 25
[1,6; 1,65[ 13
[1,65; 1,7[ 17
[1,7; 1,75[ 20
[1,75; 1,8[ 10
[1,8; 1,9] 3
Total 100
a) Represente graficamente os dados acima.
b) Determine a altura média e a altura modal. Qual o seu significado?
c) Calcule as frequências acumuladas e represente-as graficamente.
d) Determine os quartis da distribuição e diga qual o seu significado.
e) Analise a dispersão da distribuição.
f) Analise a (as)simetria da distribuição.
Resolução
a)
Altura (em metros) ni fi ci hi fi/hi Fi
[1,4; 1,5[ 2 0,02 1,45 0,1 0,2 0,02
[1,5; 1,55[ 10 0,1 1,525 0,05 2 0,12
[1,55; 1,6[ 25 0,25 1,575 0,05 5 0,37
[1,6; 1,65[ 13 0,13 1,625 0,05 2,6 0,5
[1,65; 1,7[ 17 0,17 1,675 0,05 3,4 0,67
[1,7; 1,75[ 20 0,2 1,725 0,05 4 0,87
[1,75; 1,8[ 10 0,1 1,775 0,05 2 0,97
[1,8; 1,9] 3 0,03 1,85 0,1 0,3 1
Total 100 1
0
1
2
3
4
5
6
1,4 1,5 1,6 1,7 1,8 1,9
Histogramafi/hi
Manual de Exercícios
Estatística Aplicada 38
b) 65,1%)385,1(...%)10525,1(%)245,1(
1
11
=+++===
==
xxxcfcn
n
x
n
i
iii
n
i
i
A altura média dos alunos é de 1,65 m.
A classe modal é aquela a que corresponde maior frequência por unidade de
amplitude. Neste caso, o maior valor de fi / hi é 5. correspondente à classe
[1,55; 1,6[, isto é, a altura mais provável de um aluno rondará 1,55m / 1,6m.
c)
d) Classe a que pertence Q1 (classe a que corresponde uma frequência
acumulada 0,25): [1,55; 1,6[
1,55 : Fi=0,12
1,6 : Fi = 0,37
Cálculo do Q1:
0,37 – 0,12 ------------ 1,6 – 1,55
0,25 – 0,12 ------------ Q1 – 1,55
Q1 = 1,55 + ((0,05x0,13)/0,25) = 1,576
25% dos alunos têm altura inferior a 1,576 m.
Classe a que pertence Q2 (classe a que corresponde uma frequência
acumulada 0,5): [1,6; 1,65[
1,65 : Fi = 0,5
50% dos alunos têm altura inferior a 1,65 m.
Classe a que pertence Q3 (classe a que corresponde uma frequência
acumulada 0,75): [1,7; 1,75[
1,7 : Fi=0,67
1,75 : Fi = 0,87
0
0,2
0,4
0,6
0,8
1
1,3 1,4 1,5 1,6 1,7 1,8 1,9 2
F*
Manual de Exercícios
Estatística Aplicada 39
Cálculo do Q3:
0,87- 0,67------------ 1,75 – 1,7
0,75 – 0,67-------------- Q3 – 1,7
Q3 = 1,7 + ((0,05*0,08)/0,2) = 1,72
75% dos alunos têm altura inferior a 1,72 m.
e) Amplitude do intervalo inter-quartis = Q3 - Q1 = 1,72 – 1,576 = 0,144
(dispersão reduzida em torno da mediana)
( ) 00536875,0*
2
1
2
2
1
2
=−=−=
==
xficixcifis
n
i
n
i
x
07327,000536875,0
2
=== xx ss
(dispersão reduzida em torno da média)
f) 0)7(027,0
576,172,1
)576,165,1()65,172,1(
13
)12()23(
' <−=
−
−−−
=
−
−−−
=
QQ
QQQQ
g
A distribuição é ligeiramente assimétrica negativa ou enviesada à direita
(quase simétrica).
Exercício 9
Em determinada central telefónica, registou-se a duração das chamadas
realizadas em Dezembro de 2001:
Duração (em minutos) NºChamadas
[0; 5[ 2000
[5; 10[ 1500
[10; 20[ 1000
[20; 30[ 300
[30; 50] 200
Total 5000
a) Represente graficamente as frequências simples e acumuladas.
b) Determine a duração média das chamadas e respectivo desvio-padrão.
c) Qual a duração da chamada mediana? Qual o significado do valor
encontrado?
Manual de Exercícios
Estatística Aplicada 40
d) Sabe-se que as chamadas realizadas durante o ano de 2001
apresentaram uma duração média de 10 minutos, com desvio-padrão de
8,7 minutos. Compare, quanto à dispersão, as chamadas efectuadas em
Dezembro com as que tiveram lugar durante todo o ano de 2001.
Resolução
a)
Duração (em minutos) ni fi hi fi/hi Fi ci
[0; 5[ 2000 0,4 5 0,08 0,4 2,5
[5; 10[ 1500 0,3 5 0,06 0,7 7,5
[10; 20[ 1000 0,2 10 0,02 0,9 15
[20; 30[ 300 0,06 10 0,006 0,96 25
[30; 50] 200 0,04 20 0,002 1 40
Total 5000 1
b) 35,9%)440(...%)305,7(%)405,2(
1
11
=+++===
==
xxxcfcn
n
x
n
i
iii
n
i
i
A duração média de uma chamada é de 9,35 minutos.
( ) 4525,81*
2
1
2
2
1
2
=−=−=
==
xficixcifis
n
i
n
i
x
025,900536875,0
2
=== xx ss
c) Classe mediana (classe a que corresponde frequência acumulada 0,5): [5; 10[
0
0,02
0,04
0,06
0,08
0,1
0 10 20 30 40 50 60
Histogramafi/hi
0
0,2
0,4
0,6
0,8
1
0 10 20 30 40 50 60 70 80 90 100
F*
Manual de Exercícios
Estatística Aplicada 41
5 : Fi = 0,4
10 : Fi = 0,7
Cálculo da Me:
0,7 - 0,4 ------------ 10 - 5
0,5 - 0,4 ------------ Me - 5
Me = 5 + ((5x0,1)/0,3) = 6,67
50% das chamadas têm duração a 6,67 minutos.
d) 965,0
35,9
025,9
===
x
s
CV x
Dez > 87,0
10
7,8
2001 ===
y
s
CV
y
Exercício 10
Uma empresa coligiu dados relativos à produção de 12 lotes de um tipo especial
de rolamento. O volume de produção e o custo de produção de cada lote
apresentam-se na tabela:
Lote Volume (unidades) Custo (contos)
1 1500 3100
2 800 1900
3 2600 4200
4 1000 2300
5 600 1200
6 2800 4900
7 1200 2800
8 900 2100
9 400 1400
10 1300 2400
11 1200 2400
12 2000 3800
a) Analise a correlação existente entre volume e custo de produção.
b) Ajuste, pelo Método dos Mínimos Quadrados, uma função linear que
exprima o custo em função do volume de produção.
Resolução
a)
( )( ) ( )( )[ ]
98,0
1145944520854
3,270838003,13582000...3,270831003,13581500
12
1
=
−−++−−
==
xss
s
r
yyxx
xy
Correlação positiva quase perfeita.
Manual de Exercícios
Estatística Aplicada 42
b)
Exercício 11
Um conjunto de empresas do sector da Construção e Obras Públicas cotadas
na Bolsa de Valores foram analisadas relativamente aos seguintes indicadores:
EPS (Earnings per Share): Resultado Líquido por Acção
PBV (Price/Book Value): Preço / Situação Líquida por Acção
Empresa EPS ($) PBV ($)
1 191 0.9
2 32 1.0
3 104 0.8
4 117 0.8
5 210 1.5
6 95 0.7
7 65 0.9
8 201 1.3
9 81 0.4
a) Analise a correlação existente entre aqueles dois indicadores.
b) Ajuste, pelo Método dos Mínimos Quadrados, uma função linear que
exprima a variável EPS em função de PBV.
Resolução
a)
( )( ) ( )( )[ ]
61,0
096933,0332,3669
92,04,07,12181...92,09,07,121191
9
1
=
−−++−−
==
xss
s
r
yyxx
xy
Correlação positiva moderada.
y = 1,4553x + 731,6
0
1000
2000
3000
4000
5000
6000
0 500 1000 1500 2000 2500 3000
Volume
Custo
Manual de Exercícios
Estatística Aplicada 43
b)
Exercício 12
Recolheu-se uma amostra em 17 cidades do país relativamente aos seguintes
indicadores:
Ri: Rendimento médio mensal na cidade i (em 106
unidades monetárias)
Gi: Gasto médio mensal em bens de luxo na cidade i (em 106
u.m.)
Ri Gi Ri Gi
125 54 144 61
127 56 147 62
130 57 150 62
131 57 152 63
133 58 154 63
135 58 160 64
140 59 162 65
143 59 165 66
169 66
Dados adicionais
= 2467iR =1030iG = 361073
2
iR
= 62620
2
iG = 150270iiGR
a) Estude a correlação entre rendimento e despesas em bens de luxo.
b) Ajuste, pelo Método dos Mínimos Quadrados, uma função linear que
exprima a variável Gi em função de Ri.
y = 124,04x + 7,383
0
50
100
150
200
250
0 0,2 0,4 0,6 0,8 1 1,2 1,4 1,6
PBV
EPS
Manual de Exercícios
Estatística Aplicada 44
Resolução
a)
986,0
)
17
1030
*1762620)(
17
2467
*17361073(
17
1030
*
17
2467
*17150270
))((
2
22
2
2222
=
−−
−
=
−−
−
=
GnGRnR
GRnGR
r
ii
ii
XY
Correlação positiva forte.
b)
y = 0,2604x + 22,801
50
52
54
56
58
60
62
64
66
68
100 120 140 160 180 200
Rendimento
Gasto
104
Introdução ao e-learning
FMD_i.p65 15-01-2004, 10:49104
Manual de Exercícios
Estatística Aplicada 45
3.ESTATÍSTICA INDUTIVA
A estatística indutiva é o ramo da estatística que se ocupa em inferir das
conclusões retiradas sobre a amostra para a população. Claro que o processo
de indução implica um certo grau de incerteza associado à tentativa de
generalização de conclusões da “parte” (amostra) para o “todo” (universo). O
conceito de probabilidade vai ter aqui, então, um papel fundamental. Isto é, não
vai ser possível afirmar com toda a certeza que o comportamento da amostra
ilustra perfeitamente o comportamento do universo, mas apenas que o faz com
forte probabilidade.
De seguida, serão apresentadas algumas noções simples de probabilidades e
funções de probabilidade, que serão úteis a aplicações de estatística indutiva
relacionadas com controlo estatístico de qualidade e fiabilidade de
componentes e sistemas.
3.1. Noções básicas de probabilidade
A teoria das probabilidades é um ramo da matemática extremamente útil para o
estudo e a investigação das regularidades dos chamados fenómenos
aleatórios. O exemplo seguinte pretende clarificar o que vulgarmente é
designado por experiência aleatória.
Deve entender-se como experiência qualquer processo ou conjunto de
circunstâncias capaz de produzir resultados observáveis; quando uma
experiência está sujeita à influência de factores casuais e conduz a resultados
incertos, diz-se que a experiência é aleatória.
Fundamentalmente, as experiências aleatórias caracterizam-se por:
Manual de Exercícios
Estatística Aplicada 46
(i) poder repetir-se um grande número de vezes nas mesmas condições
ou em condições muito semelhantes
(ii) cada vez que a experiência se realiza, obtém-se um resultado
individual, mas não é possível prever exactamente esse resultado
(iii) os resultados das experiências individuais mostram-se irregulares,
mas os resultados obtidos após uma longa repetição da experiência
patenteiam uma grande regularidade estatística no seu conjunto
Alguns autores consideram inserido no conceito de experiência aleatória um
outro, o de espaço de resultados. O espaço de resultados corresponde ao
conjunto formado por todos os resultados possíveis de uma experiência
aleatória. Por exemplo, num lançamento de um dado ordinário tem-se que o
espaço de resultados é }{ 6,5,4,3,2,1 .
A importância da definição deste conceito advém sobretudo por ser o meio
empregue para a definição de acontecimentos, que não sei mais que
subconjuntos do espaço de resultados. Por exemplo, no lançamento de um
dado podem definir-se, para além dos 6 acontecimentos elementares
correspondentes à saída de cada uma das faces, outros como “saída de um
número ímpar” definido pelo subconjunto }{ 5,3,1 .
Definidos como conjuntos, aos acontecimentos é aplicável toda a construção
disponível para aqueles, isto é, existe um paralelismo perfeito entre álgebra de
conjuntos e álgebra de acontecimentos:
(i) O acontecimento que contem todos os elementos do espaço de
resultados chama-se acontecimento certo
(ii) O acontecimento que não contem qualquer elemento do espaço de
resultados chama-se acontecimento impossível
(iii) Dois acontecimentos são mutuamente exclusivos se não têm em
comum qualquer acontecimento do espaço de resultados
(iv) A união de dois acontecimentos A e B representa-se por A ∪ B e é
formado pelos elementos que pertencem a pelo menos um dos dois,
A ou B
(v) A intersecção de dois acontecimentos A e B representa-se por A ∩ B e
é formado pelos elementos comuns a A e B
Manual de Exercícios
Estatística Aplicada 47
Probabilidade de um acontecimento é expressa na escala de 0 a 1, sendo 0 a
probabilidade associada a um acontecimento impossível e 1 a probabilidade
associada a um acontecimento certo. A primeira definição foi proposta por
Laplace em 1812. Pode definir-se probabilidade de um acontecimento A
como sendo:
Número de casos favoráveis ao acontecimento A
P(A) =
Número total de casos possíveis na exp. aleatória
Uma das principais críticas a esta definição é a de que ela só é aplicável
quando o espaço de resultados é finito e os seus elementos possuem igual
probabilidade; daí que ela surja muito ligada aos “jogos de azar”, que possuem
essas propriedades. É o que acontece com as duas faces de uma moeda, as
52 cartas de um baralho, as 6 faces de um dado, etc.
Para se analisar a probabilidade de ocorrência de determinados
acontecimentos, deve ter-se em atenção o seguinte:
− Dois acontecimentos são ditos mutuamente exclusivos se não puderem
acontecer ao mesmo tempo; se dois acontecimentos forem mutuamente
exclusivos, então:
P(A ∩ B) = 0
− A probabilidade de união de dois acontecimentos mutuamente
exclusivos é dada por
P (A ∪ B) = P(A) + P(B)
− Para dois acontecimentos quaisquer, vem que
P (A ∪ B) = P(A) + P(B) - P(A ∩ B)
− Dois acontecimentos dizem-se complementares se:
P(A) = 1 – P( A )
− Dois acontecimentos são ditos independentes se a ocorrência de um
não afectar a probabilidade de ocorrência de outro; a probabilidade de
ocorrência de dois ou mais acontecimentos independentes é o produto
das probabilidades dos respectivos acontecimentos, isto é:
P(A ∩ B) = P(A) x P(B)
Manual de Exercícios
Estatística Aplicada 48
Após a apresentação desta definição, convém ainda referir que, numa outra
perspectiva, a da chamada teoria frequencista, a probabilidade de um
acontecimento é definida como sendo o valor para o qual tende a frequência
relativa do acontecimento quando o número de repetições da experiência
aumenta.
3.2. Probabilidade condicionada
Exemplo:
Um grupo de pessoas é classificado de acordo com o seu peso e a incidência
de hipertensão. São as seguintes as proporções das várias categorias:
Obeso Normal Magro Total
Hipertenso 0,1 0,08 0,02 0,2
Não Hipertenso 0,15 0,45 0,2 0,8
Total 0,25 0,53 0,22 1,00
a) Qual a probabilidade de uma pessoa escolhida ao acaso ser hipertensa?
b) Qual a probabilidade de uma pessoa obesa ser hipertensa?
Resolução
a) Basta ver que a proporção de hipertensos é de 20%
b) Há que tomar em atenção que o que se pretende é a proporção de
hipertensos na população de obesos, isto é 4,0
25,0
1,0
= . Por outras palavras,
pretende-se calcular a probabilidade do acontecimento “ser hipertenso”,
sabendo que ocorreu o acontecimento “ser obeso”. Repare-se que este
quociente resulta da divisão entre a probabilidade de uma pessoa ser
hipertensa e obesa e a probabilidade de uma pessoa ser obesa. Pode
escrever-se que a probabilidade pretendida é dada por:
)(
)(
)/(
OP
OHP
OHP
∩
=
onde P(H/O) é a probabilidade de ocorrer o acontecimento “ser hipertenso”,
sabendo que ocorreu ou condicionado pelo acontecimento “ser obeso”.
Este exemplo corresponde ao cálculo de uma probabilidade condicionada.
Manual de Exercícios
Estatística Aplicada 49
Como se viu anteriormente, dois acontecimentos são ditos independentes se a
ocorrência de um não afectar a probabilidade de ocorrência de outro, isto é, se:
P(A / B) = P(A) e se P(B / A) = P(B).
Teorema de Bayes
Seja B um acontecimento que se realiza se e só se um dos acontecimentos
mutuamente exclusivos A1, A2,…An se verifica. Aos acontecimentos A1, A2,…An
dá-se o nome de acontecimentos antecedentes. O teorema de Bayes permite
calcular a probabilidade à posteriori de A1, A2,… An, isto é, a probabilidade de
ocorrência de A1, A2,… An calculadas sob a hipótese de que B (acontecimento
consequente) se realizou. De acordo com este teorema:
=
= n
i
ii
ii
i
ABPAP
ABPAP
BAP
1
)/().(
)/().(
)/(
Este Teorema utiliza-se em situações em que a relação causal está invertida.
=
n
i
ii ABPAP
1
)/().( designa-se de probabilidade total de ocorrência do
acontecimento B, isto é, é a probabilidade de ocorrência do acontecimento
consequente B face a todos os possíveis acontecimentos A1, A2,… An que o
podem ter antecedido (ou causado a sua ocorrência).
3.3. Funções de probabilidade
A probabilidade associada aos acontecimentos possíveis numa experiência
aleatória obedecem, por vezes, a um padrão. Se associarmos a uma
experiência aleatória uma variável X (por exemplo, associar aos resultados da
experiência lançamento de um dado - que são 6 (saída de face 1 a 6) – a
variável X:“Nº da face resultante do lançamento de um dado”), então pode ser
constituída uma lei ou função de probabilidade (f(x)) dessa variável X, tal que
f(x) = P(X=xi)
Manual de Exercícios
Estatística Aplicada 50
Por exemplo, para X: nº da face resultante do lançamento de um dado, vem
que:
xi 1 2 3 4 5 6
f(xi) 1/6 1/6 1/6 1/6 1/6 1/6
que se designa por lei uniforme.
Algumas leis de probabilidade servem para explicar (ou aplicam-se a) um maior
número de fenómenos estatísticos do que outras. Entre estas, contam-se a lei
Binomial, a lei de Poisson e a lei Exponencial.
(i) Lei Binomial
Há alguns acontecimentos que são constituídos por um conjunto de
experiências independentes, cada uma das quais com apenas dois estados
possíveis de ocorrência e com uma probabilidade fixa de ocorrência para cada
um deles. Por exemplo, os produtos resultantes de uma fábrica podem ser
classificados como sendo defeituosos ou sendo não defeituosos, e o facto de
um ter saído (ou não) defeituoso não influencia os outros serem (ou não). A
distribuição das duas classes possíveis é discreta e do tipo binomial.
No exemplo anterior, consideremos uma amostra de n artigos retirados da
produção total, em relação aos quais se pretende identificar a variável X: “Nºde
artigos defeituosos nos n que constituem a amostra”. A probabilidade de
ocorrência do acontecimento “artigo é defeituoso” é dada por p: incidência de
defeituosos na produção (convenientemente calculada através de métodos de
estimação). A probabilidade do acontecimento complementar “artigo é não-
defeituoso” é dada por
1 – p = q
A probabilidade associada a x artigos defeituosos é dada por px
(p x p x p x
p...x vezes). Se há x defeituosos, restam n-x artigos não-defeituosos, com
probabilidade dada por qn-x
. Para calcular o número exacto de combinações de
x artigos defeituosos com n-x artigos não-defeituosos, utiliza-se a figura
“combinações de n, x a x, oriunda das técnicas de cálculo combinatório. Vem
Manual de Exercícios
Estatística Aplicada 51
então que a probabilidade de existência de x defeituosos (e logo n-x não
defeituosos) é igual a:
xnxxnxn
x qp
ppn
n
qpCxf −−
−
==
!)!(
!
)(
sendo que X segue Bi (n;p), sendo n e p os parâmetros caracterizadores da lei.
Um acontecimento deve ter 4 características para que se possa associar a uma
lei binomial:
- número fixo de experiências (n)
- cada experiência ter apenas duas classes de resultados possíveis
- todas as experiências terem igual probabilidade de ocorrência (p)
- as experiências serem independentes
Em sistemas eléctricos de energia é possível, por exemplo, aplicar a
distribuição binomial quando se pretende calcular a fiabilidade de uma central
eléctrica, com várias unidades iguais e admitindo que cada unidade apenas
pode residir em dois estados, a funcionar ou avariada.
(ii) Lei de Poisson
A lei de Poisson (ou lei dos acontecimentos raros ou cadenciados) dá a
probabilidade de um acontecimento ocorrer um dado número de vezes num
intervalo de tempo ou espaço fixado, quando a taxa de ocorrência é fixa (por
exemplo, nºde chamadas que chegam a uma central telefónica por minuto; nº
de varias que ocorrem numa máquina por dia). Os números de acontecimentos
de “sucesso” ocorridos em diferentes intervalos são independentes. O
parâmetro caracterizador da distribuição de Poisson é λ, que corresponde ao
número médio de ocorrências por unidade de tempo ou espaço.
Como o número médio de ocorrências do acontecimento é proporcional à
amplitude do intervalo de tempo ou espaço a que se refere, a variável X: “Nºde
ocorrências do acontecimento no intervalo [0,t[” segue lei de Poisson de
parâmetro λt (isto é, se para 1 unidade de tempo o nº médio de ocorrências é
λ, para t unidades de tempo o número médio de ocorrências é λt). A expressão
( ) t
x
e
x
t λλ −
!
Manual de Exercícios
Estatística Aplicada 52
dá a probabilidade de acontecerem x ocorrências no intervalo de tempo [0,t[, e
corresponde à expressão da lei de probabilidade de Poisson : Po(λt)
Por exemplo, se X fôr o “Nº de avarias que ocorrem no intervalo de tempo
[0,t[”, então a probabilidade de não ocorrerem avarias nesse intervalo, isto é, a
fiabilidade do componente/sistema como função do tempo, é dada por:
( ) tt
ee
t λλλ −−
=
!0
0
(iii) Lei Exponencial
Seja T a variável “Tempo ou espaço que decorre entre ocorrências
consecutivas de um acontecimento”. Então T segue lei exponencial Exp (λ),
sendo
λ
1
o tempo que, em média, decorre entre ocorrências sucessivas do
acontecimento.
Note-se que é possível estabelecer uma relação entre a lei exponencial e a lei
de Poisson. Assim, se X fôr o “Nº de avarias que ocorrem no intervalo de
tempo [0,t[”, e T fôr o “Tempo que decorre entre avarias consecutivas”, então:
P (T>t) = P(tempo que decorre entre avarias exceder t)
= P(até ao instante t, não ocorre qualquer avaria)
= P (ocorrerem zero avarias no intervalo [0,t[) = P(X=0) =
t
e λ−
A distribuição exponencial é a mais usada em estudos de fiabilidade, já que a
probabilidade de um componente sobreviver até ao instante t é dada por
t
e λ−
A probabilidade de avariar até ao instante t é dada por
t
e λ−
−1
Manual de Exercícios
Estatística Aplicada 53
(iv) Lei Normal
A lei Normal tem como parâmetros caracterizadores a média µ e o desvio-
padrão σ. Isto é, os valores observados têm uma determinada tendência
central e uma determinada dispersão em torno da tendência central.
A expressão
∏
−
− 2
2
)(
2
1
2
1 σ
µ
σ
Xi
e
representa a função densidade de probabilidade da distribuição Normal.
Se se fizer o valor médio µ igual a zero e todos os desvios forem medidos em
relação à média, a equação será:
σ
µ−
=
X
Z
que corresponde a uma distribuição normal estandardizada (0;1) com os
valores tabelados, a qual é caracterizada por uma curva de Gauss:
Esta distribuição apresenta 99,73% dos valores entre os extremos –3 e 3.
Existem muitos tipos de distribuição, mas a curva normal é a forma de
distribuição mais frequente nos processos industriais para características
mensuráveis, e pode considerar-se como estabelecida pela experiência prática.
Manual de Exercícios
Estatística Aplicada 54
(v) Lei Qui-Quadrado
Considere-se um conjunto de n variáveis aleatórias Zi, obedecendo às
seguintes condições:
- cada variável Zi segue distribuição N(0,1);
- as variáveis Zi são mutuamente independentes
Então, a variável aleatória X, construída a partir da soma das n variáveis Zi
elevadas ao quadrado, segue distribuição Qui-Quadrado com n graus de
liberdade, denotada por
22
2
2
1
1
2
... n
n
i
i ZZZZX +++==
=
2
nX χ∩
O termo “Graus de Liberdade” (d.f: degrees of freedom) é habitualmente usado
para designar o número n de parcelas (variáveis Zi) adicionadas. É possível
demonstrar que o valor esperado e a variância da distribuição de uma variável
Qui-Quadrado são respectivamente
n=µ
n22
=σ
A distribuição Qui-Quadrado é uma distribuição assimétrica à esquerda,
aproximando-se da distribuição Normal à medida que n cresce.
Manual de Exercícios
Estatística Aplicada 55
104
Introdução ao e-learning
FMD_i.p65 15-01-2004, 10:49104
Manual de Exercícios
Estatística Aplicada 56
PROBABILIDADES
Exercícios resolvidos
Exercício 1
De um baralho ordinário (52 cartas) extrai-se ao acaso 1 carta. Determine a
probabilidade dos seguintes acontecimentos:
a) saída de Rei
b) saída de copas
c) saída de Rei ou copas
d) saída de Rei mas não de copas
e) não saída de Rei
f) não saída de Rei nem de copas
g) não saída de Rei ou não saída de copas
Resolução
A: saída de Rei
B: saída de copas
a) P(A)=1/13
b) P(B)=1/4
c) P(A∪ B) = P(A) + P(B) - P(A∩ B) = 1/13+1/4-1/52 = 4/13 (=(13+3)/52)
d) P(A-B) = P(A) – P(A∩ B) = 1/13 – 1/52 = 3/52 (= (4-1)/52)
e) P( A )= 1-1/13 = 12/13 (=(52-4)/52)
f) P( )BA ∩ = P( BA ∪ ) = 1 – P(A∪ B) = 1 – 4/13 = 9/13
g) P( )BA ∪ = P( BA ∩ ) = 1 – P )( BA ∩ = 1 – 1/52 = 51/52
Exercício 2
Um sistema electrónico é formado por dois sub-sistemas, A e B. De ensaios
anteriores, sabe-se que:
- a probabilidade de A falhar é de 20%
- a probabilidade de B falhar sozinho é 15%
- a probabilidade de A e B falharem é 15%
Determine a probabilidade de:
Manual de Exercícios
Estatística Aplicada 57
a) B falhar
b) falhar apenas A
c) falhar A ou B
d) não falhar nem A nem B
e) A e B não falharem simultaneamente
Resolução
A: o subsistema A falha
B: o subsistema B falha
P(A)=20% P( A )= 80%
P(B-A)=15%
P(A∩ B)=15%
a) P(B) = P(B-A)+ P(A∩ B) = 0,15 + 0,15 = 30%
b) P(A-B) = P(A) – P(A∩ B) = 0,2 – 0,15 = 5%
c) P(A∪ B) = P(A) + P(B) - P(A∩ B) = 0,2 + 0,3 – 0,15 = 35%
d) P( )BA ∩ = P( BA ∪ ) = 1 – P(A∪ B) = 1 – 0,35 = 65%
e) P( BA ∩ ) = 1 – P )( BA ∩ = 1 – 0,15 = 85%
Exercício 3
Suponha que há 3 jornais, A, B e C, com as seguintes percentagens de leitura:
A: 9,8%; B: 22,9%; C: 12,1%; A e B: 5,1%; A e C: 3,7%; B e C: 6%;
A, B e C: 2,4%
Escolhe-se uma pessoa ao acaso. Calcule a probabilidade dessa pessoa:
a) ler pelo menos um dos jornais
b) ler A e B mas não C
c) ler A mas não ler B nem C
Resolução
A: a pessoa escolhida lê o jornal A
B: a pessoa escolhida lê o jornal B
C: a pessoa escolhida lê o jornal C
P(A) = 9,8% P(B) = 22,9% P(C) = 12,1%
P(A∩ B) = 5,1% P(A∩ C) = 3,7% P(B∩ C) = 6%
P(A∩ B∩ C) = 2,4%
Manual de Exercícios
Estatística Aplicada 58
a)
)()()()()()()()( CBAPCBPCAPBAPCPBPAPCBAP ∩∩+∩−∩−∩−++=∪∪
= 0,098+0,229+0,121-0,051-0,037-0,06+0,024 = 32,4%
b) P( )CBA ∩∩ = P( )() CBAPBA ∩∩−∩ = 0,051 – 0,024 = 2,7%
c) )( CBAP ∩∩ = P(A) - )()()( CBAPCAPBAP ∩∩+∩−∩
= 0,098-0,051-0,037+0,024 = 3,4%
Exercício 4
Um gerente de uma galeria de arte muito creditada no mercado, está
interessado em comprar um quadro de um pintor famoso para posterior venda.
O gerente sabe que há muitas falsificações deste pintor no mercado e que
algumas dessa falsificações são bastante perfeitas o que torna difícil avaliar se
o quadro que ele pretende comprar é ou não um original. De facto, sabe-se que
há 4 quadros falsos desse pintor para 1 verdadeiro.
O gerente não quer comprometer o “bom nome” da galeria para a qual trabalha
comprando um quadro falso. Para obter mais informação o gerente resolve
levar o quadro a um museu de arte e pede para que o especialista do museu o
examine. Este especialista garante-lhe que em 90% dos casos em que lhe é
pedido para examinar um quadro genuíno daquele pintor, ele identifica-o
correctamente como sendo genuíno. Mas em 15% dos casos em que examina
uma falsificação do mesmo pintor, ele identifica-o (erradamente) como sendo
genuíno.
Depois de examinar o quadro que o gerente lhe levou, o especialista diz que
acha que o quadro é uma falsificação. Qual é agora a probabilidade de o
quadro ser realmente uma falsificação?
Resolução
V: o quadro é genuíno
F: o quadro é falso
I: o quadro é identificado correctamente
P(V) = 20%
P(F) = 80%
P(I/V) = 90% P( )/VI = 10%
P( )/ FI = 15% P(I/F) = 85%
Manual de Exercícios
Estatística Aplicada 59
P(ser realmente falsificação/especialista identificou como falsificação) =
= %1,97
7,0
68,0
1,0*2,085,0*8,0
85,0*8,0
)/(*)()/(*)(
)/(*)(
==
+
=
+ VIPVPFIPFP
FIPFP
Exercício 5
Na ida para o emprego, o Sr. Óscar, polícia de profissão, tem de passar
obrigatoriamente por três cruzamentos com semáforos. No primeiro
cruzamento, o do Largo Azul, a probabilidade do semáforo se encontrar com
sinal vermelho é de 10%. Em cada um dos cruzamentos seguintes, o Sr. Óscar
fica parado devido aos sinais vermelhos em metade das vezes que lá passa.
O Sr. Óscar já descobriu que os semáforos funcionam separadamente, não
estando ligados entre si por qualquer mecanismo.
Embora goste de cumprir a lei, o guarda Óscar passa no sinal verde e acelera
no amarelo, só parando mesmo no sinal vermelho.
a) Qual a probabilidade do Sr. Óscar chegar ao emprego sem ter de parar
em qualquer sinal vermelho?
b) Qual a probabilidade do Sr. Óscar ter de parar num só semáforo?
c) Qual a probabilidade do Sr. Óscar ter parado no sinal vermelho do
cruzamento do Largo Azul, sabendo que parou num só semáforo na sua
ida para o emprego?
Resolução
A: polícia encontra sinal vermelho no 1ºcruzamento
B: polícia encontra sinal vermelho no 2ºcruzamento
C: polícia encontra sinal vermelho no 3ºcruzamento
P(A)=10% P( A )= 90%
P(B)=50% P( B )= 50%
P(C)=50% P(C )= 50%
a) P( )CBA ∩∩ = P( A )*P( B )*P(C ) = 0,9*0,5*0,5 = 22,5%
b) P( )CBA ∩∩ + P( )CBA ∩∩ +P( )CBA ∩∩ =
= P( A )*P( B )*P(C ) + P( A )*P( B )*P(C ) + P( A )*P( B )*P(C ) = 47,5%
Manual de Exercícios
Estatística Aplicada 60
c) P(polícia parar no 1ºcruzamento / polícia parou num só semáforo)
%26,5
475,0
)(*)(*)(
475,0
)(
==
∩∩
=
CPBPAPCBAP
Exercício 6
Após alguns testes efectuados à personalidade de um indivíduo, concluiu-se
que este é louco com probabilidade 60%, ladrão com probabilidade igual a 70%
e não é louco nem ladrão com probabilidade 25%. Determine a probabilidade
do indivíduo:
a) Ser louco e ladrão
b) Ser apenas louco ou apenas ladrão
c) Ser ladrão, sabendo-se que não é louco
Resolução
A: indivíduo é louco
B: indivíduo é ladrão
P(A)=60%
P(B)=70%
P( )BA ∩ = 25% = P( BA ∪ ) P(A∪ B) = 1 – 0,25 = 75%
a) P(A∪ B) = P(A) + P(B) - P(A∩ B) 0,75 = 0,6 + 0,7 - P(A∩ B)
P(A∩ B) = 0,6 + 0,7 – 0,75 = 55%
b) P(A-B) + P(B-A) = (0,6-0,55) + (0,7-0,55) = 20í
c) P(B/ A ) = %5,37
4,0
15,0
6,01
)(
)(
)(
==
−
−
=
∩ ABP
AP
ABP
Exercício 7
Uma moeda é viciada, de tal modo que P(F) = 2/3 e P(C) = 1/3. Se aparecem
faces, então um número é seleccionado de 1 a 9. Se parecem coroas, um
número é seleccionado entre 1 e 5. Determine a probabilidade de ser
seleccionado um número par.
Resolução
P(Par) = 2/3*4/9 + 1/3*2/5 = 42,96%
Manual de Exercícios
Estatística Aplicada 61
Exercício 8
Numa fábrica, 3 máquinas, M1, M2 e M3 fabricam parafusos, sendo a produção
diária total de 10000 unidades. A probabilidade de um parafuso escolhido ao
acaso ter sido produzido por M1 é 30% da probabilidade de ter sido produzido
por M2. A incidência de defeituosos na produção de cada máquina é:
M1: 3% M2: 1% M3: 2%
Extrai-se ao acaso da produção diária um parafuso. Sabendo que a
probabilidade dele ser defeituoso é de 1,65%, determine o número de
parafusos que cada máquina produz diariamente.
Resolução
M1: o parafuso foi produzido por M1
M2: o parafuso foi produzido por M2
M3: o parafuso foi produzido por M3
D: o parafuso é defeituoso
n = 10000 unidades
P(M1) = 0,3 P(M2)
P(D / M1) = 3%
P(D / M2) = 1%
P(D / M3) = 2%
P(D) = 1,65%
Prod. 1 = P(M1)*10000 = ?
Prod. 2 = P(M2)*10000 = ?
Prod. 3 = P(M3)*10000 = ?
++=
=++
=
)3/(*)3()2/(*)2()1/(*)1()(
1)3()2()1(
)2(3,0)1(
MDPMPMDPMPMDPMPDP
MPMPMP
MPMP
⇔
++=
=+
−
02,0*)3(01,0*)2(03,0*)2(3,00165,0
1)3()2(3,1
MPMPMP
MPMP ⇔
Manual de Exercícios
Estatística Aplicada 62
−++=
−=
−
02,0*))2(3,11(01,0*)2(03,0*)2(3,00165,0
)2(3,11)3(
MPMPMP
MPMP ⇔
=
=−=−=
==
%50)2(
%355,0*3,11)2(3,11)3(
%155,0*3,0)1(
MP
MPMP
MP
Exercício 9
O João tem à sua disposição 3 meios de transporte diferentes para se deslocar
de casa para a escola: os transportes A, B ou C. Sabe-se que a probabilidade de:
- chegar atrasado à escola é 60%
- chegar atrasado utilizando o transporte A é 80%
- chegar atrasado utilizando o transporte B é 50%
- chegar atrasado utilizando o transporte C é 60%
- utilizar os transportes B e C é a mesma
a) Calcule a probabilidade de o João utilizar o transporte A
b) Sabendo que o João chegou atrasado à escola, calcule a probabilidade
de ter utilizado os transportes B ou C.
Resolução
T: O João chega atrasado
A: o João utiliza o transporte A
B: o João utiliza o transporte B
C: o João utiliza o transporte C
P(T) = 0,6
P(T/A) = 0,8
P(T/B) = 0,5
P(T/C) = 0,6
P(B) = P(C)
P(A)+P(B)+P(C) = 1 P(A) = 1- 2P(B)
a) P(T) = P(A)*P(T/A) + P(B)*P(T/B) + P(C)*P(T/C)
Manual de Exercícios
Estatística Aplicada 63
Logo
0,6 = (1-2P(B))*0,8 + P(B)*0,5 + P(B)*0,6
e vem que
P(B) = 40%
Então P(A) = 1 – 2P(B) = 1 – 2*0,4 = 20%
b) P(B∪ C / T) =
)(
)/(*)()/(*)(
TP
CTPCPBTPBP +
=
6,0
6,0*4,05,0*4,0 +
=73,3%
Exercício 10
Uma empresa que se dedica à prestação de serviços de selecção de pessoal
em relação a um teste psicotécnico para uma profissão específica sabe o
seguinte:
- as percentagens de indivíduos com um quociente de inteligência (Q.I.)
elevado e médio são, respectivamente, de 30% e de 60%
- a percentagem de indivíduos com Q.I. médio que ficam aptos no teste é
de 50%
- a probabilidade de um indivíduo com Q.I. baixo ficar apto no teste é de
20%
- finalmente, sabe-se que 70% dos indivíduos com Q.I. elevado ficam
aptos no teste
a) Qual a probabilidade de um indivíduo escolhido ao acaso ficar apto no
teste?
b) Qual a probabilidade de um indivíduo ter Q.I. baixo, sabendo-se que
ficou inapto?
Resolução
A: indivíduo fica apto no teste
E: indivíduo tem QI elevado
M: indivíduo tem QI médio
B: indivíduo tem QI baixo
P(E) = 30% P(M) = 60% P(B) = 1 –0,3 – 0,6 = 10%
P(A/M) = 50% P(A/B) = 20% P(A/E) = 70%
Manual de Exercícios
Estatística Aplicada 64
a) P(A)
=P(E)*P(A/E)+P(M)*P(A/M)+P(B)*P(A/B)
=0,3*0,7+0,6*0,5+0,1*0,2=53%
b) P(B/ A ) = %17
53,01
8,0*1,0
)(
)/(*)(
=
−
=
AP
BAPBP
Exercício 11
Os resultados de um inquérito aos agregados familiares de uma determinada
cidade forneceram os seguintes dados:
- 35% dos agregados possuem telefone
- 50% dos agregados possuem frigorífico
- 25% dos agregados possuem automóvel
- 15% dos agregados possuem telefone e frigorífico
- 20% dos agregados possuem telefone e automóvel
- 10% dos agregados possuem frigorífico e automóvel
- 5% dos agregados possuem telefone, automóvel e frigorífico
a) Calcule a probabilidade de um agregado familiar
1. possuir telefone ou frigorífico
2. não possuir nem telefone nem automóvel
b) Calcule a probabilidade de um agregado que possui automóvel
1. possuir também frigorífico
2. possuir também telefone ou frigorífico
c) Calcule a probabilidade de um agregado familiar
1. possuir pelo menos um daqueles três objectos
2. não possuir nenhum daqueles três objectos
Resolução
A: agregado familiar possui telefone
B: agregado familiar possui frigorífico
C: agregado familiar possui automóvel
P(A) = 35%
P(B) = 50%
P(C) = 25%
Manual de Exercícios
Estatística Aplicada 65
P(A∩ B) = 15%
P(A∩ C) = 20%
P(B∩ C) = 10%
P(A∩ B∩ C) = 5%
a) 1. P(A∪ B) = P(A) + P(B) - P(A∩ B) = 0,35 + 0,5 – 0,15 = 70%
2. P( )CA ∩ = P( CA∪ ) = 1 – P(A∪ C) = 1 – 0,4 = 60%
P(A∪ C) = P(A) + P(C) - P(A∩ C) = 0,35 + 0,25 – 0,2 = 40%
b) krysktsh1. P(B / C) = %40
25,0
1,0
)(
)(
==
∩
CP
CBP
2. P(A∪ B/ C) =
%100
25,0
05.01,02,0
)(
)()()(
=
−+
=
∩∩−∩+∩
CP
CBAPCBPCAP
c) 1.
)()()()()()()()( CBAPCBPCAPBAPCPBPAPCBAP ∩∩+∩−∩−∩−++=∪∪
= 0,35+0,5+0,25-0,15-0,2-0,1+0,05 = 70%
2. 1 – P( )CBA ∪∪ = 1 – 0,7 = 30%
Exercício 12
Admita que 60% dos seguros no ramo automóvel respeitam a condutores com
mais de 40 anos de idade, dos quais 5% sofrem, pelo menos, um acidente por
ano. De entre os segurados com idade igual ou inferior a 40 anos, 3% têm um
ou mais acidentes no mesmo período.
a) Qual a probabilidade de um segurado não sofrer qualquer acidente
durante um ano?
b) Qual a probabilidade de um segurado que sofreu pelo menos um
acidente ter idade igual ou inferior a 40 anos?
c) Qual a probabilidade de, numa amostra de três segurados
1. todos terem idade igual ou inferior a 40 anos?
2. nenhum ter sofrido qualquer acidente durante um ano?
3. Todos terem idade igual ou inferior a 40 anos, dado que cada um
sofreu, pelo menos, um acidente durante o referido período?
Manual de Exercícios
Estatística Aplicada 66
Resolução
I1: o segurado tem mais de 40 anos de idade
I2: o segurado tem 40 anos ou menos de idade
A: o segurado sofre pelo menos 1 acidente por ano
A : o segurado não sofre nenhum acidente por ano
P(I1) = 60% P(I2) = 1 – 0,6 = 40%
P(A/I1) = 5% P( A /I1) = 1 – 0,05 = 95%
P(A/I2) = 3% P( A /I2) = 1 – 0,03 = 97%
a) P( A ) = P(I1)* P( A /I1) + P(I2)* P( A /I2) = 0,6*0,95 + 0,4*0,97 = 95,8%
b) P(I2/A) = %57,28
958,01
03,0*6,0
)(
)2/(*)2(
)(
)2(
=
−
==
∩
AP
IAPIP
AP
IAP
= P(B)
c) 1. P( )222 III ∩∩ = 0,4*0,4*0,4 = 6,4%
2. P( )AAA ∩∩ = 0,958*0,958*0,958 = 87,9%
3. P( )BBB ∩∩ = 0,2857*0,2857*0,2857 = 2,3%
104
Introdução ao e-learning
FMD_i.p65 15-01-2004, 10:49104
Manual de Exercícios
Estatística Aplicada 67
FUNÇÕES DE PROBABILIDADE
Exercícios resolvidos
Exercício 1
Se 20% das bobinas de um determinado cabo eléctrico forem defeituosas,
calcule a probabilidade de, entre as 4 bobines necessárias a um determinado
cliente, escolhidas ao acaso uma ser defeituosa.
Resolução
X: número de bobines defeituosas no conjunto de 4 bobines necessárias a um
determinado cliente (0,1,2,3,4)
n=4 p=0,2 q=1-p=0,8
P(X=1)=C4
p1
q4-1
= 4*0,2*0,83
= 0,4096 = 41%
Exercício 2
O número médio de chamadas telefónicas a uma central, por minuto, é 5. A
central só pode atender um número máximo de 8 chamadas por minuto. Qual a
probabilidade de não serem atendidas todas as chamadas no intervalo de
tempo de 1 minuto?
Resolução
X: número de chamadas telefónicas atendidas numa central, por minuto
(0,1,2,3,4, 5, 6, 7, 8)
λ=5 p=0,2 q=1-p=0,8
P(X≤8) =
=
−8
0
5
!
5
x
x
x
e
= 0,932 Logo P(X>8) = 1-0,932 = 0,06
Exercício 3
O tempo de funcionamento sem avarias de uma determinada máquina de
produção contínua segue uma lei exponencial negativa com valor esperado
igual a 4,5 horas. Imagine que a máquina é (re)colocada em funcionamento no
instante t=0 horas.
Qual a probabilidade de não ocorrerem avarias antes do instante t=6 horas?
Manual de Exercícios
Estatística Aplicada 68
Resolução
Seja
T: tempo de funcionamento sem avarias (ou entre avarias consecutivas) de
uma máquina, e
X: numero de avarias que ocorrem no intervalo [0,6[, isto é, num período de 6h
λ=1/4,5 corresponde ao número de avarias por unidade de tempo (por hora)
Logo
P(T≥6) = P(X=0)=
333,1
6*
5,4
1
−
−
= ee = 0,264
Exercício 4
Considere que o comprimento médio de determinado fio condutor é 120, com
desvio padrão 0,5. Qual a percentagem de fio com comprimento superior a 121?
Resolução
X: comprimento de determinado fio condutor
Calculando a variável reduzida correspondente, vem:
2
5,0
120121
=
−
=Z
Consultando a tabela, verifica-se que o valor da função Z é P(X≤2) = 0,9772.
Logo P(X>2) = 1-0,9772 = 2,28%.
Exercício 5
Numa praia do litoral português existe um serviço de aluguer de barcos,
destinado aos turistas que a frequentam. O número de turistas que procuram
este serviço, por hora, está associado a uma variável aleatória com distribuição
de Poisson.
Verificou-se que, em média, em cada hora, esse serviço é procurado por 8
turistas interessados em alugar barcos; sabe-se, por outro lado, que esse
serviço funciona ininterruptamente das 8 às 20 horas.
a) Qual a probabilidade de que, entre as 8 e as 9 horas, se aluguem 5
barcos?
b) Qual a probabilidade de que, entre as 9 e as 11 horas, os barcos
sejam procurados por mais de 25 turistas?
Manual de Exercícios
Estatística Aplicada 69
Resolução
X: nºde turistas que procuram o serviço de aluguer de barcos por hora
X segue Po(λ=8)
a) Na tabela da Po(λ=8) vem P(X=5) = 9,16%
b) Y1: nºde turistas que procuram o serviço de aluguer na 1ª hora
Y2: nºde de turistas que procuram o serviço de aluguer na 2ª hora
Logo
Y1+Y2: nºde turistas que procuram o serviço de aluguer em 2 horas
Pelo Teorema da Aditividade da Poisson, considerando Y1 e Y2
independentes e que todas seguem Po(8), vem que:
Z=Y1+Y2 segue Po(2*8=16)
Logo P(Z>25) = f(26) +... + f(33) = 0,0057 + ... + 0,0001 = 1,32%
Exercício 6
O número de navios petroleiros que chegam diariamente a certa refinaria é
uma variável com distribuição de Poisson de parâmetro 2. Nas actuais
condições, o cais da refinaria pode atender, no máximo, 3 petroleiros por dia.
Atingido este número, os restantes que eventualmente apareçam deverão
seguir para outro porto.
a) Qual a probabilidade de, num qualquer dia, ser preciso mandar
petroleiros para outro porto?
b) De quanto deveriam ser aumentadas as instalações de forma a
assegurar cais a todos os petroleiros em 99,9% dos dias?
c) Qual o número esperado de petroleiros a chegarem por dia?
d) Qual o número mais provável de petroleiros a chegarem por dia?
e) Qual o número esperado de petroleiros a serem atendidos diariamente?
f) Qual o número esperado de petroleiros que recorrerão a outros portos
diariamente?
Resolução
X: nºde petroleiros que chegam diariamente a uma certa refinaria
X segue Po (2)
Capacidade máxima de atendimento da refinaria: 3 petroleiros/dia
Manual de Exercícios
Estatística Aplicada 70
a) P(X>3) = 1 – P(X≤3) = 1 – F(3) = 1 – 0,8571 =14,29%
(tab. pg.14)
b) Nºmáximo de petroleiros que podem chegar: 9 (informação da tabela)
Logo, a capacidade devia aumentar em 6 petroleiros/dia (9-3)
c) E(X) = 2
d) X = 1 ou X = 2, com probabilidade 27,07%
e) Y: nºde petroleiros que são atendidos diariamente numa certa refinaria
(0,1, 2, 3)
g(0) = P(X=0) = 0,1353
g(1) = P(X=1) = 0,2707
g(2) = P(X=2) = 0,2707
g(3) = P(X=3) = 1 – P(X<3) = 1 – P(X≤2) = 1 – 0,6767 = 0,3233
E(Y) = 0*0,1353 + … + 3*0,3233 = 1,782
São atendidos, em média, entre 1 e 2 petroleiros diariamente
f) Z: nºde petroleiros que recorrem diariamente a outros portos
(0,1, 2, 3, 4, 5, 6)
Logo, Z = X - Y
E(Z) = E(X -Y) = E(X) - E(Y) = 2 - 1,782 = 0,218
Recorrem a outros portos, em média, entre 0 e 1 petroleiro por dia
g) W: nºde dias em que é preciso mandar petroleiros para outro porto num
mês de 30 dias (0,1, 2,...30)
W segue Bi (n = 30; p = P(X>3) = 0,1429)
E(W) = 30*0,1429 = 4,3
Em média, é preciso enviar petroleiros para outro porto 4 a 5 dias/mês
Exercício 7
Os Serviços Municipalizados de Gás e Electricidade debitam mensalemnte aos
seus clientes um consumo teórico T de energia eléctrica calculado de tal modo
que a probabilidade de o consumo efectivo o exceder seja de 30,85%.
Suponha um cliente cujo consumo por mês segue lei normal de média 400 kwh
e desvio-padrão 40 kwh.
a) Qual o consumo teórico que lhe é mensalmente debitado?
b) 1. Qual a distribuição do consumo efectivo durante 3 meses?
Manual de Exercícios
Estatística Aplicada 71
2. Qual a probabilidade de que, ao fim de 3 meses, o consumo teórico
exceda o efectivo em mais de 100 kwh?
Resolução
X: consumo efectivo de energia eléctrica de um cliente por mês (em kwh)
T: consumo teórico (valor fixo) debitado ao cliente por mês (em kwh)
T: P(X>T) = 0,3085
X segue N(400; 1600)
a) P(X>T) = 0,3085 ⇔ P( 3085,0)
40
400
40
400
=
−
>
− TX
⇔
P(N(0,1) 4205,0
40
400
6915,0)
40
400
=⇔=
−
⇔=
−
≤ T
TT
b) 1.
X1: consumo efectivo de energia eléctrica de um cliente no 1ºmês (em kwh)
X2: consumo efectivo de energia eléctrica de um cliente no 2ºmês (em kwh)
X3: consumo efectivo de energia eléctrica de um cliente no 3ºmês (em kwh)
Logo
X1+X2+X3: consumo efectivo de energia eléctrica em 3 meses (em kwh)
Pelo Teorema da Aditividade da Normal, considerando X1, X2 e X3
independentes e que todas seguem N(400, 1600), vem que:
Y=X1+X2+X3 segue N(400*3; 1600*3), isto é, N(1200; 4800)
2. P(3*420-Y > 100) = P(Y < 1160) = P(N(0,1)< )
4800
12001160 −
=
= P(N(0,1)<-0,58) = 28,1%
Exercício 8
Num determinado processo de fabrico, existem 2 cadeias de montagem A e B,
com funcionamento independente.
A cadeia A opera a um ritmo médio de 2 montagens por hora, e a probabilidade
da cadeia B efectuar pelo menos uma montagem numa hora é de 98,71%.
Admitindo que o número de montagens efectuadas por hora em ambas as
cadeias é uma v.a. Poisson, determine:
a) a probabilidade de se efectuarem mais de 6 montagens numa hora com
a cadeia B
Manual de Exercícios
Estatística Aplicada 72
b) a probabilidade de, em 3 horas de trabalho, se efectuarem no máximo
10 montagens com a cadeia B
c) a probabilidade de, numa hora, a cadeia A efectuar o dobro de
montagens de B
d) o número médio de montagens efectuadas num dia de trabalho de 8
horas com ambas as cadeiras
Resolução
X: nºde montagens da cadeia A por hora X segue Po(2)
Y: nºde montagens da cadeia B por hora
a) Y segue Poisson, mas desconhece-se a média (=parâmetro λ)
No entanto, como se sabe que P(Y≥1) = 0,9817, vem que
P(Y<1) = 1 – 0,9817 = 0,0183
Na tabela da Poisson, percorrendo as linhas de valor = 0, vem que o
valor 0,0183 pode ser encontrado no cruzamento da linha 0 com a
coluna 4. Logo, λ = 4.
Na tabela da Po(4), P(Y>6) = 1–P(Y≤6) = 1–F(6) = 1-0,8893=11,07%
b)
Y1: nºde montagens da cadeia B na 1ª hora
Y2: nºde montagens da cadeia B na 2ª hora
Y3: nºde montagens da cadeia B na 3ª hora
Logo
Y1+Y2+Y3: nºde montagens da cadeia B em 3 horas
Pelo Teorema da Aditividade da Poisson, considerando Y1, Y2 e Y3
independentes e que todas seguem Po(4), vem que:
Z=Y1+Y2+Y3 segue Po(4*3=12)
P(Z≤10) = f(0) + f(1) +... + f(10) = 0 + 0,0001 + … + 0,1048 = 34,72%
c) P(X=2Y) = P(X=0∩ Y=0) + P(X=2 ∩ Y=1) + P(X=4 ∩ Y=2) +
P(X=6 ∩ Y=3) + P(X=8∩ Y=4) = 0,1353*0,0183 + 0,2707*0,0753 +
0,0902*0,1465 + 0,012*0,1954 + 0,0009*0,1954 = 3,8%
d) W: nºde montagens das 2 cadeias num dia de trabalho de 8 horas
W = )(
8
1
i
i
i YX +
=
onde Xi + Yi corresponde ao nºde montagens das 2 cadeias por hora
Manual de Exercícios
Estatística Aplicada 73
Pelo Teorema da Aditividade de Poisson, sendo as variáveis
independentes e seguindo Po(2) e Po(4) respectivamente, vem que
Xi + Yi segue também Po(2+4=6).
E Z , também pelo mesmo Teorema, segue Po(6*8=48)
Logo, o número médio de montagens efectuado pelas 2 cadeias num dia
de trabalho de 8 horas é de 48.
Exercício 9
Uma companhia de tabacos recebeu em dada altura um elevado número de
queixas quanto à qualidade dos cigarros de certa marca que comercializa.
Numa rápida análise às condições de produção, constata-se que 1% dos filtros
que compõem o cigarro saem defeituosos. Nestas condições, determine:
a) a probabilidade de um maço acabado de formar
1. conter 1 cigarro com filtro defeituoso
2. conter 0 cigarros com filtro defeituoso
b) o número de maços que, num volume que contém 20, a companhia
espera poder aproveitar se utilizar o critério:
1. maço é aproveitável se não contiver cigarros defeituosos
2. maço é aproveitável se contiver no máximo 1 cigarro defeituoso
Resolução
X: nºde cigarros com filtro defeituoso em 20 cigarros de um maço
X segue Bi(n=20; p=0,01)
a) 1. P(X=1) = 20*0,01*0,9919
= 16,52%
2. P(X=0) = 0,010
*0,9920
= 81,79%
b) 1. Crit. 1: maço é aproveitável se não contiver cigarros defeituosos
Y: nºde maços aproveitáveis num volume que contem 20 maços
Y segue Bi(n=20; p=P(X=0) = 0,8179)
Logo E(Y) = 20*0,8179 = 16,36
2. Crit. 2: maço é aproveitável se contiver no máximo 1 cigarro defeituoso
Y: nºde maços aproveitáveis num volume que contem 20 maços
Y segue Bi(n=20; p=P(X=0)+P(X=1)= 0,8179+0,1652 = 0,9831)
Logo E(Y) = 20*0,9831 = 19,66
Manual de Exercícios
Estatística Aplicada 74
Exercício 10
O comprimento das peças produzidas por uma máquina é uma v.a. Normal
com média µ e variância σ2
. Uma peça defeituosa se o seu comprimento diferir
do valor médio mais do que σ. Sabemos que 50% das peças produzidas têm
comprimento inferior a 0,25 mm e 47,5% têm comprimento entre 0,25 mm e
0,642 mm.
a) Calcule a média e o desvio-padrão do comprimento das peças.
b) Determine a probabilidade de uma peça não ser defeituosa.
Resolução
X: comprimento das peças produzidas por uma máquina
X segue N(µ; σ2
)
Peça defeituosa se X>µ + σ ou se X< µ - σ
P(X<0,25) = 50%
P(0,25<X<0,642) = 47,5%
a) Como P(X<0,25) = 50% vem que
P( %50)
25,0
=
−
<
−
σ
µ
σ
µX
Na tabela,
σ
µ−25,0
tem que ser =0, logo µµµµ = 0,25
E como
P(0,25<X<0,642) = 47,5% vem que
=<<=
−
<
−
<
−
)
392,0
)1,0(0()
25,0642,025,025,025,0
(
σσσσ
NP
X
P
)0()
392,0
( θ
σ
θ −= = 0,475
Sendo θ (0)=0,5, vem que 975,05,0475,0)
392,0
( =+=
σ
θ
Na tabela 3B da Normal, vem que 96,1
392,0
=
σ
e logo σσσσ = 0,2
b) P(peça não defeituosa) = P(µ - σ < X < µ + σ) = P(0,05 < X < 0,45) =
P(X<0,45) – P(X<0,05) =
%13,84)1()1()1()
2,0
25,005,0
()
2,0
25,045,0
( ==−−=
−
−
−
Dθθθθ
Manual de Exercícios
Estatística Aplicada 75
Exercício 11
Sabe-se que a probabilidade de cura de uma certa doença é 20%. Põe-se à
prova um novo medicamento, que eleva a probabilidade de cura para 40%,
ministrando-o a um grupo de 20 doentes. Admite-se que o medicamento é
eficaz no caso de contribuir para a cura de, pelo menos, 8 doentes em 20.
Calcule a probabilidade de se concluir pela ineficácia do medicamento, ainda
que este eleve de facto a probabilidade de cura para 40%.
Resolução
X: número de doentes curados no grupo de 20 a que é ministrado o novo
medicamento (0,1,2...19, 20)
n=20 p=0,4 q=1-p=0,6 X segue Bi (20; 0,4)
P(X≥8)=1- F(7) = 41,58%
Exercício 12
Sabe-se por via experimental que, por cada período de 5 minutos, chegam, em
média, 4 veículos a determinado posto abastecedor de combustíveis. Um
empregado entra ao serviço às 8 horas. Qual a probabilidade de ter de
aguardar mais de 10 minutos até à chegada de um veículo?
Resolução
X: nºde veículos que chegam ao posto abastecedor por período de 5 minutos
X segue Po(4)
Se
X1: nºde veículos que chegam ao posto no 1ºperíodo de 5 minutos
X2: nºde veículos que chegam ao posto no 2ºperíodo de 5 minutos
então
X1+X2: nºde veículos que chegam ao posto abastecedor em 10 minutos
Pelo Teorema da Aditividade de Poisson, considerando X1 e X2 independentes
e que ambas seguem Po(4), vem que X1+X2 também segue Po(4+4=8)
Logo P(X1+X2=0) na tabela da Po(8) vem igual a 0,03%.
Manual de Exercícios
Estatística Aplicada 76
3.4. Estimação por intervalos
Conhecendo-se uma amostra em concreto, é possível estimar os valores dos
seus parâmetros caracterizadores através de métodos probabilísticos.
Por exemplo, suponhamos que numa fábrica produtora de açúcar se pretende
averiguar se o peso dos pacotes produzidos está, em média, dentro das
normas de qualidade exigíveis. Na impossibilidade de medição do peso de
todos os pacotes, pela morosidade e dispêndio de recursos que tal implicaria, a
estatística permite que, a partir da observação de uma única amostra, seja
possível inferir entre que valores varia o peso médio com um grau de confiança
ou probabilidade elevado. Assim, ao recolher um determinado número de
pacotes da produção total aleatoriamente, é possível calcular o peso médio de
acordo com as técnicas de estatística descritiva apreendidas atrás. Claro que
nada nos garante que esse valor coincide com o valor do parâmetro da
população em estudo. De facto, é até provável que não coincida e, mais, se
recolhermos outro conjunto idêntico de pacotes, o valor seja diferente. Isto é,
para cada amostra de dimensão n recolhida, a estimativa do parâmetro
assumiria valores distintos. Então, como retirar conclusões? Como garantir
algum nível de rigor?
O método a estudar neste capítulo – a estimação por intervalos – permite, a
partir da recolha de uma única amostra, aferir entre que valores seria de
esperar que variasse o parâmetro de interesse se nos empenhássemos a
recolher um número infinito de amostras. Isto é, por exemplo, caso o valor
amostral fosse de 1,02 kg, este método poderia, por exemplo, permitir afirmar
que seria altamente provável que o peso dos pacotes produzidos estivesse a
variar entre 0,92 kg e 1,12 kg. E esse resultado tem um determinado nível de
confiança associado: por exemplo, se dissermos que o nível de confiança ou
certeza implicado é de 95%, tal significa que, se nos fosse possível observar
um número infinito de amostras, o intervalo de valores apresentado
corresponderia aos resultados obtidos em 95% delas (os valores mais
usualmente utilizados são 90%, 95% ou 99% de confiança). Caberia depois à
empresa julgar se esses seriam ou não valores aceitáveis e proceder aos
eventuais reajustes necessários.
Manual de Exercícios
Estatística Aplicada 77
A partir do conceito de intervalo de confiança para um parâmetro, é fácil
concluir que a sua especificação implica conhecer:
- o estimador do parâmetro em causa
- a sua distribuição de probabilidade
- uma estimativa particular daquele parâmetro
Como parâmetros de interesse e para efeitos de exemplificação, vão
considerar-se duas tipologias de intervalo: o intervalo de confiança para a
média de uma população normal e o intervalo de confiança para a proporção
de uma população binomial. Para efeitos de simplificação, vão considerar-se
apenas exemplos relativos a amostras de grande dimensão (na prática, n≥100)
(i) Intervalo de confiança para a média µµµµ de uma população normal
Seja X (média amostral) o estimador da média da população. Porque a
distribuição é Normal, a distribuição deste estimador será:
);(
n
NX
σ
µ∩
Uma vez que apenas se encontra tabelada a distribuição N(0,1), torna-se
necessário calcular a variável reduzida correspondente:
)1;0(N
n
X
Z ∩
−
=
σ
µ
Esta variável permitirá deduzir a fórmula geral do intervalo de confiança para a
média µ de uma população normal:
+−
n
cX
n
cX
σσ
;
Isto é, em torno do valor do estimador, é definido um intervalo de variação onde
é possível afirmar que o parâmetro a estimar está contido com um grau de
confiança δ . Esse intervalo de variação depende:
- da dimensão da amostra (n): quanto maior a dimensão da amostra,
menor a amplitude do intervalo. Este resultado explica-se facilmente: no
limite, se fosse possível observar todo o universo de dados (n=∞ ), o
valor amostral calculado corresponderia ao valor da população.
Manual de Exercícios
Estatística Aplicada 78
- do desvio - padrão da população (σ ): quanto maior o desvio - padrão,
maior a amplitude do intervalo. Como se sabe, o desvio - padrão é uma
medida que caracteriza a dispersão da distribuição. Quanto maior o seu
valor, maior a variabilidade apresentada pelos dados, sendo natural que
a margem de variação de prever em torno do valor amostral recolhido
seja também, naturalmente, maior.
- do valor crítico (c): quanto maior o valor c, maior a amplitude do
intervalo. O valor crítico reflecte o nível de confiança adoptado.
Naturalmente, para que aumente a confiança de que o valor do
parâmetro a estimar está contido no intervalo, a sua amplitude deve
aumentar também (no limite, se o intervalo se alongasse de -∞ a +∞ a
confiança seria total ou 100%). É possível encontrar o valor c na tabela
da normal (pois esta é a lei do estimador), da seguinte forma:
δ=≤≤− )( cZcP
já que assim é possível definir a fórmula geral do intervalo,
resolvendo a inequação em ordem ao parâmetro, µ :
δ
σ
µ
σ
δ
σ
µ
=−≤≤−⇔=≤
−
≤− )()(
n
cX
n
cXPc
n
X
cP
Se o desvio - padrão da população fôr desconhecido, utiliza-se este intervalo
considerando-se como estimativa de σ o desvio - padrão corrigido da amostra,
ou seja, s’=
1
)( 2
−
−
n
xxi
, tal que:
+−
n
s
cX
n
s
cX
''
;
(ii) Intervalo de confiança para a proporção p de uma população binomial
Seja pˆ (proporção amostral ou frequência observada na amostra) o estimador
da proporção p de uma população binomial. Sendo a amostra de grande
dimensão, a distribuição deste estimador será:
)
)1(
;(ˆ
n
pp
pNp
−
∩
Introdução à estatística descritiva
Introdução à estatística descritiva
Introdução à estatística descritiva
Introdução à estatística descritiva
Introdução à estatística descritiva
Introdução à estatística descritiva
Introdução à estatística descritiva
Introdução à estatística descritiva
Introdução à estatística descritiva
Introdução à estatística descritiva
Introdução à estatística descritiva
Introdução à estatística descritiva
Introdução à estatística descritiva
Introdução à estatística descritiva
Introdução à estatística descritiva
Introdução à estatística descritiva
Introdução à estatística descritiva
Introdução à estatística descritiva
Introdução à estatística descritiva
Introdução à estatística descritiva
Introdução à estatística descritiva
Introdução à estatística descritiva
Introdução à estatística descritiva
Introdução à estatística descritiva
Introdução à estatística descritiva
Introdução à estatística descritiva
Introdução à estatística descritiva
Introdução à estatística descritiva
Introdução à estatística descritiva
Introdução à estatística descritiva
Introdução à estatística descritiva
Introdução à estatística descritiva
Introdução à estatística descritiva
Introdução à estatística descritiva
Introdução à estatística descritiva
Introdução à estatística descritiva
Introdução à estatística descritiva
Introdução à estatística descritiva
Introdução à estatística descritiva
Introdução à estatística descritiva
Introdução à estatística descritiva
Introdução à estatística descritiva
Introdução à estatística descritiva
Introdução à estatística descritiva
Introdução à estatística descritiva
Introdução à estatística descritiva
Introdução à estatística descritiva
Introdução à estatística descritiva
Introdução à estatística descritiva
Introdução à estatística descritiva
Introdução à estatística descritiva
Introdução à estatística descritiva
Introdução à estatística descritiva
Introdução à estatística descritiva
Introdução à estatística descritiva
Introdução à estatística descritiva
Introdução à estatística descritiva
Introdução à estatística descritiva

Mais conteúdo relacionado

Mais procurados

Caderno de Exercícios – Estatística com solução
Caderno de Exercícios – Estatística com soluçãoCaderno de Exercícios – Estatística com solução
Caderno de Exercícios – Estatística com soluçãoOutliers Academy
 
Questões de provas e simulados probabilidade e estatística junho 2014
Questões de provas e simulados probabilidade e estatística junho 2014Questões de provas e simulados probabilidade e estatística junho 2014
Questões de provas e simulados probabilidade e estatística junho 2014Nina Silva
 
Livro pdf - Estatística e Probabilidade: exercícios resolvidos - Prof. MSc. U...
Livro pdf - Estatística e Probabilidade: exercícios resolvidos - Prof. MSc. U...Livro pdf - Estatística e Probabilidade: exercícios resolvidos - Prof. MSc. U...
Livro pdf - Estatística e Probabilidade: exercícios resolvidos - Prof. MSc. U...Prof MSc Uanderson Rebula
 
Física 1º ano prof. pedro ivo - (movimento uniformemente variado )
Física 1º ano   prof. pedro ivo - (movimento uniformemente variado )Física 1º ano   prof. pedro ivo - (movimento uniformemente variado )
Física 1º ano prof. pedro ivo - (movimento uniformemente variado )Pedro Ivo Andrade Sousa
 
Exercicios resolv estatistica
Exercicios resolv estatisticaExercicios resolv estatistica
Exercicios resolv estatisticaJosi2010
 
Slide de Estatística Aplicada à Educação
Slide de Estatística Aplicada à EducaçãoSlide de Estatística Aplicada à Educação
Slide de Estatística Aplicada à EducaçãoEduardo Alves dos Reis
 
Exercicios amostragem e tamanho amostra
Exercicios amostragem e tamanho amostraExercicios amostragem e tamanho amostra
Exercicios amostragem e tamanho amostramorozo
 
Estatística Para Engenharia - Correlação e Regressão Linear - Exercícios.
Estatística Para Engenharia - Correlação e Regressão Linear - Exercícios.Estatística Para Engenharia - Correlação e Regressão Linear - Exercícios.
Estatística Para Engenharia - Correlação e Regressão Linear - Exercícios.Jean Paulo Mendes Alves
 
Estatística 8.º ano
Estatística 8.º anoEstatística 8.º ano
Estatística 8.º anoaldaalves
 
Estatística
EstatísticaEstatística
Estatísticaaldaalves
 

Mais procurados (20)

Caderno de Exercícios – Estatística com solução
Caderno de Exercícios – Estatística com soluçãoCaderno de Exercícios – Estatística com solução
Caderno de Exercícios – Estatística com solução
 
Estatística Descritiva
Estatística DescritivaEstatística Descritiva
Estatística Descritiva
 
Questões de provas e simulados probabilidade e estatística junho 2014
Questões de provas e simulados probabilidade e estatística junho 2014Questões de provas e simulados probabilidade e estatística junho 2014
Questões de provas e simulados probabilidade e estatística junho 2014
 
Aula 05 Gráficos Estatísticos
Aula 05   Gráficos EstatísticosAula 05   Gráficos Estatísticos
Aula 05 Gráficos Estatísticos
 
Aula 12 medidas de dispersão
Aula 12   medidas de dispersãoAula 12   medidas de dispersão
Aula 12 medidas de dispersão
 
Séries temporais
Séries temporaisSéries temporais
Séries temporais
 
Livro pdf - Estatística e Probabilidade: exercícios resolvidos - Prof. MSc. U...
Livro pdf - Estatística e Probabilidade: exercícios resolvidos - Prof. MSc. U...Livro pdf - Estatística e Probabilidade: exercícios resolvidos - Prof. MSc. U...
Livro pdf - Estatística e Probabilidade: exercícios resolvidos - Prof. MSc. U...
 
Física 1º ano prof. pedro ivo - (movimento uniformemente variado )
Física 1º ano   prof. pedro ivo - (movimento uniformemente variado )Física 1º ano   prof. pedro ivo - (movimento uniformemente variado )
Física 1º ano prof. pedro ivo - (movimento uniformemente variado )
 
Exercicios resolv estatistica
Exercicios resolv estatisticaExercicios resolv estatistica
Exercicios resolv estatistica
 
Slide de Estatística Aplicada à Educação
Slide de Estatística Aplicada à EducaçãoSlide de Estatística Aplicada à Educação
Slide de Estatística Aplicada à Educação
 
Estatistica descritiva
Estatistica descritiva Estatistica descritiva
Estatistica descritiva
 
Amostragem mauro grisi21092016
Amostragem mauro grisi21092016Amostragem mauro grisi21092016
Amostragem mauro grisi21092016
 
Exercicios amostragem e tamanho amostra
Exercicios amostragem e tamanho amostraExercicios amostragem e tamanho amostra
Exercicios amostragem e tamanho amostra
 
Exercicio resolvidos de estatistica 2
Exercicio resolvidos de estatistica 2Exercicio resolvidos de estatistica 2
Exercicio resolvidos de estatistica 2
 
Conceitos Básicos de Estatística I
Conceitos Básicos de Estatística IConceitos Básicos de Estatística I
Conceitos Básicos de Estatística I
 
Estatística Para Engenharia - Correlação e Regressão Linear - Exercícios.
Estatística Para Engenharia - Correlação e Regressão Linear - Exercícios.Estatística Para Engenharia - Correlação e Regressão Linear - Exercícios.
Estatística Para Engenharia - Correlação e Regressão Linear - Exercícios.
 
Estatística 8.º ano
Estatística 8.º anoEstatística 8.º ano
Estatística 8.º ano
 
Estatística
EstatísticaEstatística
Estatística
 
Estatística
EstatísticaEstatística
Estatística
 
Estatística
EstatísticaEstatística
Estatística
 

Semelhante a Introdução à estatística descritiva

dokumen.tips_estatistica-aplicada-exercicios-resolvidos-manual-tecnico-forman...
dokumen.tips_estatistica-aplicada-exercicios-resolvidos-manual-tecnico-forman...dokumen.tips_estatistica-aplicada-exercicios-resolvidos-manual-tecnico-forman...
dokumen.tips_estatistica-aplicada-exercicios-resolvidos-manual-tecnico-forman...RaquelSilva604657
 
1ª apostila de estatística quimica
1ª apostila de estatística  quimica1ª apostila de estatística  quimica
1ª apostila de estatística quimicaMarianne Soares
 
Apostila de estatistica
Apostila de estatisticaApostila de estatistica
Apostila de estatisticaPedro Kangombe
 
Apostila de estatistica
Apostila de estatisticaApostila de estatistica
Apostila de estatisticaAna
 
Capítulo ii estatística iniciais
Capítulo ii   estatística  iniciaisCapítulo ii   estatística  iniciais
Capítulo ii estatística iniciaiscon_seguir
 
Capítulo 1 livro básico probabiliade
Capítulo 1  livro básico probabiliadeCapítulo 1  livro básico probabiliade
Capítulo 1 livro básico probabiliadeWodson Vieira Gomes
 
35302050 apostila-de-estatistica-basica (1)
35302050 apostila-de-estatistica-basica (1)35302050 apostila-de-estatistica-basica (1)
35302050 apostila-de-estatistica-basica (1)Luccy Crystal
 
Curso_de_Estatística_Aplicada_Usando_o_R.ppt
Curso_de_Estatística_Aplicada_Usando_o_R.pptCurso_de_Estatística_Aplicada_Usando_o_R.ppt
Curso_de_Estatística_Aplicada_Usando_o_R.pptssuser2b53fe
 
Estatística aplicada à gestão de recursos humanos
Estatística aplicada  à gestão de recursos humanosEstatística aplicada  à gestão de recursos humanos
Estatística aplicada à gestão de recursos humanosaurelio2machado
 
Aula de Gráficos - Bioestatistica
Aula de Gráficos - BioestatisticaAula de Gráficos - Bioestatistica
Aula de Gráficos - BioestatisticaFisio Unipampa
 
Introdução à estatística 01 alunos
Introdução à estatística 01 alunosIntrodução à estatística 01 alunos
Introdução à estatística 01 alunosCézar Guerra
 
Apresentacao quanti v4
Apresentacao quanti v4Apresentacao quanti v4
Apresentacao quanti v4Procambiental
 

Semelhante a Introdução à estatística descritiva (20)

dokumen.tips_estatistica-aplicada-exercicios-resolvidos-manual-tecnico-forman...
dokumen.tips_estatistica-aplicada-exercicios-resolvidos-manual-tecnico-forman...dokumen.tips_estatistica-aplicada-exercicios-resolvidos-manual-tecnico-forman...
dokumen.tips_estatistica-aplicada-exercicios-resolvidos-manual-tecnico-forman...
 
23126 estatisticaaplicada manualtecnicoformando
23126 estatisticaaplicada manualtecnicoformando23126 estatisticaaplicada manualtecnicoformando
23126 estatisticaaplicada manualtecnicoformando
 
1ª apostila de estatística quimica
1ª apostila de estatística  quimica1ª apostila de estatística  quimica
1ª apostila de estatística quimica
 
Apostila de estatistica
Apostila de estatisticaApostila de estatistica
Apostila de estatistica
 
Estatistica
EstatisticaEstatistica
Estatistica
 
Analisando dados
Analisando dadosAnalisando dados
Analisando dados
 
Apostila de estatistica
Apostila de estatisticaApostila de estatistica
Apostila de estatistica
 
Apostila de estatistica
Apostila de estatisticaApostila de estatistica
Apostila de estatistica
 
2012 aula1 (1)
2012 aula1 (1)2012 aula1 (1)
2012 aula1 (1)
 
Introdução a Estatistica 1.pdf
Introdução a Estatistica 1.pdfIntrodução a Estatistica 1.pdf
Introdução a Estatistica 1.pdf
 
Atps estatistica 2
Atps estatistica 2Atps estatistica 2
Atps estatistica 2
 
Capítulo ii estatística iniciais
Capítulo ii   estatística  iniciaisCapítulo ii   estatística  iniciais
Capítulo ii estatística iniciais
 
Capítulo 1 livro básico probabiliade
Capítulo 1  livro básico probabiliadeCapítulo 1  livro básico probabiliade
Capítulo 1 livro básico probabiliade
 
35302050 apostila-de-estatistica-basica (1)
35302050 apostila-de-estatistica-basica (1)35302050 apostila-de-estatistica-basica (1)
35302050 apostila-de-estatistica-basica (1)
 
Curso_de_Estatística_Aplicada_Usando_o_R.ppt
Curso_de_Estatística_Aplicada_Usando_o_R.pptCurso_de_Estatística_Aplicada_Usando_o_R.ppt
Curso_de_Estatística_Aplicada_Usando_o_R.ppt
 
Estatística aplicada à gestão de recursos humanos
Estatística aplicada  à gestão de recursos humanosEstatística aplicada  à gestão de recursos humanos
Estatística aplicada à gestão de recursos humanos
 
Aula de Gráficos - Bioestatistica
Aula de Gráficos - BioestatisticaAula de Gráficos - Bioestatistica
Aula de Gráficos - Bioestatistica
 
Estatistica completo revisado
Estatistica completo revisadoEstatistica completo revisado
Estatistica completo revisado
 
Introdução à estatística 01 alunos
Introdução à estatística 01 alunosIntrodução à estatística 01 alunos
Introdução à estatística 01 alunos
 
Apresentacao quanti v4
Apresentacao quanti v4Apresentacao quanti v4
Apresentacao quanti v4
 

Introdução à estatística descritiva

  • 1.
  • 3. Manual de Exercícios Estatística Aplicada 2 ÍNDICE 1. INTRODUÇÃO .............................................….................................... 4 1.1 Definições Gerais ........................................................................ 5 1.1.1. População 5 1.1.2. Variáveis ou atributos 5 1.1.3. Processo de amostragem 5 1.2 A Estatística Descritiva e a Estatística Indutiva .............…...... 6 2. ESTATÍSTICA DESCRITIVA .............................................…................... 8 2.1 Variáveis Qualitativas ................................................................. 8 2.2 Variáveis Quantitativas Discretas ............................................. 9 2.3 Variáveis Quantitativas Contínuas ............................................ 10 2.4 Medidas de Localização ............................................................. 11 2.4.1. Média 11 2.4.2. Mediana 12 2.4.3. Moda 13 2.5 Medidas de Ordem ...................................................................... 13 2.6 Medidas de Assimetria ............................................................... 14 2.7 Medidas de Dispersão ................................................................ 15 2.7.1. Dispersão Absoluta 15 2.7.2. Dispersão Relativa 16 2.8 Análise de Concentração ........................................................... 17 2.8.1. Curva de Lorenz 17 2.8.2. Índice de Gini 18 2.9 Estatística Descritiva Bidimensional ........................................ 19
  • 4. Manual de Exercícios Estatística Aplicada 3 3. ESTATÍSTICA INDUTIVA .............................................…...................... 45 3.1 Noções básicas de probabilidades ........................................... 45 3.2 Probabilidade condicionada ...................................................... 48 3.3 Funções de Probabilidade ........................................….............. 49 3.4 Estimação por Intervalos ..........................................….............. 76 3.5 Testes de hipóteses ..................................................….............. 89 3.6 Aplicações Estatísticas: Fiabilidade ......................................... 105 3.6.1. Conceito de fiabilidade 105 3.6.2. Fiabilidade de um sistema 105 3.7 Aplicações Estatísticas: Controlo Estatístico de Qualidade .. 110 3.8 Aplicações Estatísticas: Tratamento Estatístico de Inquéritos . 114 3.8.1. Teste de independência do qui-quadrado 114
  • 5. Manual de Exercícios Estatística Aplicada 4 "A estatística é a técnica de torturar os números até que eles confessem". Autor desconhecido 1. INTRODUÇÃO Inicialmente, a actividade estatística surgiu como um ramo da Matemática. Limitava-se ao estudo de medições e técnicas de contagem de fenómenos naturais e ao cálculo de probabilidades de acontecimentos que se podiam repetir indefinidamente. Actualmente, os métodos estatísticos são utilizados em muitos sectores de actividade, tendo como algumas aplicações estudos de fiabilidade, pesquisas de mercado, testes de controle de qualidade, tratamento de inquéritos, sondagens, modelos econométricos, previsões, etc. Exemplo de uma estatística: os valores da inflação entre 1980 e 1990 constituem uma estatística. Fazer estatística sobre estes dados poderia consistir, por exemplo, em traçar gráficos, calcular a inflação média trimestral ou prever a inflação para 1991. A análise de um problema estatístico desenvolve-se ao longo de várias fases distintas: (i) Definição do Problema Saber exactamente aquilo que se pretende pesquisar; estabelecer o objectivo de análise e definição da população (ii) Amostragem e Recolha de Dados Fase operacional. É o processo de selecção e registo sistemático de dados, com um objectivo determinado. Os dados podem ser primários (publicados pela própria pessoa ou organização) ou secundários (quando são publicados por outra organização). (iii) Tratamento e Apresentação dos Dados Resumo dos dados através da sua contagem e agrupamento. É a classificação de dados, recorrendo a tabelas ou gráficos.
  • 6. Manual de Exercícios Estatística Aplicada 5 (iv)Análise e Interpretação dos Dados A última fase do trabalho estatístico é a mais importante e delicada. Está ligada essencialmente ao cálculo de medidas e coeficientes, cuja finalidade principal é descrever o comportamento do fenómeno em estudo (estatística descritiva). Na estatística indutiva a interpretação dos dados se fundamentam na teoria da probabilidade. 1.1. Definições Gerais 1.1.1. População Fazer estatística pressupõe o estudo de um conjunto de objectos bem delimitado com alguma característica em comum sobre os quais observamos um certo número de atributos designados por variáveis. Exemplo: Empresas existentes em Portugal 1.1.2. Variáveis ou atributos As propriedades de uma população são estudadas observando um certo número de variáveis ou atributos. As variáveis podem ser de natureza qualitativa ou quantitativa. As variáveis quantitativas podem ainda dividir-se entre discretas e contínuas. As variáveis discretas assumem apenas um número finito numerável de valores. As variáveis contínuas podem assumir um número finito não numerável ou um número infinito de valores. Exemplo: um conjunto de empresas pode ser analisado em termos de sector de actividade (atributo qualitativo), número de trabalhadores (atributo quantitativo discreto), rácio de autonomia financeira (atributo quantitativo contínuo), etc 1.1.3. Processo de amostragem Para conhecer de forma completa a população, podem efectuar-se:
  • 7. Manual de Exercícios Estatística Aplicada 6 - recenseamentos (indagação completa de todos os elementos da população); este processo é, no entanto, tipicamente moroso e dispendioso, sendo esses os motivos porque os Censos são realizados apenas em cada 10 anos. - estudos por amostragem (observação de apenas um subconjunto, tido como representativo do universo). As técnicas de recolha de amostras garantem a sua representatividade e aleatoriedade. 1.2. A Estatística Descritiva e a Estatística Indutiva Para além do ramo de amostragem, a estatística compreende dois grandes ramos: a estatística descritiva e a estatística indutiva. A estatística descritiva é o ramo da estatística que se encarrega do tratamento e análise de dados amostrais. Assim, depois de recolhida a amostra de acordo com técnicas que garantem a sua representatividade e aleatoriedade, fica disponível um conjunto de dados sobre o universo “em bruto” ou não classificados. Para que seja possível retirar qualquer tipo de conclusões, torna- se necessário classificar os dados, recorrendo a tabelas de frequências e a representações gráficas, isto é, é preciso tratar os dados. Depois de tratados, será possível proceder à análise dos dados através de várias medidas que descrevem o seu comportamento: localização, dispersão, simetria dos dados, concentração, etc. São disso exemplo indicadores numéricos bem conhecidos como a média ou a variância. A estatística indutiva é o ramo da estatística que se ocupa em inferir das conclusões retiradas sobre a amostra para a população. De facto, a amostra não é mais do que um passo intermédio e exequível de obter informações sobre o verdadeiro objecto de estudo, que é o universo. A estatística indutiva (ou inferência estatística) garante a ligação entre amostra e universo: se algo se concluiu acerca da amostra, até que ponto é possível afirmar algo semelhante para o universo? É nesta fase que se procuram validar as hipóteses formuladas numa fase prévia exploratória. Claro que o processo de
  • 8. Manual de Exercícios Estatística Aplicada 7 indução implica um certo grau de incerteza associado à tentativa de generalização de conclusões da “parte” (amostra) para o “todo” (universo). O conceito de probabilidade vai ter aqui, então, um papel fundamental. Isto é, não vai ser possível afirmar com toda a certeza que o comportamento da amostra ilustra perfeitamente o comportamento do universo, mas apenas que o faz com forte probabilidade. As inferências indutivas são assim elaboradas medindo, ao mesmo tempo, o respectivo grau de incerteza. Daí que, na ficha das técnicas das sondagens eleitorais, por exemplo, apareçam referências ao “nível de confiança” associado aos resultados e ao “erro” cometido. O esquema seguinte ilustra a “roda” da disciplina de estatística, relacionando os seus diferentes ramos: POPULAÇÃO OU UNIVERSO Amostragem TRATAMENTO E ANÁLISE DA AMOSTRA Estatística Descritiva Inferência Estatística INFERIR DA AMOSTRA PARA O UNIVERSO Gráficos; tabelas; medidas descritivas Previsões Estimação Erros AMOSTRA
  • 9. Manual de Exercícios Estatística Aplicada 8 2.ESTATÍSTICA DESCRITIVA Os resultados da observação de um atributo sobre os elementos do conjunto a analisar constituem os dados estatísticos. O ramo da estatística que se ocupa do tratamento, apresentação e análise de dados amostrais denomina-se de estatística descritiva. 2.1. Variáveis Qualitativas Os dados qualitativos são organizados na forma de uma tabela de frequências, que representa o número ni de elementos de cada uma das categorias ou classes e que é chamado de frequência absoluta. A soma de todas as frequências é igual à dimensão da amostra (n). Numa tabela de frequências, além das frequências absolutas, também se apresentam as frequências relativas (fi), obtida dividindo a frequência absoluta pelo número total de observações. Modalidades Frequências absolutas Frequências relativas Mod. 1 n1 f1 Mod. j nj fj Mod. n nn fn Total n: dimensão da amostra 1 n ni fi = ; ni: nºde vezes que cada modalidade da variável foi observada.
  • 10. Manual de Exercícios Estatística Aplicada 9 Estes dados podem também ser representados graficamente através de: Diagrama de barras Para cada modalidade, desenha-se uma barra de altura igual à frequência absoluta ou relativa (as frequências relativas são de preferir, pois permitem a comparação de amostras de diferentes dimensões). Diagrama sectorial ou circular Esta representação é constituída por um círculo, em que se apresentam tantas “fatias” quantas as modalidades em estudo. O ângulo correspondente a cada modalidade é proporcional às frequências das classes, fazendo corresponder o total da amostra (n) a 360º Geralmente, juntamente com a identificação da modalidade, indica-se a frequência relativa respectiva. 2.2. Variáveis Quantitativas Discretas São variáveis que assumem um número finito ou infinito numerável de valores. A apresentação destas amostras é semelhante às variáveis qualitativas, fazendo-se uma tabela de frequências e uma representação gráfica recorrendo ao diagrama de barras. Valores da variável Frequências absolutas Frequências relativas X1 n1 f1 Xj nj fj Xn nn fn Total n: dimensão da amostra 1 Também é possível calcular as frequências (absolutas – Ni - e relativas - Fi) acumuladas, como se pode ver no exemplo: Nºdefeituosos (X) Nºembalagens (ni) % embalagens (fi) Ni Fi 0 80 40% 80 40% 1 60 30% 80+60 40%+30% 2 30 15% 170 85% 3 20 10% 190 95% 4 10 5% 200 100% Total 200 1
  • 11. Manual de Exercícios Estatística Aplicada 10 2.3. Variáveis Quantitativas Contínuas Como foi dito anteriormente, uma variável (ou atributo) é contínua quando assume um número infinito não numerável de valores, isto é, podem assumir qualquer valor dentro de um intervalo. Neste caso, a construção da tabela compreende duas etapas: (i) Definição de classes de valores disjuntas, correspondentes a intervalos de números reais fechados à esquerda e abertos à direita, cuja constituição obedece a certas regras (ii) Contagem das observações pertencentes a cada classe Regra de construção de classes (pressupõe a formação de classes de igual amplitude) - Número de classes a constituir Depende de n = dimensão da amostra Se n≥25, o número de classes a constituir deve ser 5 Se n<25, o número de classes a constituir deve ser n - Amplitude comum a todas as classes Sendo a amplitude total dos dados dada pela diferença entre o valor máximo e o valor mínimo observados, então a amplitude de cada classe será: Valor máximo da variável observado – Valor mínimo da variável observado Nºde classes a constituir Classes de valores da variável Frequências absolutas Frequências relativas [x1; x2[ n1 f1 [x2; x3[ [x3; x4[ nj fj [xn-1; xn] n fn Total n: dimensão da amostra 1 A distribuição de frequências representa-se através de um histograma. Um histograma é uma sucessão de rectângulos adjacentes, em que a base é uma classe e a altura a frequência (relativa ou absoluta) por unidade de amplitude (ni/ai ou fi/ai), sendo a amplitude de cada classe ai=ei-ei-1. A área total do histograma é a soma das frequências relativas, isto é, 1.
  • 12. Manual de Exercícios Estatística Aplicada 11 1. Esta distribuição permite visualizar o tipo de distribuição e deve salientar alguns aspectos mais relevantes desta (moda, classe modal, ...). Como as classes podem ter amplitudes diferentes, para que todos os rectângulos (colunas) sejam comparáveis é necessário corrigir as frequências das classes (calculando as frequências que se teria se a amplitude de todas as classes fosse igual e igual a 1) 2. É preferível representar o histograma com fi/hi do que com ni/hi uma vez que deste modo é possível comparar distribuições com diferente número de observações amostrais. Também é possível calcular as frequências (absolutas – Ni - e relativas - Fi) acumuladas. 2.4. Medidas de localização 2.4.1. Média ( X ) É a medida de localização mais usada, sobretudo pela sua facilidade de cálculo. Dados não-classificados (não agrupados numa tabela de frequências) = = n i ix n x 1 1 Média aritmética simples Dados classificados (isto é, agrupados numa tabela de frequências) Variáveis discretas == == n i iii n i i xfxn n x 11 1 Média ponderada dos valores de X Dados classificados (isto é, agrupados numa tabela de frequências) Variáveis contínuas == == n i iii n i i cfcn n x 11 1 Média ponderada dos pontos médios das classes
  • 13. Manual de Exercícios Estatística Aplicada 12 onde ci é o ponto médio de cada classe ( 2 .sup.lim.inf.lim + ) A média é uma medida de localização que, geralmente, indica o valor central da distribuição, entendido como o valor em torno do qual se distribuem os valores observados. Desta forma, a média é muitas vezes utilizada como valor representativo da amostra. No entanto, a média tem o grande inconveniente de ser sensível a valores muito extremados ou aberrantes da distribuição (outliers). Em casos desses, a média deixa de ser um valor que aparece na parte central da distribuição para ser “empurrada” para os extremos. Nestes casos, é preferível recorrer à informação complementar fornecida por outras medidas de localização, como a moda e a mediana, que se definem a seguir. 2.4.2. Mediana (Me) A mediana não se calcula a partir do valor de todas as observações, mas a partir da posição dessas observações. Dados não-classificados Se tivermos n valores x1, x2, ... xn Se n fôr ímpar, 2 1+= nxMe Se n fôr par, 2 1 22 + + = nn xx Me Dados classificados A mediana é o valor tal que Fi = 0,5 Variáveis discretas Se existe um valor de xi para o qual Fi = 0,5, então fala-se em intervalo mediano.
  • 14. Manual de Exercícios Estatística Aplicada 13 Se não existe nenhum valor de xi para o qual Fi = 0,5, então a mediana é o primeiro valor para o qual Fi > 0,5. Variáveis contínuas Em geral, determina-se o valor para o qual Fi = 0,5 através de uma regra de três simples, atendendo a que as frequências acumuladas variam uniformemente dentro de cada classe. De uma forma geral: medianaclassexamp FLFL FL LMe . infsup inf5.0 inf − − += 2.4.3. Moda (Mo) Variáveis discretas A moda é valor de X para o qual fi é máximo, isto é, é o valor mais frequente da distribuição. Variáveis contínuas A classe modal é a classe de valores de X para o qual fi/hi é máximo, isto é, é a classe a que corresponde maior frequência por unidade de amplitude. 2.5. Medidas de ordem Tal como se definiu para a mediana, é possível definir outros valores de posição ou valores separadores da distribuição em partes iguais. Chama-se quantil de ordem p ao valor de x a que corresponde Fi = p. - Se p=0,01; 0,02;.....0,99, chama-se ao quantil percentil - Se p=0,1; 0,2;...0,9, chama-se ao quantil decil - Se p=0,25, 0,5, 0,75, chama-se ao quantil QUARTIL (Q1, Q2 e Q3). A mediana é uma caso particular dos quartis (coincide com Q2) Variável discreta O quantil de ordem p é o primeiro valor de x para o qual i>p.
  • 15. Manual de Exercícios Estatística Aplicada 14 Variável contínua Calcula-se por uma regra de três simples, como a mediana. De uma forma geral: 1. infsup inf25.0 inf1 Qclassexamp FLFL FL LQ − − += 3. infsup inf75.0 inf3 Qclassexamp FLFL FL LQ − − += A representação gráfica destas medidas designa-se de diagrama de extremos e quartis e serve para realçar algumas características da amostra. Os valores da amostra compreendidos entre os 1º e 3º quartis são representados por um rectângulo (caixa) com a mediana indicada por uma barra. Seguidamente, consideram-se duas linhas que unem os meios dos lados do rectângulo com os extremos da amostra. A partir deste diagrama, pode reconhecer-se a simetria ou enviesamento dos dados e a sua maior ou menor concentração: 2.6. Medidas de assimetria A assimetria é tanto maior quanto mais afastados estiverem os valores da média, mediana e moda. Concretamente, se: − X = Me = Mo, a distribuição diz-se simétrica − X > Me > Mo, a distribuição diz-se assimétrica positiva (ou enviesada à esquerda) − X < Me < Mo, a distribuição diz-se assimétrica negativa (ou enviesada à direita) Coeficiente de assimetria de Bowley (g’): 13 )12()23( QQ QQQQ − −−− Se g’ = 0 ..............a distribuição é simétrica positiva ou equilibrada Os quartis estão à mesma distância da mediana. Se g’ > 0 ..............a distribuição é assimétrica positiva ou “puxada” para 25% maiores
  • 16. Manual de Exercícios Estatística Aplicada 15 a esquerda (se fôr = 1, assimetria é máxima) A mediana desliza para o lado do Q1, logo Q3-Q2 > Q2-Q1 Se g’ < 0 ..............a distribuição é assimétrica negativa ou “puxada” para a direita (se fôr = -1, assimetria é máxima) A mediana desliza para o lado do Q3, logo Q2-Q1 > Q3-Q2 2.7. Medidas de dispersão Duas distribuições podem distinguir-se na medida em que os valores da variável se dispersam relativamente ao ponto de localização (média, mediana, moda). Apresentam-se de seguida algumas das mais utilizadas, classificadas consoante a medida de localização usada para referenciar a dispersão das observações: 2.7.1 Medidas de dispersão absoluta (i) Em relação à mediana Amplitude inter-quartis = Q = Q3 – Q1 Significa que 50% das observações se situam num intervalo de amplitude Q. Quanto maior (menor) a amplitude do intervalo, maior (menor) a dispersão em torno da mediana. (ii) Em relação à média Variância amostral: mede os desvios quadráticos de cada valor observado em relação à média, havendo pouca dispersão se os desvios forem globalmente pequenos, e havendo muita dispersão se os desvios forem globalmente grandes. Q1 Q2 Q3 Assimétrica positiva Assimétrica negativa Q1 Q2 Q3
  • 17. Manual de Exercícios Estatística Aplicada 16 Dados não-classificados ( ) 2 1 2 1 = −= n i xxi n s Dados classificados Variáveis discretas ( ) ( ) == −=−= n i n i xxifixxini n s 1 2 2 1 2 1 Dados classificados Variáveis contínuas ( ) ( ) == −=−= n i n i xcifixcini n s 1 2 2 1 2 1 onde ci é o ponto médio de cada classe i. Desvio-padrão: Medida de dispersão com significado real, mas que só é possível calcular indirectamente, através da raiz quadrada da variância. Está expressa nas mesmas unidades da variável. 2.7.2 Medidas de dispersão relativa Muitas vezes, avaliar a dispersão através de um indicador de dispersão absoluta não é conveniente, assim como comparara a dispersão de duas distribuições, uma vez que estas medidas vêm expressas na mesma unidade da variável – como é o caso, por exemplo, da variância. Assim, é de esperar que os valores da variância sejam mais elevados quando os valores da variável são maiores, o que não significa que a distribuição seja muito dispersa. Para comparar diferentes distribuições de frequência são precisas medidas de dispersão relativa: definidaestáqualàrelaçãoemolocalizaçãdeMedida absolutaDispersão relativaDispersão =
  • 18. Manual de Exercícios Estatística Aplicada 17 Coeficiente de variação x s CV = x100% Outras medidas 2 13 Q QQ − Estas medidas não estão expressas em nenhuma unidade, e permitem comparar dispersões entre duas amostras, pois não são sensíveis à escala (eventualmente diferente) em que as variáveis estejam expressas. 2.8. Análise da concentração A noção de concentração apareceu associada ao estudo de desigualdades económicas, como a repartição do rendimento ou a distribuição de salários. O fenómeno de concentração está relacionado com a variabilidade ou dispersão dos valores observados, apesar de não poder ser analisado através das medidas de dispersão atrás descritas, que apenas medem a dispersão dos valores em relação a um ponto. O objectivo é determinar como o atributo (rendimento, salários, número de empresas) se distribui (se de forma mais ou menos uniforme) pelos diferentes indivíduos da amostra (que devem ser susceptíveis de serem adicionados, isto é, a análise de concentração não se aplica a idade, altura, peso, etc). Se o atributo estiver igualmente repartido pelos indivíduos, temos uma situação extrema de igual distribuição; e vice-versa de o atributo estiver concentrado num só indivíduo, temos uma situação extrema de máxima concentração. Em geral, interessa medir o grau de concentração em situações intermédias. Para analisar a concentração, existem dois instrumentos: a Curva de Lorenz e o Índice de Gini. 2.8.1 Curva de Lorenz
  • 19. Manual de Exercícios Estatística Aplicada 18 O objectivo é comparar a evolução das frequências acumuladas (Fi = pi) com a evolução da soma dos valores da variável (qi) Quadro de dados Classes de valores da variável ni Quantidade atributo Freq.relativa acumuladas Proporção atrib.acumul, [x1; x2[ n1 yi p1 q1 [x2; x3[ [x3; x4[ nj yj pj qj [xn-1; xn[ nn yn pn=1 qn=1 Total n Os pontos (pi;qi) pertencem ao quadrado (0,1) por (0,1). A curva que os une é a curva de Lorenz. Se houver igual distribuição, a frequência das observações deve ter uma evolução igual à proporção do atributo correspondente, isto é, pi=qi. Nesse caso, a curva de Lorenz coincide com a diagonal do quadrado, que é designada de recta de igual repartição. Quanto mais a curva se afastar da recta, maior é a concentração. A zona entre a diagonal e acurva de Lorenz designa-se, por isso, de zona de concentração. 2.8.2 Índice de Gini O índice de Gini é calculado pela seguinte expressão − = − = − = 1 1 1 1 )( n i n i pi qipi G Quando G = 0, a concentração é nula, havendo igual repartição. Caso o valor de G seja 1, a concentração será máxima. O valor de G varia entre 0 e 1, e quanto maior o seu valor, maior a concentração.
  • 20. Manual de Exercícios Estatística Aplicada 19 2.9. Estatística Descritiva Bidimensional Numa situação em que se observam pares de valores (xi; yj), pode ter interesse estudar as relações porventura existentes entre os dois fenómenos, nomeadamente relações estatísticas. Não se trata de estudar relações funcionais (isto é, a medida em que o valor de uma variável é determinado exactamente pela outra), mas sim de estudar a forma como a variação de uma variável poderá afectar a variação da outra, em média. (por exemplo, o peso e a altura normalmente estão relacionados, mas a relação não é determinística). Duas variáveis ligadas por uma relação estatística dizem-se correlacionadas. Se as variações ocorrem, em média ou tendencialmente, no mesmo sentido, a correlação diz-se positiva. Se ocorrem em sentidos opostos, a correlação diz- se negativa. Trata-se então de estudar se: - Se existe alguma correlação entre os fenómenos ou variáveis observadas - A existir, se é traduzível por alguma lei matemática, nem que tendencialmente - A existir, se é possível medi-la Por vezes, a representação gráfica do conjunto de dados bivariados sugere o ajustamento de uma recta a este conjunto de pontos, indicando a existência de uma tendencial correlação linear entre as duas variáveis, como é o caso do exemplo atrás descrito. A essa recta chama-se recta de regressão de y sobre x, que permite descrever como se reflectem em y (variável dependente ou explicada) as modificações processadas em x (variável independente ou explicativa). Essa recta torna possível, por exemplo, inferir (em média) a altura de um indivíduo, conhecendo o respectivo peso. Um dos métodos mais conhecidos de ajustar uma recta a um conjunto de dados é o Método dos Mínimos Quadrados, que consiste em determinar a recta que minimiza a soma dos quadrados dos desvios entre os verdadeiros valores de y e os obtidos a partir da recta que se pretende ajustar. Obtém-se assim a
  • 21. Manual de Exercícios Estatística Aplicada 20 recta de regressão ou recta dos mínimos quadrados. Assim, se a recta de regressão obedecer à seguinte fórmula geral: y = a + bx o método permite minimizar a soma dos desvios quadráticos yi - (a + bxi). Assim sendo, obtém-se: − − = 22 xnx yxnyx b i ii e xbya −= Matematicamente, b designa o declive da recta. Em termos estatísticos, b corresponde ao coeficiente de regressão de y sobre x, que indica a variação média de y que acompanha uma variação unitária de x. O valor de a designa a ordenada na origem, isto é, o valor que y assume quando x=0. Quando, quer através do diagrama de dispersão, quer através da recta de regressão, se verifica a existência de uma associação linear entre as variáveis, pode-se medir a maior ou menor força com que as variáveis se associam através do coeficiente de correlação linear r: ))((, 1 yyxxs ss s r i n i ixy yyxx xy −−== = Este indicador da correlação tem a vantagem de não depender das unidades ou da ordem de grandeza em que as variáveis estão expressas. O coeficiente de correlação linear está sempre compreendido entre –1 e 1. Se r > 0, então pode dizer-se que existe uma correlação positiva entre as variáveis, isto é, as variáveis variam no mesmo sentido: um aumento (diminuição de x) provoca um aumento (diminuição) de y, mas menos que proporcional.
  • 22. Manual de Exercícios Estatística Aplicada 21 Se r < 0, então pode dizer-se que existe uma correlação negativa entre as variáveis, isto é, as variáveis variam em sentidos opostos: um aumento (diminuição de x) provoca uma diminuição (aumento) de y, mas menos que proporcional. Se r = 0, então pode dizer-se que as variáveis não estão correlacionadas linearmente. Antes de se efectuar um estudo de correlação, deve-se procurar justificação teórica para a existência ou inexistência de correlação. Caso contrário, poderá acontecer que variáveis sem relação de causalidade entre si, variem num certo sentido por razões exteriores. A esta correlação ilusória, chama-se correlação espúria. Nos extremos, se r = 1 ou se r = -1, então pode dizer-se que existe uma correlação positiva ou negativa perfeita, respectivamente, entre as variáveis, isto é, uma variação numa variável provoca na outra uma variação exactamente proporcional no mesmo sentido ou em sentido contrário. Isto é, a correlação é máxima. Correlação ordinal Por vezes, as variáveis vêm expressas numa escala ordinal, isto é, interessa mais conhecer a ordenação dos valores do que os valores observados propriamente ditos. Neste caso, em vez do coeficiente de correlação linear, calcula-se o coeficiente de correlação ordinal: y i x ii n i i s RRd nn d r −= − −= = , )1( 61 2 1 2 Ordens (“ranks”) das observações de X e de Y, respectivamente
  • 23. Manual de Exercícios Estatística Aplicada 22 ESTATÍSTICA DESCRITIVA Exercícios resolvidos Exercício 1 Considere a distribuição de 1000 empresas de um sector de actividade segundo os resultados líquidos (em milhares de u.m.): Resultado Líquido Frequência. Relativa (%) [0; 1[ 10 [1; 3[ 25 [3; 5[ 35 [5; 15[ 15 [15; 25[ 10 [25; 50[ 5 Total 100 a) Represente a distribuição graficamente. b) Determine a média e a moda da distribuição. Qual o significado dos valores encontrados? c) Calcule as frequências acumuladas e represente-as graficamente. Determine a mediana da distribuição. d) Determine os quartis da distribuição. Faça a sua representação gráfica. e) Analise a (as)simetria da distribuição em causa. f) Analise a concentração através do Índice de Gini e da Curva de Lorenz. Resolução a) 0 0,02 0,04 0,06 0,08 0,1 0,12 0,14 0,16 0,18 0,2 0 10 20 30 40 50 60 fi/hi
  • 24. Manual de Exercícios Estatística Aplicada 23 b) 325,7%)55.37(...%)252(%)105,0( 1 11 =+++=== == xxxcfcn n x n i iii n i i Em média, o resultado líquido de uma empresa é de 7325 unidades monetárias. A classe modal é aquela a que corresponde maior frequência por unidade de amplitude. Neste caso, o maior valor de fi / hi é 0,175. correspondente à classe [3; 5[, isto é, os valores de resultado líquido mais prováveis para uma empresa situam-se entre 3000 u.m. e 5000 u.m. c) A representação gráfica das frequências acumuladas (ver tabela) designa-se de polígono integral: Classe mediana (classe a que corresponde uma frequência acumulada 0,5): [3; 5[ 3 : Fi=0,35 5 : Fi = 0,7 Fi 0 0,2 0,4 0,6 0,8 1 0 20 40 60 80 100 120 X fi hi fi/hi Fi ci [0; 1[ 10% 1 0.1 10% 0.5 [1; 3[ 25% 2 0.125 35% 2 [3; 5[ 35% 2 0.175 70% 4 [5; 15[ 15% 10 0.015 85% 10 [15; 25[ 10% 10 0.01 95% 20 [25; 50] 5% 25 0.002 100% 37.5 Total 1
  • 25. Manual de Exercícios Estatística Aplicada 24 Cálculo da mediana: 0,7 - 0,35 ------------ 5 - 3 0,5 – 0,35 -------------- Me – 3 Me = 3 + ((2x0,15)/0,35) = 3,857 50% das empresas apresentam resultados líquidos inferiores a 3857 u.m. d) Classe a que pertence Q1 (classe a que corresponde uma frequência acumulada 0,25): [1; 3[ 1 : Fi=0,1 3 : Fi = 0,35 Cálculo do Q1: 0,35 - 0,1 ------------ 3 - 1 0,25 – 0,1 -------------- Q1 – 1 Q1 = 1 + ((2x0,15)/0,25) = 2,2 25% das empresas apresentam resultados líquidos inferiores a 2200 u.m. Classe a que pertence Q3 (classe a que corresponde uma frequência acumulada 0,75): [5; 15[ 5 : Fi=0,7 15 : Fi = 0,85 Cálculo do Q3: 0,85 - 0,7 ------------ 15 - 5 0,75 – 0,7 -------------- Q3 – 5 Q3 = 5 + ((10x0,05)/0,15) = 8,333(3) 75% das empresas apresentam resultados líquidos inferiores a 8333 u.m. e) 04596,0 2,2333,8 )2,2857,3()857,3333,8( 13 )12()23( ' >= − −−− = − −−− = QQ QQQQ g A distribuição é assimétrica positiva ou enviesada à esquerda.
  • 26. Manual de Exercícios Estatística Aplicada 25 f) X fi ni ci Atributo pi (=Fi) qi [0; 1[ 10% 1000x10%=100 0.5 100x0.5=50 0.1 0.007 [1; 3[ 25% 250 2 250x2=500 0.35 0.075 [3; 5[ 35% 350 4 1400 0.7 0.266 [5; 15[ 15% 150 10 1500 0.85 0.471 [15; 25[ 10% 100 20 2000 0.95 0.744 [25; 50[ 5% 50 37.5 1875 1 1 Total 1 n=1000 7325 47,0 95,085,07,035,01,0 )744,095,0(...)007,01,0( = ++++ −++− =G A distribuição dos resultados líquidos apresenta concentração média (G=0,5 corresponde ao centro da escala possível, entre 0 e 1). Por exemplo, 70% das empresas apresentavam resultados até 5000 u.m., mas isso representava apenas 26,6% do total de resultados das empresas da amostra, o que sugere um tecido empresarial com muitas PMEs, mas em que cada uma tem baixo resultado líquido. Exercício 2 Considere a seguinte amostra de dimensão 200, referente aos lucros obtidos por empresas de um dado sector industrial, expressas numa determinada unidade monetária. Analise a concentração através do Índice de Gini e da Curva de Lorenz. Res.Liq.Totais 7325 140050050 ++ Curva de Lorenz 0 0,2 0,4 0,6 0,8 1 0 0,2 0,4 0,6 0,8 1
  • 27. Manual de Exercícios Estatística Aplicada 26 Resolução Lucros ni Lucro total pi (=Fi) qi [0; 50[ 20 600 0.1 0.02 [50; 100[ 60 4400 0.4 0.16(6) [100; 200[ 80 14000 0.8 0.63(3) [200; 300[ 30 7500 0.95 0.883(3) [300; 500] 10 3500 1 1 Total 200 30000 243,0 25,2 )6(546,0 )( 1 1 1 1 == − = − = − = n i n i pi qipi G Tanto pela análise da Curva de Lorenz, como pelo valor do Índice de Gini, conclui-se que esta amostra apresenta concentração moderada, encontrando- se os valores razoavelmente repartidos. Exercício 3 Considere o exemplo abaixo referente ao peso e altura de 10 indivíduos. a) Represente o diagrama de dispersão. b) Analise a correlação existente entre peso e altura. c) Ajuste, pelo Método dos Mínimos Quadrados, uma função linear que exprima as peso em função da altura. Curva de Lorenz 0 0,2 0,4 0,6 0,8 1 0 0,2 0,4 0,6 0,8 1
  • 28. Manual de Exercícios Estatística Aplicada 27 Indivíduo Peso (kg) Altura (cm) A 72 175 B 65 170 C 80 185 D 57 154 E 60 165 F 77 175 G 83 182 H 79 178 I 67 175 J 68 173 Resolução a) b) No exemplo, r = 0,90681871, isto é, existe uma correlação positiva forte entre as duas variáveis, quase perfeita. c) Diagrama de Dispersão 150 160 170 180 190 50 60 70 80 90 Peso (kg) Altura(cm) Recta de Regressão y = 0,9016x + 109,36 150 160 170 180 190 50 60 70 80 90 Peso (kg) Altura(cm)
  • 29. Manual de Exercícios Estatística Aplicada 28 A equação desta recta traduz-se em Altura = 109,36 + 0,9016 x Peso Isto é, se um indivíduo pesar 70 kg, a altura esperada será de 109,36 + 0,9016 x 70 = 172,472. Por cada kg de peso adicional, espera-se que a altura do indivíduo aumente 0,9016 cm. Exercício 4 O quadro abaixo apresenta as vendas e as despesas em publicidade (ambas em milhares de u.m.) de uma empresa no período de 7 anos: Ano Vendas Desp. Publicidade 1 10 3 2 13 3 3 18 5 4 19 6 5 25 8 6 30 9 7 35 13 a) Compare as vendas e as despesas em publicidade quanto à dispersão. b) Analise a correlação existente entre volume e custo de produção. c) Ajuste, pelo Método dos Mínimos Quadrados, uma função linear que exprima as vendas em função das despesas em publicidade. Resolução a) Para comparar a dispersão das duas distribuições, é necessário calcular os coeficientes de variação (medidas de dispersão relativa): Dados não-classificados 429,21 1 1 == = n i ix n x 714,6 1 1 == = n i iy n y ( ) 9408,69 1 2 1 2 =−= = n i x xxi n s ( ) 0651,11 1 2 1 2 =−= = n i y yyi n s 39,0 429,21 9408,69 === x s CV x x < 495,0 714,6 0651,11 === y s CV y y A dispersão das despesas em publicidade é superior à dispersão das vendas.
  • 30. Manual de Exercícios Estatística Aplicada 29 b) ( )( ) ( )( )[ ] 98,0 0651,119408,69 714,613429,2135...714,63429,2110 7 1 = −−++−− == xss s r yyxx xy Existe uma correlação positiva linear forte entre as duas variáveis. Em média, quando as despesas em publicidade aumentam (diminuem), as vendas aumentam (diminuem) de forma quase exactamente proporcional. c) Exercício 5 Considere que 10 estudantes foram sujeitos a uma prova de avaliação no início e no final do curso. No quadro abaixo, encontram-se as ordenações desses 10 estudantes segundo as classificações obtidas em cada uma das provas: Aluno Prova inicial Ri x Prova final Ri y di Ri x - Ri y A 1 1 0 B 3 2 1 C 2 3 -1 D 5 4 1 E 7 6 1 F 8 8 0 G 9 7 2 H 10 9 1 I 6 10 -4 J 4 5 -1 Recta de Regressão y = 2,4649x + 4,8782 0 10 20 30 3 8 13 Desp. Public. Vendas
  • 31. Manual de Exercícios Estatística Aplicada 30 Resolução Como não dispomos das classificações dos alunos, mas sim das ordenações das classificações (do 1º ao 10º classificado), para avaliar a correlação existente entre as 2 provas calcula-se o coeficiente de correlação ordinal: 8424,0 )1100(10 )11614011110(6 1 )1( 61 2 1 2 = − +++++++++ −= − −= = x x nn d r n i i s A correlação é positiva e elevada (rs varia entre –1 e 1), isto é, os alunos que tiveram boa nota na prova inicial tiveram, em média, igualmente boa nota na prova final. Exercício 6 O quadro que se segue descreve a distribuição do rendimento anual (em milhares de u.m.) de 2500 famílias da população de um país: Rendimento anual Nºde famílias [0, 1[ 250 [1, 2[ 375 [2, 5[ 625 [5, 15[ 750 [15, 25[ 375 [25, 50[ 125 a) Represente as frequências acumuladas graficamente. b) Determine o rendimento médio e mediano. c) Determine os três primeiros quartis. Que indicações lhe dão sobre a (as)simetria? d) O que pode concluir quanto à dispersão? e) Calcule o índice de Gini. O que conclui sobre a concentração do rendimento? Resolução a) Rendimento anual Nºde famílias % de famílias Fi (%) ci [0, 1[ 250 10 10 0.5 [1, 2[ 375 15 25 1.5 [2, 5[ 625 25 50 3.5 [5, 15[ 750 30 80 10 [15, 25[ 375 15 95 20 [25, 50[ 125 5 1 37.5
  • 32. Manual de Exercícios Estatística Aplicada 31 b) 025,9%)55.37(...%)155.1(%)105,0( 1 11 =+++=== == xxxcfcn n x n i iii n i i Em média, o rendimento anual de uma família é de 9025 unidades monetárias. Classe mediana (classe a que corresponde uma frequência acumulada 0,5): [2; 5[ 5 : Fi = 0,5. Logo, a mediana é 5 (50% das famílias têm rendimentos anuais até 5000 unidades monetárias). c) Classe a que pertence Q1 (classe a que corresponde uma frequência acumulada 0,25): [1; 2[ 3 : Fi = 0,25 25% das famílias apresentam rendimentos anuais inferiores a 2000 u.m. Classe a que pertence Q3 (classe a que corresponde uma frequência acumulada 0,75): [5; 15[ 5 : Fi=0,5 15 : Fi = 0,8 Cálculo do Q3: 0,8 - 0,5 ------------ 15 - 5 0,75 – 0,5 -------------- Q3 – 5 Q3 = 5 + ((10x0,25)/0,3) = 13,333(3) 75% das famílias apresentam rendimentos anuais inferiores a 13333 u.m. 0 0,2 0,4 0,6 0,8 1 0 10 20 30 40 50 60 70 80 90 100
  • 33. Manual de Exercícios Estatística Aplicada 32 047,0 2333,13 )25()5333,13( 13 )12()23( ' >= − −−− = − −−− = QQ QQQQ g A distribuição é assimétrica positiva ou enviesada à esquerda. d) ( ) 286875,82* 2 1 2 2 1 2 =−=−= == xficixcifis n i n i x 071,9286875,82 2 === xx ss e) Rendimento anual ni ci Rend. total pi (=Fi) qi [0, 1[ 250 0.5 125 0,1 0.00554 [1, 2[ 375 1.5 562,5 0,25 0.0305 [2, 5[ 625 3.5 2187,5 0,5 0.1274 [5, 15[ 750 10 7500 0,8 0.46 [15, 25[ 375 20 7500 0,95 0.7922 [25, 50[ 125 37.5 4687.5 1 1 Total 2500 22562,5 4555,0 6,2 18436,1 )( 1 1 1 1 == − = − = − = n i n i pi qipi G Concentração moderada do rendimento Exercício 7 Considere a seguinte tabela que representa a distribuição dos empregados de uma instituição bancária segundo a remuneração bruta mensal (em milhares de unidades monetárias): Remuneração Frequência. Relativa (%) [60; 80[ 7.8 [80; 100[ 15.2 [100; 120[ 31.2 [120; 140[ 19.5 [140; 160[ 7.2 [160; 200[ 8.1 [200; 250[ 5.4 [250, 300[ 2.6 [300; 350] 3.0 Total 100
  • 34. Manual de Exercícios Estatística Aplicada 33 a) Calcule os quartis da distribuição. b) Analise a dispersão da distribuição em causa. c) Analise a assimetria da distribuição em causa. Resolução a) Remuneração Frequência. Relativa (%) Fi (%) [60; 80[ 7.8 7.8 [80; 100[ 15.2 23 [100; 120[ 31.2 54.2 [120; 140[ 19.5 73.7 [140; 160[ 7.2 80.9 [160; 200[ 8.1 89 [200; 250[ 5.4 94.4 [250, 300[ 2.6 97 [300; 350] 3.0 100 Total 100 Classe a que pertence Q1 (classe a que corresponde uma frequência acumulada 0,25): [100; 120[ 1 : Fi=0,23 3 : Fi = 0,542 Cálculo do Q1: 0,542 - 0,23 ------------ 120 - 100 0,25 - 0,23 -------------- Q1 - 100 Q1 = 100 + ((20x0,02)/0,312) = 101,28 25% dos empregados auferem remunerações inferiores a 101,28 milhares u.m. Classe a que pertence Q2 (classe a que corresponde uma frequência acumulada 0,5): [100; 120[ 100 : Fi=0,23 120 : Fi = 0,542 Cálculo do Q2: 0,542 - 0,23 ------------ 120 - 100 0,5 - 0,23 -------------- Q2 - 100 Q2 = 100 + ((20x0,27)/0,312) = 117,3 50% dos empregados auferem remunerações inferiores a 117,3 milhares u.m.
  • 35. Manual de Exercícios Estatística Aplicada 34 Classe a que pertence Q3 (classe a que corresponde uma frequência acumulada 0,75): [140; 160[ 120 : Fi=0,737 140 : Fi = 0,809 Cálculo do Q3: 0,809 - 0,737 ------------ 160 - 140 0,75 – 0,737 -------------- Q3 - 140 Q3 = 140 + ((20x0,013)/0,072) = 143,61(1) 75% dos empregados auferem remunerações inferiores a 143,61(1) milhares u.m. b) Amplitude do intervalo inter-quartis = Q3 - Q1 = 143,61(1) - 101,28 = 42,33 (dispersão reduzida em torno da mediana) c) 0243,0 28,10161,143 )28,1013,117()3,11761,143( 13 )12()23( ' >= − −−− = − −−− = QQ QQQQ g A distribuição é assimétrica positiva ou enviesada à esquerda. Exercício 8 Os dados seguintes referem-se ao peso, expresso em gramas, do conteúdo de uma série de 100 garrafas que, no decurso de um teste, saíram de uma linha de enchimento automático: Peso (em gramas) Frequência. Relativa (%) [297; 298[ 8 [298; 299[ 21 [299; 300[ 28 [300; 301[ 15 [301; 302[ 11 [302; 303[ 10 [303; 304[ 5 [304; 305[ 1 [305; 306] 1 Total 100 a) Represente graficamente os dados acima. b) Calcule as frequências acumuladas e represente-as graficamente.
  • 36. Manual de Exercícios Estatística Aplicada 35 c) Determine o peso médio, mediano e modal. Qual o seu significado? d) Determine os quartis da distribuição. e) Analise a dispersão do peso das garrafas. Resolução a) b) Peso (em gramas) Frequência Relativa (%) Fi (%) [297; 298[ 8 8 [298; 299[ 21 29 [299; 300[ 28 57 [300; 301[ 15 72 [301; 302[ 11 83 [302; 303[ 10 93 [303; 304[ 5 98 [304; 305[ 1 99 [305; 306] 1 100 Total 100 c) 11,300%)15,305(...%)215,298(%)85,297( 1 11 =+++=== == xxxcfcn n x n i iii n i i O peso médio das garrafas é de 300,11 kg. 0 0,05 0,1 0,15 0,2 0,25 0,3 296 297 298 299 300 301 302 303 304 305 306 307 Histograma 0 0,2 0,4 0,6 0,8 1 295 296 297 298 299 300 301 302 303 304 305 306 307 308 309 310 F*
  • 37. Manual de Exercícios Estatística Aplicada 36 Classe mediana (classe a que corresponde uma frequência acumulada 0,5): [299; 300[ 299 : Fi = 0,29 300 : Fi = 0,57 Cálculo do Q2: 0,57 - 0,29 ------------ 300 - 299 0,5 - 0,29 -------------- Q2 - 299 Q2 = 299 + ((1x0,21)/0,28) = 299,75 50% das garrafas têm peso inferior a 299,75 kg. A classe modal é aquela a que corresponde maior frequência relativa. Neste caso, o maior valor de fi é 0,28 correspondente à classe [299; 300[, isto é, os pesos mais prováveis das garrafas situam-se entre 299 kg e 300 kg. d) Classe a que pertence Q1 (classe a que corresponde uma frequência acumulada 0,25): [298; 299[ 298 : Fi=0,08 299 : Fi = 0,29 Cálculo do Q1: 0,29 - 0,08 ------------ 298 - 299 0,25 - 0,08 ------------ Q1 - 299 Q1 = 299 + ((1x0,17)/0,21) = 299,0357 25% das garrafas têm peso inferior a 299,0357 kg. Classe a que pertence Q3 (classe a que corresponde uma frequência acumulada 0,75): [301; 302[ 301 : Fi=0,72 302 : Fi = 0,83 Cálculo do Q3: 0,83 - 0,72 ------------ 302 - 301 0,75 – 0,72 -------------- Q3 - 301 Q3 = 301 + ((1x0,03)/0,11) = 301,27(27) 75% das garrafas têm peso inferior a 301,27(27) kg.
  • 38. Manual de Exercícios Estatística Aplicada 37 e) Amplitude do intervalo inter-quartis = Q3 - Q1 = 301,27(27) - 299,0357 = 2,237 (dispersão reduzida em torno da mediana) Exercício 8 Numa faculdade, mediram-se as alturas de 100 alunos do primeiro ano: Altura (em metros) NºAlunos [1,4; 1,5[ 2 [1,5; 1,55[ 10 [1,55; 1,6[ 25 [1,6; 1,65[ 13 [1,65; 1,7[ 17 [1,7; 1,75[ 20 [1,75; 1,8[ 10 [1,8; 1,9] 3 Total 100 a) Represente graficamente os dados acima. b) Determine a altura média e a altura modal. Qual o seu significado? c) Calcule as frequências acumuladas e represente-as graficamente. d) Determine os quartis da distribuição e diga qual o seu significado. e) Analise a dispersão da distribuição. f) Analise a (as)simetria da distribuição. Resolução a) Altura (em metros) ni fi ci hi fi/hi Fi [1,4; 1,5[ 2 0,02 1,45 0,1 0,2 0,02 [1,5; 1,55[ 10 0,1 1,525 0,05 2 0,12 [1,55; 1,6[ 25 0,25 1,575 0,05 5 0,37 [1,6; 1,65[ 13 0,13 1,625 0,05 2,6 0,5 [1,65; 1,7[ 17 0,17 1,675 0,05 3,4 0,67 [1,7; 1,75[ 20 0,2 1,725 0,05 4 0,87 [1,75; 1,8[ 10 0,1 1,775 0,05 2 0,97 [1,8; 1,9] 3 0,03 1,85 0,1 0,3 1 Total 100 1 0 1 2 3 4 5 6 1,4 1,5 1,6 1,7 1,8 1,9 Histogramafi/hi
  • 39. Manual de Exercícios Estatística Aplicada 38 b) 65,1%)385,1(...%)10525,1(%)245,1( 1 11 =+++=== == xxxcfcn n x n i iii n i i A altura média dos alunos é de 1,65 m. A classe modal é aquela a que corresponde maior frequência por unidade de amplitude. Neste caso, o maior valor de fi / hi é 5. correspondente à classe [1,55; 1,6[, isto é, a altura mais provável de um aluno rondará 1,55m / 1,6m. c) d) Classe a que pertence Q1 (classe a que corresponde uma frequência acumulada 0,25): [1,55; 1,6[ 1,55 : Fi=0,12 1,6 : Fi = 0,37 Cálculo do Q1: 0,37 – 0,12 ------------ 1,6 – 1,55 0,25 – 0,12 ------------ Q1 – 1,55 Q1 = 1,55 + ((0,05x0,13)/0,25) = 1,576 25% dos alunos têm altura inferior a 1,576 m. Classe a que pertence Q2 (classe a que corresponde uma frequência acumulada 0,5): [1,6; 1,65[ 1,65 : Fi = 0,5 50% dos alunos têm altura inferior a 1,65 m. Classe a que pertence Q3 (classe a que corresponde uma frequência acumulada 0,75): [1,7; 1,75[ 1,7 : Fi=0,67 1,75 : Fi = 0,87 0 0,2 0,4 0,6 0,8 1 1,3 1,4 1,5 1,6 1,7 1,8 1,9 2 F*
  • 40. Manual de Exercícios Estatística Aplicada 39 Cálculo do Q3: 0,87- 0,67------------ 1,75 – 1,7 0,75 – 0,67-------------- Q3 – 1,7 Q3 = 1,7 + ((0,05*0,08)/0,2) = 1,72 75% dos alunos têm altura inferior a 1,72 m. e) Amplitude do intervalo inter-quartis = Q3 - Q1 = 1,72 – 1,576 = 0,144 (dispersão reduzida em torno da mediana) ( ) 00536875,0* 2 1 2 2 1 2 =−=−= == xficixcifis n i n i x 07327,000536875,0 2 === xx ss (dispersão reduzida em torno da média) f) 0)7(027,0 576,172,1 )576,165,1()65,172,1( 13 )12()23( ' <−= − −−− = − −−− = QQ QQQQ g A distribuição é ligeiramente assimétrica negativa ou enviesada à direita (quase simétrica). Exercício 9 Em determinada central telefónica, registou-se a duração das chamadas realizadas em Dezembro de 2001: Duração (em minutos) NºChamadas [0; 5[ 2000 [5; 10[ 1500 [10; 20[ 1000 [20; 30[ 300 [30; 50] 200 Total 5000 a) Represente graficamente as frequências simples e acumuladas. b) Determine a duração média das chamadas e respectivo desvio-padrão. c) Qual a duração da chamada mediana? Qual o significado do valor encontrado?
  • 41. Manual de Exercícios Estatística Aplicada 40 d) Sabe-se que as chamadas realizadas durante o ano de 2001 apresentaram uma duração média de 10 minutos, com desvio-padrão de 8,7 minutos. Compare, quanto à dispersão, as chamadas efectuadas em Dezembro com as que tiveram lugar durante todo o ano de 2001. Resolução a) Duração (em minutos) ni fi hi fi/hi Fi ci [0; 5[ 2000 0,4 5 0,08 0,4 2,5 [5; 10[ 1500 0,3 5 0,06 0,7 7,5 [10; 20[ 1000 0,2 10 0,02 0,9 15 [20; 30[ 300 0,06 10 0,006 0,96 25 [30; 50] 200 0,04 20 0,002 1 40 Total 5000 1 b) 35,9%)440(...%)305,7(%)405,2( 1 11 =+++=== == xxxcfcn n x n i iii n i i A duração média de uma chamada é de 9,35 minutos. ( ) 4525,81* 2 1 2 2 1 2 =−=−= == xficixcifis n i n i x 025,900536875,0 2 === xx ss c) Classe mediana (classe a que corresponde frequência acumulada 0,5): [5; 10[ 0 0,02 0,04 0,06 0,08 0,1 0 10 20 30 40 50 60 Histogramafi/hi 0 0,2 0,4 0,6 0,8 1 0 10 20 30 40 50 60 70 80 90 100 F*
  • 42. Manual de Exercícios Estatística Aplicada 41 5 : Fi = 0,4 10 : Fi = 0,7 Cálculo da Me: 0,7 - 0,4 ------------ 10 - 5 0,5 - 0,4 ------------ Me - 5 Me = 5 + ((5x0,1)/0,3) = 6,67 50% das chamadas têm duração a 6,67 minutos. d) 965,0 35,9 025,9 === x s CV x Dez > 87,0 10 7,8 2001 === y s CV y Exercício 10 Uma empresa coligiu dados relativos à produção de 12 lotes de um tipo especial de rolamento. O volume de produção e o custo de produção de cada lote apresentam-se na tabela: Lote Volume (unidades) Custo (contos) 1 1500 3100 2 800 1900 3 2600 4200 4 1000 2300 5 600 1200 6 2800 4900 7 1200 2800 8 900 2100 9 400 1400 10 1300 2400 11 1200 2400 12 2000 3800 a) Analise a correlação existente entre volume e custo de produção. b) Ajuste, pelo Método dos Mínimos Quadrados, uma função linear que exprima o custo em função do volume de produção. Resolução a) ( )( ) ( )( )[ ] 98,0 1145944520854 3,270838003,13582000...3,270831003,13581500 12 1 = −−++−− == xss s r yyxx xy Correlação positiva quase perfeita.
  • 43. Manual de Exercícios Estatística Aplicada 42 b) Exercício 11 Um conjunto de empresas do sector da Construção e Obras Públicas cotadas na Bolsa de Valores foram analisadas relativamente aos seguintes indicadores: EPS (Earnings per Share): Resultado Líquido por Acção PBV (Price/Book Value): Preço / Situação Líquida por Acção Empresa EPS ($) PBV ($) 1 191 0.9 2 32 1.0 3 104 0.8 4 117 0.8 5 210 1.5 6 95 0.7 7 65 0.9 8 201 1.3 9 81 0.4 a) Analise a correlação existente entre aqueles dois indicadores. b) Ajuste, pelo Método dos Mínimos Quadrados, uma função linear que exprima a variável EPS em função de PBV. Resolução a) ( )( ) ( )( )[ ] 61,0 096933,0332,3669 92,04,07,12181...92,09,07,121191 9 1 = −−++−− == xss s r yyxx xy Correlação positiva moderada. y = 1,4553x + 731,6 0 1000 2000 3000 4000 5000 6000 0 500 1000 1500 2000 2500 3000 Volume Custo
  • 44. Manual de Exercícios Estatística Aplicada 43 b) Exercício 12 Recolheu-se uma amostra em 17 cidades do país relativamente aos seguintes indicadores: Ri: Rendimento médio mensal na cidade i (em 106 unidades monetárias) Gi: Gasto médio mensal em bens de luxo na cidade i (em 106 u.m.) Ri Gi Ri Gi 125 54 144 61 127 56 147 62 130 57 150 62 131 57 152 63 133 58 154 63 135 58 160 64 140 59 162 65 143 59 165 66 169 66 Dados adicionais = 2467iR =1030iG = 361073 2 iR = 62620 2 iG = 150270iiGR a) Estude a correlação entre rendimento e despesas em bens de luxo. b) Ajuste, pelo Método dos Mínimos Quadrados, uma função linear que exprima a variável Gi em função de Ri. y = 124,04x + 7,383 0 50 100 150 200 250 0 0,2 0,4 0,6 0,8 1 1,2 1,4 1,6 PBV EPS
  • 45. Manual de Exercícios Estatística Aplicada 44 Resolução a) 986,0 ) 17 1030 *1762620)( 17 2467 *17361073( 17 1030 * 17 2467 *17150270 ))(( 2 22 2 2222 = −− − = −− − = GnGRnR GRnGR r ii ii XY Correlação positiva forte. b) y = 0,2604x + 22,801 50 52 54 56 58 60 62 64 66 68 100 120 140 160 180 200 Rendimento Gasto
  • 47. Manual de Exercícios Estatística Aplicada 45 3.ESTATÍSTICA INDUTIVA A estatística indutiva é o ramo da estatística que se ocupa em inferir das conclusões retiradas sobre a amostra para a população. Claro que o processo de indução implica um certo grau de incerteza associado à tentativa de generalização de conclusões da “parte” (amostra) para o “todo” (universo). O conceito de probabilidade vai ter aqui, então, um papel fundamental. Isto é, não vai ser possível afirmar com toda a certeza que o comportamento da amostra ilustra perfeitamente o comportamento do universo, mas apenas que o faz com forte probabilidade. De seguida, serão apresentadas algumas noções simples de probabilidades e funções de probabilidade, que serão úteis a aplicações de estatística indutiva relacionadas com controlo estatístico de qualidade e fiabilidade de componentes e sistemas. 3.1. Noções básicas de probabilidade A teoria das probabilidades é um ramo da matemática extremamente útil para o estudo e a investigação das regularidades dos chamados fenómenos aleatórios. O exemplo seguinte pretende clarificar o que vulgarmente é designado por experiência aleatória. Deve entender-se como experiência qualquer processo ou conjunto de circunstâncias capaz de produzir resultados observáveis; quando uma experiência está sujeita à influência de factores casuais e conduz a resultados incertos, diz-se que a experiência é aleatória. Fundamentalmente, as experiências aleatórias caracterizam-se por:
  • 48. Manual de Exercícios Estatística Aplicada 46 (i) poder repetir-se um grande número de vezes nas mesmas condições ou em condições muito semelhantes (ii) cada vez que a experiência se realiza, obtém-se um resultado individual, mas não é possível prever exactamente esse resultado (iii) os resultados das experiências individuais mostram-se irregulares, mas os resultados obtidos após uma longa repetição da experiência patenteiam uma grande regularidade estatística no seu conjunto Alguns autores consideram inserido no conceito de experiência aleatória um outro, o de espaço de resultados. O espaço de resultados corresponde ao conjunto formado por todos os resultados possíveis de uma experiência aleatória. Por exemplo, num lançamento de um dado ordinário tem-se que o espaço de resultados é }{ 6,5,4,3,2,1 . A importância da definição deste conceito advém sobretudo por ser o meio empregue para a definição de acontecimentos, que não sei mais que subconjuntos do espaço de resultados. Por exemplo, no lançamento de um dado podem definir-se, para além dos 6 acontecimentos elementares correspondentes à saída de cada uma das faces, outros como “saída de um número ímpar” definido pelo subconjunto }{ 5,3,1 . Definidos como conjuntos, aos acontecimentos é aplicável toda a construção disponível para aqueles, isto é, existe um paralelismo perfeito entre álgebra de conjuntos e álgebra de acontecimentos: (i) O acontecimento que contem todos os elementos do espaço de resultados chama-se acontecimento certo (ii) O acontecimento que não contem qualquer elemento do espaço de resultados chama-se acontecimento impossível (iii) Dois acontecimentos são mutuamente exclusivos se não têm em comum qualquer acontecimento do espaço de resultados (iv) A união de dois acontecimentos A e B representa-se por A ∪ B e é formado pelos elementos que pertencem a pelo menos um dos dois, A ou B (v) A intersecção de dois acontecimentos A e B representa-se por A ∩ B e é formado pelos elementos comuns a A e B
  • 49. Manual de Exercícios Estatística Aplicada 47 Probabilidade de um acontecimento é expressa na escala de 0 a 1, sendo 0 a probabilidade associada a um acontecimento impossível e 1 a probabilidade associada a um acontecimento certo. A primeira definição foi proposta por Laplace em 1812. Pode definir-se probabilidade de um acontecimento A como sendo: Número de casos favoráveis ao acontecimento A P(A) = Número total de casos possíveis na exp. aleatória Uma das principais críticas a esta definição é a de que ela só é aplicável quando o espaço de resultados é finito e os seus elementos possuem igual probabilidade; daí que ela surja muito ligada aos “jogos de azar”, que possuem essas propriedades. É o que acontece com as duas faces de uma moeda, as 52 cartas de um baralho, as 6 faces de um dado, etc. Para se analisar a probabilidade de ocorrência de determinados acontecimentos, deve ter-se em atenção o seguinte: − Dois acontecimentos são ditos mutuamente exclusivos se não puderem acontecer ao mesmo tempo; se dois acontecimentos forem mutuamente exclusivos, então: P(A ∩ B) = 0 − A probabilidade de união de dois acontecimentos mutuamente exclusivos é dada por P (A ∪ B) = P(A) + P(B) − Para dois acontecimentos quaisquer, vem que P (A ∪ B) = P(A) + P(B) - P(A ∩ B) − Dois acontecimentos dizem-se complementares se: P(A) = 1 – P( A ) − Dois acontecimentos são ditos independentes se a ocorrência de um não afectar a probabilidade de ocorrência de outro; a probabilidade de ocorrência de dois ou mais acontecimentos independentes é o produto das probabilidades dos respectivos acontecimentos, isto é: P(A ∩ B) = P(A) x P(B)
  • 50. Manual de Exercícios Estatística Aplicada 48 Após a apresentação desta definição, convém ainda referir que, numa outra perspectiva, a da chamada teoria frequencista, a probabilidade de um acontecimento é definida como sendo o valor para o qual tende a frequência relativa do acontecimento quando o número de repetições da experiência aumenta. 3.2. Probabilidade condicionada Exemplo: Um grupo de pessoas é classificado de acordo com o seu peso e a incidência de hipertensão. São as seguintes as proporções das várias categorias: Obeso Normal Magro Total Hipertenso 0,1 0,08 0,02 0,2 Não Hipertenso 0,15 0,45 0,2 0,8 Total 0,25 0,53 0,22 1,00 a) Qual a probabilidade de uma pessoa escolhida ao acaso ser hipertensa? b) Qual a probabilidade de uma pessoa obesa ser hipertensa? Resolução a) Basta ver que a proporção de hipertensos é de 20% b) Há que tomar em atenção que o que se pretende é a proporção de hipertensos na população de obesos, isto é 4,0 25,0 1,0 = . Por outras palavras, pretende-se calcular a probabilidade do acontecimento “ser hipertenso”, sabendo que ocorreu o acontecimento “ser obeso”. Repare-se que este quociente resulta da divisão entre a probabilidade de uma pessoa ser hipertensa e obesa e a probabilidade de uma pessoa ser obesa. Pode escrever-se que a probabilidade pretendida é dada por: )( )( )/( OP OHP OHP ∩ = onde P(H/O) é a probabilidade de ocorrer o acontecimento “ser hipertenso”, sabendo que ocorreu ou condicionado pelo acontecimento “ser obeso”. Este exemplo corresponde ao cálculo de uma probabilidade condicionada.
  • 51. Manual de Exercícios Estatística Aplicada 49 Como se viu anteriormente, dois acontecimentos são ditos independentes se a ocorrência de um não afectar a probabilidade de ocorrência de outro, isto é, se: P(A / B) = P(A) e se P(B / A) = P(B). Teorema de Bayes Seja B um acontecimento que se realiza se e só se um dos acontecimentos mutuamente exclusivos A1, A2,…An se verifica. Aos acontecimentos A1, A2,…An dá-se o nome de acontecimentos antecedentes. O teorema de Bayes permite calcular a probabilidade à posteriori de A1, A2,… An, isto é, a probabilidade de ocorrência de A1, A2,… An calculadas sob a hipótese de que B (acontecimento consequente) se realizou. De acordo com este teorema: = = n i ii ii i ABPAP ABPAP BAP 1 )/().( )/().( )/( Este Teorema utiliza-se em situações em que a relação causal está invertida. = n i ii ABPAP 1 )/().( designa-se de probabilidade total de ocorrência do acontecimento B, isto é, é a probabilidade de ocorrência do acontecimento consequente B face a todos os possíveis acontecimentos A1, A2,… An que o podem ter antecedido (ou causado a sua ocorrência). 3.3. Funções de probabilidade A probabilidade associada aos acontecimentos possíveis numa experiência aleatória obedecem, por vezes, a um padrão. Se associarmos a uma experiência aleatória uma variável X (por exemplo, associar aos resultados da experiência lançamento de um dado - que são 6 (saída de face 1 a 6) – a variável X:“Nº da face resultante do lançamento de um dado”), então pode ser constituída uma lei ou função de probabilidade (f(x)) dessa variável X, tal que f(x) = P(X=xi)
  • 52. Manual de Exercícios Estatística Aplicada 50 Por exemplo, para X: nº da face resultante do lançamento de um dado, vem que: xi 1 2 3 4 5 6 f(xi) 1/6 1/6 1/6 1/6 1/6 1/6 que se designa por lei uniforme. Algumas leis de probabilidade servem para explicar (ou aplicam-se a) um maior número de fenómenos estatísticos do que outras. Entre estas, contam-se a lei Binomial, a lei de Poisson e a lei Exponencial. (i) Lei Binomial Há alguns acontecimentos que são constituídos por um conjunto de experiências independentes, cada uma das quais com apenas dois estados possíveis de ocorrência e com uma probabilidade fixa de ocorrência para cada um deles. Por exemplo, os produtos resultantes de uma fábrica podem ser classificados como sendo defeituosos ou sendo não defeituosos, e o facto de um ter saído (ou não) defeituoso não influencia os outros serem (ou não). A distribuição das duas classes possíveis é discreta e do tipo binomial. No exemplo anterior, consideremos uma amostra de n artigos retirados da produção total, em relação aos quais se pretende identificar a variável X: “Nºde artigos defeituosos nos n que constituem a amostra”. A probabilidade de ocorrência do acontecimento “artigo é defeituoso” é dada por p: incidência de defeituosos na produção (convenientemente calculada através de métodos de estimação). A probabilidade do acontecimento complementar “artigo é não- defeituoso” é dada por 1 – p = q A probabilidade associada a x artigos defeituosos é dada por px (p x p x p x p...x vezes). Se há x defeituosos, restam n-x artigos não-defeituosos, com probabilidade dada por qn-x . Para calcular o número exacto de combinações de x artigos defeituosos com n-x artigos não-defeituosos, utiliza-se a figura “combinações de n, x a x, oriunda das técnicas de cálculo combinatório. Vem
  • 53. Manual de Exercícios Estatística Aplicada 51 então que a probabilidade de existência de x defeituosos (e logo n-x não defeituosos) é igual a: xnxxnxn x qp ppn n qpCxf −− − == !)!( ! )( sendo que X segue Bi (n;p), sendo n e p os parâmetros caracterizadores da lei. Um acontecimento deve ter 4 características para que se possa associar a uma lei binomial: - número fixo de experiências (n) - cada experiência ter apenas duas classes de resultados possíveis - todas as experiências terem igual probabilidade de ocorrência (p) - as experiências serem independentes Em sistemas eléctricos de energia é possível, por exemplo, aplicar a distribuição binomial quando se pretende calcular a fiabilidade de uma central eléctrica, com várias unidades iguais e admitindo que cada unidade apenas pode residir em dois estados, a funcionar ou avariada. (ii) Lei de Poisson A lei de Poisson (ou lei dos acontecimentos raros ou cadenciados) dá a probabilidade de um acontecimento ocorrer um dado número de vezes num intervalo de tempo ou espaço fixado, quando a taxa de ocorrência é fixa (por exemplo, nºde chamadas que chegam a uma central telefónica por minuto; nº de varias que ocorrem numa máquina por dia). Os números de acontecimentos de “sucesso” ocorridos em diferentes intervalos são independentes. O parâmetro caracterizador da distribuição de Poisson é λ, que corresponde ao número médio de ocorrências por unidade de tempo ou espaço. Como o número médio de ocorrências do acontecimento é proporcional à amplitude do intervalo de tempo ou espaço a que se refere, a variável X: “Nºde ocorrências do acontecimento no intervalo [0,t[” segue lei de Poisson de parâmetro λt (isto é, se para 1 unidade de tempo o nº médio de ocorrências é λ, para t unidades de tempo o número médio de ocorrências é λt). A expressão ( ) t x e x t λλ − !
  • 54. Manual de Exercícios Estatística Aplicada 52 dá a probabilidade de acontecerem x ocorrências no intervalo de tempo [0,t[, e corresponde à expressão da lei de probabilidade de Poisson : Po(λt) Por exemplo, se X fôr o “Nº de avarias que ocorrem no intervalo de tempo [0,t[”, então a probabilidade de não ocorrerem avarias nesse intervalo, isto é, a fiabilidade do componente/sistema como função do tempo, é dada por: ( ) tt ee t λλλ −− = !0 0 (iii) Lei Exponencial Seja T a variável “Tempo ou espaço que decorre entre ocorrências consecutivas de um acontecimento”. Então T segue lei exponencial Exp (λ), sendo λ 1 o tempo que, em média, decorre entre ocorrências sucessivas do acontecimento. Note-se que é possível estabelecer uma relação entre a lei exponencial e a lei de Poisson. Assim, se X fôr o “Nº de avarias que ocorrem no intervalo de tempo [0,t[”, e T fôr o “Tempo que decorre entre avarias consecutivas”, então: P (T>t) = P(tempo que decorre entre avarias exceder t) = P(até ao instante t, não ocorre qualquer avaria) = P (ocorrerem zero avarias no intervalo [0,t[) = P(X=0) = t e λ− A distribuição exponencial é a mais usada em estudos de fiabilidade, já que a probabilidade de um componente sobreviver até ao instante t é dada por t e λ− A probabilidade de avariar até ao instante t é dada por t e λ− −1
  • 55. Manual de Exercícios Estatística Aplicada 53 (iv) Lei Normal A lei Normal tem como parâmetros caracterizadores a média µ e o desvio- padrão σ. Isto é, os valores observados têm uma determinada tendência central e uma determinada dispersão em torno da tendência central. A expressão ∏ − − 2 2 )( 2 1 2 1 σ µ σ Xi e representa a função densidade de probabilidade da distribuição Normal. Se se fizer o valor médio µ igual a zero e todos os desvios forem medidos em relação à média, a equação será: σ µ− = X Z que corresponde a uma distribuição normal estandardizada (0;1) com os valores tabelados, a qual é caracterizada por uma curva de Gauss: Esta distribuição apresenta 99,73% dos valores entre os extremos –3 e 3. Existem muitos tipos de distribuição, mas a curva normal é a forma de distribuição mais frequente nos processos industriais para características mensuráveis, e pode considerar-se como estabelecida pela experiência prática.
  • 56. Manual de Exercícios Estatística Aplicada 54 (v) Lei Qui-Quadrado Considere-se um conjunto de n variáveis aleatórias Zi, obedecendo às seguintes condições: - cada variável Zi segue distribuição N(0,1); - as variáveis Zi são mutuamente independentes Então, a variável aleatória X, construída a partir da soma das n variáveis Zi elevadas ao quadrado, segue distribuição Qui-Quadrado com n graus de liberdade, denotada por 22 2 2 1 1 2 ... n n i i ZZZZX +++== = 2 nX χ∩ O termo “Graus de Liberdade” (d.f: degrees of freedom) é habitualmente usado para designar o número n de parcelas (variáveis Zi) adicionadas. É possível demonstrar que o valor esperado e a variância da distribuição de uma variável Qui-Quadrado são respectivamente n=µ n22 =σ A distribuição Qui-Quadrado é uma distribuição assimétrica à esquerda, aproximando-se da distribuição Normal à medida que n cresce.
  • 59. Manual de Exercícios Estatística Aplicada 56 PROBABILIDADES Exercícios resolvidos Exercício 1 De um baralho ordinário (52 cartas) extrai-se ao acaso 1 carta. Determine a probabilidade dos seguintes acontecimentos: a) saída de Rei b) saída de copas c) saída de Rei ou copas d) saída de Rei mas não de copas e) não saída de Rei f) não saída de Rei nem de copas g) não saída de Rei ou não saída de copas Resolução A: saída de Rei B: saída de copas a) P(A)=1/13 b) P(B)=1/4 c) P(A∪ B) = P(A) + P(B) - P(A∩ B) = 1/13+1/4-1/52 = 4/13 (=(13+3)/52) d) P(A-B) = P(A) – P(A∩ B) = 1/13 – 1/52 = 3/52 (= (4-1)/52) e) P( A )= 1-1/13 = 12/13 (=(52-4)/52) f) P( )BA ∩ = P( BA ∪ ) = 1 – P(A∪ B) = 1 – 4/13 = 9/13 g) P( )BA ∪ = P( BA ∩ ) = 1 – P )( BA ∩ = 1 – 1/52 = 51/52 Exercício 2 Um sistema electrónico é formado por dois sub-sistemas, A e B. De ensaios anteriores, sabe-se que: - a probabilidade de A falhar é de 20% - a probabilidade de B falhar sozinho é 15% - a probabilidade de A e B falharem é 15% Determine a probabilidade de:
  • 60. Manual de Exercícios Estatística Aplicada 57 a) B falhar b) falhar apenas A c) falhar A ou B d) não falhar nem A nem B e) A e B não falharem simultaneamente Resolução A: o subsistema A falha B: o subsistema B falha P(A)=20% P( A )= 80% P(B-A)=15% P(A∩ B)=15% a) P(B) = P(B-A)+ P(A∩ B) = 0,15 + 0,15 = 30% b) P(A-B) = P(A) – P(A∩ B) = 0,2 – 0,15 = 5% c) P(A∪ B) = P(A) + P(B) - P(A∩ B) = 0,2 + 0,3 – 0,15 = 35% d) P( )BA ∩ = P( BA ∪ ) = 1 – P(A∪ B) = 1 – 0,35 = 65% e) P( BA ∩ ) = 1 – P )( BA ∩ = 1 – 0,15 = 85% Exercício 3 Suponha que há 3 jornais, A, B e C, com as seguintes percentagens de leitura: A: 9,8%; B: 22,9%; C: 12,1%; A e B: 5,1%; A e C: 3,7%; B e C: 6%; A, B e C: 2,4% Escolhe-se uma pessoa ao acaso. Calcule a probabilidade dessa pessoa: a) ler pelo menos um dos jornais b) ler A e B mas não C c) ler A mas não ler B nem C Resolução A: a pessoa escolhida lê o jornal A B: a pessoa escolhida lê o jornal B C: a pessoa escolhida lê o jornal C P(A) = 9,8% P(B) = 22,9% P(C) = 12,1% P(A∩ B) = 5,1% P(A∩ C) = 3,7% P(B∩ C) = 6% P(A∩ B∩ C) = 2,4%
  • 61. Manual de Exercícios Estatística Aplicada 58 a) )()()()()()()()( CBAPCBPCAPBAPCPBPAPCBAP ∩∩+∩−∩−∩−++=∪∪ = 0,098+0,229+0,121-0,051-0,037-0,06+0,024 = 32,4% b) P( )CBA ∩∩ = P( )() CBAPBA ∩∩−∩ = 0,051 – 0,024 = 2,7% c) )( CBAP ∩∩ = P(A) - )()()( CBAPCAPBAP ∩∩+∩−∩ = 0,098-0,051-0,037+0,024 = 3,4% Exercício 4 Um gerente de uma galeria de arte muito creditada no mercado, está interessado em comprar um quadro de um pintor famoso para posterior venda. O gerente sabe que há muitas falsificações deste pintor no mercado e que algumas dessa falsificações são bastante perfeitas o que torna difícil avaliar se o quadro que ele pretende comprar é ou não um original. De facto, sabe-se que há 4 quadros falsos desse pintor para 1 verdadeiro. O gerente não quer comprometer o “bom nome” da galeria para a qual trabalha comprando um quadro falso. Para obter mais informação o gerente resolve levar o quadro a um museu de arte e pede para que o especialista do museu o examine. Este especialista garante-lhe que em 90% dos casos em que lhe é pedido para examinar um quadro genuíno daquele pintor, ele identifica-o correctamente como sendo genuíno. Mas em 15% dos casos em que examina uma falsificação do mesmo pintor, ele identifica-o (erradamente) como sendo genuíno. Depois de examinar o quadro que o gerente lhe levou, o especialista diz que acha que o quadro é uma falsificação. Qual é agora a probabilidade de o quadro ser realmente uma falsificação? Resolução V: o quadro é genuíno F: o quadro é falso I: o quadro é identificado correctamente P(V) = 20% P(F) = 80% P(I/V) = 90% P( )/VI = 10% P( )/ FI = 15% P(I/F) = 85%
  • 62. Manual de Exercícios Estatística Aplicada 59 P(ser realmente falsificação/especialista identificou como falsificação) = = %1,97 7,0 68,0 1,0*2,085,0*8,0 85,0*8,0 )/(*)()/(*)( )/(*)( == + = + VIPVPFIPFP FIPFP Exercício 5 Na ida para o emprego, o Sr. Óscar, polícia de profissão, tem de passar obrigatoriamente por três cruzamentos com semáforos. No primeiro cruzamento, o do Largo Azul, a probabilidade do semáforo se encontrar com sinal vermelho é de 10%. Em cada um dos cruzamentos seguintes, o Sr. Óscar fica parado devido aos sinais vermelhos em metade das vezes que lá passa. O Sr. Óscar já descobriu que os semáforos funcionam separadamente, não estando ligados entre si por qualquer mecanismo. Embora goste de cumprir a lei, o guarda Óscar passa no sinal verde e acelera no amarelo, só parando mesmo no sinal vermelho. a) Qual a probabilidade do Sr. Óscar chegar ao emprego sem ter de parar em qualquer sinal vermelho? b) Qual a probabilidade do Sr. Óscar ter de parar num só semáforo? c) Qual a probabilidade do Sr. Óscar ter parado no sinal vermelho do cruzamento do Largo Azul, sabendo que parou num só semáforo na sua ida para o emprego? Resolução A: polícia encontra sinal vermelho no 1ºcruzamento B: polícia encontra sinal vermelho no 2ºcruzamento C: polícia encontra sinal vermelho no 3ºcruzamento P(A)=10% P( A )= 90% P(B)=50% P( B )= 50% P(C)=50% P(C )= 50% a) P( )CBA ∩∩ = P( A )*P( B )*P(C ) = 0,9*0,5*0,5 = 22,5% b) P( )CBA ∩∩ + P( )CBA ∩∩ +P( )CBA ∩∩ = = P( A )*P( B )*P(C ) + P( A )*P( B )*P(C ) + P( A )*P( B )*P(C ) = 47,5%
  • 63. Manual de Exercícios Estatística Aplicada 60 c) P(polícia parar no 1ºcruzamento / polícia parou num só semáforo) %26,5 475,0 )(*)(*)( 475,0 )( == ∩∩ = CPBPAPCBAP Exercício 6 Após alguns testes efectuados à personalidade de um indivíduo, concluiu-se que este é louco com probabilidade 60%, ladrão com probabilidade igual a 70% e não é louco nem ladrão com probabilidade 25%. Determine a probabilidade do indivíduo: a) Ser louco e ladrão b) Ser apenas louco ou apenas ladrão c) Ser ladrão, sabendo-se que não é louco Resolução A: indivíduo é louco B: indivíduo é ladrão P(A)=60% P(B)=70% P( )BA ∩ = 25% = P( BA ∪ ) P(A∪ B) = 1 – 0,25 = 75% a) P(A∪ B) = P(A) + P(B) - P(A∩ B) 0,75 = 0,6 + 0,7 - P(A∩ B) P(A∩ B) = 0,6 + 0,7 – 0,75 = 55% b) P(A-B) + P(B-A) = (0,6-0,55) + (0,7-0,55) = 20í c) P(B/ A ) = %5,37 4,0 15,0 6,01 )( )( )( == − − = ∩ ABP AP ABP Exercício 7 Uma moeda é viciada, de tal modo que P(F) = 2/3 e P(C) = 1/3. Se aparecem faces, então um número é seleccionado de 1 a 9. Se parecem coroas, um número é seleccionado entre 1 e 5. Determine a probabilidade de ser seleccionado um número par. Resolução P(Par) = 2/3*4/9 + 1/3*2/5 = 42,96%
  • 64. Manual de Exercícios Estatística Aplicada 61 Exercício 8 Numa fábrica, 3 máquinas, M1, M2 e M3 fabricam parafusos, sendo a produção diária total de 10000 unidades. A probabilidade de um parafuso escolhido ao acaso ter sido produzido por M1 é 30% da probabilidade de ter sido produzido por M2. A incidência de defeituosos na produção de cada máquina é: M1: 3% M2: 1% M3: 2% Extrai-se ao acaso da produção diária um parafuso. Sabendo que a probabilidade dele ser defeituoso é de 1,65%, determine o número de parafusos que cada máquina produz diariamente. Resolução M1: o parafuso foi produzido por M1 M2: o parafuso foi produzido por M2 M3: o parafuso foi produzido por M3 D: o parafuso é defeituoso n = 10000 unidades P(M1) = 0,3 P(M2) P(D / M1) = 3% P(D / M2) = 1% P(D / M3) = 2% P(D) = 1,65% Prod. 1 = P(M1)*10000 = ? Prod. 2 = P(M2)*10000 = ? Prod. 3 = P(M3)*10000 = ? ++= =++ = )3/(*)3()2/(*)2()1/(*)1()( 1)3()2()1( )2(3,0)1( MDPMPMDPMPMDPMPDP MPMPMP MPMP ⇔ ++= =+ − 02,0*)3(01,0*)2(03,0*)2(3,00165,0 1)3()2(3,1 MPMPMP MPMP ⇔
  • 65. Manual de Exercícios Estatística Aplicada 62 −++= −= − 02,0*))2(3,11(01,0*)2(03,0*)2(3,00165,0 )2(3,11)3( MPMPMP MPMP ⇔ = =−=−= == %50)2( %355,0*3,11)2(3,11)3( %155,0*3,0)1( MP MPMP MP Exercício 9 O João tem à sua disposição 3 meios de transporte diferentes para se deslocar de casa para a escola: os transportes A, B ou C. Sabe-se que a probabilidade de: - chegar atrasado à escola é 60% - chegar atrasado utilizando o transporte A é 80% - chegar atrasado utilizando o transporte B é 50% - chegar atrasado utilizando o transporte C é 60% - utilizar os transportes B e C é a mesma a) Calcule a probabilidade de o João utilizar o transporte A b) Sabendo que o João chegou atrasado à escola, calcule a probabilidade de ter utilizado os transportes B ou C. Resolução T: O João chega atrasado A: o João utiliza o transporte A B: o João utiliza o transporte B C: o João utiliza o transporte C P(T) = 0,6 P(T/A) = 0,8 P(T/B) = 0,5 P(T/C) = 0,6 P(B) = P(C) P(A)+P(B)+P(C) = 1 P(A) = 1- 2P(B) a) P(T) = P(A)*P(T/A) + P(B)*P(T/B) + P(C)*P(T/C)
  • 66. Manual de Exercícios Estatística Aplicada 63 Logo 0,6 = (1-2P(B))*0,8 + P(B)*0,5 + P(B)*0,6 e vem que P(B) = 40% Então P(A) = 1 – 2P(B) = 1 – 2*0,4 = 20% b) P(B∪ C / T) = )( )/(*)()/(*)( TP CTPCPBTPBP + = 6,0 6,0*4,05,0*4,0 + =73,3% Exercício 10 Uma empresa que se dedica à prestação de serviços de selecção de pessoal em relação a um teste psicotécnico para uma profissão específica sabe o seguinte: - as percentagens de indivíduos com um quociente de inteligência (Q.I.) elevado e médio são, respectivamente, de 30% e de 60% - a percentagem de indivíduos com Q.I. médio que ficam aptos no teste é de 50% - a probabilidade de um indivíduo com Q.I. baixo ficar apto no teste é de 20% - finalmente, sabe-se que 70% dos indivíduos com Q.I. elevado ficam aptos no teste a) Qual a probabilidade de um indivíduo escolhido ao acaso ficar apto no teste? b) Qual a probabilidade de um indivíduo ter Q.I. baixo, sabendo-se que ficou inapto? Resolução A: indivíduo fica apto no teste E: indivíduo tem QI elevado M: indivíduo tem QI médio B: indivíduo tem QI baixo P(E) = 30% P(M) = 60% P(B) = 1 –0,3 – 0,6 = 10% P(A/M) = 50% P(A/B) = 20% P(A/E) = 70%
  • 67. Manual de Exercícios Estatística Aplicada 64 a) P(A) =P(E)*P(A/E)+P(M)*P(A/M)+P(B)*P(A/B) =0,3*0,7+0,6*0,5+0,1*0,2=53% b) P(B/ A ) = %17 53,01 8,0*1,0 )( )/(*)( = − = AP BAPBP Exercício 11 Os resultados de um inquérito aos agregados familiares de uma determinada cidade forneceram os seguintes dados: - 35% dos agregados possuem telefone - 50% dos agregados possuem frigorífico - 25% dos agregados possuem automóvel - 15% dos agregados possuem telefone e frigorífico - 20% dos agregados possuem telefone e automóvel - 10% dos agregados possuem frigorífico e automóvel - 5% dos agregados possuem telefone, automóvel e frigorífico a) Calcule a probabilidade de um agregado familiar 1. possuir telefone ou frigorífico 2. não possuir nem telefone nem automóvel b) Calcule a probabilidade de um agregado que possui automóvel 1. possuir também frigorífico 2. possuir também telefone ou frigorífico c) Calcule a probabilidade de um agregado familiar 1. possuir pelo menos um daqueles três objectos 2. não possuir nenhum daqueles três objectos Resolução A: agregado familiar possui telefone B: agregado familiar possui frigorífico C: agregado familiar possui automóvel P(A) = 35% P(B) = 50% P(C) = 25%
  • 68. Manual de Exercícios Estatística Aplicada 65 P(A∩ B) = 15% P(A∩ C) = 20% P(B∩ C) = 10% P(A∩ B∩ C) = 5% a) 1. P(A∪ B) = P(A) + P(B) - P(A∩ B) = 0,35 + 0,5 – 0,15 = 70% 2. P( )CA ∩ = P( CA∪ ) = 1 – P(A∪ C) = 1 – 0,4 = 60% P(A∪ C) = P(A) + P(C) - P(A∩ C) = 0,35 + 0,25 – 0,2 = 40% b) krysktsh1. P(B / C) = %40 25,0 1,0 )( )( == ∩ CP CBP 2. P(A∪ B/ C) = %100 25,0 05.01,02,0 )( )()()( = −+ = ∩∩−∩+∩ CP CBAPCBPCAP c) 1. )()()()()()()()( CBAPCBPCAPBAPCPBPAPCBAP ∩∩+∩−∩−∩−++=∪∪ = 0,35+0,5+0,25-0,15-0,2-0,1+0,05 = 70% 2. 1 – P( )CBA ∪∪ = 1 – 0,7 = 30% Exercício 12 Admita que 60% dos seguros no ramo automóvel respeitam a condutores com mais de 40 anos de idade, dos quais 5% sofrem, pelo menos, um acidente por ano. De entre os segurados com idade igual ou inferior a 40 anos, 3% têm um ou mais acidentes no mesmo período. a) Qual a probabilidade de um segurado não sofrer qualquer acidente durante um ano? b) Qual a probabilidade de um segurado que sofreu pelo menos um acidente ter idade igual ou inferior a 40 anos? c) Qual a probabilidade de, numa amostra de três segurados 1. todos terem idade igual ou inferior a 40 anos? 2. nenhum ter sofrido qualquer acidente durante um ano? 3. Todos terem idade igual ou inferior a 40 anos, dado que cada um sofreu, pelo menos, um acidente durante o referido período?
  • 69. Manual de Exercícios Estatística Aplicada 66 Resolução I1: o segurado tem mais de 40 anos de idade I2: o segurado tem 40 anos ou menos de idade A: o segurado sofre pelo menos 1 acidente por ano A : o segurado não sofre nenhum acidente por ano P(I1) = 60% P(I2) = 1 – 0,6 = 40% P(A/I1) = 5% P( A /I1) = 1 – 0,05 = 95% P(A/I2) = 3% P( A /I2) = 1 – 0,03 = 97% a) P( A ) = P(I1)* P( A /I1) + P(I2)* P( A /I2) = 0,6*0,95 + 0,4*0,97 = 95,8% b) P(I2/A) = %57,28 958,01 03,0*6,0 )( )2/(*)2( )( )2( = − == ∩ AP IAPIP AP IAP = P(B) c) 1. P( )222 III ∩∩ = 0,4*0,4*0,4 = 6,4% 2. P( )AAA ∩∩ = 0,958*0,958*0,958 = 87,9% 3. P( )BBB ∩∩ = 0,2857*0,2857*0,2857 = 2,3%
  • 71. Manual de Exercícios Estatística Aplicada 67 FUNÇÕES DE PROBABILIDADE Exercícios resolvidos Exercício 1 Se 20% das bobinas de um determinado cabo eléctrico forem defeituosas, calcule a probabilidade de, entre as 4 bobines necessárias a um determinado cliente, escolhidas ao acaso uma ser defeituosa. Resolução X: número de bobines defeituosas no conjunto de 4 bobines necessárias a um determinado cliente (0,1,2,3,4) n=4 p=0,2 q=1-p=0,8 P(X=1)=C4 p1 q4-1 = 4*0,2*0,83 = 0,4096 = 41% Exercício 2 O número médio de chamadas telefónicas a uma central, por minuto, é 5. A central só pode atender um número máximo de 8 chamadas por minuto. Qual a probabilidade de não serem atendidas todas as chamadas no intervalo de tempo de 1 minuto? Resolução X: número de chamadas telefónicas atendidas numa central, por minuto (0,1,2,3,4, 5, 6, 7, 8) λ=5 p=0,2 q=1-p=0,8 P(X≤8) = = −8 0 5 ! 5 x x x e = 0,932 Logo P(X>8) = 1-0,932 = 0,06 Exercício 3 O tempo de funcionamento sem avarias de uma determinada máquina de produção contínua segue uma lei exponencial negativa com valor esperado igual a 4,5 horas. Imagine que a máquina é (re)colocada em funcionamento no instante t=0 horas. Qual a probabilidade de não ocorrerem avarias antes do instante t=6 horas?
  • 72. Manual de Exercícios Estatística Aplicada 68 Resolução Seja T: tempo de funcionamento sem avarias (ou entre avarias consecutivas) de uma máquina, e X: numero de avarias que ocorrem no intervalo [0,6[, isto é, num período de 6h λ=1/4,5 corresponde ao número de avarias por unidade de tempo (por hora) Logo P(T≥6) = P(X=0)= 333,1 6* 5,4 1 − − = ee = 0,264 Exercício 4 Considere que o comprimento médio de determinado fio condutor é 120, com desvio padrão 0,5. Qual a percentagem de fio com comprimento superior a 121? Resolução X: comprimento de determinado fio condutor Calculando a variável reduzida correspondente, vem: 2 5,0 120121 = − =Z Consultando a tabela, verifica-se que o valor da função Z é P(X≤2) = 0,9772. Logo P(X>2) = 1-0,9772 = 2,28%. Exercício 5 Numa praia do litoral português existe um serviço de aluguer de barcos, destinado aos turistas que a frequentam. O número de turistas que procuram este serviço, por hora, está associado a uma variável aleatória com distribuição de Poisson. Verificou-se que, em média, em cada hora, esse serviço é procurado por 8 turistas interessados em alugar barcos; sabe-se, por outro lado, que esse serviço funciona ininterruptamente das 8 às 20 horas. a) Qual a probabilidade de que, entre as 8 e as 9 horas, se aluguem 5 barcos? b) Qual a probabilidade de que, entre as 9 e as 11 horas, os barcos sejam procurados por mais de 25 turistas?
  • 73. Manual de Exercícios Estatística Aplicada 69 Resolução X: nºde turistas que procuram o serviço de aluguer de barcos por hora X segue Po(λ=8) a) Na tabela da Po(λ=8) vem P(X=5) = 9,16% b) Y1: nºde turistas que procuram o serviço de aluguer na 1ª hora Y2: nºde de turistas que procuram o serviço de aluguer na 2ª hora Logo Y1+Y2: nºde turistas que procuram o serviço de aluguer em 2 horas Pelo Teorema da Aditividade da Poisson, considerando Y1 e Y2 independentes e que todas seguem Po(8), vem que: Z=Y1+Y2 segue Po(2*8=16) Logo P(Z>25) = f(26) +... + f(33) = 0,0057 + ... + 0,0001 = 1,32% Exercício 6 O número de navios petroleiros que chegam diariamente a certa refinaria é uma variável com distribuição de Poisson de parâmetro 2. Nas actuais condições, o cais da refinaria pode atender, no máximo, 3 petroleiros por dia. Atingido este número, os restantes que eventualmente apareçam deverão seguir para outro porto. a) Qual a probabilidade de, num qualquer dia, ser preciso mandar petroleiros para outro porto? b) De quanto deveriam ser aumentadas as instalações de forma a assegurar cais a todos os petroleiros em 99,9% dos dias? c) Qual o número esperado de petroleiros a chegarem por dia? d) Qual o número mais provável de petroleiros a chegarem por dia? e) Qual o número esperado de petroleiros a serem atendidos diariamente? f) Qual o número esperado de petroleiros que recorrerão a outros portos diariamente? Resolução X: nºde petroleiros que chegam diariamente a uma certa refinaria X segue Po (2) Capacidade máxima de atendimento da refinaria: 3 petroleiros/dia
  • 74. Manual de Exercícios Estatística Aplicada 70 a) P(X>3) = 1 – P(X≤3) = 1 – F(3) = 1 – 0,8571 =14,29% (tab. pg.14) b) Nºmáximo de petroleiros que podem chegar: 9 (informação da tabela) Logo, a capacidade devia aumentar em 6 petroleiros/dia (9-3) c) E(X) = 2 d) X = 1 ou X = 2, com probabilidade 27,07% e) Y: nºde petroleiros que são atendidos diariamente numa certa refinaria (0,1, 2, 3) g(0) = P(X=0) = 0,1353 g(1) = P(X=1) = 0,2707 g(2) = P(X=2) = 0,2707 g(3) = P(X=3) = 1 – P(X<3) = 1 – P(X≤2) = 1 – 0,6767 = 0,3233 E(Y) = 0*0,1353 + … + 3*0,3233 = 1,782 São atendidos, em média, entre 1 e 2 petroleiros diariamente f) Z: nºde petroleiros que recorrem diariamente a outros portos (0,1, 2, 3, 4, 5, 6) Logo, Z = X - Y E(Z) = E(X -Y) = E(X) - E(Y) = 2 - 1,782 = 0,218 Recorrem a outros portos, em média, entre 0 e 1 petroleiro por dia g) W: nºde dias em que é preciso mandar petroleiros para outro porto num mês de 30 dias (0,1, 2,...30) W segue Bi (n = 30; p = P(X>3) = 0,1429) E(W) = 30*0,1429 = 4,3 Em média, é preciso enviar petroleiros para outro porto 4 a 5 dias/mês Exercício 7 Os Serviços Municipalizados de Gás e Electricidade debitam mensalemnte aos seus clientes um consumo teórico T de energia eléctrica calculado de tal modo que a probabilidade de o consumo efectivo o exceder seja de 30,85%. Suponha um cliente cujo consumo por mês segue lei normal de média 400 kwh e desvio-padrão 40 kwh. a) Qual o consumo teórico que lhe é mensalmente debitado? b) 1. Qual a distribuição do consumo efectivo durante 3 meses?
  • 75. Manual de Exercícios Estatística Aplicada 71 2. Qual a probabilidade de que, ao fim de 3 meses, o consumo teórico exceda o efectivo em mais de 100 kwh? Resolução X: consumo efectivo de energia eléctrica de um cliente por mês (em kwh) T: consumo teórico (valor fixo) debitado ao cliente por mês (em kwh) T: P(X>T) = 0,3085 X segue N(400; 1600) a) P(X>T) = 0,3085 ⇔ P( 3085,0) 40 400 40 400 = − > − TX ⇔ P(N(0,1) 4205,0 40 400 6915,0) 40 400 =⇔= − ⇔= − ≤ T TT b) 1. X1: consumo efectivo de energia eléctrica de um cliente no 1ºmês (em kwh) X2: consumo efectivo de energia eléctrica de um cliente no 2ºmês (em kwh) X3: consumo efectivo de energia eléctrica de um cliente no 3ºmês (em kwh) Logo X1+X2+X3: consumo efectivo de energia eléctrica em 3 meses (em kwh) Pelo Teorema da Aditividade da Normal, considerando X1, X2 e X3 independentes e que todas seguem N(400, 1600), vem que: Y=X1+X2+X3 segue N(400*3; 1600*3), isto é, N(1200; 4800) 2. P(3*420-Y > 100) = P(Y < 1160) = P(N(0,1)< ) 4800 12001160 − = = P(N(0,1)<-0,58) = 28,1% Exercício 8 Num determinado processo de fabrico, existem 2 cadeias de montagem A e B, com funcionamento independente. A cadeia A opera a um ritmo médio de 2 montagens por hora, e a probabilidade da cadeia B efectuar pelo menos uma montagem numa hora é de 98,71%. Admitindo que o número de montagens efectuadas por hora em ambas as cadeias é uma v.a. Poisson, determine: a) a probabilidade de se efectuarem mais de 6 montagens numa hora com a cadeia B
  • 76. Manual de Exercícios Estatística Aplicada 72 b) a probabilidade de, em 3 horas de trabalho, se efectuarem no máximo 10 montagens com a cadeia B c) a probabilidade de, numa hora, a cadeia A efectuar o dobro de montagens de B d) o número médio de montagens efectuadas num dia de trabalho de 8 horas com ambas as cadeiras Resolução X: nºde montagens da cadeia A por hora X segue Po(2) Y: nºde montagens da cadeia B por hora a) Y segue Poisson, mas desconhece-se a média (=parâmetro λ) No entanto, como se sabe que P(Y≥1) = 0,9817, vem que P(Y<1) = 1 – 0,9817 = 0,0183 Na tabela da Poisson, percorrendo as linhas de valor = 0, vem que o valor 0,0183 pode ser encontrado no cruzamento da linha 0 com a coluna 4. Logo, λ = 4. Na tabela da Po(4), P(Y>6) = 1–P(Y≤6) = 1–F(6) = 1-0,8893=11,07% b) Y1: nºde montagens da cadeia B na 1ª hora Y2: nºde montagens da cadeia B na 2ª hora Y3: nºde montagens da cadeia B na 3ª hora Logo Y1+Y2+Y3: nºde montagens da cadeia B em 3 horas Pelo Teorema da Aditividade da Poisson, considerando Y1, Y2 e Y3 independentes e que todas seguem Po(4), vem que: Z=Y1+Y2+Y3 segue Po(4*3=12) P(Z≤10) = f(0) + f(1) +... + f(10) = 0 + 0,0001 + … + 0,1048 = 34,72% c) P(X=2Y) = P(X=0∩ Y=0) + P(X=2 ∩ Y=1) + P(X=4 ∩ Y=2) + P(X=6 ∩ Y=3) + P(X=8∩ Y=4) = 0,1353*0,0183 + 0,2707*0,0753 + 0,0902*0,1465 + 0,012*0,1954 + 0,0009*0,1954 = 3,8% d) W: nºde montagens das 2 cadeias num dia de trabalho de 8 horas W = )( 8 1 i i i YX + = onde Xi + Yi corresponde ao nºde montagens das 2 cadeias por hora
  • 77. Manual de Exercícios Estatística Aplicada 73 Pelo Teorema da Aditividade de Poisson, sendo as variáveis independentes e seguindo Po(2) e Po(4) respectivamente, vem que Xi + Yi segue também Po(2+4=6). E Z , também pelo mesmo Teorema, segue Po(6*8=48) Logo, o número médio de montagens efectuado pelas 2 cadeias num dia de trabalho de 8 horas é de 48. Exercício 9 Uma companhia de tabacos recebeu em dada altura um elevado número de queixas quanto à qualidade dos cigarros de certa marca que comercializa. Numa rápida análise às condições de produção, constata-se que 1% dos filtros que compõem o cigarro saem defeituosos. Nestas condições, determine: a) a probabilidade de um maço acabado de formar 1. conter 1 cigarro com filtro defeituoso 2. conter 0 cigarros com filtro defeituoso b) o número de maços que, num volume que contém 20, a companhia espera poder aproveitar se utilizar o critério: 1. maço é aproveitável se não contiver cigarros defeituosos 2. maço é aproveitável se contiver no máximo 1 cigarro defeituoso Resolução X: nºde cigarros com filtro defeituoso em 20 cigarros de um maço X segue Bi(n=20; p=0,01) a) 1. P(X=1) = 20*0,01*0,9919 = 16,52% 2. P(X=0) = 0,010 *0,9920 = 81,79% b) 1. Crit. 1: maço é aproveitável se não contiver cigarros defeituosos Y: nºde maços aproveitáveis num volume que contem 20 maços Y segue Bi(n=20; p=P(X=0) = 0,8179) Logo E(Y) = 20*0,8179 = 16,36 2. Crit. 2: maço é aproveitável se contiver no máximo 1 cigarro defeituoso Y: nºde maços aproveitáveis num volume que contem 20 maços Y segue Bi(n=20; p=P(X=0)+P(X=1)= 0,8179+0,1652 = 0,9831) Logo E(Y) = 20*0,9831 = 19,66
  • 78. Manual de Exercícios Estatística Aplicada 74 Exercício 10 O comprimento das peças produzidas por uma máquina é uma v.a. Normal com média µ e variância σ2 . Uma peça defeituosa se o seu comprimento diferir do valor médio mais do que σ. Sabemos que 50% das peças produzidas têm comprimento inferior a 0,25 mm e 47,5% têm comprimento entre 0,25 mm e 0,642 mm. a) Calcule a média e o desvio-padrão do comprimento das peças. b) Determine a probabilidade de uma peça não ser defeituosa. Resolução X: comprimento das peças produzidas por uma máquina X segue N(µ; σ2 ) Peça defeituosa se X>µ + σ ou se X< µ - σ P(X<0,25) = 50% P(0,25<X<0,642) = 47,5% a) Como P(X<0,25) = 50% vem que P( %50) 25,0 = − < − σ µ σ µX Na tabela, σ µ−25,0 tem que ser =0, logo µµµµ = 0,25 E como P(0,25<X<0,642) = 47,5% vem que =<<= − < − < − ) 392,0 )1,0(0() 25,0642,025,025,025,0 ( σσσσ NP X P )0() 392,0 ( θ σ θ −= = 0,475 Sendo θ (0)=0,5, vem que 975,05,0475,0) 392,0 ( =+= σ θ Na tabela 3B da Normal, vem que 96,1 392,0 = σ e logo σσσσ = 0,2 b) P(peça não defeituosa) = P(µ - σ < X < µ + σ) = P(0,05 < X < 0,45) = P(X<0,45) – P(X<0,05) = %13,84)1()1()1() 2,0 25,005,0 () 2,0 25,045,0 ( ==−−= − − − Dθθθθ
  • 79. Manual de Exercícios Estatística Aplicada 75 Exercício 11 Sabe-se que a probabilidade de cura de uma certa doença é 20%. Põe-se à prova um novo medicamento, que eleva a probabilidade de cura para 40%, ministrando-o a um grupo de 20 doentes. Admite-se que o medicamento é eficaz no caso de contribuir para a cura de, pelo menos, 8 doentes em 20. Calcule a probabilidade de se concluir pela ineficácia do medicamento, ainda que este eleve de facto a probabilidade de cura para 40%. Resolução X: número de doentes curados no grupo de 20 a que é ministrado o novo medicamento (0,1,2...19, 20) n=20 p=0,4 q=1-p=0,6 X segue Bi (20; 0,4) P(X≥8)=1- F(7) = 41,58% Exercício 12 Sabe-se por via experimental que, por cada período de 5 minutos, chegam, em média, 4 veículos a determinado posto abastecedor de combustíveis. Um empregado entra ao serviço às 8 horas. Qual a probabilidade de ter de aguardar mais de 10 minutos até à chegada de um veículo? Resolução X: nºde veículos que chegam ao posto abastecedor por período de 5 minutos X segue Po(4) Se X1: nºde veículos que chegam ao posto no 1ºperíodo de 5 minutos X2: nºde veículos que chegam ao posto no 2ºperíodo de 5 minutos então X1+X2: nºde veículos que chegam ao posto abastecedor em 10 minutos Pelo Teorema da Aditividade de Poisson, considerando X1 e X2 independentes e que ambas seguem Po(4), vem que X1+X2 também segue Po(4+4=8) Logo P(X1+X2=0) na tabela da Po(8) vem igual a 0,03%.
  • 80. Manual de Exercícios Estatística Aplicada 76 3.4. Estimação por intervalos Conhecendo-se uma amostra em concreto, é possível estimar os valores dos seus parâmetros caracterizadores através de métodos probabilísticos. Por exemplo, suponhamos que numa fábrica produtora de açúcar se pretende averiguar se o peso dos pacotes produzidos está, em média, dentro das normas de qualidade exigíveis. Na impossibilidade de medição do peso de todos os pacotes, pela morosidade e dispêndio de recursos que tal implicaria, a estatística permite que, a partir da observação de uma única amostra, seja possível inferir entre que valores varia o peso médio com um grau de confiança ou probabilidade elevado. Assim, ao recolher um determinado número de pacotes da produção total aleatoriamente, é possível calcular o peso médio de acordo com as técnicas de estatística descritiva apreendidas atrás. Claro que nada nos garante que esse valor coincide com o valor do parâmetro da população em estudo. De facto, é até provável que não coincida e, mais, se recolhermos outro conjunto idêntico de pacotes, o valor seja diferente. Isto é, para cada amostra de dimensão n recolhida, a estimativa do parâmetro assumiria valores distintos. Então, como retirar conclusões? Como garantir algum nível de rigor? O método a estudar neste capítulo – a estimação por intervalos – permite, a partir da recolha de uma única amostra, aferir entre que valores seria de esperar que variasse o parâmetro de interesse se nos empenhássemos a recolher um número infinito de amostras. Isto é, por exemplo, caso o valor amostral fosse de 1,02 kg, este método poderia, por exemplo, permitir afirmar que seria altamente provável que o peso dos pacotes produzidos estivesse a variar entre 0,92 kg e 1,12 kg. E esse resultado tem um determinado nível de confiança associado: por exemplo, se dissermos que o nível de confiança ou certeza implicado é de 95%, tal significa que, se nos fosse possível observar um número infinito de amostras, o intervalo de valores apresentado corresponderia aos resultados obtidos em 95% delas (os valores mais usualmente utilizados são 90%, 95% ou 99% de confiança). Caberia depois à empresa julgar se esses seriam ou não valores aceitáveis e proceder aos eventuais reajustes necessários.
  • 81. Manual de Exercícios Estatística Aplicada 77 A partir do conceito de intervalo de confiança para um parâmetro, é fácil concluir que a sua especificação implica conhecer: - o estimador do parâmetro em causa - a sua distribuição de probabilidade - uma estimativa particular daquele parâmetro Como parâmetros de interesse e para efeitos de exemplificação, vão considerar-se duas tipologias de intervalo: o intervalo de confiança para a média de uma população normal e o intervalo de confiança para a proporção de uma população binomial. Para efeitos de simplificação, vão considerar-se apenas exemplos relativos a amostras de grande dimensão (na prática, n≥100) (i) Intervalo de confiança para a média µµµµ de uma população normal Seja X (média amostral) o estimador da média da população. Porque a distribuição é Normal, a distribuição deste estimador será: );( n NX σ µ∩ Uma vez que apenas se encontra tabelada a distribuição N(0,1), torna-se necessário calcular a variável reduzida correspondente: )1;0(N n X Z ∩ − = σ µ Esta variável permitirá deduzir a fórmula geral do intervalo de confiança para a média µ de uma população normal: +− n cX n cX σσ ; Isto é, em torno do valor do estimador, é definido um intervalo de variação onde é possível afirmar que o parâmetro a estimar está contido com um grau de confiança δ . Esse intervalo de variação depende: - da dimensão da amostra (n): quanto maior a dimensão da amostra, menor a amplitude do intervalo. Este resultado explica-se facilmente: no limite, se fosse possível observar todo o universo de dados (n=∞ ), o valor amostral calculado corresponderia ao valor da população.
  • 82. Manual de Exercícios Estatística Aplicada 78 - do desvio - padrão da população (σ ): quanto maior o desvio - padrão, maior a amplitude do intervalo. Como se sabe, o desvio - padrão é uma medida que caracteriza a dispersão da distribuição. Quanto maior o seu valor, maior a variabilidade apresentada pelos dados, sendo natural que a margem de variação de prever em torno do valor amostral recolhido seja também, naturalmente, maior. - do valor crítico (c): quanto maior o valor c, maior a amplitude do intervalo. O valor crítico reflecte o nível de confiança adoptado. Naturalmente, para que aumente a confiança de que o valor do parâmetro a estimar está contido no intervalo, a sua amplitude deve aumentar também (no limite, se o intervalo se alongasse de -∞ a +∞ a confiança seria total ou 100%). É possível encontrar o valor c na tabela da normal (pois esta é a lei do estimador), da seguinte forma: δ=≤≤− )( cZcP já que assim é possível definir a fórmula geral do intervalo, resolvendo a inequação em ordem ao parâmetro, µ : δ σ µ σ δ σ µ =−≤≤−⇔=≤ − ≤− )()( n cX n cXPc n X cP Se o desvio - padrão da população fôr desconhecido, utiliza-se este intervalo considerando-se como estimativa de σ o desvio - padrão corrigido da amostra, ou seja, s’= 1 )( 2 − − n xxi , tal que: +− n s cX n s cX '' ; (ii) Intervalo de confiança para a proporção p de uma população binomial Seja pˆ (proporção amostral ou frequência observada na amostra) o estimador da proporção p de uma população binomial. Sendo a amostra de grande dimensão, a distribuição deste estimador será: ) )1( ;(ˆ n pp pNp − ∩