2. Quartis
• Apenas com os valores da média e do desvio
padrão, não é possível identificar o
comportamento da distribuição (assimétrico
ou simétrico).
• Pode-se definir uma medida, chamada quantil
de ordem p, indicada por q(p), onde p é uma
proporção qualquer, 0<p<1, tal que 100p% das
observações sejam menores do que q(p).
4. • Definição formal:
• Considere as estatística de ordem x(1), ...,x(n). O
p-quantil é definido por:
i 0,5
x( i ) , se p pi , i 1,2,..., n
n
(1 f )q ( p ) f q ( p ), se pi p pi 1
q( p) i i i i 1
x(1) , se p p1
x( n ) , se p pn
( p pi )
onde fi .
( pi 1 pi )
8. Medida de dispersão alternativa
• Uma medida de dispersão alternativa ao
desvio padrão é a distância interquartil,
consiste na diferença entre terceiro e o
primeiro quartil:
dq=q(0,75)-q(0,25)
9. Resistência
• Os quartis são medidas de posição resistentes.
• Uma medida de posição ou dispersão é
resistente quando for pouco afetada por
mudanças de uma pequena porção de dados.
• A mediana é uma medida resistente, a média
e o desvio padrão não são medidas
resistentes.
10. Exemplo
• Considere as populações dos 20 municípios
mais populosos de Minas Gerais, segundo o
censo do IBGE de 2000.
Município População Município População
Belo Horizonte 2.238.526 Santa Lúcia 184.903
Contagem 538.017 Sete Lagoas 184.871
Uberlândia 501.214 Divinópolis 183.962
Juiz de Fora 456.796 Poços de Caldas 135.627
Montes Claros 306.947 Ibirité 133.044
Betim 306.675 Teófilo Otoni 129.429
Uberaba 252.051 Patos de Minas 123.881
Governador Valadares 247.131 Sabará 115.352
Ribeirão das Neves 246.846 Barbacena 114.126
Ipatinga 212.496 Varginha 108.998
11. • Medidas resumos:
Município População Município População
Belo Horizonte 2.238.526 Santa Lúcia 184.903
Contagem 538.017 Sete Lagoas 184.871
Uberlândia 501.214 Divinópolis 183.962
Juiz de Fora 456.796 Poços de Caldas 135.627
Montes Claros 306.947 Ibirité 133.044
Betim 306.675 Teófilo Otoni 129.429
Uberaba 252.051 Patos de Minas 123.881
Governador Valadares 247.131 Sabará 115.352
Ribeirão das Neves 246.846 Barbacena 114.126
Ipatinga 212.496 Varginha 108.998
Sem BH
Média=336.044 Média= 235.914
Desvio padrão=454.389 Desvio padrão=129.667
3º quartil= 306.811 3º quartil= 306.675
Mediana = 198.700 Mediana = 184.903
1º quartil= 131.234 1º quartil= 129.429
12. Idéia de simetria
• Os cinco valores são importantes para se ter
uma boa idéia da assimetria da distribuição
dos dados:
x(1), q1, Mediana, q3, x(n)
• Para uma distribuição simétrica deveríamos
ter: Dispersão inferior Dispersão superior
1) Mediana – x(1) x(n) – Mediana
2) Mediana – q1 q3 – Mediana
3) q1 – x(1) x(n) – q3
4) Distâncias entre mediana e q1, q3 menores do que distâncias
entre os extremos e q1, q3.
14. Box Plot
• O Box Plot é o gráfico que contém os valores
da mediana, 1º e 3º quartis, limite superior e
inferior e observações discrepantes.
• O limite inferior é obtido por:
Li=q1-(1,5)dq
• O limite superior é obtido por:
Ls=q3+(1,5)dq
17. Exercício 1
• O número de divórcios na cidade, de acordo com a
duração do casamento, está representado na tabela
abaixo: 1) Qual a duração média dos
casamentos? E a mediana?
Anos de casamento No de divórcios
2) Encontre a variância e o
[0,6) 2800
desvio padrão da duração
[6,12) 1400 dos casamento.
[12,18) 600 3) Construa o histograma da
[18,24) 150 distribuição.
[24,30) 50
4) Encontre o 1º e 3º quartil.
5) Qual o intervalo interquartil?
6) Construa o box-plot da
distribuição.
18. Exercício 2
• O que acontece com a mediana, média e o
desvio padrão de uma série de dados quando:
1. Cada observação é multiplicada por 2?
2. Soma-se 10 a cada observação?
3. Subtrai-se a média geral de cada observação?