Estatística Descritiva
Professor Dr.Geraldo Veríssimo de Souza Barbosa
UFAL CECA
UNIVERSIDADE FEDERAL DE ALAGOAS
CAMPUS DE ENGENHARIAS E CIÊNCIAS AGRÁRIAS
DISCIPLINA: ESTATÍSTICA GERAL
▪ O objetivoda Estatística Descritiva (dedutiva) é a
redução de dados
▪ Sintetizamos numerosos dados a algumas
informações
▪ São as tabelas de frequências, gráficos, médias,
desvios padrões, índices, taxas, coeficientes, etc.
▪ É umarepresentação das informações em forma
matricial, isto é, em linhas e colunas. Exemplo:
TABELA
Número de alunos de Estatística Geral da turma 2016.2, de acordo
com o ano de entrada
Ano de entrada
do aluno
Nº de alunos
2010 1
2011 0
2012 1
2013 1
2014 4
2015 33
Total 40
Essa é uma tabela bidimensional, tem linhas e colunas.
O título explica o
conteúdo da tabela
O Cabeçalho especifica o
conteúdo das colunas
Corpo da tabela: são os dados (as informações)
7.
▪ Vamos consideraro exemplo de um conjunto de
dados de duas variáveis mensuradas em 20
plântulas de cana-de-açúcar - Número de Folhas por
Plântula (NFP) e Altura da Plântula (AP), em cm
i NFP AP
1 6 88,2
2 4 59,4
3 4 64,6
4 7 91,3
5 5 77,2
6 6 85,0
7 6 72,3
8 6 80,1
9 6 75,0
10 8 102,3
i NFP AP
11 7 95,0
12 6 78,7
13 7 81,4
14 5 70,0
15 6 79,5
16 6 71,2
17 8 97,5
18 6 85,0
19 5 74,1
20 6 76,3
8.
▪ Distribuição defrequências para dados de variáveis
discretas
▪ Os dados são agrupados, do menor para o maior valor,
exibindo cada valor observado, suas frequências
absolutas e relativas
▪ Não há perda de informações
9.
▪Aplicação para osdados de NFP
▪Rol de NFP (dados em ordem crescente)
4 4 5 5 5 6 6 6 6 6 6 6 6 6 6 7 7 7 8 8
• O NFPvariou entre 4 e 8
• O valor mais frequente de NFP foi 6
• 10% das plântulas apresentaram 8 folhas por plântula
• 90% das plântulas apresentaram no máximo 7 folhas por
plântula
• 80% das plântulas apresentaram entre 5 e 7 folhas por plântula
Algumas interpretações
Distribuição de frequênciaspara dados de
variáveis contínuas
▪ Os dados são agrupados em classes
▪ Para cada classe são apresentadas as frequências
absolutas e relativas
▪ Nesse caso há perda de informações
17.
▪ Devemos terclasses com intervalos que facilitem a
interpretação dos resultados
▪ É comum considerar entre 5 e 15 classes, pois abaixo de 5
pode ocultar detalhes importantes e acima de 15 torna a
apresentação demasiadamente detalhada
▪ Uma regra prática para determinar o número de classes é tomar
a raiz quadrada do número de dados e ajustar para o intervalo
de 5 a 15 classes
18.
▪Vamos considerar osdados de AP
▪Rol (dados em ordem crescente)
59,4 64,6 70,0 71,2 72,3 74,1 75,0 76,3 77,2 78,7
79,5 80,1 81,4 85,0 85,0 88,2 91,3 95,0 97,5 102,3
19.
▪ Temos 20dados de AP. Tomando-se a raiz quadrada de
20, podemos considerar 5 classes
▪ O maior valor é 102,3 cm e o menor valor é 59,4 cm
▪ A diferença entre o maior valor e o menor valor é de
42,9 cm (amplitude dos dados)
▪ Dividindo-se essa amplitude dos dados (42,9 cm) por 5
classes, encontramos a amplitude de cada classe (8,58
cm)
▪ Vamos aproximar a amplitude de cada classe para 10
cm (facilitará as interpretações)
▪ Nesse caso consideramos o limite inferior da primeira
classe abaixo do menor valor
20.
▪ Distribuição defrequências para a variável Altura
da Planta (AP)
PM: ponto médio da classe; f: frequência; fr: frequência relativa;
fa: frequência acumulada; fra: frequência relativa acumulada
Classe AP
(55 a 65]
(65 a 75]
(75 a 85]
(85 a 95]
(95 a 105]
PM
60
70
80
90
100
f
2
5
8
3
2
fr (%)
10
25
40
15
10
fa
2
7
15
18
20
fra (%)
10
35
75
90
100
21.
▪ Distribuição defrequências para a variável Altura
da Planta (AP)
Classe AP PM f fr (%) fa fra (%)
(55 a 65] 60 2 10 2 10
(65 a 75] 70 5 25 7 35
(75 a 85] 80 8 40 15 75
(85 a 95] 90 3 15 18 90
(95 a 105] 100 2 10 20 100
PM: ponto médio da classe; f: frequência; fr: frequência relativa;
fa: frequência acumulada; fra: frequência relativa acumulada
22.
• A classede AP mais frequente foi (75 a 85]
• 10% das plântulas apresentaram altura entre 95 e 105 cm
• 75% das plântulas apresentaram altura de no máximo 85 cm
• 80% das plântulas apresentaram altura entre 65 e 95 cm
Algumas interpretações
• Medidas deposição ou de tendência
central dos dados
▪São usadas para indicar valores que
representem melhor o conjunto de dados
27.
▪ É amais importante medida de posição dos dados
▪ É o ponto de equilíbrio dos dados
Na População: x1, x2,...,xN
Média = μ =
𝒙𝟏+𝒙𝟐+⋯+𝒙𝑵
𝑵
=
σ 𝒙𝒊
𝑵
MÉDIA (μ ou m)
28.
MÉDIA (μ oum)
Na Amostra: x1, x2,...,xn
Média = ഥ
𝒙 = m =
𝒙𝟏+𝒙𝟐+⋯+𝒙𝒏
𝒏
=
σ 𝒙𝒊
𝒏
29.
Média dos dadosda amostra de NFP
m =
𝟔+𝟒+⋯+𝟓+𝟔
𝟐𝟎
=
𝟏𝟐𝟎
𝟐𝟎
= 𝟔
30.
Média dos dadosda amostra de AP
m =
𝟖𝟖,𝟐+𝟓𝟗,𝟒+⋯+𝟕𝟒,𝟏+𝟕𝟔,𝟑
𝟐𝟎
=
𝟏.𝟔𝟎𝟒,𝟏
𝟐𝟎
= 𝟖𝟎, 𝟐
31.
▪ É usadaquando os dados estiverem agrupados
▪ Se tivermos n observações da variável X, das quais n1
são iguais a x1, n2 são iguais a x2, etc, nk iguais a xk,
então:
MÉDIA Ponderada (mp)
mp =
(𝒏𝟏)(𝒙𝟏)+(𝒏𝟐)(𝒙𝟐)+⋯+(𝒏𝒌)(𝒙𝒌)
𝒏𝟏+𝒏𝟐+ ⋯+𝒏𝒌
Observe que 𝒏𝟏 + 𝒏𝟐 + ⋯ + 𝒏𝒌 = Ʃ𝒏𝒊 = 𝒏
32.
Média ponderada dosdados de NFP
mp =
𝟐 𝟒 + 𝟑 𝟓 + 𝟏𝟎 𝟔 + 𝟑 𝟕 +(𝟐)(𝟖)
𝟐+𝟑+𝟏𝟎+𝟑+𝟐
=
𝟏𝟐𝟎
𝟐𝟎
= 𝟔
▪ No caso de variáveis discretas não há perda de
informação. A média aritmética é igual a média
ponderada
33.
Média ponderada dosdados de AP
mp =
𝟐 𝟔𝟎 + 𝟓 𝟕𝟎 + 𝟖 𝟖𝟎 + 𝟑 𝟗𝟎 +(𝟐)(𝟏𝟎𝟎)
𝟐+𝟓+𝟖+𝟑+𝟐
=
𝟏.𝟓𝟖𝟎
𝟐𝟎
= 𝟕𝟗, 𝟎
▪ No caso de variáveis contínuas há perda de
informação. A média aritmética é diferente da média
ponderada
34.
▪ Para dadosordenados (Rol), a mediana é o valor que
divide a série dos dados em duas partes iguais
▪ Metade dos valores se situa abaixo e a outra metade
acima da mediana
▪ Para n ímpar a mediana será o valor central e para n par
a mediana será a média dos dois valores centrais
▪ É uma medida estatística menos importante que a
média
MEDIANA (Md)
35.
▪ Para osdados de NFP:
Md =
𝟔+𝟔
𝟐
= 𝟔
Uma regra prática usa a distribuição de frequências dos
dados. Tomar o valor de NFP quando a fra for de 50%
MEDIANA (Md)
4 4 5 5 5 6 6 6 6 6 6 6 6 6 6 7 7 7 8 8
▪ Md =
𝟕𝟖,𝟕+𝟕𝟗,𝟓
𝟐
=𝟕𝟗, 𝟏
MEDIANA (Md)
59,4 64,6 70,0 71,2 72,3 74,1 75,0 76,3 77,2 78,7
79,5 80,1 81,4 85,0 85,0 88,2 91,3 95,0 97,5 102,3
▪ Para os dados de AP (Rol):
38.
▪ Para variáveiscontínuas é mais apropriado apresentar
a classe mediana
▪ Na distribuição de frequências dos dados tomamos a
classe quando a fra for de 50%
▪ Classe mediana de AP: (75 a 85]
MEDIANA (Md)
39.
▪ Distribuição defrequências para a variável Altura da Planta (AP)
Classe
AP PM f fr (%) fa fra (%)
(55 a 65] 60 2 10 2 10
(65 a 75] 70 5 25 7 35
(75 a 85] 80 8 40 15 75
(85 a 95] 90 3 15 18 90
(95 a 105] 100 2 10 20 100
PM: ponto médio da classe; f: frequência; fr: frequência relativa;
fa: frequência acumulada; fra: frequência relativa acumulada.
50%
Classe mediana
40.
▪ É ovalor mais frequente em uma série de dados
▪ É a medida de posição menos útil
▪ Para variáveis contínuas, é mais indicado usar a
classe modal, ou aquela com maior frequência
MODA (Mo)
41.
▪ Para avariável NFP a Moda é 6 folhas por plântula
▪ Para a variável AP, a classe modal é (75 a 85] cm
MODA (Mo)
42.
Medidas de dispersãoou de variabilidade
dos dados
▪ Indicam se os valores estão próximos
ou separados uns dos outros
43.
Medidas de dispersãoou de variabilidade dos
dados
Exemplo: sejam as amostras A e B
i xi
1 2,5
2 3
3 3,5
Amostra A
i xi
1 2
2 3
3 4
Amostra B
44.
Intervalo ou amplitude(Δ)
▪ É a diferença entre o maior e o menor
valor
▪ Para a amostra A:
▪ Mín = 2,5 ; Máx = 3,5 ; Δ = 3,5 – 2,5 = 1
▪ Para a amostra B:
▪ Mín = 2 ; Máx = 4 ; Δ = 4 – 2 = 2
45.
Desvio, erro ouafastamento da média (ei)
É a diferença entre qualquer valor do
conjunto de dados e a média
ei = xi - m
46.
Desvio, erro ouafastamento da média (ei)
Para a amostra A: m = 3
Obs: Soma dos erros = 0; média dos erros = 0
ei = xi - m
i xi ei
1 2,5 -0,5
2 3 0,0
3 3,5 0,5
Amostra A
47.
Desvio, erro ouafastamento da média (ei)
Para a amostra B: m = 3
Obs: Soma dos erros = 0; média dos erros = 0
ei = xi - m
i xi ei
1 2 -1
2 3 0
3 4 1
Amostra B
48.
VARIÂNCIA (σ2 ous2 )
Uma das alternativa para evitar que a soma
dos desvios seja nula é considerarmos
seus quadrados. A variância é, pois, a
média dos desvios quadráticos.
VARIÂNCIA (σ2 ous2 )
Na amostra (s2):
O termo (n-1) do denominador da variância, chama-se
graus de liberdade (gl)
𝑠2
=
σ 𝑒𝑖
2
𝑛 − 1
=
σ 𝑥𝑖
2
− (σ 𝑥𝑖)2
/𝑛
𝑛 − 1
51.
VARIÂNCIA (σ2 ous2 )
Para a amostra A:
𝑠2
=
σ 𝑒𝑖
2
𝑛−1
=
0,5
2
= 0,25
27,5 − (9)2
/3
3 − 1
=
0,5
2
= 0,25
𝑠2
=
σ 𝑥𝑖
2
− (σ 𝑥𝑖)2
/𝑛
𝑛 − 1
=
i xi ei ei
2
xi
2
1 2,5 -0,5 0,25 6,25
2 3 0,0 0,00 9,00
3 3,5 0,5 0,25 12,25
Total 9 0 0,50 27,50
m 3 0
Amostra A
52.
VARIÂNCIA (σ2 ous2 )
Para a amostra B:
𝑠2
=
σ 𝑒𝑖
2
𝑛−1
=
2
2
= 1,00
29 − (9)2
/3
3 − 1
=
2
2
= 1,00
𝑠2
=
σ 𝑥𝑖
2
− (σ 𝑥𝑖)2
/𝑛
𝑛 − 1
=
i xi ei ei
2
xi
2
1 2 -1 1 4,00
2 3 0 0 9,00
3 4 1 1 16,00
Total 9 0 2 29,00
m 3 0
Amostra B
53.
DESVIO PADRÃO (σou s)
O problema da variância é que ela é uma
medida com escala quadrática
Desvio padrão = 𝑽𝒂𝒓𝒊â𝒏𝒄𝒊𝒂
Para encontrar uma medida com a escala
original dos dados, devemos extrair a raiz
quadrada da variância, que é o desvio
padrão
54.
DESVIO PADRÃO (σou s)
Para a amostra A: s = 𝟎, 𝟐𝟓 = 0,50
Para a amostra B: s = 𝟏, 𝟎𝟎 = 1,00
55.
ERRO PADRÃO DAMÉDIA - s (m) ou s (ഥ
𝒙)
É uma medida de variação da média
s (m) = s (ഥ
𝒙) =
𝒔
𝒏
Quando tivermos uma amostra com n dados,
uma estimativa da média equivalente a m ou ഥ
𝒙 e
estimativa de desvio padrão de s, o erro padrão
da média é obtido pela expressão:
56.
ERRO PADRÃO DAMÉDIA - s (m) ou s (ഥ
𝒙)
Para a amostra A: s (m) =
𝟎,𝟓
𝟑
= 0,29
Para amostra B: s (m) =
𝟏,𝟎
𝟑
= 0,58
57.
Coeficiente de Variação(CV)
É uma medida relativa de variação dos
dados
CV (%) =
𝟏𝟎𝟎 𝒔
𝒎
Representa, em percentagem, o quanto o
desvio padrão vale em relação à média
58.
Coeficiente de Variação(CV)
Para a amostra A: CV =
𝟏𝟎𝟎 (𝟎,𝟓)
𝟑
= 16,67%
Para amostra B: CV =
𝟏𝟎𝟎 (𝟏,𝟎)
𝟑
= 33,33%
59.
Interpretação do CV
OCV mede a precisão dos dados
CV( %) Variação Precisão
<5 Muito baixa Muito alta
5 a 10 Baixa Alta
10 a 20 Média Média
20 a 30 Alta Baixa
>30 Muito alta Muito baixa
60.
Impreciso e Inexato
Precisoe Exato
Preciso e Inexato
Impreciso e exato
PRECISÃO e EXATIDÃO
G.V.S.BARBOSA - CEP 2016
Obs: No cálculoda separatriz, quando a ordem
coincidir com um número inteiro i o valor a ser usado é
o da média aritmética entre os dados que ocupam as
posições i e i+1. Quando a ordem não for um número
inteiro a regra é arredondar para a posição do número
inteiro acima da ordem e tomar o valor correspondente.
SEPARATRIZES (QUARTIS, DECIS E PERCENTIS)
Valor x1 x2 x3 ... xn
Ordem (i) 1 2 3 ... n
Rol dos dados
64.
Quartis (Q)
Dividem asérie de dados em quatro partes iguais. São três quartis.
Q1 = 1º quartil, deixa 25% dos dados abaixo e 75% acima dele.
Q2 = 2º quartil, deixa 50% dos dados abaixo e 50% acima dele.
Q3 = 3º quartil, deixa 75% dos dados abaixo e 25% acima dele.
Decis (D)
Dividem asérie de dados em dez partes iguais.
D1 = 1º decil, deixa 10% dos dados abaixo e 90% acima dele.
D2 = 2º decil, deixa 20% dos dados abaixo e 80% acima dele.
........................................................................................................
D9 = 9º decil, deixa 90% dos dados abaixo e 10% acima dele.
PERCENTIS (P)
Dividem asérie dos dados em 100 partes iguais.
P1 = 1º percentil, deixa 1% dos dados abaixo e 99% acima dele.
.............................................................................................................
P99 = 99º percentil, deixa 99% dos dados abaixo e 1% acima dele.
P16 = 16ºpercentil; Ordem = 16n/100 = 320/100 = 3,2
então P16 será o valor de ordem 4 ou P16 = 71,2
P57 = 57º percentil; Ordem = 57n/100 = 1140/100 = 11,4
então P57 será o valor de ordem 12 ou P57 = 80,1
AP 59,4 64,6 70,0 71,2 72,3 74,1 75,0 76,3 77,2 78,7
Ordem 1 2 3 4 5 6 7 8 9 10
AP 79,5 80,1 81,4 85,0 85,0 88,2 91,3 95,0 97,5 102,3
Ordem 11 12 13 14 15 16 17 18 19 20
Exemplo de Percentis para AP (n=20)
73.
SEPARATRIZES (QUARTIS, DECISE
PERCENTIS)
▪ Uma regra prática para obter as separatrizes
aproximadas é com base no valor
correspondente à frequência relativa
acumulada.
Classe AP PMf fr (%) fa fra (%)
(55 a 65] 60 2 10 2 10
(65 a 75] 70 5 25 7 35
(75 a 85] 80 8 40 15 75
(85 a 95] 90 3 15 18 90
(95 a 105] 100 2 10 20 100
EXEMPLOS DE SEPARATRIZES (QUARTIS, DECIS E PERCENTIS)
Usando a classe
Separatriz Classe AP
Q1 (65 a 75]
Q2 (75 a 85]
Q3 (75 a 85]
D1 (55 a 65]
D9 (85 a 95]
P16 (65 a 75]
P57 (75 a 85]
76.
Resumo estatístico paraa variável NFP
Número de dados n 20
Mínimo Mín 4
Máximo Máx 8
Amplitude A 4
Total ∑x 120
Média m 6
Média ponderada
(Valor x frequências)
Moda mo 6
Mediana Med 6
Variância s2
1,16
Desvio padrão s 1,08
Erro padrão da média s(m) 0,24
Coeficiente de Variação CV (%) 17,93
Quartil inferior q1 5,5
Quartil superior q3 6,5
Segundo decil d2 5
Oitavo decil d8 7
32º percentil p32 6
mp 6
77.
Resumo estatístico paraa variável AP
Número de dados n 20
Mínimo Mín 59,4
Máximo Máx 102,3
Amplitude A 42,9
Total ∑x 1604,1
Média m 80,205
Média ponderada
(PM x frequências)
[75 a 85]
Mediana 79,1
Variância s2
118,74
Desvio padrão s 10,90
Erro padrão da média s(m) 2,44
Coeficiente de Variação CV (%) 13,6
Quartil inferior q1 73,20
Quartil superior q3 86,60
Primeiro decil d1 67,30
Nono decil d9 96,30
57º percentil p57 80,10
79,0
Classe Modal
mp