SlideShare uma empresa Scribd logo
Medidas resumo ou
descritivas
Profas. Débora Spenassato
Vamos começar a estudar as características de uma
distribuição de frequências ou de dados. Dentre elas,
podemos citar:
a) Medidas de tendência central: informa onde se localiza
o centro da distribuição;
b) Medidas dispersão: avaliam a variabilidade dos dados;
c) Medidas separatrizes: visam separar o conjunto de
dados em partes iguais.
d) Assimetria: grau de deformação da curva; representa a
concentração dos valores em um dos extremos da
distribuição.
e) Curtose: é o grau de achatamento da distribuição.
Barbetta, Reis, Bornia (2010)
• Essas medidas mostram que os dados tendem a se
agrupar/distribuir em torno dos valores centrais, logo,
busca-se por um valor central ou típico de uma
distribuição de dados para representá-los.
Temos a média, moda e mediana.
Medidas de tendência central
Pergunta: Você já se questionou por que sempre sai a
mesma quantidade de tempo antes quando vai de casa
para o trabalho?
Editora Ciranda Cultural
FURG
Quando repetimos uma grande quantidade de
vezes o trajeto, anotamos mentalmente o
tempo e criamos uma amostra representativa,
e calculamos mentalmente a média.
A média é um valor em torno do qual os
valores tendem a se concentrar (é o valor
esperado).
Seja x1, x2, ... xn, um conjunto de números ou valores
observados para a variável X em estudo. Definimos a média
aritmética simples como sendo a soma dos números ou
valores dividido pela quantidade de valores.
1.1 Média aritmética simples (ou valor esperado)
1. Média
população
da
tamanho
população
da
média
amostra
da
tamanho
amostra
da
média
=
=
=
=
N
n
X

Propriedades da Média
• A média de um conjunto de dados é única e não deve ser
arredondada.
• A média é influenciada/afetada por todos os valores da
série de dados.
• A soma dos desvios de um conjunto de valores em relação
à média aritmética é zero.
Ex: Seja Xi = 7,8,9; média = 8
(7-8)+(8-8)+(9-8)=0
( ) 0
1
=
−

=
n
i
i x
x
• Se somarmos ou diminuirmos uma constante a cada um
dos dados, a média também será somada ou subtraída
dessa constante. Analogamente, serve para a multiplicação
e divisão por uma constante.
Ex: Seja Xi = 7,8,9; média = 8
x+2
7+2 =9
8 +2 = 10
9+ 2 = 11
média = 10
•A soma dos quadrados dos desvios em relação à média
representa um valor mínimo.
( ) valor
mínimo
x
x
n
i
i
1
2
=
−

=
Exemplo: média para dados brutos
Calcule a média aritmética da variável idade dos
alunos da turma de estatística descritiva.
Idade
17
18
18
18
18
18
18
19
20
21
21
21
22
22
22
23
23
24
24
27
27
29
30
32
35
41
49
n = 27
A média da idade da turma é 24,33 anos.
Quando os dados estão agrupados em tabelas precisamos
considerar a frequência de cada um dos valores da variável
para calcularmos a média. Assim, as frequências indicam a
intensidade de cada valor da variável em estudo, sendo um
fator de ponderação.
- Sem intervalos de classes:
xi fi
0 22
1 4
2 1
Total 27
A média é de 0,22 filho por aluno.
2. Média aritmética ponderada
Mesmo valor obtido
com dados brutos
n
f
x
X i
i
p

=
.
Exemplo:
Cálculo da nota na FURG: condições para aprovação na
graduação
1.Disciplinas Semestrais com 2 notas parciais (NP):
1º) Aluno que alcançar média aritmética simples nas suas
notas parciais ≥ 7,0;
2º) No exame: aluno que alcançar Média final ≥ 5,0:
Média = 3 x ( NP1 + NP2 ) + 4 x Exame
10
2.Para Disciplinas Anuais com 4 notas parciais (NP):
Média = 1,5 x ( NP1 + NP2 + NP3 + NP4 ) + 4 x Exame
10
- Com intervalos de classes:
Calculamos considerando o valor de cada classe como o ponto
médio da respectiva classe.
i
Idades
(anos) fi Pm Pm.fi
1 17 |- 23 15 20 300
2 23 |- 29 6 26 156
3 29 |- 35 3 32 96
4 35 |- 41 1 38 38
5 41 |- 47 1 44 44
6 47 |- 53 1 50 50
Total 27 ---
A média da idade da turma é 25,33 anos.
n
f
P
X
i
m
p
i

=
.
O desconhecimento dos valores
individuais faz com que se utilize
os pontos médios de classe
para calcular a média.
Porque isso
aconteceu?
Tabela obtida com base nos mesmos dados brutos.
Quando agrupamos os dados em intervalos de classes,
passamos a trabalhar com os dados sem conhecimento de
seus valores individuais, ou seja, perdemos informação e
precisão.
Por esta razão, utiliza-se a distribuição de frequência com
intervalos de classes apenas para apresentar os dados ou
construir o histograma para representar o conjunto.
3. Moda - Mo
Denominamos moda, o valor que ocorre com maior
frequência em uma série de valores.
Ex.: O salário modal dos empregados de uma empresa é o
salário recebido pelo maior número de empregados.
▪ Para dados brutos:
Procedimento: Deve-se ordenar os elementos da série e
verificar qual deles mais vezes ocorreu.
Classificação quanto ao número de modas:
1. Unimodal - quando possui somente uma moda.
Ex.: 2; 3; 3; 4; 4; 4; 8
Mo = 4
2. Bimodal - quando possui duas modas.
Ex.: 0; 3; 4; 4; 5; 5; 7
Mo1 = 4 Mo2 = 5
3. Trimodal - quando possui três modas.
Ex.: 0; 2; 2; 3; 3; 5; 4; 4;
Mo1 = 2 Mo2 = 3 e Mo3 = 4
4. Poli ou Multimodal - quando possui mais de três
modas.
Quando todas as observações ocorrem com a mesma
frequência, diz-se que a mesma é amodal, ou seja, não possui
moda. Ex.: 2; 2; 3; 3; 4; 4; OU 1; 2; 3; 5
Idade
17
18
18
18
18
18
18
19
20
21
21
21
22
22
22
23
23
24
24
27
27
29
30
32
35
41
49
Exemplo 1:
Ex.: idade da turma
Mo=18 anos
Aparece 6 vezes na amostra
Classificação da moda = unimodal
a) Qual é a média em relação à garantia de vida do
produto? Não é possível calcular média de dados
qualitativos.
b) Qual é o conceito modal sobre garantia de vida do
produto? Satisfatório (S)
Exemplo 2:
Uma empresa deseja avaliar o período definido para a
garantia de vida de sua produção de pendrives. Para isso,
seleciona uma amostra de 12 unidades e avalia a ocorrência
de falhas no período pretendido para a garantia de vida do
produto. Os resultados são apresentados a seguir, onde
S = resultado satisfatório e F = ocorrência de falha.
S S S S S S F F S S F S
4. Mediana (Md)
É uma medida de tendência central e separatriz. Tem por
função dividir a série, já ordenada, em duas partes iguais,
sendo que, cada parte contém a mesma quantidade de
elementos.
50% 50%
Md
Temos duas situações:
▪ Número ímpar de elementos
Procedimento: ordenar a série, encontrar a posição da
mediana (PMd) e, em seguida, verificar qual é o valor (x) que
ocupa essa posição.
Ex.: Calcular a mediana de 10, 5, 9, 6, 2, 13, 16, 15, 18
2,5,6,9,10,13,15,16,18
Md=10
2
1
+
=
n
PMd
Md
P
x
Md =
Ordenar!
º
5
2
1
9
=
+
=
Md
P
▪ Mediana para número par de elementos
Procedimento: ordenar a série e localizar os dois elementos
que estão no centro. Em seguida, calcular a média aritmética
destes dois elementos.
Ex.: Determinar a mediana dos números 6, 2, 10, 7, 21, 13, 18, 12
2,6,7,10,12,13,18,21
Md=(10+12)/2
Md=11
2
5
,
0
5
,
0 +
−
+
= Md
Md P
P x
x
Md
2
1
+
=
n
PMd
posição
PMd ª
5
,
4
2
1
8
=
+
=
Md está entre as posições
4ª e 5ª.
Calcular a
média desses
valores
X4 X5
Idade
17
18
18
18
18
18
18
19
20
21
21
21
22
22
22
23
23
24
24
27
27
29
30
32
35
41
49
Exemplo
Dados brutos da idade dos alunos.
n+1/2 = 27+1/2= 14ª posição
Md=22 anos
Interpretação: Significa que 50% dos alunos possuem idade
menor ou igual a 22 anos, bem como 50% dos alunos
possuem idade maior ou igual a 22 anos.
Qual medida devo usar para representar o meu conjunto de
dados?
https://br.depositphotos.com
Ex.: Idade de alunos:
15 16 14 16 17
Neste caso, poderíamos utilizar qualquer medida
de tendência central, todas estarão próximas.
15 16 14 18 17 50
Neste caso, a idade de 50 anos é muito diferente
das demais, tornando-se um ponto discrepante.
Isso fará com que a média das idades seja afetada
e não seja “representativa” da maioria dos
alunos, sendo preferível utilizar a mediana, pois
ela não é afetada por pontos discrepantes.
Também não temos moda.
▪ As Medidas de Tendência Central não são suficientes
para caracterizar a distribuição.
Medidas de Dispersão
Exemplo: Suponha as notas de 3 grupos (A, B e C), cada qual com 4
alunos.
GRUPO “A” : 5, 5, 5, 5
GRUPO “B” : 9, 9, 1, 1
GRUPO “C” : 4, 4, 6, 6
Qual é a média de cada grupo?
A média é 5 para todos os grupos. Mas percebe-se que seus
valores são bem diferentes!
▪ Para uma análise estatística mais exata é necessário
verificar a variação dos valores (dispersão) em torno de
sua média aritmética (valor central).
▪ Essas medidas indicam se um conjunto é homogêneo (pouca
ou nenhuma variabilidade) ou heterogêneo (muita
variabilidade).
Quanto menor a dispersão, mais confiável é a média.
Exemplo: O comportamento dos grupos são bem distintos:
GRUPO “A”: a dispersão é nula
GRUPO “B”: valores são dispersos em relação à média
GRUPO “C”: valores são mais homogêneos
Exemplo 2: Considere duas linhas de produção de uma peça. A
média do comprimento da peça é de 75cm e ambas as linhas estão
produzindo peças com comprimentos próximos desse valor. Podemos
considerar que as peças produzidas por ambas as linhas são
adequadas?
As peças produzidas por (1) são melhores. Isso ocorre porque a dispersão
dos elementos em torno da média é menor, ou seja, os elementos estão
mais concentrados em torno da média na primeira linha de produção.
Como queremos avaliar a dispersão dos dados em torno da média, esse
valor estará relacionado com a distância dos dados em relação à média.
Portal Action (2017)
Dentre as medidas de dispersão ou de variabilidade de um
conjunto de dados, podemos citar algumas :
◦ Amplitude Total
◦ Desvio médio
◦ Variância
◦ Desvio Padrão
◦ Desvio interquantílico (Amplitude interquartílica=AIQ)
Medida de dispersão relativa:
◦ Coeficiente de variação
Avaliam a variabilidade dos dados em torno da
MÉDIA.
1. Amplitude Total (AT)
A amplitude total é a diferença entre o maior (xmáx) e o menor
(xmín) valor da série de dados. Representa a dispersão máxima.
AT raramente é usada como única medida de variabilidade
porque é calculada apenas com os valores extremos.
Exemplo: Nota de 20 alunos:
Xi: 1, 1, 2, 2, 2, 3, 3, 3, 5, 5, 5, 5, 5, 6, 6, 6, 9
AT = 9 – 1 = 8
mín
máx x
x
AT −
=
Interpretação: as notas dos alunos variaram de 1 a 9 pontos, tendo
amplitude total de 8 pontos
A variância é a média dos desvios ao redor da média elevado
ao quadrado.
Populacional:
Amostral:
2. Variância (2 para população; s2 para amostras)
( )

=
−
−
=
n
i
i X
X
n
S
1
2
2
1
1
( )

=
−
=
N
i
i
X
N 1
2
2 1


N = tamanho da população
n = tamanho da amostra
Xi = valores observados nos dados
população
da
média
a
representa
que
al
populacion
parâmetro
amostra
da
média
=
=

x
Como a variância é calculada a partir do quadrado dos desvios
em relação à média, seu resultado é um número com unidade
quadrada (ex.: anos2).
A vantagem do desvio padrão sobre a variância é que este
permite uma interpretação direta do grupo, pois o mesmo é
expresso na mesma unidade de medida dos dados em
análise.
O desvio padrão nada mais é do que a raiz quadrada da
variância.
3. Desvio padrão ( para população; s para amostras)
2
S
S =
2

 =
Algumas considerações sobre o desvio padrão:
• Sua interpretação está vinculada à média aritmética.
• É sempre positivo.
• Assim como a média, o desvio padrão é uma medida pouco
resistente, pois é influenciado por valores ou muito
grandes ou muito pequenos (discrepantes).
• A média e o desvio padrão fornecem informações úteis
sobre a localização do centro da distribuição dos dados e
sobre a variabilidade se as distribuições dos dados forem
aproximadamente simétricas.
Interpretação do Desvio Padrão
Quando uma curva de frequência representativa da série é
simétrica (curva apresentada na Figura 1, a seguir), podemos
afirmar que:
• O intervalo contém aproximadamente 68,27%
dos valores da série.
• O intervalo contém aproximadamente 95,45%
dos valores da série.
• O intervalo contém aproximadamente 99,73%
dos valores da série.



 1
;
1 +
−



 2
;
2 +
−



 3
;
3 +
−
Figura 1. Interpretação do desvio padrão para uma curva simétrica.
Fonte: inf.ufsc.br/~andre.zibetti/probabilidade/normal.html
Ex.: Valores que estão acima ou abaixo de 2 desvios já estão muito
afastados da média. Muitos autores já os consideram como
valores discrepantes.
Exemplo:
Calcule a variância e desvio padrão considerando a
população das três equipes.
Equipe A: 5; 5; 5; 5
Média=5
Equipe B: 9; 9; 1; 1
Média = 5
Equipe C: 6; 6; 4; 4
Média = 5
Quanto maior for o desvio
padrão, maior será a
variação (dispersão) entre
os valores.
  2
2
2
2
2
2
0
)
5
5
(
)
5
5
(
)
5
5
(
)
5
5
(
.
4
1
)
( pontos
A =
−
+
−
+
−
+
−
=

pontos
pontos
A 0
0
)
( 2
=
=

Conforme esperado, uma vez que todos os valores são iguais à média e
não há variabilidade (dispersão).
pontos
pontos
B 4
16
)
( 2
=
=

( )

=
−
=
N
i
i
x
N 1
2
2 1

 5
=

Equipe A: 5; 5; 5; 5
1
x 2
x 3
x 4
x
  2
2
2
2
2
2
16
)
5
1
(
)
5
1
(
)
5
9
(
)
5
9
(
.
4
1
)
( pontos
A =
−
+
−
+
−
+
−
=

Equipe B: 9; 9; 1; 1
2
2
1
)
( ponto
C =
 ponto
ponto
C 1
1
)
( 2
=
=

Equipe C: 6; 6; 4; 4
pontos
pontos
B
S 62
,
4
33
,
21
)
( 2
=
=
Calculando a variância e desvio padrão amostral para a
Equipe B:
Observe que há diferença no resultado quando consideramos
dados de “população” (σ = 4).
Equipe C é mais homogênea que a equipe B
  2
2
2
2
2
2
33
,
21
)
5
1
(
)
5
1
(
)
5
9
(
)
5
9
(
.
3
1
)
( pontos
A
S =
−
+
−
+
−
+
−
=
Medida de Dispersão Relativa
É uma medida relativa de variabilidade que permite a
comparação da dispersão de duas características
diferentes (unidades de medição e/ou tamanhos
diferentes).
É utilizado para comparar em termos relativos o grau
de concentração dos dados em torno da média de
séries distintas.
http://g1.globo.com/sp/presidente-prudente-
regiao/blog/nutricao-pratica/post/perder-peso-x-emagrecer.html
https://sites.google.com/site/rendonrestr
epo112del2017/
Coeficiente de Variação (CV)
É uma medida que indica a relação percentual entre o
desvio padrão e a média dos dados.
100

=


CV
100

=
x
s
CV
População
Amostra
Classificação da dispersão relativa:
CV < 15% → baixa dispersão
15% ≤ CV ≤ 30% → média dispersão
CV > 30% → alta dispersão
Exemplo 1: Comparação para mesma unidade de
medida
Considere as notas de duas turmas da Faculdade. As notas
da turma A apresentam média 6 com desvio padrão 4 e as da
turma B média 9 e desvio padrão 2. Qual turma é mais
homogênea em termos de notas?
%
67
,
66
100
.
6
4
)
( =
=
A
CV
%
22
,
22
100
.
9
2
)
( =
=
B
CV
Conforme o coef. de variação, as notas da turma B
são mais homogêneas do que as notas da turma A.
Alta dispersão
média dispersão
Exemplo 2: Comparação de unidades de medidas diferentes
Qual variável apresentou maior dispersão nos dados?
Na tabela abaixo são apresentados os valores do desvio
padrão e da média da altura e peso de um grupo de pessoas.
Calcule o coef. de variação e comente os resultados.
Variáveis Média Desvio padrão
Altura (cm) 170 9
Peso (Kg) 68 11
%
3
,
5
)
(
%
2
,
11
)
(
=
=
altura
CV
peso
CV
O peso dos alunos variou mais do que a altura
dos mesmos. Embora ambos apresentem
baixa dispersão.
Medidas Separatrizes
São números que dividem a sequência ordenada de dados
em partes que contêm a mesma quantidade de elementos da
série.
Desta forma, a mediana que divide a sequência ordenada em
dois grupos, cada um deles contendo 50% dos valores da
sequência, é também uma medida separatriz.
Além da mediana, existem outras medidas separatrizes que
destacaremos: quartis, decis e percentis.
Se dividirmos a série ordenada em quatro partes iguais,
cada uma ficará com 25% dos elementos. Os elementos que
separam estes grupos são chamados de quartis.
➢ O primeiro quartil (Q1) separa a sequência ordenada
deixando 25% de seus valores à esquerda e 75% de seus
valores à direita.
Quartis
O segundo quartil (Q2) separa a sequência ordenada
deixando 50% de seus valores à esquerda e 50% de seus
valores à direita. Note que o Q2 é a Mediana da série.
O terceiro quartil (Q3) separa a sequência ordenada
deixando 75% de seus valores à esquerda e 25% de seus
valores à direita.
O quarto quartil (Q4) corresponde à última quarta parte
(100%) da série.
Os decis separam uma série em 10 partes iguais.
D1 deixa à esquerda da sequência 10% de seus valores e
90% à direita.
Eles são indicados por D1, D2, D3, ..., D10.
Decis
Os percentis separam uma série em 100 partes iguais, em
que cada parte fica com 1% de seus valores. Assim, 1% fica
à sua esquerda e 99% à direita. Eles são indicados por P1,
P2, P3, ..., P99.
Percentis
P5
5%
95%
SEMPRE NESSE SENTIDO PARA IDENTIFICAR O QUARTIL OU
PERCENTIL DE INTERESSE.
Ex.: Qual é o percentil, que acima dele temos 95% dos dados? P5
Encontrando a posição para DADOS BRUTOS:
1) Ordenar os dados;
2) Definir qual o percentil ou quartil desejado (j);
3) Calcular sua posição por meio da Equação abaixo;
4) Verificar qual o valor de elemento que ocupa aquela
posição.
100
)
1
.( +
=
n
j
Posição j
P
4
)
1
.( +
=
n
j
Posição j
Q j = 1,2,3,4
j = 1,2,...,100
Quartil:
Dj = j.(n+1)/ 10 => DECIL
Percentil:
IMPORTANTE:
1) Se a posição for um número inteiro: o valor é o elemento que se
encontra nesta posição na sequência de dados ordenados.
2) Se a posição não for um número inteiro:
➢ Ex.: 2,5º - iremos calcular a média entre os valores das posições 2ª e 3ª.
➢ Ex.: 2,25º - calcular a diferença entre os valores que ocupam a 2ª e 3ª
posição, depois calcular a parte decimal que ainda falta em relação a esta
diferença obtida e somá-la ao elemento da 2ª posição.
OBS: Existem várias formas de calcular medidas separatrizes!
No entanto, a interpretação do resultado é a mesma.
Bibliografia e softwares podem diferir um pouco no resultado!
Pinto e Silva (2010).
Exemplo 1: Desejamos conhecer a idade que separa os
75% mais novos dos 25% mais velhos da turma de
estatística.
1º passo: colocar em ordem crescente.
Percentil
17 18 18 18 18 18 18 19 20 21 21 21 22 22
22 23 23 24 24 27 27 29 30 32 35 41 49
2º passo: decidir qual percentil deverá ser calculado (ex. P75).
3º passo: calcular a posição do percentil desejado.
4º passo: ver na escala ordenada, qual o valor correspondente à
posição calculada.
17 18 18 18 18 18 18 19 20 21 21 21 22 22
22 23 23 24 24 27 27 29 30 32 35 41 49
º
21
100
)
1
27
(
75
100
)
1
(
=
+
=
+
=
n
j
PosiçãoPj
CONCLUSÃO: (P75)
▪ Podemos afirmar que 75% dos alunos possuem idade
menor ou igual a 27 anos. De outro modo, dentre os 75%
mais novos, o mais velho deles possui 27 anos.
▪ Analisando os 25% restantes, podemos dizer que 25%
possuem idade maior ou igual a 27 anos. De outro modo,
dentre os 25% mais velhos, o mais novo deles possui 27
anos.
17 18 18 18 18 18 18 19 20 21 21 21 22 22
22 23 23 24 24 27 27 29 30 32 35 41 49
Exemplo 2: Encontrar P30
º
4
,
8
100
)
1
27
.(
30
30 =
+
=
P
Posição
1) 8ª posição = 19
9ª posição = 20
2) Diferença = 20-19 = 1
3) Calcular 0,4 de 1, ou seja,
0,4x1=0,4
4) Somar o resultado (0,4) ao
elemento da 8ª posição (19).
5) P30 = 19,4
Desta forma Qj será um elemento entre Xk e Xk+1, onde
k é a posição do inteiro ≤ j(n+1)/4
( )
k
k
k
j X
X
k
n
j
X
P −






−
+
+
= +1
100
)
1
(
( )
k
k
k
j X
X
k
n
j
X
Q −






−
+
+
= +1
4
)
1
(
º
4
,
8
100
)
1
27
.(
30
30 =
+
=
P
P
K=8
Menor inteiro
( )( )
( )( )
4
,
19
)
1
4
,
0
(
19
19
20
8
4
,
8
19
8
4
,
8
30
8
9
8
30
=
+
−
−
+
=
−
−
+
=
x
P
X
X
X
P
De forma geral:
Usando dados do Exemplo 2
Quanto passa da
posição inteira
Diferença entre os
valores das posições
Representação
gráfica
O Boxplot é capaz de resumir o conjunto de observações e revelar
vários aspectos, como tendência central, variabilidade e
simetria.
O boxplot também possibilita visualizar valores atípicos (outliers ou
valores discrepantes).
A construção do boxplot é feita com base no chamado resumo de
cinco números: o valor mínimo, o primeiro quartil (Q1), a
mediana (Md), o terceiro quartil (Q3) e o máximo.
Boxplot ou diagrama em caixas
A parte central do gráfico é composta de
uma “caixa” com o nível superior dado por
Q3 e o nível inferior por Q1.
O tamanho da caixa é uma medida de
dispersão chamada distância/desvio ou
amplitude interquartílica =>
AIQ = Q3 − Q1
A mediana é representada por um traço
no interior da caixa e segmentos de reta
são colocados da caixa até os valores
máximo e mínimo.
Neste caso, não estamos
avaliando se existe pontos
discrepantes nos dados!
Simetria
Os dados abaixo representam a distância (em Km) entre a
residência e o local de trabalho de 18 funcionários da Empresa A.
0,2 0,4 0,5 0,5 0,8 0,8 0,9 0,9 1,1
1,4 1,8 1,9 2,3 2,3 3,2 3,5 3,7 15,1
Medidas resumo para a distância:
▪ Mediana= 1,25
▪ Q1= 0,725 (P=4,75º) => 0,75x0,3=0,225 + 0,5 = 0,725
▪ Q3= 2,525 (P=14,25º) => 0,25x0,9=0,225 + 2,3 =2,525
▪ Mínimo= 0,2
▪ Máximo = 15,1
Exemplo 1:
Figura 1 – Boxplot para a distância entre a residência e o local de
trabalho de 18 funcionários da Empresa A.
Boxplot – verificando dados discrepantes
Outra possibilidade na construção do boxplot é utilizar
amplitude interquartílica (AIQ) para verificar se há pontos
discrepantes.
Consideramos os dados menores do que Limite inferior
Li = Q1-1,5AIQ ou maiores que limite superior
Ls = Q3+1,5AIQ como sendo discrepantes (representado
por * ou •) do restante dos dados.
Quanto maior o AIQ, maior
a chance de que os valores
extremos estejam incluídos
no intervalo (Ls e Li) e,
assim, não sejam outliers.
No exemplo das distâncias, vamos verificar se há pontos discrepantes. não
há valores fora destes limites e, quando isto ocorre, os limites são
representados pelo mínimo e máximo.
AIQ = Q3 – Q1
AIQ = 2,525-0,725 =1,8
Ls = Q3+1,5AIQ
Ls = 2,525+(1,5x1,8)
Ls = 5,225
Li = Q1-1,5AIQ
Li = 0,725-1,5x1,8
Li = -1,975
Temos dados menores do que -1,975?
E maiores do que 5,225?
Se ocorrer, temos ponto(s) discrepante(s).
Não
Sim
3,7
15,1
0,2
Obs:
(i) É o limite inferior dos dados sem considerar os discrepantes, ou seja, valor
anterior ao discrepante;
(ii) É o limite superior dos dados sem considerar os discrepantes;
+ representa a média aritmética dos dados;
* outliers;
AIQ: amplitude interquartil (Q3 – Q1), a qual não é afetada por valores extremos.
As três medidas (Q1, MEDIANA e Q3) mostram a forma da distribuição de
50% dos valores ao redor da mediana.
Representação na verificação de valores discrepantes
Comparação de dados
(quanti x quali)
Emili Leão, Henrique Cupertino, Juliana Lacerda e Maria Eduarda (Turma da
Enfermagem 2019/2)
Traço = Valor
anterior ao ponto
discrepante na
amostra ordenada
Valores
discrepantes, ou
seja, acima do Ls
Valor mínimo, pois não
há valores abaixo do Li
O que fazer quando identificamos valores discrepantes?
Investigar a sua origem.
Valores discrepantes podem, de fato, fazer parte do
conjunto de dados, reforçando a característica assimétrica
da distribuição.
Eventualmente, esses valores podem ser oriundos de erros
na aferição ou no registro dos dados.
Uma inspeção cuidadosa nos dados e nas eventuais causas
da ocorrência de valores discrepantes é sempre uma
providência necessária antes que qualquer atitude seja
tomada em relação aos dados.
Vantagens:
➢Além de fornecer informações importantes sobre um conjunto
de dados, o boxplot é usado para comparar graficamente mais
de um conjunto de dados em relação à média, à dispersão e à
distribuição.
➢Desenhamos um boxplot para cada conjunto de dados,
paralelamente, num mesmo gráfico.
➢O boxplot pode ser utilizado para um número reduzido de
dados, enquanto histogramas não são recomendados quando o
conjunto de dados é pequeno.
O boxplot não deve ser usado quando a distribuição de
frequências dos dados tiver mais de uma classe modal, ou
seja, mais de um pico. O uso do boxplot nesse caso esconderá
essa característica da distribuição.
Neste caso, o boxplot mascara o caráter bimodal da distribuição
por meio de uma falsa simetria em torno da mediana dos dados.
Figura 2 – Histograma e boxplot de uma distribuição de frequência bimodal.
Desvantagem:
Estilos assimétricos
Rostos assimétricos
Imagens do google
Assimetria e curtose
As medidas de assimetria e curtose são as que restam
para completarmos o quadro das estatísticas descritivas.
Elas proporcionam, juntamente com as medidas de posição
e dispersão, a descrição completa das distribuições de
frequências estudadas.
As distribuições de frequências não diferem apenas quanto
ao valor médio e a variabilidade, mas também quanto a
sua forma.
Medidas de Assimetria e Curtose
Curtose
As(simetria)
Comparações em
relação à curva normal
(em vermelho)
Medidas de Assimetria (As)
As medidas de assimetria referem-se à forma da curva
de uma distribuição de frequências, mais
especificamente do polígono de frequência ou do
histograma.
Quanto ao grau de deformação, as curvas de
frequência podem ser:
➢Simétrica
➢Assimétrica Positiva
➢Assimétrica Negativa
Por meio do Boxplot também podemos verificar a
as(simetria)
Q1 está mais
próximo da
Mediana
Q3 está mais
próximo da
Mediana
Posição relativa da média, mediana e moda numa
distribuição de frequência
• Quando a distribuição é simétrica, as três medidas
coincidem.
• A assimetria é o grau de deformação da curva, o que as
torna diferentes.
Crespo (2009)
Assimetria positiva
Assimetria negativa
Histograma
Boxplot
Assimetria
positiva
1. Método de Comparação entre Medidas de Tendência
Central
2. Critério de Kelley – usa percentis e a mediana
3. Critério de Bowley (Coeficiente Quartil de Assimetria) –
usa os quartis e a mediana – conforme boxplot
4. Critério de Pearson (1º e 2º coeficiente)
Principais Medidas de Assimetria
Quando uma distribuição deixa de ser simétrica, a Moda, a Mediana e a
Média Aritmética vão se afastando, aumentando cada vez mais a
diferença entre elas.
Podemos usar essa diferença para medir assimetria.
EXEMPLO: Assimetria pelo Critério de Bowley
Idade
17
18
18
18
18
18
18
19
20
21
21
21
22
22
22
23
23
24
24
27
27
29
30
32
35
41
49
Assimetria positiva
1
3
1
3 2
Q
Q
Md
Q
Q
As
−
−
+
=
mean 0% 25% 50% 75% 100%
24.33 17 18.5 22 27 49
176
,
0
5
,
8
5
,
1
5
,
18
27
22
2
5
,
18
27
=
=
−
−
+
=
x
As
EXEMPLO: Assimetria pelo Critério de Pearson.
Idade
17
18
18
18
18
18
18
19
20
21
21
21
22
22
22
23
23
24
24
27
27
29
30
32
35
41
49
91
,
0
65
,
7
99
,
6
65
,
7
)
22
33
,
24
(
3
=
=
−
=
As
S
Md
x
As
)
(
3 −
=
mean Sd 0% 25% 50% 75% 100%
24.33 7.65 17 18.5 22 27 49
Idade
17
18
18
18
18
18
18
19
20
21
21
21
22
22
22
23
23
24
24
27
27
29
30
32
35
41
49
Idade
Frequência
15 20 25 30 35 40 45 50
0
2
4
6
8
10
Assimetria positiva
mean sd skewness n
24.33 7.65 1.597 27
Software R: momento 3
3
1
1
1

=





 −
=
n
i
i
S
x
x
n
b
Fórmula do Type=3
Padrão no software R
Pacote “e1071”
5. Momento 3 (assimetria) de uma distribuição de
frequência
A Curtose indica até que ponto a curva de frequências de
uma distribuição se apresenta mais afilada ou mais
achatada do que uma curva normal padrão (simétrica).
De acordo com o grau de curtose, podemos ter três tipos de
curvas de frequência.
Curtose
(b) A curtose da curva normal padrão é
nula e serve como referência. É
chamada de mesocúrtica.
(a) .... Leptocúrtica:
mais afilada.
(c) - - - Platicúrtica: mais
achatada.
1. A Curva ou Distribuição de Frequências Mesocúrtica
Quando a curva de frequências apresenta um grau de
achatamento equivalente ao da curva normal padrão.
Os dados estão razoavelmente concentrados em torno da moda, o que faria a
curva de frequência ser razoavelmente afilada.
2. Curva ou Distribuição de Frequências Platicúrtica
Quando uma curva de frequências apresenta um alto grau
de achatamento, superior ao da curva normal padrão.
Os dados estão fracamente concentrados em torno da moda, o que faria a
curva de frequência ser fracamente afilada.
3. Curva ou Distribuição de Frequências Leptocúrtica
Quando a curva de frequências apresenta um alto grau de
afilamento, superior ao da curva normal padrão.
Os dados estão fortemente concentrados em torno da moda, o que faria a
curva de frequência ser bastante afilada.
Medidas de comparação:
C = 0,263  Curva ou distribuição Mesocúrtica
C > 0,263  Curva ou distribuição Platicúrtica
C < 0,263  Curva ou distribuição Leptocúrtica
1) Usa quartis e percentis para verificar a curtose.
)
(
2
)
(
10
90
1
3
P
P
Q
Q
C
−
−
=
Fórmula do Type=3
Padrão no software R
Pacote “e1071”
3
1
4
1
2 −





 −
= 
=
n
i
i
S
x
x
n
b
2) Momento 4 - curtose
Joanes e Gill (1998)
Histogram of w
w
Frequency
0.0 0.2 0.4 0.6 0.8 1.0
0
20
40
60
80
100
> skewness(w)
0.006920658
> kurtosis(w)
-1.202988
Exemplo 1: Distribuição de dados w no R
b2 < 0 => Platicúrtica
> skewness(y)
-0.04755411
> kurtosis(y)
0.02270533
Histogram of y
y
Frequency
-2.0 -1.5 -1.0 -0.5 0.0 0.5 1.0 1.5
0
50
100
150
200
250
300
350
Exemplo 2: Distribuição de dados y no R
b2 = 0 => Mesocúrtica
Histogram of x
x
Frequency
-0.6 -0.4 -0.2 0.0 0.2 0.4 0.6
0
20
40
60
80
100
120
Exemplo 3: Distribuição de dados x no R
> skewness(x)
-0.03711457
> kurtosis(x)
0.2113637
b2 > 0 => Leptocúrtica
Medidas para dados
agrupados
xi fi
0 22
1 4
2 1
Total 27
i
Idades
(anos) fi
Pm
(xi)
1 17 |- 23 15 20
2 23 |- 29 6 26
3 29 |- 35 3 32
4 35 |- 41 1 38
5 41 |- 47 1 44
6 47 |- 53 1 50
Total 27 ---
Variáveis discretas: valor com
maior frequência. Logo, a
moda é zero.
Método da Moda bruta
a moda é o PONTO MÉDIO da
classe modal (mais frequente).
Logo, a moda é 20.
15 – maior frequência
Moda para dados agrupados:
Mediana para dados agrupados
- Sem intervalos de classe
1. Obtemos a posição do valor mediano.
2. A mediana será o valor (xi) que corresponde a
frequência acumulada em que se encontra a posição
mediana.
xi fi Fi
0 22 22
1 4 26
2 1 27
Total 27 -
n+1/2 = (27+1)/2= 14 º posição
A 14º posição é
ocupada pelo valor 0.
Então, Md=0
29/2= 14,5º
O valor mediano está entre as posições 14ª e 15ª.
Se n fosse 28 ( n par):
1º ao 22º valor
23º ao 26º valor
- Com intervalos de classe
A mediana é dada pela seguinte equação:
i = classe mediana (intervalo de classe onde Fi superou 50% dos dados)
h
f
F
n
LI
Md
i
i
i .
.
2
1
1












−
+
=
−
i
Idades
(anos) fi Fi Fp
1 17 |- 23 15 15 55,6%
2 23 |- 29 6 21 77,8%
3 29 |- 35 3 24 88,9%
4 35 |- 41 1 25 92,6%
5 41 |- 47 1 26 96,3%
6 47 |- 53 1 27 100,0%
Total 27 --- ---
i = 1
LI1 = 17
F0 = 0
f1=15
h=6
Md=22,4 anos
13,5º
6
.
15
0
27
.
2
1
17












−
+
=
Md
13,5º
i
num.
Filhos
(xi) fi Fi Fp
1 0 15 15 46,88
2 1 7 22 68,75
3 2 10 32 100
total 32 - -
Média = (0x15+1x7+2x10)/32 =27/32=0,84 filhos
Moda = 0 filhos
Md= 1 filho
n/2 = 32/2=16º posição
Para o cálculo dos percentis:
Sendo:
Pj – Percentil j (1, 2, 3, ..., 99);
LIi – limite inferior da classe i que contém o percentil;
n – número de elementos na amostra;
Fi-1 – frequência acumulada da classe anterior à classe que contém o percentil;
fi - frequência simples da classe que contém o percentil;
h - amplitude do intervalo da classe que contém o percentil.
Medidas separatrizes
Para dados agrupados com intervalos de classes
h
fi
F
n
j
LI
P
i
i
j .
.
100
1












−
+
=
−
Da mesma forma que no Percentil, podemos calcular
para quartil e decil. Note que a mudança ocorre apenas
onde está destacado na equação.
h
fi
F
n
j
LI
Q
i
i
j .
4
.
1












−
+
=
−
h
fi
F
n
j
LI
D
i
i
j .
10
.
1












−
+
=
−
Quartil de
interesse
Decil de
interesse
Exemplo: idade de 27 alunos
Dado a tabela, encontre o P25 e P75 das idades dos alunos.
i Idades (anos) fi Fi Fp
1 17 |- 23 15 15 55,6%
2 23 |- 29 6 21 77,8%
3 29 |- 35 3 24 88,9%
4 35 |- 41 1 25 92,6%
5 41 |- 47 1 26 96,3%
6 47 |- 53 1 27 100,0%
Total 27 --- ---
º
75
,
6
100
27
.
25
25 =
=
P
P 7
,
19
6
.
15
0
75
,
6
17
25 =





 −
+
=
P
1º ao 15º
º
25
,
20
100
27
.
75
75 =
=
P
P 25
,
28
6
.
6
15
25
,
20
23
75 =





 −
+
=
P
16º ao 21º
h
fi
F
n
j
LI
P
i
i
j .
100
.
1












−
+
=
−
Pm
Variância para dados agrupados
Para dados agrupados, acrescentamos a frequência no
cálculo da Variância. Quando os dados se apresentarem em
intervalos de classe, Xi será o ponto médio (Pm) do
intervalo de classe. Logo, a fórmula será:
( )

=
−
−
=
n
i
i X
X
n
S
1
2
2
1
1
( )
n
f
Pm i
i

BARBETTA, Pedro Alberto; REIS, Marcelo Menezes; BORNIA, Antonio Cezar.
Estatística Para Cursos de Engenharia e Informática. 3 ed. São Paulo: Atlas, 2010.
BUSSAB, Wilton de Oliveira; MORETTIN, Pedro Alberto. Estatística Básica. 8 ed. São
Paulo: Saraiva, 2013.
CRESPO, A. A. Estatística fácil. São Paulo: Saraiva, 2009.
JOANES, D. N.; Gill, C. A. (1998). Comparing measures of sample skewness and
kurtosis. The Statistician, 47, 183–189.
MEYER, D. et al. e1071: Misc Functions of the Department of Statistics, Probability
Theory Group. R package version 1.7-2, 2019. https://CRAN.R-
project.org/package=e1071.
PINTO, Suzi Samá; SILVA, Carla Silva. Estatística. Vol 1. Rio Grande: Ed. da
Universidade Federal do Rio Grande, 2010.
PORTAL ACTION. Medidas de dispersão. Disponível em:
http://www.portalaction.com.br/estatistica-basica/22-medidas-de-dispersão. Acesso em:
mai. 2017.
TRIOLA, Mario F. Introdução a estatística. 10. ed. Rio de Janeiro: LTC, 2008. 696 p.
Referências
Videoaulas sobre os conteúdos
• Construção de tabelas de frequência com intervalos de classe
https://www.youtube.com/watch?v=DCCt2nSM1uE regra de sturges
https://www.youtube.com/watch?v=AZlEuUdFWNA outras frequências
• histograma e polígono de frequência simples
https://www.youtube.com/watch?v=-zkPSlpyBaM
• polígono freq. acumulada - ogiva
https://www.youtube.com/watch?v=n1ZyYzFngoM
• Medidas de tendência central
https://www.youtube.com/watch?v=nmxQI4d-P0g&t=66s
• Medidas de dispersão
https://www.youtube.com/watch?v=zIPKZHbMyUY&list=PL8CqlCJefRMBfG3grMCAp6uw
G1UuIf9OO&index=7
• Cálculo de quartis e percentis para dados brutos
https://www.youtube.com/watch?v=KTuvZ_lFlgs
• Percentil para dados agrupados em intervalos de classe
https://www.youtube.com/watch?v=4-p9ILo-R3U
• assimetria – método gráfico
https://www.youtube.com/watch?v=G0vF8Ansz-k
• coef. de assimetria de Pearson
https://www.youtube.com/watch?v=2ejUpHnMVNg
• coef. de curtose
https://www.youtube.com/watch?v=fVKo7KtBgew

Mais conteúdo relacionado

Semelhante a topico 2_Medidas descritivas.pdf

Medidas De TendêNcia Central
Medidas De TendêNcia CentralMedidas De TendêNcia Central
Medidas De TendêNcia Central
naianeufu1
 
Aula 3 Estatística descritiva (Medidas de Tendencia Central).pdf
Aula 3 Estatística descritiva (Medidas de Tendencia Central).pdfAula 3 Estatística descritiva (Medidas de Tendencia Central).pdf
Aula 3 Estatística descritiva (Medidas de Tendencia Central).pdf
JeremiasFontinele
 
Métodos Quant. Aplic. a Gestão
Métodos Quant. Aplic. a GestãoMétodos Quant. Aplic. a Gestão
Métodos Quant. Aplic. a Gestão
Ana Fabricia Ludwig
 
mtmbasica.pdf
mtmbasica.pdfmtmbasica.pdf
mtmbasica.pdf
DilvanaAraujo
 
3. medidas de posição e dispersão (1)
3. medidas de posição e dispersão (1)3. medidas de posição e dispersão (1)
3. medidas de posição e dispersão (1)
Thiago Apolinário
 
Estatística econômica parte1
Estatística econômica parte1Estatística econômica parte1
Estatística econômica parte1
Celso Costa Junior
 
Aula 00
Aula 00Aula 00
Aula 00
Marcos Campos
 
EstatisticaGIMO_aquiUEM
EstatisticaGIMO_aquiUEMEstatisticaGIMO_aquiUEM
EstatisticaGIMO_aquiUEM
Formão Armando Gimo
 
Media, moda e mediana
Media, moda e medianaMedia, moda e mediana
Media, moda e mediana
Jeremias Manhica
 
Raciocinio logico.pptx
Raciocinio logico.pptxRaciocinio logico.pptx
Raciocinio logico.pptx
IagoBernard1
 
Estatística 8.º ano
Estatística 8.º anoEstatística 8.º ano
Estatística 8.º ano
aldaalves
 
Estatística 8.º ano
Estatística 8.º anoEstatística 8.º ano
Estatística 8.º ano
aldaalves
 
Aula 07 Medidas de Tendencia Central de Dados Não Agrupados
Aula 07   Medidas de Tendencia Central de Dados Não AgrupadosAula 07   Medidas de Tendencia Central de Dados Não Agrupados
Aula 07 Medidas de Tendencia Central de Dados Não Agrupados
João Alessandro da Luz, Secretaria de Estado da Educação do Paraná, Campo Mourão - Pr
 
Mtmbasica
MtmbasicaMtmbasica
Mtmbasica
Barto Freitas
 
Apostila matemática básica 1
Apostila matemática básica 1Apostila matemática básica 1
Apostila matemática básica 1
waynemarques
 
Apostila ifsp
Apostila   ifspApostila   ifsp
Apostila ifsp
Alex Garcia
 
Cinésiologia parte 3
Cinésiologia parte 3Cinésiologia parte 3
Cinésiologia parte 3
Kall4p Panthers
 
Exame mat6º revisões; preparação
Exame mat6º revisões; preparaçãoExame mat6º revisões; preparação
Exame mat6º revisões; preparação
marcommendes
 
Aula 2 mat ef
Aula 2   mat efAula 2   mat ef
Aula 2 mat ef
Walney M.F
 
Probabilidade e Estatística - Aula 03
Probabilidade e Estatística - Aula 03Probabilidade e Estatística - Aula 03
Probabilidade e Estatística - Aula 03
Augusto Junior
 

Semelhante a topico 2_Medidas descritivas.pdf (20)

Medidas De TendêNcia Central
Medidas De TendêNcia CentralMedidas De TendêNcia Central
Medidas De TendêNcia Central
 
Aula 3 Estatística descritiva (Medidas de Tendencia Central).pdf
Aula 3 Estatística descritiva (Medidas de Tendencia Central).pdfAula 3 Estatística descritiva (Medidas de Tendencia Central).pdf
Aula 3 Estatística descritiva (Medidas de Tendencia Central).pdf
 
Métodos Quant. Aplic. a Gestão
Métodos Quant. Aplic. a GestãoMétodos Quant. Aplic. a Gestão
Métodos Quant. Aplic. a Gestão
 
mtmbasica.pdf
mtmbasica.pdfmtmbasica.pdf
mtmbasica.pdf
 
3. medidas de posição e dispersão (1)
3. medidas de posição e dispersão (1)3. medidas de posição e dispersão (1)
3. medidas de posição e dispersão (1)
 
Estatística econômica parte1
Estatística econômica parte1Estatística econômica parte1
Estatística econômica parte1
 
Aula 00
Aula 00Aula 00
Aula 00
 
EstatisticaGIMO_aquiUEM
EstatisticaGIMO_aquiUEMEstatisticaGIMO_aquiUEM
EstatisticaGIMO_aquiUEM
 
Media, moda e mediana
Media, moda e medianaMedia, moda e mediana
Media, moda e mediana
 
Raciocinio logico.pptx
Raciocinio logico.pptxRaciocinio logico.pptx
Raciocinio logico.pptx
 
Estatística 8.º ano
Estatística 8.º anoEstatística 8.º ano
Estatística 8.º ano
 
Estatística 8.º ano
Estatística 8.º anoEstatística 8.º ano
Estatística 8.º ano
 
Aula 07 Medidas de Tendencia Central de Dados Não Agrupados
Aula 07   Medidas de Tendencia Central de Dados Não AgrupadosAula 07   Medidas de Tendencia Central de Dados Não Agrupados
Aula 07 Medidas de Tendencia Central de Dados Não Agrupados
 
Mtmbasica
MtmbasicaMtmbasica
Mtmbasica
 
Apostila matemática básica 1
Apostila matemática básica 1Apostila matemática básica 1
Apostila matemática básica 1
 
Apostila ifsp
Apostila   ifspApostila   ifsp
Apostila ifsp
 
Cinésiologia parte 3
Cinésiologia parte 3Cinésiologia parte 3
Cinésiologia parte 3
 
Exame mat6º revisões; preparação
Exame mat6º revisões; preparaçãoExame mat6º revisões; preparação
Exame mat6º revisões; preparação
 
Aula 2 mat ef
Aula 2   mat efAula 2   mat ef
Aula 2 mat ef
 
Probabilidade e Estatística - Aula 03
Probabilidade e Estatística - Aula 03Probabilidade e Estatística - Aula 03
Probabilidade e Estatística - Aula 03
 

Último

AE03 - ESTUDO CONTEMPORÂNEO E TRANSVERSAL EMPREENDEDORISMO CORPORATIVO UNICES...
AE03 - ESTUDO CONTEMPORÂNEO E TRANSVERSAL EMPREENDEDORISMO CORPORATIVO UNICES...AE03 - ESTUDO CONTEMPORÂNEO E TRANSVERSAL EMPREENDEDORISMO CORPORATIVO UNICES...
AE03 - ESTUDO CONTEMPORÂNEO E TRANSVERSAL EMPREENDEDORISMO CORPORATIVO UNICES...
Consultoria Acadêmica
 
Simbologia e Terminologia de Instrumentação da Norma ISA 5.1 - Simbologia_ISA...
Simbologia e Terminologia de Instrumentação da Norma ISA 5.1 - Simbologia_ISA...Simbologia e Terminologia de Instrumentação da Norma ISA 5.1 - Simbologia_ISA...
Simbologia e Terminologia de Instrumentação da Norma ISA 5.1 - Simbologia_ISA...
pereiramarcossantos0
 
Apresentação concreto autodesempenho 123
Apresentação concreto autodesempenho 123Apresentação concreto autodesempenho 123
Apresentação concreto autodesempenho 123
GabrielGarcia356832
 
SFE SSO PROC 03 Bloqueio e sinalização de energias perigosas 1(Comentado).docx
SFE SSO PROC 03 Bloqueio e sinalização de energias perigosas 1(Comentado).docxSFE SSO PROC 03 Bloqueio e sinalização de energias perigosas 1(Comentado).docx
SFE SSO PROC 03 Bloqueio e sinalização de energias perigosas 1(Comentado).docx
bentosst
 
Segurança nos trabalhos em altura, normas SST
Segurança nos trabalhos em altura, normas SSTSegurança nos trabalhos em altura, normas SST
Segurança nos trabalhos em altura, normas SST
ClaudioArez
 
Apostila SAP.PM para PCM, para indústria e depósitos
Apostila SAP.PM para PCM, para indústria e  depósitosApostila SAP.PM para PCM, para indústria e  depósitos
Apostila SAP.PM para PCM, para indústria e depósitos
Sandro Marques Solidario
 
Incêndios em correia transportadora.pptx
Incêndios em correia transportadora.pptxIncêndios em correia transportadora.pptx
Incêndios em correia transportadora.pptx
RafaelDantas32562
 
ÁREAS DE ATUAÇÃO DO ENGENHEIRO CIVIL.pdf
ÁREAS DE ATUAÇÃO DO ENGENHEIRO CIVIL.pdfÁREAS DE ATUAÇÃO DO ENGENHEIRO CIVIL.pdf
ÁREAS DE ATUAÇÃO DO ENGENHEIRO CIVIL.pdf
RoemirPeres
 
Dimensionamento de eixo. estudo de caso.pdf
Dimensionamento de eixo. estudo de caso.pdfDimensionamento de eixo. estudo de caso.pdf
Dimensionamento de eixo. estudo de caso.pdf
RodrigoQuintilianode1
 
AULA LEI DOS SENOS OU COSSENOS - parte final (3) (1).pdf
AULA LEI DOS SENOS OU COSSENOS - parte final (3) (1).pdfAULA LEI DOS SENOS OU COSSENOS - parte final (3) (1).pdf
AULA LEI DOS SENOS OU COSSENOS - parte final (3) (1).pdf
MaxwellBentodeOlivei1
 
AE03 - ESTUDO CONTEMPORÂNEO E TRANSVERSAL COMUNICAÇÃO ASSERTIVA E INTERPESSOA...
AE03 - ESTUDO CONTEMPORÂNEO E TRANSVERSAL COMUNICAÇÃO ASSERTIVA E INTERPESSOA...AE03 - ESTUDO CONTEMPORÂNEO E TRANSVERSAL COMUNICAÇÃO ASSERTIVA E INTERPESSOA...
AE03 - ESTUDO CONTEMPORÂNEO E TRANSVERSAL COMUNICAÇÃO ASSERTIVA E INTERPESSOA...
Consultoria Acadêmica
 

Último (11)

AE03 - ESTUDO CONTEMPORÂNEO E TRANSVERSAL EMPREENDEDORISMO CORPORATIVO UNICES...
AE03 - ESTUDO CONTEMPORÂNEO E TRANSVERSAL EMPREENDEDORISMO CORPORATIVO UNICES...AE03 - ESTUDO CONTEMPORÂNEO E TRANSVERSAL EMPREENDEDORISMO CORPORATIVO UNICES...
AE03 - ESTUDO CONTEMPORÂNEO E TRANSVERSAL EMPREENDEDORISMO CORPORATIVO UNICES...
 
Simbologia e Terminologia de Instrumentação da Norma ISA 5.1 - Simbologia_ISA...
Simbologia e Terminologia de Instrumentação da Norma ISA 5.1 - Simbologia_ISA...Simbologia e Terminologia de Instrumentação da Norma ISA 5.1 - Simbologia_ISA...
Simbologia e Terminologia de Instrumentação da Norma ISA 5.1 - Simbologia_ISA...
 
Apresentação concreto autodesempenho 123
Apresentação concreto autodesempenho 123Apresentação concreto autodesempenho 123
Apresentação concreto autodesempenho 123
 
SFE SSO PROC 03 Bloqueio e sinalização de energias perigosas 1(Comentado).docx
SFE SSO PROC 03 Bloqueio e sinalização de energias perigosas 1(Comentado).docxSFE SSO PROC 03 Bloqueio e sinalização de energias perigosas 1(Comentado).docx
SFE SSO PROC 03 Bloqueio e sinalização de energias perigosas 1(Comentado).docx
 
Segurança nos trabalhos em altura, normas SST
Segurança nos trabalhos em altura, normas SSTSegurança nos trabalhos em altura, normas SST
Segurança nos trabalhos em altura, normas SST
 
Apostila SAP.PM para PCM, para indústria e depósitos
Apostila SAP.PM para PCM, para indústria e  depósitosApostila SAP.PM para PCM, para indústria e  depósitos
Apostila SAP.PM para PCM, para indústria e depósitos
 
Incêndios em correia transportadora.pptx
Incêndios em correia transportadora.pptxIncêndios em correia transportadora.pptx
Incêndios em correia transportadora.pptx
 
ÁREAS DE ATUAÇÃO DO ENGENHEIRO CIVIL.pdf
ÁREAS DE ATUAÇÃO DO ENGENHEIRO CIVIL.pdfÁREAS DE ATUAÇÃO DO ENGENHEIRO CIVIL.pdf
ÁREAS DE ATUAÇÃO DO ENGENHEIRO CIVIL.pdf
 
Dimensionamento de eixo. estudo de caso.pdf
Dimensionamento de eixo. estudo de caso.pdfDimensionamento de eixo. estudo de caso.pdf
Dimensionamento de eixo. estudo de caso.pdf
 
AULA LEI DOS SENOS OU COSSENOS - parte final (3) (1).pdf
AULA LEI DOS SENOS OU COSSENOS - parte final (3) (1).pdfAULA LEI DOS SENOS OU COSSENOS - parte final (3) (1).pdf
AULA LEI DOS SENOS OU COSSENOS - parte final (3) (1).pdf
 
AE03 - ESTUDO CONTEMPORÂNEO E TRANSVERSAL COMUNICAÇÃO ASSERTIVA E INTERPESSOA...
AE03 - ESTUDO CONTEMPORÂNEO E TRANSVERSAL COMUNICAÇÃO ASSERTIVA E INTERPESSOA...AE03 - ESTUDO CONTEMPORÂNEO E TRANSVERSAL COMUNICAÇÃO ASSERTIVA E INTERPESSOA...
AE03 - ESTUDO CONTEMPORÂNEO E TRANSVERSAL COMUNICAÇÃO ASSERTIVA E INTERPESSOA...
 

topico 2_Medidas descritivas.pdf

  • 2. Vamos começar a estudar as características de uma distribuição de frequências ou de dados. Dentre elas, podemos citar: a) Medidas de tendência central: informa onde se localiza o centro da distribuição; b) Medidas dispersão: avaliam a variabilidade dos dados; c) Medidas separatrizes: visam separar o conjunto de dados em partes iguais. d) Assimetria: grau de deformação da curva; representa a concentração dos valores em um dos extremos da distribuição. e) Curtose: é o grau de achatamento da distribuição. Barbetta, Reis, Bornia (2010)
  • 3. • Essas medidas mostram que os dados tendem a se agrupar/distribuir em torno dos valores centrais, logo, busca-se por um valor central ou típico de uma distribuição de dados para representá-los. Temos a média, moda e mediana. Medidas de tendência central
  • 4. Pergunta: Você já se questionou por que sempre sai a mesma quantidade de tempo antes quando vai de casa para o trabalho? Editora Ciranda Cultural FURG Quando repetimos uma grande quantidade de vezes o trajeto, anotamos mentalmente o tempo e criamos uma amostra representativa, e calculamos mentalmente a média. A média é um valor em torno do qual os valores tendem a se concentrar (é o valor esperado).
  • 5. Seja x1, x2, ... xn, um conjunto de números ou valores observados para a variável X em estudo. Definimos a média aritmética simples como sendo a soma dos números ou valores dividido pela quantidade de valores. 1.1 Média aritmética simples (ou valor esperado) 1. Média população da tamanho população da média amostra da tamanho amostra da média = = = = N n X 
  • 6. Propriedades da Média • A média de um conjunto de dados é única e não deve ser arredondada. • A média é influenciada/afetada por todos os valores da série de dados. • A soma dos desvios de um conjunto de valores em relação à média aritmética é zero. Ex: Seja Xi = 7,8,9; média = 8 (7-8)+(8-8)+(9-8)=0 ( ) 0 1 = −  = n i i x x
  • 7. • Se somarmos ou diminuirmos uma constante a cada um dos dados, a média também será somada ou subtraída dessa constante. Analogamente, serve para a multiplicação e divisão por uma constante. Ex: Seja Xi = 7,8,9; média = 8 x+2 7+2 =9 8 +2 = 10 9+ 2 = 11 média = 10 •A soma dos quadrados dos desvios em relação à média representa um valor mínimo. ( ) valor mínimo x x n i i 1 2 = −  =
  • 8. Exemplo: média para dados brutos Calcule a média aritmética da variável idade dos alunos da turma de estatística descritiva. Idade 17 18 18 18 18 18 18 19 20 21 21 21 22 22 22 23 23 24 24 27 27 29 30 32 35 41 49 n = 27 A média da idade da turma é 24,33 anos.
  • 9. Quando os dados estão agrupados em tabelas precisamos considerar a frequência de cada um dos valores da variável para calcularmos a média. Assim, as frequências indicam a intensidade de cada valor da variável em estudo, sendo um fator de ponderação. - Sem intervalos de classes: xi fi 0 22 1 4 2 1 Total 27 A média é de 0,22 filho por aluno. 2. Média aritmética ponderada Mesmo valor obtido com dados brutos n f x X i i p  = .
  • 10. Exemplo: Cálculo da nota na FURG: condições para aprovação na graduação 1.Disciplinas Semestrais com 2 notas parciais (NP): 1º) Aluno que alcançar média aritmética simples nas suas notas parciais ≥ 7,0; 2º) No exame: aluno que alcançar Média final ≥ 5,0: Média = 3 x ( NP1 + NP2 ) + 4 x Exame 10 2.Para Disciplinas Anuais com 4 notas parciais (NP): Média = 1,5 x ( NP1 + NP2 + NP3 + NP4 ) + 4 x Exame 10
  • 11. - Com intervalos de classes: Calculamos considerando o valor de cada classe como o ponto médio da respectiva classe. i Idades (anos) fi Pm Pm.fi 1 17 |- 23 15 20 300 2 23 |- 29 6 26 156 3 29 |- 35 3 32 96 4 35 |- 41 1 38 38 5 41 |- 47 1 44 44 6 47 |- 53 1 50 50 Total 27 --- A média da idade da turma é 25,33 anos. n f P X i m p i  = . O desconhecimento dos valores individuais faz com que se utilize os pontos médios de classe para calcular a média.
  • 12. Porque isso aconteceu? Tabela obtida com base nos mesmos dados brutos.
  • 13. Quando agrupamos os dados em intervalos de classes, passamos a trabalhar com os dados sem conhecimento de seus valores individuais, ou seja, perdemos informação e precisão. Por esta razão, utiliza-se a distribuição de frequência com intervalos de classes apenas para apresentar os dados ou construir o histograma para representar o conjunto.
  • 14. 3. Moda - Mo Denominamos moda, o valor que ocorre com maior frequência em uma série de valores. Ex.: O salário modal dos empregados de uma empresa é o salário recebido pelo maior número de empregados. ▪ Para dados brutos: Procedimento: Deve-se ordenar os elementos da série e verificar qual deles mais vezes ocorreu.
  • 15. Classificação quanto ao número de modas: 1. Unimodal - quando possui somente uma moda. Ex.: 2; 3; 3; 4; 4; 4; 8 Mo = 4 2. Bimodal - quando possui duas modas. Ex.: 0; 3; 4; 4; 5; 5; 7 Mo1 = 4 Mo2 = 5 3. Trimodal - quando possui três modas. Ex.: 0; 2; 2; 3; 3; 5; 4; 4; Mo1 = 2 Mo2 = 3 e Mo3 = 4 4. Poli ou Multimodal - quando possui mais de três modas. Quando todas as observações ocorrem com a mesma frequência, diz-se que a mesma é amodal, ou seja, não possui moda. Ex.: 2; 2; 3; 3; 4; 4; OU 1; 2; 3; 5
  • 16. Idade 17 18 18 18 18 18 18 19 20 21 21 21 22 22 22 23 23 24 24 27 27 29 30 32 35 41 49 Exemplo 1: Ex.: idade da turma Mo=18 anos Aparece 6 vezes na amostra Classificação da moda = unimodal
  • 17. a) Qual é a média em relação à garantia de vida do produto? Não é possível calcular média de dados qualitativos. b) Qual é o conceito modal sobre garantia de vida do produto? Satisfatório (S) Exemplo 2: Uma empresa deseja avaliar o período definido para a garantia de vida de sua produção de pendrives. Para isso, seleciona uma amostra de 12 unidades e avalia a ocorrência de falhas no período pretendido para a garantia de vida do produto. Os resultados são apresentados a seguir, onde S = resultado satisfatório e F = ocorrência de falha. S S S S S S F F S S F S
  • 18. 4. Mediana (Md) É uma medida de tendência central e separatriz. Tem por função dividir a série, já ordenada, em duas partes iguais, sendo que, cada parte contém a mesma quantidade de elementos. 50% 50% Md
  • 19. Temos duas situações: ▪ Número ímpar de elementos Procedimento: ordenar a série, encontrar a posição da mediana (PMd) e, em seguida, verificar qual é o valor (x) que ocupa essa posição. Ex.: Calcular a mediana de 10, 5, 9, 6, 2, 13, 16, 15, 18 2,5,6,9,10,13,15,16,18 Md=10 2 1 + = n PMd Md P x Md = Ordenar! º 5 2 1 9 = + = Md P
  • 20. ▪ Mediana para número par de elementos Procedimento: ordenar a série e localizar os dois elementos que estão no centro. Em seguida, calcular a média aritmética destes dois elementos. Ex.: Determinar a mediana dos números 6, 2, 10, 7, 21, 13, 18, 12 2,6,7,10,12,13,18,21 Md=(10+12)/2 Md=11 2 5 , 0 5 , 0 + − + = Md Md P P x x Md 2 1 + = n PMd posição PMd ª 5 , 4 2 1 8 = + = Md está entre as posições 4ª e 5ª. Calcular a média desses valores X4 X5
  • 21. Idade 17 18 18 18 18 18 18 19 20 21 21 21 22 22 22 23 23 24 24 27 27 29 30 32 35 41 49 Exemplo Dados brutos da idade dos alunos. n+1/2 = 27+1/2= 14ª posição Md=22 anos Interpretação: Significa que 50% dos alunos possuem idade menor ou igual a 22 anos, bem como 50% dos alunos possuem idade maior ou igual a 22 anos.
  • 22. Qual medida devo usar para representar o meu conjunto de dados? https://br.depositphotos.com Ex.: Idade de alunos: 15 16 14 16 17 Neste caso, poderíamos utilizar qualquer medida de tendência central, todas estarão próximas. 15 16 14 18 17 50 Neste caso, a idade de 50 anos é muito diferente das demais, tornando-se um ponto discrepante. Isso fará com que a média das idades seja afetada e não seja “representativa” da maioria dos alunos, sendo preferível utilizar a mediana, pois ela não é afetada por pontos discrepantes. Também não temos moda.
  • 23. ▪ As Medidas de Tendência Central não são suficientes para caracterizar a distribuição. Medidas de Dispersão Exemplo: Suponha as notas de 3 grupos (A, B e C), cada qual com 4 alunos. GRUPO “A” : 5, 5, 5, 5 GRUPO “B” : 9, 9, 1, 1 GRUPO “C” : 4, 4, 6, 6 Qual é a média de cada grupo? A média é 5 para todos os grupos. Mas percebe-se que seus valores são bem diferentes!
  • 24. ▪ Para uma análise estatística mais exata é necessário verificar a variação dos valores (dispersão) em torno de sua média aritmética (valor central). ▪ Essas medidas indicam se um conjunto é homogêneo (pouca ou nenhuma variabilidade) ou heterogêneo (muita variabilidade). Quanto menor a dispersão, mais confiável é a média. Exemplo: O comportamento dos grupos são bem distintos: GRUPO “A”: a dispersão é nula GRUPO “B”: valores são dispersos em relação à média GRUPO “C”: valores são mais homogêneos
  • 25. Exemplo 2: Considere duas linhas de produção de uma peça. A média do comprimento da peça é de 75cm e ambas as linhas estão produzindo peças com comprimentos próximos desse valor. Podemos considerar que as peças produzidas por ambas as linhas são adequadas? As peças produzidas por (1) são melhores. Isso ocorre porque a dispersão dos elementos em torno da média é menor, ou seja, os elementos estão mais concentrados em torno da média na primeira linha de produção. Como queremos avaliar a dispersão dos dados em torno da média, esse valor estará relacionado com a distância dos dados em relação à média. Portal Action (2017)
  • 26. Dentre as medidas de dispersão ou de variabilidade de um conjunto de dados, podemos citar algumas : ◦ Amplitude Total ◦ Desvio médio ◦ Variância ◦ Desvio Padrão ◦ Desvio interquantílico (Amplitude interquartílica=AIQ) Medida de dispersão relativa: ◦ Coeficiente de variação Avaliam a variabilidade dos dados em torno da MÉDIA.
  • 27. 1. Amplitude Total (AT) A amplitude total é a diferença entre o maior (xmáx) e o menor (xmín) valor da série de dados. Representa a dispersão máxima. AT raramente é usada como única medida de variabilidade porque é calculada apenas com os valores extremos. Exemplo: Nota de 20 alunos: Xi: 1, 1, 2, 2, 2, 3, 3, 3, 5, 5, 5, 5, 5, 6, 6, 6, 9 AT = 9 – 1 = 8 mín máx x x AT − = Interpretação: as notas dos alunos variaram de 1 a 9 pontos, tendo amplitude total de 8 pontos
  • 28. A variância é a média dos desvios ao redor da média elevado ao quadrado. Populacional: Amostral: 2. Variância (2 para população; s2 para amostras) ( )  = − − = n i i X X n S 1 2 2 1 1 ( )  = − = N i i X N 1 2 2 1   N = tamanho da população n = tamanho da amostra Xi = valores observados nos dados população da média a representa que al populacion parâmetro amostra da média = =  x
  • 29. Como a variância é calculada a partir do quadrado dos desvios em relação à média, seu resultado é um número com unidade quadrada (ex.: anos2). A vantagem do desvio padrão sobre a variância é que este permite uma interpretação direta do grupo, pois o mesmo é expresso na mesma unidade de medida dos dados em análise. O desvio padrão nada mais é do que a raiz quadrada da variância. 3. Desvio padrão ( para população; s para amostras) 2 S S = 2   =
  • 30. Algumas considerações sobre o desvio padrão: • Sua interpretação está vinculada à média aritmética. • É sempre positivo. • Assim como a média, o desvio padrão é uma medida pouco resistente, pois é influenciado por valores ou muito grandes ou muito pequenos (discrepantes). • A média e o desvio padrão fornecem informações úteis sobre a localização do centro da distribuição dos dados e sobre a variabilidade se as distribuições dos dados forem aproximadamente simétricas.
  • 31. Interpretação do Desvio Padrão Quando uma curva de frequência representativa da série é simétrica (curva apresentada na Figura 1, a seguir), podemos afirmar que: • O intervalo contém aproximadamente 68,27% dos valores da série. • O intervalo contém aproximadamente 95,45% dos valores da série. • O intervalo contém aproximadamente 99,73% dos valores da série.     1 ; 1 + −     2 ; 2 + −     3 ; 3 + −
  • 32. Figura 1. Interpretação do desvio padrão para uma curva simétrica. Fonte: inf.ufsc.br/~andre.zibetti/probabilidade/normal.html Ex.: Valores que estão acima ou abaixo de 2 desvios já estão muito afastados da média. Muitos autores já os consideram como valores discrepantes.
  • 33. Exemplo: Calcule a variância e desvio padrão considerando a população das três equipes. Equipe A: 5; 5; 5; 5 Média=5 Equipe B: 9; 9; 1; 1 Média = 5 Equipe C: 6; 6; 4; 4 Média = 5 Quanto maior for o desvio padrão, maior será a variação (dispersão) entre os valores.
  • 34.   2 2 2 2 2 2 0 ) 5 5 ( ) 5 5 ( ) 5 5 ( ) 5 5 ( . 4 1 ) ( pontos A = − + − + − + − =  pontos pontos A 0 0 ) ( 2 = =  Conforme esperado, uma vez que todos os valores são iguais à média e não há variabilidade (dispersão). pontos pontos B 4 16 ) ( 2 = =  ( )  = − = N i i x N 1 2 2 1   5 =  Equipe A: 5; 5; 5; 5 1 x 2 x 3 x 4 x   2 2 2 2 2 2 16 ) 5 1 ( ) 5 1 ( ) 5 9 ( ) 5 9 ( . 4 1 ) ( pontos A = − + − + − + − =  Equipe B: 9; 9; 1; 1
  • 35. 2 2 1 ) ( ponto C =  ponto ponto C 1 1 ) ( 2 = =  Equipe C: 6; 6; 4; 4 pontos pontos B S 62 , 4 33 , 21 ) ( 2 = = Calculando a variância e desvio padrão amostral para a Equipe B: Observe que há diferença no resultado quando consideramos dados de “população” (σ = 4). Equipe C é mais homogênea que a equipe B   2 2 2 2 2 2 33 , 21 ) 5 1 ( ) 5 1 ( ) 5 9 ( ) 5 9 ( . 3 1 ) ( pontos A S = − + − + − + − =
  • 36. Medida de Dispersão Relativa É uma medida relativa de variabilidade que permite a comparação da dispersão de duas características diferentes (unidades de medição e/ou tamanhos diferentes). É utilizado para comparar em termos relativos o grau de concentração dos dados em torno da média de séries distintas. http://g1.globo.com/sp/presidente-prudente- regiao/blog/nutricao-pratica/post/perder-peso-x-emagrecer.html https://sites.google.com/site/rendonrestr epo112del2017/
  • 37. Coeficiente de Variação (CV) É uma medida que indica a relação percentual entre o desvio padrão e a média dos dados. 100  =   CV 100  = x s CV População Amostra Classificação da dispersão relativa: CV < 15% → baixa dispersão 15% ≤ CV ≤ 30% → média dispersão CV > 30% → alta dispersão
  • 38. Exemplo 1: Comparação para mesma unidade de medida Considere as notas de duas turmas da Faculdade. As notas da turma A apresentam média 6 com desvio padrão 4 e as da turma B média 9 e desvio padrão 2. Qual turma é mais homogênea em termos de notas? % 67 , 66 100 . 6 4 ) ( = = A CV % 22 , 22 100 . 9 2 ) ( = = B CV Conforme o coef. de variação, as notas da turma B são mais homogêneas do que as notas da turma A. Alta dispersão média dispersão
  • 39. Exemplo 2: Comparação de unidades de medidas diferentes Qual variável apresentou maior dispersão nos dados? Na tabela abaixo são apresentados os valores do desvio padrão e da média da altura e peso de um grupo de pessoas. Calcule o coef. de variação e comente os resultados. Variáveis Média Desvio padrão Altura (cm) 170 9 Peso (Kg) 68 11 % 3 , 5 ) ( % 2 , 11 ) ( = = altura CV peso CV O peso dos alunos variou mais do que a altura dos mesmos. Embora ambos apresentem baixa dispersão.
  • 40. Medidas Separatrizes São números que dividem a sequência ordenada de dados em partes que contêm a mesma quantidade de elementos da série. Desta forma, a mediana que divide a sequência ordenada em dois grupos, cada um deles contendo 50% dos valores da sequência, é também uma medida separatriz. Além da mediana, existem outras medidas separatrizes que destacaremos: quartis, decis e percentis.
  • 41. Se dividirmos a série ordenada em quatro partes iguais, cada uma ficará com 25% dos elementos. Os elementos que separam estes grupos são chamados de quartis. ➢ O primeiro quartil (Q1) separa a sequência ordenada deixando 25% de seus valores à esquerda e 75% de seus valores à direita. Quartis
  • 42. O segundo quartil (Q2) separa a sequência ordenada deixando 50% de seus valores à esquerda e 50% de seus valores à direita. Note que o Q2 é a Mediana da série. O terceiro quartil (Q3) separa a sequência ordenada deixando 75% de seus valores à esquerda e 25% de seus valores à direita.
  • 43. O quarto quartil (Q4) corresponde à última quarta parte (100%) da série.
  • 44. Os decis separam uma série em 10 partes iguais. D1 deixa à esquerda da sequência 10% de seus valores e 90% à direita. Eles são indicados por D1, D2, D3, ..., D10. Decis
  • 45. Os percentis separam uma série em 100 partes iguais, em que cada parte fica com 1% de seus valores. Assim, 1% fica à sua esquerda e 99% à direita. Eles são indicados por P1, P2, P3, ..., P99. Percentis P5 5% 95% SEMPRE NESSE SENTIDO PARA IDENTIFICAR O QUARTIL OU PERCENTIL DE INTERESSE. Ex.: Qual é o percentil, que acima dele temos 95% dos dados? P5
  • 46. Encontrando a posição para DADOS BRUTOS: 1) Ordenar os dados; 2) Definir qual o percentil ou quartil desejado (j); 3) Calcular sua posição por meio da Equação abaixo; 4) Verificar qual o valor de elemento que ocupa aquela posição. 100 ) 1 .( + = n j Posição j P 4 ) 1 .( + = n j Posição j Q j = 1,2,3,4 j = 1,2,...,100 Quartil: Dj = j.(n+1)/ 10 => DECIL Percentil:
  • 47. IMPORTANTE: 1) Se a posição for um número inteiro: o valor é o elemento que se encontra nesta posição na sequência de dados ordenados. 2) Se a posição não for um número inteiro: ➢ Ex.: 2,5º - iremos calcular a média entre os valores das posições 2ª e 3ª. ➢ Ex.: 2,25º - calcular a diferença entre os valores que ocupam a 2ª e 3ª posição, depois calcular a parte decimal que ainda falta em relação a esta diferença obtida e somá-la ao elemento da 2ª posição. OBS: Existem várias formas de calcular medidas separatrizes! No entanto, a interpretação do resultado é a mesma. Bibliografia e softwares podem diferir um pouco no resultado! Pinto e Silva (2010).
  • 48. Exemplo 1: Desejamos conhecer a idade que separa os 75% mais novos dos 25% mais velhos da turma de estatística. 1º passo: colocar em ordem crescente. Percentil 17 18 18 18 18 18 18 19 20 21 21 21 22 22 22 23 23 24 24 27 27 29 30 32 35 41 49
  • 49. 2º passo: decidir qual percentil deverá ser calculado (ex. P75). 3º passo: calcular a posição do percentil desejado. 4º passo: ver na escala ordenada, qual o valor correspondente à posição calculada. 17 18 18 18 18 18 18 19 20 21 21 21 22 22 22 23 23 24 24 27 27 29 30 32 35 41 49 º 21 100 ) 1 27 ( 75 100 ) 1 ( = + = + = n j PosiçãoPj
  • 50. CONCLUSÃO: (P75) ▪ Podemos afirmar que 75% dos alunos possuem idade menor ou igual a 27 anos. De outro modo, dentre os 75% mais novos, o mais velho deles possui 27 anos. ▪ Analisando os 25% restantes, podemos dizer que 25% possuem idade maior ou igual a 27 anos. De outro modo, dentre os 25% mais velhos, o mais novo deles possui 27 anos.
  • 51. 17 18 18 18 18 18 18 19 20 21 21 21 22 22 22 23 23 24 24 27 27 29 30 32 35 41 49 Exemplo 2: Encontrar P30 º 4 , 8 100 ) 1 27 .( 30 30 = + = P Posição 1) 8ª posição = 19 9ª posição = 20 2) Diferença = 20-19 = 1 3) Calcular 0,4 de 1, ou seja, 0,4x1=0,4 4) Somar o resultado (0,4) ao elemento da 8ª posição (19). 5) P30 = 19,4
  • 52. Desta forma Qj será um elemento entre Xk e Xk+1, onde k é a posição do inteiro ≤ j(n+1)/4 ( ) k k k j X X k n j X P −       − + + = +1 100 ) 1 ( ( ) k k k j X X k n j X Q −       − + + = +1 4 ) 1 ( º 4 , 8 100 ) 1 27 .( 30 30 = + = P P K=8 Menor inteiro ( )( ) ( )( ) 4 , 19 ) 1 4 , 0 ( 19 19 20 8 4 , 8 19 8 4 , 8 30 8 9 8 30 = + − − + = − − + = x P X X X P De forma geral: Usando dados do Exemplo 2 Quanto passa da posição inteira Diferença entre os valores das posições
  • 54. O Boxplot é capaz de resumir o conjunto de observações e revelar vários aspectos, como tendência central, variabilidade e simetria. O boxplot também possibilita visualizar valores atípicos (outliers ou valores discrepantes). A construção do boxplot é feita com base no chamado resumo de cinco números: o valor mínimo, o primeiro quartil (Q1), a mediana (Md), o terceiro quartil (Q3) e o máximo. Boxplot ou diagrama em caixas
  • 55. A parte central do gráfico é composta de uma “caixa” com o nível superior dado por Q3 e o nível inferior por Q1. O tamanho da caixa é uma medida de dispersão chamada distância/desvio ou amplitude interquartílica => AIQ = Q3 − Q1 A mediana é representada por um traço no interior da caixa e segmentos de reta são colocados da caixa até os valores máximo e mínimo. Neste caso, não estamos avaliando se existe pontos discrepantes nos dados! Simetria
  • 56. Os dados abaixo representam a distância (em Km) entre a residência e o local de trabalho de 18 funcionários da Empresa A. 0,2 0,4 0,5 0,5 0,8 0,8 0,9 0,9 1,1 1,4 1,8 1,9 2,3 2,3 3,2 3,5 3,7 15,1 Medidas resumo para a distância: ▪ Mediana= 1,25 ▪ Q1= 0,725 (P=4,75º) => 0,75x0,3=0,225 + 0,5 = 0,725 ▪ Q3= 2,525 (P=14,25º) => 0,25x0,9=0,225 + 2,3 =2,525 ▪ Mínimo= 0,2 ▪ Máximo = 15,1 Exemplo 1:
  • 57. Figura 1 – Boxplot para a distância entre a residência e o local de trabalho de 18 funcionários da Empresa A.
  • 58. Boxplot – verificando dados discrepantes Outra possibilidade na construção do boxplot é utilizar amplitude interquartílica (AIQ) para verificar se há pontos discrepantes. Consideramos os dados menores do que Limite inferior Li = Q1-1,5AIQ ou maiores que limite superior Ls = Q3+1,5AIQ como sendo discrepantes (representado por * ou •) do restante dos dados. Quanto maior o AIQ, maior a chance de que os valores extremos estejam incluídos no intervalo (Ls e Li) e, assim, não sejam outliers.
  • 59. No exemplo das distâncias, vamos verificar se há pontos discrepantes. não há valores fora destes limites e, quando isto ocorre, os limites são representados pelo mínimo e máximo. AIQ = Q3 – Q1 AIQ = 2,525-0,725 =1,8 Ls = Q3+1,5AIQ Ls = 2,525+(1,5x1,8) Ls = 5,225 Li = Q1-1,5AIQ Li = 0,725-1,5x1,8 Li = -1,975 Temos dados menores do que -1,975? E maiores do que 5,225? Se ocorrer, temos ponto(s) discrepante(s). Não Sim 3,7 15,1 0,2
  • 60. Obs: (i) É o limite inferior dos dados sem considerar os discrepantes, ou seja, valor anterior ao discrepante; (ii) É o limite superior dos dados sem considerar os discrepantes; + representa a média aritmética dos dados; * outliers; AIQ: amplitude interquartil (Q3 – Q1), a qual não é afetada por valores extremos. As três medidas (Q1, MEDIANA e Q3) mostram a forma da distribuição de 50% dos valores ao redor da mediana. Representação na verificação de valores discrepantes
  • 61. Comparação de dados (quanti x quali) Emili Leão, Henrique Cupertino, Juliana Lacerda e Maria Eduarda (Turma da Enfermagem 2019/2) Traço = Valor anterior ao ponto discrepante na amostra ordenada Valores discrepantes, ou seja, acima do Ls Valor mínimo, pois não há valores abaixo do Li
  • 62. O que fazer quando identificamos valores discrepantes? Investigar a sua origem. Valores discrepantes podem, de fato, fazer parte do conjunto de dados, reforçando a característica assimétrica da distribuição. Eventualmente, esses valores podem ser oriundos de erros na aferição ou no registro dos dados. Uma inspeção cuidadosa nos dados e nas eventuais causas da ocorrência de valores discrepantes é sempre uma providência necessária antes que qualquer atitude seja tomada em relação aos dados.
  • 63. Vantagens: ➢Além de fornecer informações importantes sobre um conjunto de dados, o boxplot é usado para comparar graficamente mais de um conjunto de dados em relação à média, à dispersão e à distribuição. ➢Desenhamos um boxplot para cada conjunto de dados, paralelamente, num mesmo gráfico. ➢O boxplot pode ser utilizado para um número reduzido de dados, enquanto histogramas não são recomendados quando o conjunto de dados é pequeno.
  • 64. O boxplot não deve ser usado quando a distribuição de frequências dos dados tiver mais de uma classe modal, ou seja, mais de um pico. O uso do boxplot nesse caso esconderá essa característica da distribuição. Neste caso, o boxplot mascara o caráter bimodal da distribuição por meio de uma falsa simetria em torno da mediana dos dados. Figura 2 – Histograma e boxplot de uma distribuição de frequência bimodal. Desvantagem:
  • 65. Estilos assimétricos Rostos assimétricos Imagens do google Assimetria e curtose
  • 66. As medidas de assimetria e curtose são as que restam para completarmos o quadro das estatísticas descritivas. Elas proporcionam, juntamente com as medidas de posição e dispersão, a descrição completa das distribuições de frequências estudadas. As distribuições de frequências não diferem apenas quanto ao valor médio e a variabilidade, mas também quanto a sua forma. Medidas de Assimetria e Curtose
  • 68. Medidas de Assimetria (As) As medidas de assimetria referem-se à forma da curva de uma distribuição de frequências, mais especificamente do polígono de frequência ou do histograma. Quanto ao grau de deformação, as curvas de frequência podem ser: ➢Simétrica ➢Assimétrica Positiva ➢Assimétrica Negativa
  • 69. Por meio do Boxplot também podemos verificar a as(simetria) Q1 está mais próximo da Mediana Q3 está mais próximo da Mediana
  • 70. Posição relativa da média, mediana e moda numa distribuição de frequência • Quando a distribuição é simétrica, as três medidas coincidem. • A assimetria é o grau de deformação da curva, o que as torna diferentes. Crespo (2009) Assimetria positiva Assimetria negativa
  • 72. 1. Método de Comparação entre Medidas de Tendência Central 2. Critério de Kelley – usa percentis e a mediana 3. Critério de Bowley (Coeficiente Quartil de Assimetria) – usa os quartis e a mediana – conforme boxplot 4. Critério de Pearson (1º e 2º coeficiente) Principais Medidas de Assimetria Quando uma distribuição deixa de ser simétrica, a Moda, a Mediana e a Média Aritmética vão se afastando, aumentando cada vez mais a diferença entre elas. Podemos usar essa diferença para medir assimetria.
  • 73. EXEMPLO: Assimetria pelo Critério de Bowley Idade 17 18 18 18 18 18 18 19 20 21 21 21 22 22 22 23 23 24 24 27 27 29 30 32 35 41 49 Assimetria positiva 1 3 1 3 2 Q Q Md Q Q As − − + = mean 0% 25% 50% 75% 100% 24.33 17 18.5 22 27 49 176 , 0 5 , 8 5 , 1 5 , 18 27 22 2 5 , 18 27 = = − − + = x As
  • 74. EXEMPLO: Assimetria pelo Critério de Pearson. Idade 17 18 18 18 18 18 18 19 20 21 21 21 22 22 22 23 23 24 24 27 27 29 30 32 35 41 49 91 , 0 65 , 7 99 , 6 65 , 7 ) 22 33 , 24 ( 3 = = − = As S Md x As ) ( 3 − = mean Sd 0% 25% 50% 75% 100% 24.33 7.65 17 18.5 22 27 49
  • 75. Idade 17 18 18 18 18 18 18 19 20 21 21 21 22 22 22 23 23 24 24 27 27 29 30 32 35 41 49 Idade Frequência 15 20 25 30 35 40 45 50 0 2 4 6 8 10 Assimetria positiva mean sd skewness n 24.33 7.65 1.597 27 Software R: momento 3 3 1 1 1  =       − = n i i S x x n b Fórmula do Type=3 Padrão no software R Pacote “e1071” 5. Momento 3 (assimetria) de uma distribuição de frequência
  • 76. A Curtose indica até que ponto a curva de frequências de uma distribuição se apresenta mais afilada ou mais achatada do que uma curva normal padrão (simétrica). De acordo com o grau de curtose, podemos ter três tipos de curvas de frequência. Curtose (b) A curtose da curva normal padrão é nula e serve como referência. É chamada de mesocúrtica. (a) .... Leptocúrtica: mais afilada. (c) - - - Platicúrtica: mais achatada.
  • 77. 1. A Curva ou Distribuição de Frequências Mesocúrtica Quando a curva de frequências apresenta um grau de achatamento equivalente ao da curva normal padrão. Os dados estão razoavelmente concentrados em torno da moda, o que faria a curva de frequência ser razoavelmente afilada.
  • 78. 2. Curva ou Distribuição de Frequências Platicúrtica Quando uma curva de frequências apresenta um alto grau de achatamento, superior ao da curva normal padrão. Os dados estão fracamente concentrados em torno da moda, o que faria a curva de frequência ser fracamente afilada.
  • 79. 3. Curva ou Distribuição de Frequências Leptocúrtica Quando a curva de frequências apresenta um alto grau de afilamento, superior ao da curva normal padrão. Os dados estão fortemente concentrados em torno da moda, o que faria a curva de frequência ser bastante afilada.
  • 80. Medidas de comparação: C = 0,263  Curva ou distribuição Mesocúrtica C > 0,263  Curva ou distribuição Platicúrtica C < 0,263  Curva ou distribuição Leptocúrtica 1) Usa quartis e percentis para verificar a curtose. ) ( 2 ) ( 10 90 1 3 P P Q Q C − − =
  • 81. Fórmula do Type=3 Padrão no software R Pacote “e1071” 3 1 4 1 2 −       − =  = n i i S x x n b 2) Momento 4 - curtose Joanes e Gill (1998)
  • 82. Histogram of w w Frequency 0.0 0.2 0.4 0.6 0.8 1.0 0 20 40 60 80 100 > skewness(w) 0.006920658 > kurtosis(w) -1.202988 Exemplo 1: Distribuição de dados w no R b2 < 0 => Platicúrtica
  • 83. > skewness(y) -0.04755411 > kurtosis(y) 0.02270533 Histogram of y y Frequency -2.0 -1.5 -1.0 -0.5 0.0 0.5 1.0 1.5 0 50 100 150 200 250 300 350 Exemplo 2: Distribuição de dados y no R b2 = 0 => Mesocúrtica
  • 84. Histogram of x x Frequency -0.6 -0.4 -0.2 0.0 0.2 0.4 0.6 0 20 40 60 80 100 120 Exemplo 3: Distribuição de dados x no R > skewness(x) -0.03711457 > kurtosis(x) 0.2113637 b2 > 0 => Leptocúrtica
  • 86. xi fi 0 22 1 4 2 1 Total 27 i Idades (anos) fi Pm (xi) 1 17 |- 23 15 20 2 23 |- 29 6 26 3 29 |- 35 3 32 4 35 |- 41 1 38 5 41 |- 47 1 44 6 47 |- 53 1 50 Total 27 --- Variáveis discretas: valor com maior frequência. Logo, a moda é zero. Método da Moda bruta a moda é o PONTO MÉDIO da classe modal (mais frequente). Logo, a moda é 20. 15 – maior frequência Moda para dados agrupados:
  • 87. Mediana para dados agrupados - Sem intervalos de classe 1. Obtemos a posição do valor mediano. 2. A mediana será o valor (xi) que corresponde a frequência acumulada em que se encontra a posição mediana. xi fi Fi 0 22 22 1 4 26 2 1 27 Total 27 - n+1/2 = (27+1)/2= 14 º posição A 14º posição é ocupada pelo valor 0. Então, Md=0 29/2= 14,5º O valor mediano está entre as posições 14ª e 15ª. Se n fosse 28 ( n par): 1º ao 22º valor 23º ao 26º valor
  • 88. - Com intervalos de classe A mediana é dada pela seguinte equação: i = classe mediana (intervalo de classe onde Fi superou 50% dos dados) h f F n LI Md i i i . . 2 1 1             − + = −
  • 89. i Idades (anos) fi Fi Fp 1 17 |- 23 15 15 55,6% 2 23 |- 29 6 21 77,8% 3 29 |- 35 3 24 88,9% 4 35 |- 41 1 25 92,6% 5 41 |- 47 1 26 96,3% 6 47 |- 53 1 27 100,0% Total 27 --- --- i = 1 LI1 = 17 F0 = 0 f1=15 h=6 Md=22,4 anos 13,5º 6 . 15 0 27 . 2 1 17             − + = Md 13,5º
  • 90. i num. Filhos (xi) fi Fi Fp 1 0 15 15 46,88 2 1 7 22 68,75 3 2 10 32 100 total 32 - - Média = (0x15+1x7+2x10)/32 =27/32=0,84 filhos Moda = 0 filhos Md= 1 filho n/2 = 32/2=16º posição
  • 91. Para o cálculo dos percentis: Sendo: Pj – Percentil j (1, 2, 3, ..., 99); LIi – limite inferior da classe i que contém o percentil; n – número de elementos na amostra; Fi-1 – frequência acumulada da classe anterior à classe que contém o percentil; fi - frequência simples da classe que contém o percentil; h - amplitude do intervalo da classe que contém o percentil. Medidas separatrizes Para dados agrupados com intervalos de classes h fi F n j LI P i i j . . 100 1             − + = −
  • 92. Da mesma forma que no Percentil, podemos calcular para quartil e decil. Note que a mudança ocorre apenas onde está destacado na equação. h fi F n j LI Q i i j . 4 . 1             − + = − h fi F n j LI D i i j . 10 . 1             − + = − Quartil de interesse Decil de interesse
  • 93. Exemplo: idade de 27 alunos Dado a tabela, encontre o P25 e P75 das idades dos alunos. i Idades (anos) fi Fi Fp 1 17 |- 23 15 15 55,6% 2 23 |- 29 6 21 77,8% 3 29 |- 35 3 24 88,9% 4 35 |- 41 1 25 92,6% 5 41 |- 47 1 26 96,3% 6 47 |- 53 1 27 100,0% Total 27 --- --- º 75 , 6 100 27 . 25 25 = = P P 7 , 19 6 . 15 0 75 , 6 17 25 =       − + = P 1º ao 15º º 25 , 20 100 27 . 75 75 = = P P 25 , 28 6 . 6 15 25 , 20 23 75 =       − + = P 16º ao 21º h fi F n j LI P i i j . 100 . 1             − + = −
  • 94. Pm Variância para dados agrupados Para dados agrupados, acrescentamos a frequência no cálculo da Variância. Quando os dados se apresentarem em intervalos de classe, Xi será o ponto médio (Pm) do intervalo de classe. Logo, a fórmula será: ( )  = − − = n i i X X n S 1 2 2 1 1 ( ) n f Pm i i 
  • 95. BARBETTA, Pedro Alberto; REIS, Marcelo Menezes; BORNIA, Antonio Cezar. Estatística Para Cursos de Engenharia e Informática. 3 ed. São Paulo: Atlas, 2010. BUSSAB, Wilton de Oliveira; MORETTIN, Pedro Alberto. Estatística Básica. 8 ed. São Paulo: Saraiva, 2013. CRESPO, A. A. Estatística fácil. São Paulo: Saraiva, 2009. JOANES, D. N.; Gill, C. A. (1998). Comparing measures of sample skewness and kurtosis. The Statistician, 47, 183–189. MEYER, D. et al. e1071: Misc Functions of the Department of Statistics, Probability Theory Group. R package version 1.7-2, 2019. https://CRAN.R- project.org/package=e1071. PINTO, Suzi Samá; SILVA, Carla Silva. Estatística. Vol 1. Rio Grande: Ed. da Universidade Federal do Rio Grande, 2010. PORTAL ACTION. Medidas de dispersão. Disponível em: http://www.portalaction.com.br/estatistica-basica/22-medidas-de-dispersão. Acesso em: mai. 2017. TRIOLA, Mario F. Introdução a estatística. 10. ed. Rio de Janeiro: LTC, 2008. 696 p. Referências
  • 96. Videoaulas sobre os conteúdos • Construção de tabelas de frequência com intervalos de classe https://www.youtube.com/watch?v=DCCt2nSM1uE regra de sturges https://www.youtube.com/watch?v=AZlEuUdFWNA outras frequências • histograma e polígono de frequência simples https://www.youtube.com/watch?v=-zkPSlpyBaM • polígono freq. acumulada - ogiva https://www.youtube.com/watch?v=n1ZyYzFngoM • Medidas de tendência central https://www.youtube.com/watch?v=nmxQI4d-P0g&t=66s • Medidas de dispersão https://www.youtube.com/watch?v=zIPKZHbMyUY&list=PL8CqlCJefRMBfG3grMCAp6uw G1UuIf9OO&index=7 • Cálculo de quartis e percentis para dados brutos https://www.youtube.com/watch?v=KTuvZ_lFlgs • Percentil para dados agrupados em intervalos de classe https://www.youtube.com/watch?v=4-p9ILo-R3U • assimetria – método gráfico https://www.youtube.com/watch?v=G0vF8Ansz-k • coef. de assimetria de Pearson https://www.youtube.com/watch?v=2ejUpHnMVNg • coef. de curtose https://www.youtube.com/watch?v=fVKo7KtBgew