O documento discute medidas estatísticas de posição central, dispersão e variabilidade de dados. Ele explica medidas como moda, mediana, média, variância, desvio padrão e coeficiente de variação, fornecendo suas definições, fórmulas e propriedades para analisar o comportamento central e variabilidade de variáveis.
1. Universidade Estadual da Paraíba
Disciplina: Biometria
Professora: Nyedja Fialho M. Barbosa
Assunto: Medidas de Posição e Dispersão
Medidas de variáveis utilizadas em Estatísticas:
Medidas de tendência Central ou Posição:
Buscam evidenciar o comportamento central de uma variável. Dentre as mais utilizadas
destacam-se:
Moda:
o Definição: moda é o valor mais frequente na amostra.
o Notação:
Observações:
Quando DOIS VALORES ocorrem com a mesma maior frequência,
cada um deles é uma moda, e o conjunto de dados é dito BIMODAL;
Quando MAIS DE DOIS VALORES ocorre com a mesma maior
frequência, cada um deles é uma moda, e o conjunto de dados é dito
MULTIMODAL;
Quando NENHUM VALOR se repete com maior frequência,
dizemos que não há moda, e o conjunto de dados é dito AMODAL.
Mediana:
o Definição: Mediana é o valor da variável que particiona a amostra ao meio. Isto é, o
valor que deixa abaixo de si 50% das observações.
o Notação: ou
~
x
0 50% 100%
o Fórmulas:
Média aritmética:
o Definição: média o valor dado pela soma de todos os valores da amostra, dividida pelo
número desses valores.
2. o Notação:
o Fórmulas:
x x2 xn 1 1 n
x 1 x1 x 2 x n xi
n n n i 1
,
x1 x 2 x N 1 x x x 1
N
N N
1 2 N xi
N i 1
Onde:
: indica a adição de um conjunto de valores (somatório);
x : é a variável usada para representar os valores individuais dos dados;
n : número de valores na amostra;
N : número de valores na população;
x : média do conjunto de valores AMOSTRAIS;
: média de todos os valores existentes na POPULAÇÃO;
Propriedades da média:
o A média é altamente influenciada por valores extremos. Nem sempre poderá
ser utilizada como medida que resuma adequadamente um conjunto de dados,
visto que esta não carrega em si a noção de variabilidade.
Exemplo: Tabela 1: Número de salários de cinco funcionários das
empresas A, B, C e D, escolhidos ao acaso.
Funcionários
Empresas
1º 2º 3º 4º 5º
A 5 5 5 5 5
B 3 4 5 6 7
C 1 3 5 7 9
D 1 1 1 1 21
Se analisarmos as médias dos salários pagos por cada uma das
empresas veremos que em média eles pagam 5 salários para seus funcionários,
mas se olharmos com mais cuidado, vemos que nos casos onde há maior
discrepância nos dados, a média não representa a distribuição dos mesmos. Por
outro lado, a mediana pode ser obtida através de um conjunto ordenado de
dados e não será influenciada por valores extremos.
o Ao somarmos ou subtrairmos uma constante a um conjunto de valores de uma
variável x, a média desse novo conjunto ficará somada ou subtraída deste
constante.
o Ao multiplicarmos ou dividirmos os valores de um conjunto de dados, a média
desse novo conjunto ficará multiplicada ou dividida por esta constante.
Separatrizes:
Outras medidas também são muito utilizadas para observar as características dos dados.
Estas medidas são chamadas de separatrizes, e dividem-se em:
o Quartis: Colocados os dados em ordem crescente, os quartis ( Qi ) são os valores que
dividem o conjunto de dados em quatro partes iguais, cada uma contendo 25% do
total. Assim,
3. Q1 Q2 ~
x Q3
0 25% 50% 75% 100%
Onde, Q1 é o primeiro quartil, Q2 é o segundo quartil, e coincide com a mediana, Q3 é o
terceiro quartil, é o valor que atinge todos o conjunto de observações..
o Decis: Colocados os dados em ordem crescente, os decis ( Di ) são os valores que
dividem o conjunto de dados em dez partes iguais, cada uma contendo 10% do total.
Assim,
D1 ... D3 ... D5 ~
x ... D8 ... D10
0 10% ... 30% ... 50% ... 80% ... 100%
Onde, D1 é o primeiro decil, D2 é o segundo decil, (...), D10 : é o décimo decil.
o Percentis: Colocados os dados em ordem crescente, os percentis ( Pi ) são os valores
que dividem o conjunto de dados em cem partes iguais, cada uma contendo 1% do
total. Assim,
P1 P2 ... P50 ~
x ... P99 P100
0 1% ... 50% ... 99% 100%
Onde, P : é o primeiro percentil, P2 : é o segundo percentil, (...), P : é o décimo
1 100
percentil;
Medidas de dispersão:
As medidas de dispersão visam descrever os dados no sentido de informar o grau de
dispersão ou afastamento dos valores observados em torno da média. Elas informam se um conjunto de
dados é homogêneo (pouca variabilidade) ou heterogêneo (muita variabilidade).
Na prática, existem vária medidas que expressam a variabilidade de um conjunto de
dados, sendo que as mais utilizadas baseiam-se na idéia que consiste em verificar a distância de cada
valor observado em relação á média. Estas distâncias são denominadas desvios em relação à média.
VARIÂNCIA
A variância representa a média dos quadrados das distâncias entre os valores originais e a média
aritmética. Sua unidade é, portanto, o quadrado da unidade da variável. Dessa forma, se a unidade da
variável for, por exemplo, metros (m), teremos como resultado algum valor em metros quadrados (m2).
Consideremos uma população finita, de tamanho N. Seja n o tamanho de uma amostra, retirada
desta população. Assim, temos
Conjunto de dados amostrais: x1 , x2 ,..., xn
Conjunto de dados populacionais: x1 , x2 ,..., x N
Fórmulas básicas:
4. 2 ( x1 x ) 2 ( x 2 x ) 2 ( x n x ) 2 1 n
S
n 1
( xi x ) 2
n 1 i 1
,
2 ( x1 ) ( x 2 ) ( x N ) 1
2 2 2 N
N
( xi )
N i 1
2
Onde:
: indica a adição de um conjunto de valores (somatório);
x : é a variável, em geral usada para representar os valores individuais dos dados;
x : é média amostral do conjunto de dados;
: é média populacional do conjunto de dados;
n : número de valores na amostra;
N : número de valores na população;
S 2 : variância do conjunto de valores AMOSTRAIS;
2 : variância de todos os valores existentes na POPULAÇÃO;
Vamos supor que as observações não são todas distintas, ou seja, há repetições de valores, de
forma que existam:
n1 observações iguais a x1
n 2 observações iguais a x 2
n k observações iguais a x k
Então, temos que
n1 ( x1 x ) 2 n2 ( x2 x ) 2 nk ( xk x ) 2 1 k
S
2
n 1
ni ( xi x ) 2 ,
n 1 i 1
com n1 n2 nk n .
Podemos observar que, ao calcularmos a variância amostral, dividimos a soma dos quadrados
dos desvios por (n 1) , e não por n , como no cálculo de outras medidas comumente utilizadas. Isto
acontece porque o fator (n 1) pode ser usado como um fator de correção, quando queremos considerar
a variância amostral como uma estimativa da variância populacional.
OBSERVAÇÃO: Para o cálculo da variância, quando os dados estão agrupados em classes,
basta substituir os verdadeiros valores observados pelo ponto médio da classe.
DESVIO PADRÃO
O Desvio Padrão é a raiz quadrada da variância. Denotado por S , o desvio padrão amostral é
dado por:
n1 ( x1 x ) 2 n2 ( x2 x ) 2 nk ( xk x ) 2 1 k
S S2
n 1
ni ( xi x ) 2 ,
n 1 i 1
5. com n1 n2 nk n .
O uso do desvio padrão como medida de variabilidade é preferível pelo fato de ser expresso na
mesma unidade de medida dos valores observados, já que a variância pode causar problemas de
interpretação por ser expressa em termos quadráticos.
Analogamente à variância, quanto maior for o valor do desvio padrão, maior a dispersão entre os
dados.
O COEFICIENTE DE VARIAÇÃO DE PEARSON
É uma medida de variabilidade que, em geral, é expressa em porcentagem, e tem por função
determinar o grau de concentração dos dados em torno da média. Por ser uma medida ADIMENSIONAL,
o coeficiente de variação é geralmente utilizado para fazer a comparação entre dois conjuntos de dados,
tendo eles mesma unidade de medida, OU NÃO. Os coeficientes de variação populacional e amostral são
dados, respectivamente, por:
S
CV 100% e CV 100% .
X
Outra informação importante fornecida pelo coeficiente de variação de Pearson é se a média é ou
não uma medida representativa para o conjunto de dados. Em geral, temos que:
CV 50% a média não é representativa;
CV 50% a média é representativa;
CV 0 a média é significativamente representativa ( S 0) ;