O documento discute medidas estatísticas para descrever dados, incluindo medidas de tendência central, posição e dispersão. Apresenta exemplos de distribuição de frequência para variáveis categóricas e contínuas. Também explica o conceito de amostra e suas características de representatividade e precisão para estimar parâmetros de uma população.
1. MEDIDAS DE POSIÇÃO E
DISPERSÃO
Bioestatística e Delineamento Experimental - 2014
Andréa H. Dâmaso
2. Tópicos da aula
Frequência absoluta e relativa
Medidas de tendência central e variabilidade
Variáveis contínuas: distribuição normal
Amostra
3. • Estatística
– Comparação dos dados
– Cálculos para testar se a diferença entre os dados é
devida ao tratamento ou é meramente ao acaso
IMPORTANTE!
– Conhecer o tipo de dado que se está trabalhando
– Identificar previamente que teste estatístico será usado
para comparar o tipo de dados que será obtido
Análise dos dados
4. Relembrando... tipos de variáveis
Dicotômicas
Politômicas
Nominais
(ordem não importa)
Ordinais
(tem uma ordem lógica)
Discretas
(números inteiros)
Contínuas
(aceitam decimais)
Cor da pele,
estado civil...
NSE, estágio
desenvolvimento de
um tumor...
“CONTAGENS”
Nº filhos, nº de
células...
“MEDIDAS”
Peso, pressão
arterial,
glicose...
7. Distribuição de frequência
Descrição de uma variável categórica
Cálculo de proporções
Divisão de um número por outro, onde o numerador está
contido (é subconjunto) no denominador
Exemplo: Desnutrição: sim /não
Em 100 crianças, 20 estão desnutridas (20%)
8. Frequência absoluta e relativa
Tabela. Distribuição de idosos segundo concentração sanguínea
de vitamina D. São Paulo, 2012.
Concentração de vitamina D no sangue n %
Aceitável 20 40
Insuficiente 30 60
Deficiente 0 0
Total 50 100
9. Distribuição de frequência
Descrição de uma variável numérica
Tabela que mostra um número de observações ou
valores dentro de certos intervalos
10. Como apresentar as informações?
Dados da coorte de nascimentos de 2004. Pelotas, RS (n=6000)
Número
Peso ao nascer
(g)
Número de
gravidez
1 750 1
2 1500 3
3 1520 2
4 2450 4
5 1790 1
6 3000 2
7 1930 2
..... ..... ...
5999 3510 1
6000 2900 1
11. Distribuição de frequência: variável “discreta”
Número de gravidezes das mães da coorte de 2004. Pelotas, RS (n=6000)
Número de gravidez Frequência (n) %
1 2092 34,9
2 1644 27,4
3 970 16,1
4 544 9,1
5 282 4,7
6 168 2,8
7 105 1,8
8 69 1,2
9 48 0,8
10 39 0,7
11 20 0,3
12 11 0,1
13 8 0,1
12. Distribuição de frequência: variável “discreta”
Número de gravidez das mães da coorte de 2004. Pelotas, RS (n=6000)
Número de gravidezes Frequência (n) %
1 2092 34,9
2 1644 27,4
3 970 16,1
≥4 1294 21,6
13. Distribuição de frequência: variável “contínua”
Peso ao nascer das crianças da coorte de 2004. Pelotas, RS (n=4555)
Peso ao nascer (gramas) Frequência %
<1000 52 1,1
1000-1499 43 0,9
1500-1999 98 2,2
2000-2499 305 6,7
2500-2999 1112 24,4
3000-3499 1747 38,3
3500-3999 976 21,5
4000 222 4,9
14. ...
... mas para variáveis contínuas queremos descrever
os dados de forma ainda mais sucinta!
Medidas de tendência central
Medidas de posição
Medidas de variabilidade (dispersão)
15. Descrição de variáveis numéricas
MÉDIA
MEDIANA
MODA
AMPLITUDE
INTERVALO INTERQUARTIL
VARIÂNCIA
DESVIO PADRÃO
TERCIL
QUARTIL
QUINTIL
PERCENTIL
17. Medidas de tendência central
Média
É a soma dos valores de uma variável dividido pelo número
de valores
xi: valor de cada indivíduo
∑: somatória
n: total de indivíduos
x
x
n
i
i
n
1 Vantagem:
Utiliza TODOS os
valores da distribuição
Desvantagem:
É influenciada por
valores extremos
19. Média
É válida quando a distribuição dos dados é simétrica
em torno dos valores da média
153,9
110 134 149 161 165 178 180
141,3
100 110 115 125 134 200 205
20. Medidas de tendência central
Moda
Valor que mais se repete na amostra (na distribuição)
1, 1, 1, 1, 2, 2, 2, 2, 2, 3, 3, 4, 8, 9, 9
Moda: 2
Não tem muita utilidade!!!
21. Medidas de tendência central
Mediana
Valor que divide a distribuição ao meio
1º passo: ordenar os dados de menor a maior
2º passo: ver qual valor ocupa o “meio” da distribuição
Se...
Número ímpar de dados: valor do meio
1, 1, 1, 1, 2, 2, 2, 2, 2, 3, 3, 4, 8, 9, 9
Número par de dados: média dos dois do meio
1, 1, 1, 2, 2, 2, 2, 3, 3, 3, 4, 8, 9, 9
Fórmula:
(n + 1)/2
23. Quando número de observações (n) for par...
Mediana =
= (1,70+1,80)/2 =
= 1,75 metros
Mediana
1,80
1,70
1,60
1,50
1,90
2,00
24. Média x Mediana
Semelhantes para distribuições simétricas: Peso ao nascer
Média: 3131 g
Mediana: 3180 g
Distantes para distribuições assimétricas: Renda familiar
Média: R$ 791
Mediana: R$ 500
26. Mediana x Média: peso ao nascer
Distribuição simétrica
0
500
1000
1500
2000
n
1000 2000 3000 4000 5000 6000
Peso ao nascer
Média: 3131 gramas; Mediana: 3180 gramas
Média
27. Mediana x Média: renda familiar
Distribuição assimétrica
0
1000
2000
3000
n
0 5000 10000 15000 20000
Renda familiar (reais)
Média: R$ 791; Mediana: R$ 500
Mediana
28. Medidas de dispersão (variabilidade)
153,9
110 134 149 161 165 178 180
153,5
98 105 198 213
A média é semelhante, mas a dispersão....
29. Medidas de dispersão (variabilidade)
Várias maneiras de medir a dispersão
Amplitude (maior - menor)
Amplitude interquartil (p75 - p25)
Variância
Desvio padrão
30. Medidas de dispersão (variabilidade)
Amplitude
Valor maior – valor menor
Apenas considera os valores extremos
Ex: 5 medidas de glicemia em mmol/l
80; 85; 88; 90; 500
Amplitude: 500-80=420
Medidas que se distanciam muito das demais influenciam
muito a amplitude
31. Medidas de dispersão (variabilidade)
Amplitude interquartil
Percentil 75 – percentil 25
Considera apenas a parte central dos valores de um
conjunto de dados
Joga fora os valores mais altos e os mais baixos
Não influenciada pelos valores discrepantes
32. Medidas de dispersão (variabilidade)
Variância (S2)
Usa todas as observações
É uma medida dos “desvios” (ao quadrado) de cada
observação em relação à média
Pq ao quadrado?
Unidade de medida ao quadrado difícil interpretação
33. Medidas de dispersão (variabilidade)
Desvio padrão (S)
É a raiz quadrada da variância
Quanto mais próximos os valores individuais estiverem de
sua média, < a dispersão e < o desvio-padrão
Muito útil para distribuições dos dados aproximadamente
normais
34. Medidas de posição
Percentis (dividem os dados em 100 partes iguais)
Percentil 10, percentil 50, percentil 99...
Quartis
Primeiro, segundo, terceiro, quarto quartil
Quintil
Primeiro, segundo, terceiro, quarto, quinto quintil
35. Percentis de peso ao nascer
. su peson,d
peso ao nascer em gramas
-------------------------------------------------------------
Percentiles Smallest
1% 1950 1100
5% 2340 1490
10% 2570 1550 Obs 962
25% 2870 1570 Sum of Wgt. 962
50% 3180 Mean 3200.639
Largest Std. Dev. 511.0475
75% 3510 4690
90% 3830 4700 Variance 261169.5
95% 4050 4700 Skewness -.1061833
99% 4450 4880 Kurtosis 3.579037
36. • Qual o nível de expressão gênica do NPY em
peixes adultos e juvenis?
Descriptive Statistics for JUVENIS = 1
Variable N Mean SD Minimum Maximum
Juvenis 4 1.0000 0.1225 0.8176 1.0714
Descriptive Statistics for ADULTOS = 2
Variable N Mean SD Minimum Maximum
Adultos 4 1.8569 0.2445 1.5868 2.1727
Ex de descrição de uma variável
numérica contínua
37. Estatística descritiva
Medidas de ocorrência
• Frequência ou porcentagem
Medidas de tendência central
• Moda
• Média
• Mediana
Medidas de posição
• Quartis, quintis, percentis...
Medidas de dispersão ou variabilidade
• Amplitude
• Variância
• Desvio padrão
38. Distribuição normal
Ou Gaussiana
Simétrica
Forma de “sino”
É uma distribuição contínua
Descreve bem fenômenos biológicos
5 4 0 0
5 0 00
4 60 0
4 2 0 0
3 8 0 0
3 4 00
3 00 0
26 0 0
2 2 0 0
1 8 0 0
1 40 0
1 0 0 0
6 0 0
1 8
1 6
1 4
1 2
1 0
8
6
4
2
0
S t d . D e v = 5 5 7 . 3 8
M e a n = 3 1 5 2
N = 5 2 5 8 . 0 0
Percentagem
Peso ao nascer
39. Distribuição normal padrão (propriedades)
1. Qualquer variável com distribuição simétrica
(normal) pode ser relacionada com uma distribuição
normal padrão
Média: zero; DP: 1
Posso estimar entre quais valores está x% dos meus dados
40. ... Uso de amostras
O que seria uma amostra? Não é melhor avaliar
toda a população ?
41. Amostra
Quero conhecer um atributo de uma população (alvo)
Estado nutricional das crianças brasileiras menores de 5 anos
Escolho um grupo para estudar
Crianças menores de 5 anos da cidade de Pelotas
Deste grupo tiro uma amostra
43. Amostra: características
1. Representar a população
Equiprobabilidade = representatividade
Todos os indivíduos da população alvo têm a mesma chance de
participar do estudo (de serem sorteados)
POPULAÇÃO ALVO POPULAÇÃO ALVO
44. Amostra: características
2. Precisão
Amostra de tamanho adequado
Garantir o mínimo de precisão
Garantir a chance de demonstrar uma diferença entre dois
grupos
PODER: probabilidade de encontrar uma diferença quando ela
realmente existe
Quanto maior a amostra, maior o poder
45. Então, a amostra...
Tem importância pelo que nos conta sobre a
população que representa
A média e o desvio padrão da amostra são usados
para estimar a média e o desvio padrão da
população
s
x
amostra
população