1) O documento discute medidas estatísticas para caracterizar dados, incluindo medidas de localização como média, moda e mediana.
2) A média é influenciada por valores extremos, ao contrário da mediana, que é menos sensível a esses valores.
3) A escolha entre média e mediana depende da distribuição dos dados - a mediana é mais representativa quando os dados são enviesados.
2. Medidas para caracterizar os dados
medidas de localização – são as que localizam o
centro da amostra (média, moda e mediana)
medidas de dispersão
3. Medidas de localização (ou centralidade)
Veremos agora um outro processo de resumir essa
informação, utilizando determinadas medidas,
calculadas a partir de dados, que se chamam
ESTATÍSTICAS.
Média
Aritmética
Ponderada
Moda
Mediana
4. Será mesmo necessário utilizar os dois tipos de
medidas, para caracterizar os dados?
Dois alunos do 7º ano obtiveram as seguintes notas, no
3º período:
Qual a média dos estudantes?
Represente as notas num diagrama de caule e folhas.
Apresente uma característica apresentada pelas notas
do João.
Qual dos dois apresentou maior variabilidade nas
notas?
5. A média será sempre uma medida representativa
dos dados ?
Ao determinar a média dos seguintes dados obteve-se o
valor x = 24,1
O valor da média é representativa da amostra?
Qual o intervalo de dados?
O que pode ter acontecido com o valor 113,5?
Embora todos os dados, menos um, estejam no intervalo [10.6, 15.1], o valor
obtido para a média está "bem afastado" daquele intervalo! O que aconteceu é
que a média é muito sensível a valores muito grandes ou muito pequenos. No
caso do exemplo foi o valor 113,5 que inflacionou a média. Além disso temos
razões para pensar que pode ter havido um erro ao digitar o valor 113,5...
6. A média será sempre uma medida representativa
dos dados ?
E se em vez de 113,5 o valor correto fosse 13,5?
Qual o valor da nova média ?
Sendo a média uma medida tão sensível aos dados, é
preciso ter cuidado com a sua utilização, pois pode dar
uma imagem distorcida dos dados, que pretende
representar!
7. Por que a grande utilização da média?
Por ser uma medida muito simples de calcular.
Por ser considerada uma medida bastante “popular”.
Quando a distribuição dos dados é “normal”, então a
melhor medida de localização do centro, é a média.
8. Vantagens da utilização da média em certas
aplicações:
Quando o que se pretende representar é a quantidade total
expressa pelos dados, utiliza-se a média.
Na realidade, ao multiplicar a média pelo nº total de
elementos, obtemos a quantidade pretendida!
Exemplo:
9. Pode-se sempre calcular a média?
Com dados do tipo qualitativo, tem sentido calcular a
média, mesmo que os dados sejam números?
Exemplo:
Utilizou-se o 1 para representar o sexo masculino e o 2
para o sexo feminino referindo-se à variável sexo
(variável codificada).
Tem significado calcular a média deste conjunto de
dados?
10. Cuidado com as medidas de localização!
Suponha que numa região começaram a aparecer
pessoas com uma virose desconhecida. Os médicos do
Centro de Saúde dessa região procuraram recolher
alguma informação sobre as pessoas atacadas por essa
doença.
Foi recolhida uma amostra de 34 desses doentes a quem
se perguntou, entre outras características, a idade.
Depois de analisados os dados os médicos foram
informados que a idade média dos doentes era de 32
anos.
Um dos médicos, mais curioso que os outros pediu que
lhe mostrassem a distribuição dos dados, tendo-lhe sido
apresentada a seguinte distribuição.
11. Cuidado com as medidas de localização!
Perante a representação o médico
não teve dúvidas em desconsiderar
a média, assim como qualquer outra
medida de localização do centro da
amostra. Por que?
Por que para dados deste tipo é
enganador qualquer medida de
localização do centro da
distribuição?
O que o médico pode concluir
imediatamente?
Que faixa etária se concentram os
doentes? A virose ataca mais
alguma faixa etária?
12. Moda ou classe modal
Para um conjunto de dados, define-se moda como sendo o valor que surge
com mais frequência se os dados são discretos, ou, o intervalo de classe
com maior frequência se os dados são contínuos.
Assim, da representação gráfica dos dados, obtém-se imediatamente o
valor que representa a moda ou a classe modal.
Esta medida é especialmente útil para reduzir a informação de um conjunto
de dados qualitativos, apresentados sob a forma de nomes ou categorias,
para os quais não se pode calcular a média e por vezes a mediana (se não
forem susceptíveis de ordenação).
13. Média ou mediana?
Dado um histograma é fácil obter a posição da mediana, pois esta está na
posição em que passando uma linha vertical por esse ponto o histograma
fica dividido em duas partes com áreas iguais.
Como medida de localização, a
mediana é mais resistente do que a
média, pois não é tão sensível aos
dados.
1- Quando a distribuição é simétrica, a média e a
mediana coincidem.
2- A mediana não é tão sensível, como a média, às
observações que são muito maiores ou muito
menores do que as restantes (outliers).
Por outro lado a média reflete o valor de todas as observações.
Assim, não se pode dizer em termos absolutos qual destas medidas de localização é
preferível, dependendo do contexto em que estão a ser utilizadas.
14. Exemplo
Os salários dos 160 empregados de uma determinada
empresa, distribuem-se de acordo com a seguinte tabela
de frequências:
O que é frequência acumulada?
Calcule a média e a mediana e comente os resultados.
15. Comentário
O fato de termos obtido uma média de 156,10 e uma
mediana de 100, é reflexo do fato de existirem alguns,
embora poucos, salários muito altos, relativamente aos
restantes.
Repare-se que, numa perspectiva social, a mediana é
uma característica mais importante do que a média.
Na realidade 50% dos trabalhadores têm salário menor
ou igual a 100 euros, embora a média de 156,10 euros
não transmita essa ideia!
16. Conclusão
A média, ao contrário da mediana, é uma medida muito
pouco resistente, isto é, é muito influenciada por valores
"muito grandes" ou "muito pequenos", mesmo que estes
valores surjam em pequeno número na amostra.
Estes valores são os responsáveis pela má utilização da
média em muitas situações em que teria mais significado
utilizar a mediana.
17. Resumo
Como a média é influenciada quer por valores muito
grandes, quer por valores muito pequenos, se a
distribuição dos dados:
1- For aproximadamente simétrica, a média aproxima-se
da mediana.
2- For enviesada para a direita (alguns valores grandes
como outliers), a média tende a ser maior que a mediana.
3- For enviesada para a esquerda (alguns valores
pequenos como outliers), a média tende a ser inferior à
mediana.
18. Resumo
Representando as distribuições dos dados (esta
observação é válida para as representações gráficas na
forma de diagramas de barras ou de histograma) na
forma de uma mancha, temos, de um modo geral:
http://www.alea.pt/html/nocoes/html/cap1_1_i.html
19. Para finalizar a aula...
Trabalho de 2014-1 sobre Políticas de assistência
estudantil
Exercícios do IEZZI: 302, 307, 315, 317, 334 e 339