Universidade Salgado de Oliveira
Reconhecida pela Portaria Ministerial nº 1283 de 08/09/93, publicada no D.O.U. de 09/09/93
Mantida pela Associação Salgado de Oliveira de Educação e Cultura (ASOEC)
BIOESTATÍSTICA
Professora Sandra Peres
2018
2
Conteúdo
1 CONCEITOS BÁSICOS...............................................................................................3
2 AMOSTRAGEM...........................................................................................................7
2.1 AMOSTRAGEM PROBABILÍSTICA..................................................................7
2.2 AMOSTRAGEM NÃO PROBABILÍSTICA......................................................10
3 ORGANIZAÇÃO DE DADOS EM TABELAS E GRÁFICOS ................................15
3.1 Séries estatísticas..................................................................................................15
3.2 Gráficos Estatísticos.............................................................................................17
3.3 Distribuição de Frequências.................................................................................26
3.4 Representação Gráfica das Distribuições de Frequências....................................33
4 MEDIDAS DESCRITIVAS ........................................................................................41
4.1 A MÉDIA E O DESVIO PADRÃO ....................................................................41
4.2 MODA..................................................................................................................52
4.3 MEDIANA, QUARTIS E DESVIO INTER-QUARTIL.....................................55
5 CORRELAÇÃO E REGRESSÃO ..............................................................................63
5.1 CORRELAÇÃO...................................................................................................63
5.2 REGRESSÃO LINEAR SIMPLES .....................................................................67
REFERÊNCIAS BIBLIOGRÁFICAS ..............................................................................72
RESPOSTAS DE ALGUNS EXERCÍCIOS.....................................................................72
QUESTÕES DO ENADE..................................................................................................73
3
1 CONCEITOS BÁSICOS
 ESTATÍSTICA é um conjunto de métodos e processos quantitativos que serve para estudar e medir
os fenômenos coletivos. É a ciência que estuda as técnicas necessárias para coletar, organizar,
apresentar, analisar e interpretar os dados, a fim de extrair informações a respeito de uma população.
 BIOESTATÍSTICA é a aplicação da estatística ao campo biológico, médico. É essencial ao
planejamento, coleta, avaliação e interpretação de todos os dados obtidos em pesquisa na área da saúde.
PARTES DA ESTATÍSTICA
 Estatística Descritiva – é a parte da Estatística que trabalha com a organização e a apresentação
dos dados.
 Estatística Indutiva ou Inferência Estatística – é a parte da Estatística que trabalha com
análise e interpretação dos dados, com o objetivo de obter e generalizar conclusões para a
população a partir de uma amostra.
 POPULAÇÃO é o conjunto de todos os elementos (pessoas ou objetos) que interessam ao estudo de
um fenômeno coletivo segundo alguma característica.
 AMOSTRA é qualquer subconjunto não vazio de uma população.
 PARÂMETRO é uma característica numérica estabelecida para toda uma população.
 ESTIMADOR é uma característica numérica estabelecida para uma amostra.
 DADO ESTATÍSTICO é toda informação devidamente coletada e registrada. Todo dado se refere
a uma variável.
 VARIÁVEL é uma característica dos elementos de uma população ou de uma amostra, que pode
assumir diferentes valores, sejam numéricos ou não, e que interessa ao estudo.
 CLASSIFICAÇÃO DAS VARIÁVEIS:
Ordinal
Qualitativa
Nominal
Variável
Discreta
Quantitativa
Contínua
Variável Qualitativa: tipo de variável que não pode ser medida numericamente.
Variável Qualitativa Ordinal: quando seus elementos têm relação de ordem.
Exemplos: colocação (primeiro lugar, segundo lugar, etc.), conceito (ótimo, bom, regular, péssimo),
estado civil (solteiro, casado, divorciado...), intensidade da dor (fraca, moderada, aguda), nível de
escolaridade (fundamental, médio, graduação, mestrado...), etc.
Variável Qualitativa Nominal: quando seus elementos são identificados por um nome.
4
Exemplos: cor dos olhos, gênero (masculino ou feminino), ocorrência de uma doença num paciente,
tipo sanguíneo, medicamento em uso, profissão, naturalidade, etc.
Variável Quantitativa: tipo de variável que pode ser medida numericamente.
Variável Quantitativa Discreta: tipo de variável que só pode assumir valores pertencentes a um
conjunto enumerável. Normalmente seus valores estão associados a característica de contagem.
Exemplos: número de filhos, número de vacinas, quantidade de pessoas infectadas pelo HIV, glóbulos
brancos no sangue, etc.
Variável Quantitativa Contínua: tipo de variável que pode assumir qualquer valor em um intervalo de
valores. Normalmente seus valores estão associados a característica de medidas.
Exemplos: altura das pessoas, peso dos recém-nascidos, idade, índice de massa corporal, custo de um
dia de internação num hospital, temperatura, tempo de tratamento de um paciente, pressão arterial sistólica,
etc.
 CENSO é um levantamento estatístico (pesquisa) que abrange todos os elementos de uma população.
 AMOSTRAGEM é o processo de obter as amostras, com a finalidade de fazer generalizações sobre
a população sem precisar examinar cada um de seus elementos.
Principais propriedades do Censo:
 Confiabilidade 100%  Custo elevado  Lento  Nem sempre é viável
Principais propriedades da Amostragem:
 Confiabilidade menor que 100%  Mais barata  Mais rápida  É sempre viável
ATRIBUIÇÕES DA ESTATÍSTICA DESCRITIVA-Fases do Método Estatístico
 Definição do problema  O que exatamente se pretende pesquisar? Delimitar o tema.
 Planejamento  Como levantar informações? Que dados deverão ser obtidos? Qual levantamento a
ser utilizado? Censo? Amostragem? Qual é o cronograma de atividades? Quais são os custos
envolvidos no processo?
 Obtenção ou coleta de dados – normalmente feita através de um questionário ou de observação direta
 Crítica, Apuração e Organização dos dados – consiste na ordenação e crítica dos dados para evitar
erros que possam vir a alterar os resultados
 Apresentação dos dados – através de tabelas e gráficos
 Obtenção de algumas informações como médias, proporções, dispersões, índices ... que facilitam a
descrição e análise dos fenômenos observados.
EXERCÍCIOS - 1ª Lista - Conceitos Básicos
1. Assinale a alternativa CORRETA.
A estatística subdivide-se em duas áreas:
a) Discreta e contínua
b) Descritiva e inferencial
c) Dedutiva e indutiva
d) Descritiva e referencial
e) Dedutiva e inferencial
2. Assinale a alternativa CORRETA sobre o conceito de população ou universo.
a) Conjunto de pessoas.
b) Conjunto de pessoas apresentando uma característica especial.
c) Conjunto de todos os indivíduos, objetos ou informações que apresentam pelo menos uma característica
comum.
d) Conjunto de observações.
e) Todas as alternativas anteriores estão incorretas.
5
3. Assinale a opção CORRETA. Em alguma fase de seu trabalho, o pesquisador se vê às voltas com o problema de
analisar e entender uma massa de dados, relevante ao seu particular objeto de estudo. Se forem informações sobre
uma amostra ou população, ele necessitará resumir os dados para que estes sejam informativos, ou para compará-
los com outros resultados, ou ainda para julgar sua adequação a alguma teoria. Em sentido mais restrito, o termo
‘estatística’ é usado para:
a) designar os próprios dados ou números deles derivados, métodos científicos para a coleta, organização,
resumo e análise de dados.
b) análise de dados do tipo descritivos.
c) análise de dados do tipo analítico.
d) a coleta de dados sem se preocupar com a análise de compreensão.
e) As outras alternativas estão incorretas.
4. De acordo com as sentenças I, II e III, responda a alternativa CORRETA:
I. O peso de uma criança é uma variável quantitativa contínua.
II. A idade de uma pessoa é uma variável quantitativa discreta.
III. O nível de escolaridade de um brasileiro em idade escolar é uma variável qualitativa ordinal.
a) As sentenças I e II são verdadeiras
b) As sentenças II e III são verdadeiras
c) As sentenças I e III são verdadeiras
d) Todas as sentenças são verdadeiras
e) Todas as sentenças são falsas
5. Elaborou-se um formulário para medir o grau de satisfação e longevidade dos funcionários de uma clínica-escola
e, de posse das informações obtidas, serão tomadas decisões para melhorais na qualidade do trabalho e
atendimento. Dentre as 10 perguntas do formulário estão:
A. Qual a sua idade, em anos?
B. Qual o seu setor de trabalho?
C. Em termos gerais, qual o seu grau de satisfação com o seu emprego?
Assinale a opção CORRETA. As variáveis apresentadas nestas três perguntas são, respectivamente:
a) Quantitativa contínua, qualitativa nominal, qualitativa ordinal.
b) Quantitativa discreta, qualitativa nominal, qualitativa ordinal.
c) Quantitativa discreta, qualitativa nominal, qualitativa nominal.
d) Quantitativa contínua, qualitativa ordinal, qualitativa ordinal.
e) Quantitativa contínua, qualitativa nominal, qualitativa nominal.
6. Classifique as variáveis abaixo quanto ao tipo: qualitativa (Q), quantitativa discreta (D) ou quantitativa contínua (C):
I. Número de chamadas telefônicas de um consultório.
II. Salário.
III. Gênero (sexo).
A alternativa que apresenta a ordem CORRETA é:
a) C, D, Q
b) D, C, Q
c) D, D, Q
d) C, C, Q
e) Q, C, D
7. Assinale a opção CORRETA. Classifique as variáveis em qualitativa (Q), quantitativa contínua (C) ou
quantitativa discreta (D).
População: Variável:
Pacientes do Doutor XY Tipo sanguíneo
Enfermeiros do Hospital AB Anos de trabalho
Associações da cidade ZT Número de assistentes sociais
a) Q, C, Q
b) Q, D, Q
c) Q, D, D
d) Q, C, C
e) Q, C, D
8. Observe cada informação abaixo e identifique se a variável observada é discreta ou contínua:
 Ao completar um programa de treinamento de um pré-campeonato, José da Silva pesava 5 kg menos do que
no início.
 Numa coleta de sangue compareceram 11 doadores.
6
 O consumo de água no mês de agosto da família Souza foi de 30 m3
.
A alternativa que apresenta a ordem CORRETA é:
a) discreta, discreta, discreta
b) discreta, contínua, contínua
c) contínua, discreta, contínua
d) contínua, contínua, contínua
e) discreta, contínua, discreta
9. De acordo com as sentenças I, II e III, responda a alternativa CORRETA:
I. São fases do método estatístico: definição do problema, planejamento, coleta, crítica, apuração,
apresentação dos dados e análise dos resultados.
II. A análise e a interpretação dos dados amostrais, associado a uma margem de incerteza pertencem à
Estatística Inferencial.
III. Uma variável é quantitativa contínua quando resulta de mensuração, ou seja, pode assumir qualquer valor
entre dois limites.
a) As sentenças I e II são verdadeiras
b) As sentenças I e III são verdadeiras
c) As sentenças II e III são verdadeiras
d) Todas as sentenças são verdadeiras
e) Todas as sentenças são falsas
10. Em Estatística, uma Variável é uma característica dos elementos de uma população ou de uma amostra, que pode
assumir diferentes valores, sejam numéricos ou não, e que interessa ao estudo. Com relação à esse conceito, julgue
os itens a seguir:
I. Uma variável é quantitativa contínua quando resulta de mensuração, ou seja, pode assumir qualquer valor
entre dois limites.
II. O consumo de água mensal de uma família é uma variável quantitativa discreta.
III. A idade de uma pessoa é uma variável quantitativa contínua.
IV. O tipo sanguíneo dos pacientes de um hospital é uma variável qualitativa nominal.
É correto apenas o que se afirma em:
a) ( ) I e III b) ( ) I e IV c) ( ) II e III d) ( ) I, II e III e) ( ) I, III, e IV
11. Elaborou-se um formulário para medir o grau de satisfação e longevidade dos funcionários de uma clínica-escola
e, de posse das informações obtidas, serão tomadas decisões para melhorias na qualidade do trabalho e
atendimento. Dentre as 10 perguntas do formulário estão:
Qual a sua idade, em anos?
Qual o seu setor de trabalho?
Em termos gerais, qual o seu grau de satisfação com o seu trabalho?
Considerando o contexto acima, avalie as asserções a seguir e a relação proposta entre elas.
I. A variável idade é classificada como quantitativa contínua,
PORQUE
II. As variáveis quantitativas contínuas têm seus valores associados a característica de
contagem.
A respeito dessas asserções, assinale a opção correta:
a) ( ) As asserções I e II são proposições verdadeiras, e a II é uma justificativa correta da I.
b) ( ) As asserções I e II são proposições verdadeiras, mas a II não é uma justificativa correta da I.
c) ( ) A asserção I é uma proposição verdadeira, e a II é uma proposição falsa.
d) ( ) A asserção I é uma proposição falsa, e a II é uma proposição verdadeira.
e) ( ) As asserções I e II são proposições falsas.
12. Classifique as variáveis em: Qualitativa Nominal  N, Qualitativa Ordinal  O,
Quantitativa Discreta – D, Quantitativa Contínua  C.
a) ( ) Idade de um trabalhador.
b) ( ) Tipo sanguíneo de um paciente.
c) ( ) Setor de trabalho de um funcionário
d) ( ) Número de atendimentos de emergência.
e) ( ) Grau de satisfação com o seu trabalho.
7
2 AMOSTRAGEM
A amostragem é o estudo das relações existentes entre
 a amostra,
 a população de onde ela foi extraída e
 a forma como ocorre esta extração.
É útil na avaliação de grandezas desconhecidas da população, frequentemente denominadas parâmetros,
com base no conhecimento de grandezas correspondentes das amostras, geralmente chamadas estimativas
ou estatísticas (Teoria da Estimação).
Também auxilia na verificação de diferenças observadas entre duas ou mais amostras (tratamentos), para
verificar se estas diferenças são devidas a uma variação casual ou se são verdadeiramente relacionadas aos
efeitos de tratamentos (Teoria da Decisão). Portanto, a amostragem tem por objetivo principal determinar
meios e métodos para estudar as populações através de amostras. Observe que, quando obtemos
informações a partir das amostras e tentamos atingir as populações, estamos realizando uma inferência.
Para que as conclusões da teoria de amostragem sejam válidas, as amostras devem ser escolhidas de modo
a serem representativas da população. Isso significa que a amostra deve possuir as mesmas características
básicas da população, no que diz respeito à(s) variável(eis) que desejamos estudar. Desta forma, o plano de
amostragem deve ser formulado para garantir esta representatividade.
O plano de amostragem consiste em definir:
 as unidades amostrais, isto é, as unidades selecionadas na amostragem para calcular as estatísticas,
 a maneira pela qual a amostra será retirada (o tipo de amostragem), e
 o próprio tamanho da amostra.
As unidades amostrais podem corresponder aos próprios elementos da população, quando há acesso direto
a eles, ou qualquer outra unidade que possibilite chegar até eles. Podemos, por exemplo, considerar como
população os domicílios de uma cidade e que se deseje avaliar o perfil socioeconômico. A unidade amostral
será cada um dos domicílios, que corresponderá aos elementos da população. Caso a unidade amostral for
definida como os quarteirões, a unidade amostral não corresponderá aos elementos populacionais.
Podemos ter dois tipos de amostragem, as probabilísticas e as não probabilísticas.
Amostragem probabilística: quando todos os elementos da população tiveram uma probabilidade
conhecida e diferente de zero de pertencer à amostra.
Amostragem não probabilística: quando não se conhece a probabilidade de um elemento da população
pertencer à amostra.
2.1 AMOSTRAGEM PROBABILÍSTICA
A realização deste tipo de amostragem só é possível se a população for finita e totalmente acessível.
A utilização de uma amostra probabilística é melhor para garantir a representatividade da amostra, pois o
acaso será o único responsável por eventuais discrepâncias entre população e amostra. Estas discrepâncias
são levadas em consideração nas inferências estatísticas.
8
 AMOSTRAGEM ALEATÓRIA SIMPLES OU CASUAL
Deve-se utilizar a Amostragem Aleatória Simples (AAS) somente quando a população for homogênea em
relação à variável que se deseja estudar e todos os elementos da população têm a mesma probabilidade de
pertencer à amostra. Geralmente, atribuímos uma numeração a cada indivíduo da população, e através de
um sorteio aleatório os elementos que vão compor a amostra são selecionados.
Quando o número de elementos da amostra é muito grande, esse tipo
de sorteio torna-se muito trabalhoso. Neste caso utiliza-se uma Tabela
de números aleatórios, construída de modo que os algarismos de 0 a
9 são distribuídos ao acaso nas linhas e colunas, como no exemplo ao
lado. Na tabela de números aleatórios os dez algarismos 0,1,2, ..., 8,9,
podem ser lidos isoladamente ou em grupos; podem ser lidos em
qualquer ordem, como por colunas, num sentido ou noutro, por linhas,
diagonalmente etc., e podem ser considerados aleatórios. A opção de
leitura, porém, deve ser feita, antes de iniciado o processo.
Exemplo: Para obter uma amostra representativa para a pesquisa da
estatura de 90 alunos de uma escola o professor selecionará
ao acaso 10 alunos. Primeiramente ele enumera os alunos
de 1 a 90 e depois há duas formas dele proceder:
 escrever os números dos alunos, de 1 a 90, em pedaços iguais de papel, colocar em uma
urna e misturar todos os papéis. Daí retirar, um a um, dez números que formarão a amostra.
 utilizar uma tabela de números aleatórios, começando, por exemplo, na primeira coluna e
anotando os números com dois algarismos (entre 01 e 90) até obter a amostra com 10
números distintos.
 AMOSTRAGEM SISTEMÁTICA
Em algumas situações, quando os elementos da população se apresentam ordenados, é conveniente retirar
os elementos que vão compor a amostra de forma cíclica (em períodos).
Quando os elementos da população já se acham ordenados, não há necessidade de construir o sistema de
referência. São exemplos os prontuários médicos de um hospital, os prédios de uma rua, etc. Porém, é de
fundamental importância que a variável de interesse não apresente ciclos de variação coincidente com os
ciclos de retirada, pois este fato tornará a amostragem não aleatória.
Geralmente, toma-se o tamanho da população N e divide-se pelo tamanho da amostra n encontrando-se
assim a constante K que servirá como o ciclo de repetição da retirada. Após a definição do valor de K,
sorteia-se o ponto inicial da amostragem, ou seja, um dos elementos do primeiro intervalo constituído pelos
elementos populacionais numerados de 1 até K. Escolhesse o seguinte, que será o elemento de ordem (i +
K); e assim por diante, sempre somando-se K à ordem do elemento anterior, até completar a escolha dos n
elementos que vão compor a amostra.
Exemplo: Suponha que se queira retirar uma amostra de currículos apresentados para um processo seletivo,
e a variável de interesse corresponde à idade dos candidatos. Pode ocorrer que pessoas de uma
determinada faixa etária deixem para entregar o currículo no último dia. Então, se pegássemos
os currículos de forma aleatória, poderíamos estar subestimando ou superestimando a idade
média.
Nesta situação, os 500 currículos recebidos podem ser ordenados por ordem alfabética. Deseja-
se amostrar 50 currículos para estimar a idade média dos candidatos. Supondo que as idades
estejam aleatoriamente distribuídas na população, ou seja, sem qualquer ciclo de repetição
utiliza-se a técnica de amostragem sistemática. Primeiramente, deve-se enumerar a população
de 1 a 500 e calcular a constante (K) que servirá como fator de ciclo para retirada dos currículos
amostrados. Neste caso, vamos dividir os 500 currículos pelo tamanho da amostra (50) que se
deseja trabalhar. Teremos uma constante igual a 10, e os elementos serão amostrados a cada dez
elementos.
Os espaços entre os números são apenas para
facilitar a leitura, mas os números podem ser lidos
comaquantidadedealgarismosquesequeira
9
 AMOSTRAGEM ESTRATIFICADA
Quando a variável de interesse apresenta uma heterogeneidade na população e esta heterogeneidade permite
a identificação de grupos homogêneos, dividi-se a população em grupos (estratos) e faz-se uma amostragem
dentro de cada estrato, garantindo, assim, a representatividade de cada estrato na amostra.
Como estamos dividindo a população em estratos (grupos) que são homogêneos dentro de si, podemos,
então, caracterizar a amostragem estratificada. Para efetuarmos a amostragem estratificada de forma
proporcional, precisamos primeiramente definir a proporção do estrato em relação à população.
Exemplo: Podemos verificar que pesquisas eleitorais apresentam uma grande heterogeneidade em relação
à intenção de votos, quando consideramos, por exemplo, a faixa salarial ou o nível de
escolaridade. Então, se fizéssemos uma amostragem aleatória simples, poderíamos incluir na
amostra uma maior quantidade de elementos de um grupo, e, proporcionalmente, este grupo é
pequeno em relação à população. Desta forma, não teríamos uma amostra representativa da
população a ser estudada. Então, podemos dividir a população em grupos (estratos) que são
homogêneos para a característica que estamos avaliando, ou seja, neste caso, a intenção de votos.
 AMOSTRAGEM POR CONGLOMERADOS
Apesar de a amostragem estratificada apresentar resultados satisfatórios, a sua implementação é dificultada
pela falta de informações sobre a população para fazer a estratificação. Para poder contornar este problema,
você pode trabalhar com o esquema de amostragem chamado amostragem por conglomerados (clusters).
Os conglomerados são definidos em função da experiência do gestor ou pesquisador. Geralmente, podemos
definir os conglomerados por fatores geográficos, como por exemplo, bairros e quarteirões.
A utilização da amostragem por conglomerados possibilita uma redução significativa do custo do processo
de amostragem. Portanto, um conglomerado é um subgrupo da população, que individualmente reproduz a
população, ou seja, individualmente os elementos que o compõem são muito heterogêneos entre si. Este
tipo de amostragem é muito útil quando a população é grande, por exemplo, no caso de uma pesquisa em
nível nacional.
Conglomerados podem ser formados por: quarteirões; ruas (face dos quarteirões); departamentos;
prateleiras; caixas; lotes de produtos; etc...
Para efetuarmos a amostragem por conglomerados, primeiramente definimos o conglomerado e assim
dividimos a população nos conglomerados. Sorteamos os conglomerados por meio de um processo aleatório
e avaliamos todos os indivíduos presentes no conglomerado, que é chamado de amostragem por
conglomerados em um estágio.
Caso façamos um sorteio de elementos dentro de cada conglomerado, teremos uma amostragem por
conglomerados em dois estágios.
Exemplo: Estudo sobre a percepção social dos problemas de quantidade, qualidade e custo dos recursos
hídricos em certa cidade. Definindo-se os quarteirões como sendo os conglomerados:
 em 1 estágio: Uma A.A.S. é aplicada para a seleção de uma amostra aleatória de quarteirões,
e o questionário é aplicado a todos os domicílios dos quarteirões selecionados.
 em 2 estágios:
- no 1º. estágio: aplica-se uma A.A.S. para se selecionar uma amostra de quarteirões;
- no 2º. estágio: dentre os quarteirões selecionados no 1º. estágio, sorteia-se uma
amostra aleatória de domicílios que efetivamente participarão da amostra.
10
2.2 AMOSTRAGEM NÃO PROBABILÍSTICA
Quando trabalhamos com a amostragem não probabilística, não conhecemos a priori a probabilidade que
um elemento da população tem de pertencer à amostra. Neste caso, não é possível calcular o erro decorrente
da generalização dos resultados das análises estatísticas da amostra para a população de onde a amostra foi
retirada.
Utilizamos, geralmente, a amostragem não probabilística por simplicidade ou por impossibilidade de se
obter uma amostra probabilística, como seria desejável, ou ainda, quando somos obrigados a colher a
amostra na parte da população a que temos acesso.
 AMOSTRAGEM A ESMO OU ACIDENTAL
Trata-se de uma amostra formada por aqueles elementos que vão aparecendo, que são possíveis de se obter
até completar o número de elementos da amostra. Geralmente utilizada em pesquisas de opinião, em que
os entrevistados são acidentalmente escolhidos.
Exemplo: Imagine uma caixa com 1.000 comprimidos. A enumeração destes comprimidos ficaria muito
difícil, e a amostragem aleatória simples se torna inviável. Então, em situações deste tipo,
supondo que a população de comprimidos seja homogênea, escolhemos a esmo a quantidade
relativa ao tamanho da amostra. Quanto mais homogênea for a população, mais podemos supor
a equivalência com uma AAS. Desta forma, os comprimidos serão escolhidos para compor a
amostra de um determinado tamanho sem nenhuma norma ou a esmo. Daí vem o nome deste
tipo de amostragem. Outros exemplos: Pesquisas de opinião em praças públicas, ruas
movimentadas de grandes cidades etc.
 AMOSTRAGEM INTENCIONAL
A amostragem intencional corresponde àquela em que o amostrador deliberadamente escolhe certos
elementos para pertencer à amostra, por julgar tais elementos bem representativos da população.
Um exemplo deste tipo de amostragem corresponde à situação em que se deseja saber a aceitação em
relação a uma nova marca de whisky a ser inserida no mercado de uma cidade. Somente entrarão para
compor a amostra pessoas que façam uso da bebida e que tenham condições financeiras de comprar esta
nova marca (classe social de maior poder aquisitivo).
 AMOSTRAGEM POR COTAS
Neste tipo de amostragem, a população é dividida em grupos, e seleciona-se uma cota proporcional ao
tamanho de cada grupo. Entretanto, dentro de cada grupo não é feito sorteio, e sim os elementos são
procurados até que a cota de cada grupo seja cumprida.
Em pesquisas eleitorais, a divisão de uma população em grupos (considerando, por exemplo, o sexo, o nível
de escolaridade, a faixa etária e a renda) pode servir de base para a definição dos grupos, partindo da
suposição de que estas variáveis definem grupos com comportamentos diferenciados no processo eleitoral.
Para se ter uma ideia do tamanho destes grupos, pode-se recorrer a pesquisas feitas anteriormente pelo
IBGE (Instituto Brasileiro de Geografia e Estatística).
11
EXERCÍCIOS - 2ª Lista - Amostragem
1. Assinale a opção CORRETA:
a) Parâmetros são medidas características de grupos, determinadas por meio de uma amostra aleatória.
b) Uma população só pode ser caracterizada se forem observados todos os seus componentes.
c) A estatística descritiva compreende as técnicas por meio das quais são tomadas decisões sobre uma população
com base na observação de uma amostra.
d) O processo utilizado para se medir as características de todos os membros de uma dada população recebe o
nome de censo.
e) A estatística inferencial compreende um conjunto de técnicas destinadas à síntese dos dados numéricos.
2. Assinale a alternativa CORRETA. Não é exemplo de amostragem probabilística a:
a) Amostragem aleatória simples;
b) Amostragem sistemática;
c) Amostragem por cotas;
d) Amostragem estratificada;
e) Amostragem por conglomerados.
3. Numa pesquisa verificou-se que a população divide-se em 140 pessoas adultas, 80 crianças e 50 pessoas idosas.
Para retirar-se uma amostra de 10% dessa população o tipo de amostragem mais adequado é:
a) amostragem por conglomerados
b) amostragem estratificada
c) amostragem intencional
d) amostragem por cotas
e) censo
4. De acordo com as sentenças I, II e III, responda a alternativa CORRETA:
I. Na amostragem probabilística os tipos utilizados com maior frequência são Amostragem Aleatória;
Amostragem Sistemática; Amostragem Estratificada.
II. Na amostragem não probabilística estão os procedimentos, tais como: amostras intencionais, onde os
elementos são selecionados com o auxílio de especialistas e amostras de voluntários.
III. A principal vantagem da amostragem não-probabilística é de poder medir o erro amostral e
consequentemente a precisão da amostra obtida, baseando-se nos resultados contidos na própria
amostra.
a) As sentenças I e II são verdadeiras;
b) As sentenças II e III são verdadeiras;
c) As sentenças I e III são verdadeiras;
d) Todas as sentenças são verdadeiras;
e) Todas as sentenças são falsas.
5. Com respeito à Amostragem é CORRETO afirmar que:
a) Na amostragem intencional é escolhida uma amostra formada por elementos que vão aparecendo, que são
possíveis de se obter até completar os elementos da amostra.
b) Na amostragem por cotas, a população é dividida em extratos ou subconjuntos da população.
c) Na amostragem estratificada os dados são geralmente mais heterogêneos dentro de cada estrato do que na
população como um todo.
d) Uma amostra pode ser selecionada de qualquer maneira a fim de garantir a menor margem de erro na
pesquisa.
e) O método não-probabilístico consiste na escolha deliberada dos elementos da amostra.
6. De acordo com as sentenças I, II e III, responda a alternativa CORRETA:
I. As amostras obtidas por seleção aleatória são ditas probabilísticas.
II. O tamanho da amostra deve sempre ser estabelecido em 10% do tamanho total da população.
III. A amostra casual simples é composta de elementos retirados por sorteio da população.
a) As sentenças I e II são verdadeiras;
b) As sentenças II e III são verdadeiras;
c) As sentenças I e III são verdadeiras;
d) Todas as sentenças são verdadeiras;
e) Todas as sentenças são falsas.
12
7. Analise as duas situações descritas a seguir:
 Deseja-se recolher uma amostra de 20% da população dos doentes de gonorréia diagnosticados numa clínica
de DST. Sorteia-se um valor de 1 a 5. Se o sorteado for o 2, incluem-se na amostra o paciente 2, o 7, o 12 e
assim por diante de cinco em cinco.
 Deseja-se recolher uma amostra de 20% da população de pacientes com depressão profunda. A população é
composta por 40% de homens e 60% de mulheres. Separam-se os dois grupos e sorteiam-se 20 homens e 30
mulheres .
Assinale a alternativa CORRETA. Podemos afirmar que, em relação ao tipo de amostragem,
a) ambas as situações são amostragem sistemática
b) ambas as situações são amostragem estratificada
c) a 1ª e sistemática e a 2ª é estratificada
d) a 1ª é estratificada e a 2ª é sistemática
e) nenhuma das anteriores
8. Assinale a alternativa CORRETA:
a) O tamanho da amostra deve ser tomado como um percentual do tamanho da população para ser
representativa;
b) Para populações infinitas deve-se fazer o censo;
c) Utilizam-se as técnicas de amostragem toda vez que é necessário o resultado exato da pesquisa;
d) Na amostragem por cotas deve-se classificar a população em termos de propriedades que se sabe, serem
relevantes para a característica a ser estudada.
e) Na amostragem estratificada os dados são geralmente mais heterogêneos dentro de cada estrato do que na
população como um todo;
9. Assinale a alternativa CORRETA: A amostragem estratificada:
a) É equivalente a um sorteio.
b) É utilizada quando uma população é heterogênea quanto ao estudo a ser realizado, porém pode-se dividir a
população em subpopulações homogêneas.
c) É o mesmo que Amostragem Sistemática.
d) Também é conhecida como Amostragem por Conglomerados.
e) é um tipo de amostragem não-probabilística.
10. Identifique o item CORRETO:
a) A amostragem sistemática é usada quando os elementos da população se acham desordenados.
b) A amostragem aleatória simples é o processo de amostragem mais utilizado.
c) Não devemos utilizar a tabela de números aleatórios quando o número de elementos da amostra é muito
grande.
d) A amostragem sistemática é o processo de amostragem mais utilizado.
e) Quando a população se divide em estratos devemos usar a amostragem sistemática.
11. Quanto ao uso e importância das estatísticas de saúde, conceitos e interpretações, assinale a alternativa
INCORRETA:
a) O objetivo da estatística de saúde é fornecer dados dos níveis de saúde da população que auxiliarão na
elaboração de programas de saúde, implementações e avaliações.
b) Por meio da estatística pode-se analisar o perfil clínico-epidemiológico dos casos de meningite das crianças
internadas em um hospital público e os fatores associados à evolução hospitalar.
c) Quando se estuda uma variável, o maior interesse do pesquisador é conhecer a distribuição dessa variável
através das possíveis realizações ou valores assumidos pela mesma.
d) Para conhecer a frequência da desnutrição como causa de morte na população idosa deve-se realizar um
censo.
e) A estatística descritiva é a coleta, a organização, a descrição, o cálculo, a análise e interpretação dos dados
de um conjunto conhecido.
12. Na amostragem, os métodos não-probabilísticos são aqueles nos quais há uma escolha deliberada dos elementos
da amostra. São exemplos de amostragens não-probabilísticas:
a) Amostragem acidental e amostragem sistemática
b) Amostragem intencional e amostragem por cotas
c) Amostragem por conglomerados e amostragem casual
d) Amostragem por cotas e amostragem estratificada
e) Amostragem por cotas e amostragem por conglomerados
13
13. (FGV – Senado Federal – 2008) A respeito dos principais tipos de amostragem, é correto afirmar que:
a) a amostragem sistemática possui caráter não-probabilístico.
b) na amostragem aleatória estratificada há a possibilidade de que nenhuma unidade de um ou mais estratos
sejam selecionadas.
c) as informações obtidas através de uma amostragem acidental permitem a obtenção de inferências científicas
de características da população.
d) na amostragem de conglomerados todos os conglomerados são sempre selecionados.
e) a amostragem estratificada é geralmente mais eficiente do que a amostragem aleatória simples de mesmo
tamanho.
14. Assinale a alternativa CORRETA: A amostragem intencional:
a) É equivalente a um sorteio.
b) É utilizada quando uma população é heterogênea quanto ao estudo a ser realizado, porém pode-se dividir a
população em subpopulações homogêneas.
c) É o mesmo que Amostragem Sistemática.
d) Também é conhecida como Amostragem por Conglomerados
e) É um tipo de amostragem não-probabilística.
15. Um pesquisador quer estudar os efeitos da falta de sono nas habilidades motoras. Dezoito pessoas foram
voluntárias para o experimento: Sérgio, Ana Clara, Caroline, Bruno, Herivelto, Pio, Andréia, Elivânia, Daucy,
Amarildo, Selmo, Nazareth, Jackie, Patrícia, Hector, Victor Hugo, João e José. Foi utilizado um gerador de
números aleatórios para a escolha de nove sujeitos para o grupo de tratamentos. Os outros nove irão para o grupo
de controle. Identifique qual a técnica de amostragem mais adequada a ser utilizada neste estudo:
a) Amostragem Aleatória Simples.
b) Amostragem Aleatória Sistemática.
c) Amostragem Aleatória Estratificada.
d) Amostragem Aleatória por Conglomerados.
e) Amostragem Intencional.
16. O quadro abaixo representa o número de fumantes que trabalham no hospital “Boa Saúde”:
Sexo Nº de fumantes
Masculino 89
Feminino 61
Deseja-se obter uma amostra estratificada de 30% da população de fumantes. Marque a alternativa CORRETA para
os respectivos estratos (sexo masculino e sexo feminino):
a) 18 e 21
b) 27 e 18
c) 21 e 18
d) 27 e 21
e) 21 e 27
17. Há dois tipos de amostragem, as probabilísticas e as não-probabilísticas. A amostragem é probabilística quando
todos os elementos da população tiveram uma probabilidade conhecida e diferente de zero de pertencer à amostra.
A amostragem é não-probabilística quando não se conhece a probabilidade de um elemento da população
pertencer à amostra.
Considerando as definições acima, avalie as asserções a seguir e a relação proposta entre elas.
III. A amostragem por cotas é exemplo de amostragem probabilística
PORQUE
IV. Na amostragem por cotas deve-se classificar a população em termos de propriedades que se sabe,
serem relevantes para a característica a ser estudada e os elementos são procurados até que a cota
de cada grupo seja cumprida.
A respeito dessas afirmações, assinale a opção correta:
a) ( ) As afirmações I e II são proposições verdadeiras, e a II é uma justificativa correta da I.
b) ( ) As afirmações I e II são proposições verdadeiras, mas a II não é uma justificativa correta da I.
c) ( ) A afirmação I é uma proposição verdadeira, e a II é uma proposição falsa.
d) ( ) A afirmação I é uma proposição falsa, e a II é uma proposição verdadeira.
e) ( ) As afirmações I e II são proposições falsas.
14
18. Há dois tipos de amostragem, as probabilísticas e as não-probabilísticas. A amostragem é probabilística quando
todos os elementos da população tiveram uma probabilidade conhecida e diferente de zero de pertencer à amostra.
A amostragem é não-probabilística quando não se conhece a probabilidade de um elemento da população
pertencer à amostra.
Considerando as definições acima, avalie as asserções a seguir e a relação proposta entre elas.
I. A amostragem intencional é exemplo de amostragem não-probabilística
PORQUE
II. Neste tipo de amostragem estão os procedimentos onde os elementos são selecionados com o
auxílio de especialistas e amostras de voluntários.
A respeito dessas afirmações, assinale a opção correta:
a) ( ) As afirmações I e II são proposições verdadeiras, e a II é uma justificativa correta da I.
b) ( ) As afirmações I e II são proposições verdadeiras, mas a II não é uma justificativa correta da I.
c) ( ) A afirmação I é uma proposição verdadeira, e a II é uma proposição falsa.
d) ( ) A afirmação I é uma proposição falsa, e a II é uma proposição verdadeira.
e) ( ) As afirmações I e II são proposições falsas.
19. A amostragem é o estudo das relações existentes entre a amostra, a população de onde ela foi extraída e a forma
como ocorre esta extração. É útil na avaliação de grandezas desconhecidas da população, denominadas
parâmetros, com base no conhecimento de grandezas correspondentes das amostras, geralmente chamadas
estimativas. Com relação a esse conceito, julgue os itens a seguir:
I. Uma amostragem é dita não-probabilística quando não se conhece a probabilidade de um elemento da
população pertencer à amostra.
II. Na Amostragem Intencional é escolhida uma amostra formada por elementos que vão aparecendo, que são
possíveis de se obter até completar os elementos da amostra.
III. A Amostragem por Conglomerados é um exemplo de amostragem probabilística.
IV. O tamanho da amostra deve sempre ser estabelecido em 10% do tamanho total da população.
É correto apenas o que se afirma em:
a) ( ) I e III b) ( ) I e IV c) ( ) II e III d) ( ) I, II e III e) ( ) I, III, e IV
15
3 ORGANIZAÇÃO DE DADOS EM TABELAS E GRÁFICOS
Objetivo: apresentar resumidamente, de maneira clara e precisa, um conjunto de dados estatísticos.
 ELEMENTOS DAS TABELAS
Título – texto conciso, indicador do conteúdo de uma tabela. Localizado no topo da tabela, responde às
perguntas: O quê? Quando? Onde?
Cabeçalho – parte superior da tabela que especifica o conteúdo das colunas.
Coluna Indicadora – parte da tabela que especifica o tipo de informação que cada linha contém.
Corpo – conjunto de linhas e colunas que contém informações sobre a variável em estudo. Cada cruzamento
de uma linha com uma coluna constitui uma casa ou célula.
Fonte – identificador do responsável (pessoa física ou jurídica) pelo fornecimento dos dados. Não se indica
a fonte no caso em que a tabela é apresentada pelo próprio pesquisador, ou pelo próprio grupo de
pesquisadores, ou pela própria instituição que obteve os dados. É inscrita na primeira linha do rodapé (parte
inferior da tabela) e deve ser precedida da palavra Fonte:.
Notas – são informações de natureza geral que servem para esclarecer o conteúdo das tabelas ou para
explicar o método utilizado no levantamento dos dados. As notas são colocadas logo após a fonte.
Chamadas – são informações de natureza específica que servem para explicar ou conceituar determinados
dados. As chamadas são inscritas no rodapé após a Fonte e as Notas.
Exemplo de tabela:
Proporção de pessoas que costumam procurar o mesmo
lugar, médico ou serviço de saúde, quando precisam de
atendimento de saúde (%)
Centro-Oeste – 2013
Título
Coluna
Indicadora Unidades da
Federação
Avaliação do estado de saúde
CabeçalhoBom e
Muito bom
Regular
Ruim e
Muito ruim
Mato Grosso do Sul 86.6 85.6 91.4
Mato Grosso 79.8 77.9 79.1 Casa ou célula
Goiás 72.6 70.4 73.6
Distrito Federal 65.2 64.9 69.1 Corpo
Rodapé
Fonte: IBGE, Diretoria de Pesquisas, Coordenação de Trabalho e
Rendimento, Pesquisa Nacional de Saúde 2013.
Publicado em 13/04/2017 e Atualizado em 02/02/2018
3.1 Séries estatísticas
SÉRIE ESTATÍSTICA é toda tabela que apresenta a distribuição de um conjunto de dados estatísticos
em função do tempo, do local ou do fenômeno. Tabelas apresentando variáveis qualitativas.
Tipos Básicos de Séries:
 Temporal, Cronológica ou Histórica
 Geográfica, Territorial ou de Localização
 Categórica ou Específica
16
 SÉRIE TEMPORAL
Usada para apresentar dados observados em determinado local, discriminados ao longo do tempo.
Exemplo 1:
Expectativa de vida aos 65 anos
Brasil - 1940/2016
Ano Número de anos
1940 10,6
1950 10,8
1960 11,4
1970 12,1
1980 13,1
1991 15,4
2000 15,8
20’0 17,6
2014 18,3
2016 18,5
Fonte: IBGE
1940 1950,1960 e 1970 - Tábuas construídas no âmbito da Gerência
de Estudos e Análises da Dinâmica Demográfica.
1980 e 1991 - ALBUQUERQUE, Fernando Roberto P. de C. e
SENNA, Janaína R. Xavier “Tábuas de Mortalidade por Sexo e
Grupos de Idade - Grandes e Unidades da Federação – 1980, 1991 e
2000”. Textos para discussão, Diretoria de Pesquisas, IBGE, Rio de
Janeiro, 2005.161p. ISSN 1518-675X ; n. 20.
2000 em diante - IBGE/Diretoria de Pesquisas. Coordenação de
População e Indicadores Sociais. Gerência de Estudos e Análises da
Dinâmica Demográfica. Projeção da população do Brasil por sexo e
idade para o período 2000-2060.
 SÉRIE GEOGRÁFICA
Usada para apresentar dados de diferentes regiões geográficas, em determinado tempo.
Exemplo 2:
ÓBITOS POR NEOPLASIAS MALIGNAS
Brasil – 2009
Regiões
Quantidade
(por 100 mil habitantes)
Norte 46,7
Nordeste 66,2
Sudeste 102,8
Sul 121,1
Centro-Oeste 73,2
Fonte: Ministério da Saúde/Indicadores e Dados Básicos-Brasil-2010
O Instituto do Câncer (Inca) é o órgão de referência Técnica nacional para uso do indicador
 SÉRIE CATEGÓRICA
Usada para apresentar dados que se distribuem em diferentes categorias, em determinado tempo e local.
Exemplo 3:
Número de Matriculas de Graduação no ensino a distância das
IES, no Ensino Público - Brasil – 2016
Organização Acadêmica Quantidade
Universidade 109684
Centro Universitário 0
Faculdade 4108
IF e CEFET 8809
Fonte: MEC/Inep; Tabela elaborada por Inep/Deed
17
 SÉRIES MISTAS OU CONJUGADAS
Também chamada tabela de dupla entrada. É usada quando são feitas combinações de duas ou mais séries.
Exemplo 4:
Valor exportado por Microempresas Brasileiras
1998/2010
Importadores 1998 2004 2009 2010
Mercosul 34,1 29,1 35,6 41,8
ALADI (exclusive Mercosul) 17,0 22,9 28,1 30,9
União Europeia 19,5 32,9 32,9 30,6
Estados Unidos e Canadá 13,2 22,1 22,2 24,2
Ásia-Pacífico 6,6 8,6 12,7 14,3
Demais Países 8,8 17,4 27,1 26,8
Total 99,2 133,0 158,6 168,6
Fontes: SECEX/MDIC, RAIS/MET e IBGE (PIA e Cadastro Central de Empresas)
Valores em milhões de dólares
3.2 Gráficos Estatísticos
Como representação gráfica das séries estatísticas os gráficos produzem uma visão mais rápida e viva do
fenômeno em estudo, ajudando a visualizar as tendências e a interpretar os valores representativos deste
fenômeno.
Dados estatísticos estão mais presentes em nosso cotidiano do que imaginamos. O desempenho de um time
de futebol no campeonato, dados sobre a economia, informações demográficas e pesquisas eleitorais
costumam aparecer na mídia ilustradas em gráficos e tabelas. Esta é a estatística descritiva, que utiliza
números para descrever fatos, que compreende a coleta, a organização, o resumo e a simplificação de
informações que podem ser muito complexas.
Em geral, as questões que envolvem gráficos exploram as razões, proporções, cálculos de porcentagem e
interpretação dos dados. O primeiro passo para a interpretação dos dados de um gráfico é identificar qual o
tipo de representação utilizada naquela pesquisa, pois dependendo da informação que se deseja apresentar,
um gráfico é mais indicado que outro. Depois da interpretação inicial, deve-se retirar do gráfico os dados
numéricos apresentados e realizar o que o enunciado pede. Em geral, nesse tipo de situação, não é
necessário fazer cálculos muito complicados, mas é preciso tomar cuidado com os dados do gráfico e
também saber quais fórmulas deverão ser aplicadas na resolução. Muitas vezes os principais cálculos
solicitados são os de média aritmética e desvio-padrão ou cálculos de razão, proporção e porcentagem que
podem ser resolvidos com uma regra de três simples.
Requisitos Fundamentais na Representação Gráfica:
 O gráfico deve ser simples, claro e deve expressar a verdade sobre o fenômeno em estudo;
 Todo gráfico deve ter título e escala, para que possa ser interpretado sem que haja necessidade de
esclarecimentos adicionais no texto;
 O título do gráfico pode ser escrito acima ou abaixo do gráfico. O IBGE escreve o título acima do
gráfico. A escala deve iniciar-se na origem do sistema de eixos cartesianos. Quando os valores iniciais
dos dados são muito altos, deve ser feita uma interrupção no eixo, com indicação clara da posição do
zero;
 As variáveis devem ser claramente identificadas;
 O sistema de eixos cartesianos e as linhas auxiliares devem ter traçado mais leve do que a parte do
gráfico que se pretende evidenciar. Para facilitar a leitura, podem ser feitas linhas auxiliares. Nesses
casos, o gráfico é feito dentro de um retângulo.
18
Principais Tipos de Gráficos:
 Cartogramas
 Pictogramas
 Diagramas
 CARTOGRAMAS: São representações através de mapas (cartas geográficas). Este gráfico é
empregado quando o objetivo é o de relacionar os dados estatísticos diretamente com áreas geográficas
ou políticas (Figura à direita).
A confecção de cartogramas é a área da cartografia
temática. Cartogramas são mapas esquemáticos, com
elevado nível de abstração, em que formas ou
localizações reais são estilizadas com fins conceituais e
informativos.
Exemplo 1:
 PICTOGRAMAS: É a representação gráfica através de figuras. Por se tratar de uma apresentação
atraente, é um gráfico que desperta muito a atenção do leitor. (Figuras abaixo)
Exemplo 2:
 DIAGRAMAS: São gráficos geométricos construídos, em geral, no sistema cartesiano.
Principais Diagramas: Gráfico em Linha, Gráfico em Colunas, Gráfico em Barras, Gráfico em
Colunas ou em Barras Múltiplas e Gráfico em Setores.
19
 GRÁFICO EM LINHA
Usado para apresentar as séries temporais. Representado num sistema de coordenadas cartesianas, cada par
de valores da série corresponde a um ponto. Estes pontos são unidos por segmentos de reta.
Exemplo 3:
GASTO FEDERAL COM SAÚDE COMO
PROPORÇÃO DO PIB
2000-2009
ANOS Percentual/PIB
2000 0,87
2001 0,81
2002 0,75
2003 0,67
2004 0,54
2005 0,48
2006 0,52
2007 0,47
2008 0,46
2009 0,60
FONTE: IBGE
 GRÁFICO EM COLUNAS
Usado para representar as séries temporais, geográficas e categóricas. Representado por meio de retângulos
de mesma base, dispostos verticalmente (em colunas).
Exemplo 4:
 GRÁFICO EM BARRAS
Usado para representar as séries geográficas e categóricas. Representado por meio de retângulos dispostos
horizontalmente (em barras).
Exemplo 5:
Famílias residentes em domicílios particulares
permanentes
2011
ESTADOS Famílias ( 1000)
Norte 4.832
Nordeste 17.001
Sudeste 27.904
Sul 9.695
Centro-Oeste 4.926
FONTE: IBGE, Pesquisa Nacional por Amostra de
Domicílios 2001/2011
Sempre que os dizeres a serem inscritos forem extensos, deve-se dar preferência ao gráfico em barras (séries
geográficas e específicas).
LEITOS EM HOSPITAIS PÚBLICOS – 2009
ESTADO
Quantidade
(leito/1000 habitantes)
Bahia 0,9
Distrito Federal 1,39
Espírito Santo 0,58
Goiás 0,87
Minas Gerais 0,55
Paraná 0,61
Rio de Janeiro 1,04
São Paulo 0,58
Tocantins 1,65
FONTE: IBGE, Pesquisa de Assistência Médico-Sanitária
20
 GRÁFICO EM COLUNAS OU EM BARRAS MÚLTIPLAS
Usado para representar as séries conjugadas.
Exemplo 6:
BALANÇA COMERCIAL DO BRASIL
2006 – 2010
ESPECIFICAÇÕES
VALOR (US$ 1.000.000)
2006 2007 2008 2009 2010
Exportação 137.470 160.649 197.942 152.995 201.915
Importação 201.915 120.621 173.197 127.722 181.649
FONTE: Ministério de Desenvolvimento Indústria e Comércio Exterior
 GRÁFICO EM SETORES
Construído com base em um círculo, este gráfico é usado para comparar proporções.
Exemplo 7:
REBANHO SUÍNO DO SUDESTE DO BRASIL
2009
ESTADOS QUANTIDADE (mil cabeças)
Minas Gerais 4.640
Espírito Santo 263
Rio de Janeiro 150
São Paulo 1.639
Total 6.692
FONTE: IBGE
IMPORTANTE: Para clareza dos dados, deve-se usar no máximo sete setores.
Apesar de existirem diversos tipos de gráficos, nem todos eles podem ser usados em qualquer situação.
Justamente por isso, entender as motivações, ou os porquês destas escolhas, é fundamental para evitar
confusões e erros na interpretação dos dados.
21
Dicas para Ler e Interpretar Gráficos:
Agora que já sabemos o que são e como são, vamos ver o que pode nos ajudar na leitura e interpretação.
Ao analisar um gráfico, devemos verificar com que tipo de gráfico estamos lidando e levar em consideração
que ele está fazendo uso de duas grandezas. Dessa forma, resta-nos analisá-las para que, junto a uma
cuidadosa leitura do enunciado, consigamos resolver a questão.
1. Confira se as informações do gráfico batem com as do enunciado do exercício
Muitas vezes esquecemos de nos atentar a essa parte e seguimos direto para o gráfico. O enunciado pode
ter informações complementares que vão facilitar muito a resolução da questão.
Portanto, leia sempre e circule as informações principais.
2. Entenda qual tipo de informação está destacada no eixo vertical e qual está no eixo horizontal
Antes de analisar alguma informação, precisamos entender o gráfico como um todo
3. Interprete com calma, pois geralmente as questões são contextualizadas
Em geral, a apresentação gráfica é abordada de forma contextualizada, de modo que o entendimento do
contexto apresentado facilita a resolução.
Em geral, a interpretação de gráficos não requer conhecimentos de fórmulas matemáticas ou exige grandes
cálculos. Em provas, avaliações e concursos, o objetivo é observar se além de utilizar informações expressas
em gráficos, o estudante/candidato sabe como resolver problemas com essas informações e consegue
analisá-las a fim de construir argumentos, utilizando assim conhecimentos relacionados à Estatística.
EXERCÍCIOS - 3ª Lista - Séries e Gráficos Estatísticos
1. Assinale a afirmação INCORRETA:
a) Uma população estatística é um conjunto de indivíduos (objetos ou pessoas) que apresentam pelo menos uma
característica em comum.
b) A estatística descritiva ocupa-se da descrição dos dados do grupo estudado.
c) Censo é o nome dado às pesquisas estatísticas feitas numa população.
d) Uma das principais características da Amostragem é ser 100% confiável.
e) Uma série estatística apresentada em função da época é chamada série estatística temporal.
2. Assinale a opção CORRETA. A série estatística apresentada ao
lado é:
a) Temporal
b) Específica
c) Geográfica
d) Temporal e volumétrica
e) Categórica e histórica
3. Assinale a afirmativa INCORRETA:
a) Os gráficos são representações visuais dos dados estatísticos e não substituem as tabelas.
b) Os gráficos, se mal elaborados podem trazer uma ideia falsa dos dados que estão sendo analisados, chegando
mesmo a confundir o leitor.
c) Os gráficos são figuras autoexplicativas, de preferência com comentários inseridos, apresentados em forma
de cartogramas, diagramas e pictogramas e que auxiliam na tomada de decisões.
d) As séries temporais geralmente são representadas por gráficos de setores.
e) O gráfico de barras às vezes é usado para séries geográficas.
Consumo de água das clínicas XY
2005-2007
ANOS VOLUME (1.000 m3
)
2005 3.267,7
2006 9.723,1
2007 5.121,3
Fonte: fictícia
22
4. A tabela abaixo representa as frequências dos 36 empregados da seção de empacotamento da empresa
farmacêutica COM Primido segundo o grau de instrução.
Grau de instrução Número de empregados
Fundamental 12
Médio 18
Superior 6
Total 36
Esta tabela representa uma série:
a) geográfica
b) específica
c) temporal
d) quantitativa
e) qualitativa
5. O esquema abaixo indica as partes de uma tabela.
Assinale a opção CORRETA. Se na coluna indicadora a variável apresentada forem os meses do ano, classificamos
a tabela como:
a) Série específica
b) Série mensal
c) Série categórica
d) Série temporal
e) Série geográfica
635
1014
137 168
822
9540
116
24
13261330 1293
0
200
400
600
800
1000
1200
1400
Pediátrica Médica Obstétrica Cirúrgica
Particulares SUS Outros Convênios
NÚMERO DE PACIENTES INTERNADOS NO HOSPITAL ABC,
POR TIPO DE CLÍNICA E POR TIPO DE CONVÊNIO
2007
FONTE: Dados Fictícios
23
6. O gráfico acima representa uma tabela de contingência (i.e. representa duas variáveis categóricas
simultaneamente). No gráfico são dadas informações dos 7.000 pacientes internados no Hospital ABC no ano de
2007. Com base no gráfico assinale a alternativa CORRETA:
a) Em relação às internações pelo SUS, o número de pacientes atendidos em clínica Cirúrgica é o dobro do
número de pacientes atendidos em clínica Pediátrica.
b) O número de pacientes atendidos pelo SUS é maior que o dobro de pacientes atendidos por outros convênios.
c) O número de pacientes atendidos pelo SUS em clínica Médica representa 19% do total de pacientes atendidos
pelo Hospital ABC.
d) Mais de 65% das internações feitas no Hospital ABC foram realizadas pelo SUS.
e) Mais de 50% dos pacientes internados no Hospital tiveram atendimento na clínica Obstétrica ou Cirúrgica.
7. Assinale a afirmativa CORRETA:
a) Os gráficos são representações virtuais dos dados estatísticos e substituem as tabelas.
b) Os gráficos, quando bem elaborados podem confundir o leitor.
c) O gráfico de barras é uma forma de representação gráfica para dados qualitativos em que as legendas
são longas.
d) As séries temporais geralmente são representadas por gráficos de setores.
e) O Histograma é o gráfico que melhor representa uma série estatística categórica.
8. Assinale a opção CORRETA. O gráfico ao
lado é um
a) Cartograma
b) Gráfico em colunas
c) Gráfico em barras
d) Gráfico populacional
e) Pictograma
9. Assinale a opção CORRETA. A série estatística
geográfica ao lado não pode ser representada pelo
a) Gráfico de colunas
b) Gráfico de barras
c) Gráfico de linha
d) Pictograma
e) Cartograma
10. Assinale a opção CORRETA.
O gráfico abaixo é um
a) Cartograma
b) Diagrama
c) Mapograma
d) Pictograma
e) Não é um gráfico
24
11. Um estudo, realizado em 2006, analisou os parâmetros individuais e sócio-ambientais da qualidade de vida
percebida na carreira docente em Educação Física do Magistério Público Estadual/RS, de acordo com os Ciclos
de Desenvolvimento Profissional. A pesquisa utilizou como instrumento de coleta de dados o “Perfil do Estilo de
Vida Individual” (PEVI), para verificar a percepção do indivíduo sobre sua posição na vida, no contexto da cultura
e dos sistemas de valores nos quais ele vive e, em relação a seus objetivos, expectativas, padrões e preocupações.
As variáveis pesquisadas pertencem aos domínios: nutrição, atividade física, comportamento preventivo,
relacionamentos e controle de estresse.
FONTE: Rev. Brás. Educ. Física. São Paulo, v.21, n.2, p.81-93, abr./jun.2007
Com base no gráfico assinale a alternativa CORRETA:
a) Os participantes da investigação demonstram percentuais mais elevados de perfil negativo em
relacionamentos, comportamento preventivo e atividade física.
b) Em relação ao perfil negativo do estilo de vida, os professores perceberam a componente nutrição e controle
de estresse como aquelas com maior frequência.
c) Os dados demonstram que a maioria dos professores de Educação Física não possui nenhuma percepção
sobre o seu estilo de vida.
d) A qualidade de vida na percepção dos professores pesquisados segue a seguinte ordem crescente de
importância: relacionamentos, comportamento preventivo, controle de estresse, atividade física, e nutrição.
e) A atividade física foi o que apresentou menor alteração de perfil.
ATIVIDADE ECONÔMICA DAS PESSOAS
ACIMA DE 10 ANOS
2005
REGIÕES INDÚSTRIA COMÉRCIO SERVIÇOS
Norte 18,1
13,0
24,3
22,2
15,8
18,3 51,0
Nordeste 12,5 33,7
Sudeste 14,0 48,5
Sul 12,1 37,6
Centro Oeste 13,4 46,9
Fonte: Dados Fictícios
Valores em percentagem
12. Assinale a alternativa CORRETA:
a) A série acima é classificada como série geográfica e o melhor tipo de gráfico para representá-la é o gráfico
de setores.
b) A série acima é classificada como geográfica e o melhor tipo de gráfico para representá-la é o gráfico de
linhas colunas.
c) A série acima é classificada como geográfica-específica e o melhor tipo de gráfico para representá-la é o
gráfico de barras.
d) A série acima é classificada como geográfica-específica e o melhor tipo de gráfico para representá-la é o
gráfico de setores.
e) A série acima é classificada como específica e o melhor tipo de gráfico para representá-la é o gráfico de
barras.
Percepção dos professores considerando os componentes
do PEVI
0 20 40 60 80 100
Nutrição
Atividade física
Comportamento
preventivo
Relacionamentos
Controle de
estresse
Perfil Positivo
Perfil Intermediário
Perfil Negativo
25
13. Foi realizado um levantamento retrospectivo das lesões que ocorreram durante uma temporada de futebol de
fev/03 a jan/04. Participaram do estudo 110 atletas de dois grandes clubes de futebol de Minas Gerais. Os atletas
foram agrupados de acordo com as categorias: infantil (entre 14 e 16 anos) e juvenil (entre 16 e 18 anos).
Com base no gráfico acima assinale a alternativa CORRETA:
a) Na categoria juvenil a quantidade de contusões foi 3 vezes menor que a lombalgia/cervicalgia.
b) Na categoria juvenil observou-se uma maior ocorrência de entorse e luxações/subluxações.
c) A categoria infantil apresenta maior diversidade de lesões.
d) A maioria das lesões foi diagnosticada como contusões.
e) Os dados estão apresentados em um gráfico de colunas.
14. Assinale a opção CORRETA. O gráfico em linha é um diagrama usado para apresentar as séries:
a) Geográfica
b) Categóricas
c) Temporais
d) Temporais e categóricas
e) Temporais, geográficas e categóricas
15. Como representação gráfica das séries estatísticas os gráficos produzem uma visão mais rápida e viva do
fenômeno em estudo, ajudando a visualizar as tendências e a interpretar os valores representativos deste
fenômeno.
Assinale a alternativa que apresenta corretamente o
tipo de gráfico apresentado ao lado e o tipo de série
estatística que está representada.
a) gráfico em linha; série temporal.
b) gráfico em barras; série de localização.
c) gráfico em colunas; série geográfica.
d) histograma; série categórica.
e) pictograma; série específica.
Localização da Lesão
0 5 10 15 20 25 30 35
Outras
Tendinopatias
Luxação/subluxação
Lombalgia/cervicalgia
Lesão ligamento com instabilidade
Lesão de menisco
Fadiga muscular
Estiramento muscular
Entorse
Cortocontusa
Contusão
Bursite
Infantil Juvenil
26
16. Complete:
a) Uma série estatística apresentada em função da local é chamada ____________________.
b) A Estatística subdivide-se em duas áreas: ____________________ e ____________________.
c) ____________________ é o conjunto de todos os indivíduos, objetos ou informações que apresentam pelo
menos uma característica comum.
d) ______________ é o processo utilizado para se medir as características de todos os membros de uma dada
população.
e) O gráfico em linha é um diagrama usado para apresentar as séries ____________________.
17. Como representação gráfica das séries estatísticas os gráficos produzem uma visão mais rápida e viva do
fenômeno em estudo, ajudando a visualizar as tendências e a interpretar os valores representativos deste
fenômeno. Assinale a alternativa que apresenta corretamente o tipo de variável e o tipo de gráfico estatístico
apresentado abaixo:
a) ( ) variável qualitativa nominal; diagrama em linha
b) ( ) variável qualitativa ordinal; diagrama em colunas
c) ( ) variável qualitativa ordinal; pictograma
d) ( ) variável quantitativa discreta; diagrama em barras
e) ( ) variável qualitativa nominal; pictograma
3.3 Distribuição de Frequências
Frequentemente, ao coletar dados, o pesquisador se depara com uma grande massa de valores numéricos,
que se repetem algumas vezes, dificultando sua análise e interpretação. Surge então a necessidade de
organizar esses dados em uma tabela onde os valores observados se apresentam associados individualmente
ou em classes com os números de suas repetições, isto é, com suas respectivas frequências. Esta tabela
recebe o nome de Distribuição de Frequências.
A quantidade de dados observados, ou tamanho da amostra será denotado por 𝑛.
De acordo com a disposição dos dados tem-se dois tipos de distribuição:
 DISTRIBUIÇÃO DE FREQUÊNCIAS SIMPLES (dados não agrupados ou não tabulados em
classes de valores)
É uma tabela onde os valores da variável analisada aparecem individualmente correlacionados com os
números de suas repetições (frequências).
Esse tipo de distribuição é normalmente usado para representar variáveis discretas.
Exemplo: Tabela 1
Número de irmã(os) dos alunos da turma M1
Bioestatística – Universo – 2017/2
Nº de Irm@s Nº de Alunos
0 18
1 15
2 7
3 3
4 1
Total 44
FONTE: Dados Hipotéticos
27
 DISTRIBUIÇÃO DE FREQUÊNCIAS POR CLASSES (dados agrupados ou tabulados em classes
de valores)
Quando a variável analisada apresenta um grande número de valores torna-se mais vantajoso o agrupamento
destes em classes de frequência, evitando assim grande extensão da tabela e facilitando a visualização do
fenômeno como um todo.
A distribuição de frequências por classes é uma tabela onde os valores observados são agrupados em
classes, isto é, em intervalos de variações da variável em questão.
Esse tipo de distribuição é normalmente usado para representar variáveis contínuas. É utilizada também
para representar variáveis discretas em um grande número de valores observados.
Exemplo: Tabela 2
Salários dos funcionários da Drogaria XY
Salários (R$) Nº de funcionários
1000 | 1400 2
1400 | 1800 6
1800 | 2200 10
2200 | 2600 5
2600 | 3000 2
Total 25
FONTE: Dados Fictícios
A seguir são apresentados alguns conceitos fundamentais para a compreensão dessas séries.
Frequência Absoluta Simples (ou simplesmente frequência): Denotada por fi, a frequência indica o
número de ocorrências de cada valor ou o número de valores pertencentes a uma classe.
Na Tabela 1: f5 = f(4 irmãos) = 1 e Na Tabela 2: f2 =f(salários de 1400 a 1799,99)= 6
Dados Brutos: É a apresentação dos dados observados na sequência em que foram coletados, isto é, sem
nenhuma ordenação numérica.
Rol: É a organização dos dados brutos em ordem crescente ou decrescente.
Exemplo: O número de injeções aplicadas durante vinte dias na Farmácia “Boa Saúde” foram:
2 – 4 – 2 – 1 – 2 – 3 – 1 – 0 – 5 – 1 – 0 – 1 – 1 – 2 – 0 – 1 – 3 – 0 – 1 – 2
O rol destes dados é:
0 – 0 – 0 – 0 – 1 – 1 – 1 – 1 – 1 – 1 – 1 – 2 – 2 – 2 – 2 – 2 – 3 – 3 – 4 – 5
Amplitude Total (AT): É a diferença entre o maior valor e o menor valor da sequência dos dados
observados.
AT = valor máximo – valor mínimo
Exemplo: A amplitude total do rol apresentado é: AT = 5 – 0 = 5
DISTRIBUIÇÃO DE FREQUÊNCIAS SIMPLES - Roteiro para sua elaboração
a) Escreve-se, ordenadamente, os dados observados na coluna indicadora.
b) Obtém-se as frequências absolutas simples dos dados ( fi ). Essas frequências constituem o corpo da
tabela.
28
Exemplo: Sejam os dados abaixo representativos de uma pesquisa sobre o número de irmãos de 20 alunos
da Turma M1.
Dados Brutos: 1 – 3 – 0 – 5 – 2 – 1 – 1 – 0 – 0 – 1 – 4 – 3 – 1 – 0 – 1 – 2 – 2 – 1 – 3 – 1
Rol: 0 – 0 – 0 – 0 – 1 – 1 – 1 – 1 – 1 – 1 – 1 – 1 – 2 – 2 – 2 – 3 – 3 – 3 – 4 – 5
A distribuição de frequências do rol apresentado é:
Tabela 3
Número de Irmãos de 20 alunos da Turma M1
Número de Irmãos (xi) Repetições (fi)
0 4
1 8
2 3
3 3
4 1
5 1
Total 20
1ª Coluna (i) – número de ordem dos valores distintos da variável número de irmãos.
2ª Coluna (xi) – valores distintos da variável número de irmãos.
3ª Coluna (fi) – número de repetições dos valores distintos da variável número de irmãos.
Observa-se que neste tipo de tabela não há perda de informação, podendo os dados originais serem
reconstituídos a partir da distribuição elaborada.
Observe que, de modo geral, uma tabela de distribuição de frequência simples é confeccionada da seguinte
forma:
Título
Valores da Variável Repetições (fi)
𝑥 𝑓
𝑥 𝑓
𝑥 𝑓
⋮ ⋮
𝑥 𝑓
Total 𝑛
TIPOS DE FREQUÊNCIAS
A interpretação dos resultados de uma pesquisa, conforme os tipos de informações requeridas, utiliza
diversos tipos de frequências de dados.
A seguir serão apresentados os tipos de frequências, derivados da distribuição de frequências absolutas,
bastante úteis na interpretação de dados.
Frequência Total: É a soma de todas as frequências absolutas simples em uma tabela.



k
1i
i nf
A frequência total de uma distribuição de frequências é igual ao número total de observações (n).
29
Exemplo: Na Tabela 3, temos: 20113384fffffff 654321
6
1i
i 

Frequência Relativa Simples, ou simplesmente, Frequência Relativa: Simbolizada por fri, a
frequência relativa simples fornece a proporção de cada valor ou de casos ocorridos em cada classe, em
relação ao número total de observações. Portanto é um número relativo. Para calcular a frequência relativa,
basta dividir a frequência absoluta da ordem em questão pelo número de observações.
n
f
fr i
i 
As comparações expressas através de porcentagem são mais usuais. Para obter a porcentagem de cada valor
ou de casos ocorridos em cada classe, multiplica-se o quociente obtido por 100, ou seja:
100
n
f
fr i
i 
Nota: 


k
1i
i 1fr ou 100%
Exemplo: Na Tabela 3, temos:
20100200
20
4
20
f
fr 1
1  , %  100400
20
8
20
f
fr 2
2 , 40%
15100150
20
3
20
f
fr 3
3  , % 15100150
20
3
20
f
fr 4
4  , %
5100050
20
1
20
f
fr 5
5  , % 5100050
20
1
20
f
fr 6
6  , %
Frequência Absoluta Acumulada: Denotada por Fi, a frequência absoluta acumulada fornece a
informação de quantos elementos se situam até determinado valor. A frequência acumulada do i-ésimo
valor ou i-ésima classe (frequência acumulada de ordem i) é obtida somando-se a frequência desse valor
ou classe com as frequências anteriores, ou seja, é a soma de todas as frequências de ordens menores ou
igual a da ordem em questão.
Exemplo: F3 = 

3
1i
fi = f1 + f2 + f3 F4 = 

4
1i
fi = f1 + f2 + f3 + f4
Exemplo: Na tabela 3, temos:
F1 = f1 = 4 F4 = f1 + f2 + f3 + f4 = 15 + 3 = 18
F2 = f1 + f2 = 4 + 8 = 12 F5 = f1 + f2 + f3 + f4 + f5 = 18 + 1 = 19
F3 = f1 + f2 + f3 = 12 + 3 = 15 F6=f1 + f2 + f3 + f4 + f5 + f6=19+1=20
Frequência Acumulada Relativa: Denotada por Fri, fornece a proporção de elementos situados até
determinado valor. Consiste na soma da frequência relativa de cada valor ou classe com as frequências
relativas dos valores ou classes anteriores, ou seja, é a soma das frequências simples relativas de ordens
menores ou iguais a da ordem em questão.
Exemplo: Fr3 = 

3
1i
fri = fr1 + fr2 + fr3
30
Exemplo: Na tabela 3, temos:
Fr1 = fr1 = 0,20 = 20%
Fr2 = fr1 + fr2 = 0,20 + 0,40 = 0,60 = 60%
Fr3 = fr1 + fr2 + fr3 = 0,60 + 0,15 = 0,75 = 75%
Fr4 = fr1 + fr2 + fr3 + fr4 = 0,75 + 0,15 = 0,90 = 90%
Fr5 = fr1 + fr2 + fr3 + fr4 + fr5 = 0,90 + 0,05 = 0,95 = 95%
Fr6 = fr1 + fr2 + fr3 + fr4 + fr5 + fr6 = 0,95 + 0,05 = 1 = 100%
A frequência relativa acumulada de ordem i pode ser também calculada através do quociente:
n
F
Fr i
i 
Exemplo: 7575,0
20
15
Fr3  %
Com relação à Tabela 3, utilizando todos os tipos de frequências definidas anteriormente, podemos
construir a seguinte distribuição de frequências:
Tabela 4
Número de Irmãos de 20 alunos da Turma M1
i xi fi fri fri (%) Fi Fri Fri(%)
1 0 4 0,20 20 4 0,20 20
2 1 8 0,40 40 12 0,60 60
3 2 3 0,15 15 15 0,75 75
4 3 3 0,15 15 18 0,90 90
5 4 1 0,05 5 19 0,95 95
6 5 1 0,05 5 20 1,00 100
Total 20 1,00 100   
FONTE: Dados Fictícios
Interpretação:
 f2 = 8; significa que 8 alunos responderam que têm 1 irmão;
 fr3 = 0,15; significa que 15% dos alunos responderam que têm 2 irmãos.
 F2 = 12; significa que 12 alunos têm, no máximo, 1 irmão.
 Fr3 = 0,75; significa que 75% dos alunos responderam que têm entre 0 e 2 irmãos.
Regras de Arredondamento
Quando o primeiro algarismo a ser abandonado for 0, 1, 2, 3 ou 4, o algarismo a permanecer ficará sem
alteração.
Por exemplo, 4,84 passa a 4,8;
Quando o primeiro algarismo a ser abandonado for 5, 6, 7, 8 ou 9, o último algarismo a permanecer será
aumentado de um.
Por exemplo, 4,87 passa a 4,9;
31
DISTRIBUIÇÃO DE FREQUÊNCIAS COM INTERVALOS DECLASSES - Nomenclatura
Intervalo de Classe ou Classe: Classes são intervalos de variações da variável, ou seja, é cada um dos
grupos de valores em que se subdivide a amplitude total do conjunto de valores observados da variável.
Uma determinada classe pode ser identificada por seus extremos ou pela ordem em que ela se encontra na
tabela (valor do índice i)
O número de classes de uma distribuição de frequências será denotado por k.
A notação | indica intervalo fechado à esquerda. Assim, na Tabela 2, um funcionário que apresentou
salário de R$ 1400,00 pertence à classe 1400 | 1800, ou segunda classe (i = 2).
Exemplo: Tabela 2
Salários dos funcionários da Drogaria XY
Salários (R$) Nº de funcionários
1000 | 1400 2
1400 | 1800 6
1800 | 2200 10
2200 | 2600 5
2600 | 3000 2
Total 25
FONTE: Dados Fictícios
Existem diversas maneiras de expressar as classes:
a) a || b compreende todos os valores entre a e b, incluindo a e b
b) a | b compreende todos os valores entre a e b, excluindo a
c) a | b compreende todos os valores entre a e b, excluindo b
d) a  b compreende todos os valores entre a e b, excluindo a e b
Em nosso curso usaremos a forma expressa em “c”.
Limites de Classe: São os valores extremos de cada classe. O menor valor denomina-se limite inferior
da classe i (ℓi) e o maior, limite superior da classe i (Li).
Assim, na quarta classe da Tabela 2 tem-se ℓ4 = 2200 e L4 = 2600.
Amplitude do Intervalo de Classe (h): A amplitude do intervalo de classe é o comprimento da classe,
sendo definida como a diferença entre o limite superior e o limite inferior da classe.
hi = Li  ℓi
Exemplo: Na Tabela 2, temos: h1 = 1400 – 1000 = 400 e h3 = 2200 – 1800 = 400
Número de Classes (k): Não existe uma regra fixa que forneça o número de classes. No entanto, como o objetivo
da distribuição de frequências é facilitar a compreensão dos dados, é importante que a distribuição contenha um
número adequado de classes. Se este número for escasso, os dados originais ficarão tão comprimidos que pouca
informação poderá ser extraída da tabela. Se por outro lado forem utilizadas várias classes, haverá algumas com
frequências nulas ou muito pequenas e o resultado será uma distribuição irregular e prejudicial à interpretação do
fenômeno como um todo. Na prática esse número não deve ser superior a 20 nem inferior a 5. Se a quantidade de
dados for pequena não se justifica a construção de uma tabela, e se for grande, mais de 20 classes dificulta a análise.
Em função do total de observações existem vários métodos que orientam a escolha de um número de classes
conveniente. Seguem-se os dois mais utilizados:
a) Regra da Raiz Quadrada
k = 5 para n  25
k = n para n > 25, onde n é o número de observações.
Exemplo: Para n = 30, o número de classes será 48,530   5.
32
b) Regra de Sturges
k = 1 + 3,3 log n , onde: n = número de observações.
Exemplo: Para n = 30, tem-se: k = 1 + 3,3 log 30  6.
Para n = 30 os resultados obtidos pelos dois critérios são bastante próximos. O mesmo não acontece para
valores grandes de n onde a regra de Sturges tem o inconveniente de prever um número relativamente
pequeno de classes e o procedimento da raiz quadrada, um número relativamente grande. Neste caso deve
prevalecer o bom senso do analista.
Exemplo: Para n=500, tem-se pela regra da raiz: k= 500 =22 e
pela regra de Sturges: k=13,3 log 500=13,32,7=9,9110
Ponto Médio da Classe (xi): Considerando que os valores de uma classe estão distribuídos
uniformemente, o ponto médio ou valor médio de uma classe é o valor que melhor a representa para efeito
de cálculo de certas medidas.
O ponto médio de uma classe i é definido por:
2
L
x ii
i



Uma outra maneira de obter o ponto médio é adicionar a metade da amplitude ao limite inferior da classe.
Na Tabela 2, o ponto médio da segunda classe 1400 | 1800 é:
1600
2
18001400
x3 

 ou 1600
2
400
1400x3 
Distribuição de Frequências com Intervalos de Classes Desiguais
Existem casos em que é mais adequado agrupar os dados em classes com larguras desiguais, como, por
exemplo, as idades dos atletas de acordo com a categoria a que pertencem.
Exemplo: Tabela 5
Categoria de Atletas por Idade
Classes Idades fi
1 2 | 13 12
2 13 | 15 5
3 15 | 18 8
4 18 | 30 30
5 30 | 40 12
6 40 | 60 10
7 60 | 90 2
Total 79
33
3.4 Representação Gráfica das Distribuições de Frequências
Gráfico em Hastes
A Distribuição de Frequências Simples pode ser representada graficamente por um Gráfico em Hastes, um
diagrama onde as frequências são representadas por segmentos de retas perpendiculares ao eixo das
abscissas. Cada segmento é determinado pelos pontos (xi, fi) e (xi, 0).
Exemplo: Representação gráfica da Tabela 3.
Gráfico de Pontos ou Diagrama Pontual (Dot plot)
A Distribuição de Frequências Simples também pode ser representada graficamente por um Gráfico de
Pontos, um diagrama onde cada observação (frequência) é representada por um ponto. Um gráfico de pontos
assemelha-se ao Gráfico de Hastes, sem as linhas, pois somente os pontos de dados são exibidos. Os
gráficos de pontos são úteis para mostrar os dados quantitativos de uma forma organizada.
Exemplo: Representação gráfica da Tabela 3
34
Histograma
É um tipo de gráfico apropriado para representar dados agrupados em classes. Consiste de colunas
justapostas cujas bases representam as classes e as alturas correspondem às frequências das classes.
Polígono de Frequências
Trata-se da representação de uma distribuição de frequências por classes, através de um polígono.
O eixo das abscissas constitui a base do polígono. Os vértices são os pontos (xi, fi) onde xi é o ponto médio
e fi é a frequência da classe.
O fechamento da poligonal com a base é feito unindo o primeiro vértice ao ponto médio de uma classe
anterior à primeira, e o último vértice ao ponto médio de uma classe posterior à última.
Esse gráfico é adequado também para a representação de frequências relativas e percentuais.
Exemplo: Tabela 6
Notas de 50 alunos da turma N2
i Notas Nº de alunos (fi) xi Fi
1 30 | 40 4 35 4
2 40 | 50 5 45 9
3 50 | 60 8 55 17
4 60 | 70 12 65 29
5 70 | 80 10 75 39
6 80 | 90 7 85 46
7 90 | 100 4 95 50
Total 50  
Histograma
Polígono de Frequências
30 40 50 60 70 80 90 100 Notas
12
10
8
6
4
2
0
Nº de
alunos
35
Ogivograma
É o gráfico de frequências acumuladas. Ele é construído da mesma forma que o histograma, porém as
alturas correspondem às frequências acumuladas das classes.
Polígono de Frequências Acumuladas (ou Ogiva de Galton)
Utilizado para representar as frequências acumuladas. Os vértices são os pontos (Li, fi).
Pode ser usado também para representar as frequências acumuladas relativas percentuais.
O fechamento é feito unindo o primeiro vértice ao limite inferior da primeira classe.
Esse gráfico será útil para a determinação das medidas separatrizes que serão tratadas posteriormente.
Exemplo: Observando a Tabela 6, o Ogivograma e o Polígono de frequências Acumuladas dessa
distribuição são:
Ogiva de Galton Ogivograma
Diagrama de ramo-e-folhas
O Diagrama de ramo e folhas é um dispositivo semi-gráfico que estabelece uma forma de organização e
apresentação de dados semelhante à distribuição de frequências. Nessa disposição considera-se somente os
algarismos significativos do dado, com eventual descarte de alguns dígitos menos significativos. O nome
ramo-e-folhas deriva da forma como os valores são apresentados. Um ou mais dos dígitos mais
significativos são escolhidos para compor os ramos e um ou mais dos dígitos menos significativos
correspondentes aos mesmos ramos são denominados folhas, num processo semelhante à consideração de
dezenas e posteriormente das unidades dentro das dezenas, ou de centenas e depois dezenas dentro de
centenas, por exemplo.
O diagrama de ramo e folhas permite obter ou observar com relativa facilidade:
 A amplitude onde ocorrem os dados.
 O modo como se distribuem os valores, indicando concentrações ou agrupamentos, dispersão e
simetria, sem perder a informação individual do dado.
 Buracos ou lacunas na distribuição.
 Valores atípicos no conjunto de dados.
Para a construção do gráfico deve-se proceder à ordenação dos dados (rol), pela própria natureza do
diagrama e pelas facilidades nos demais cálculos.
30 40 50 60 70 80 90 100 Notas
50
45
40
35
30
25
20
15
10
5
0
Nº de
alunos
36
Exemplo 1: Gráfico de ramo-e-folha do número de pacientes atendidos por mês, de janeiro a dezembro,
por um psicólogo: ROL: 48, 56, 59, 63, 65, 65, 65, 68, 70, 72, 75, 81
(Unidade das folhas = 1)
4 8
5 6 9
6 3 5 5 5 8
7 0 2 5
8 1
Exemplo 2: Abaixo o gráfico ramo-e-folhas refere-se à renda familiar (em salários mínimos) de 83 alunos
cadastrados em um curso de línguas. A barra separa a unidade da decimal, utiliza-se apenas uma casa
decimal. Isto é, 3 | 1 significa 3,1.
3 4 5 6 7 8 9 10 11 12 13 14 15
1 3 2 0 0 0 0 1 0 2 0 1 6
4 5 2 0 0 1 0 3 0 3 7
5 3 0 1 3 3 4 4
5 4 1 1 4 4 6 5
7 7 2 2 4 4 7 8
7 9 3 2 5 5 7 9
7 3 4 5 5
8 5 4 7 6
6 5 7 8
7 6 8 9
7 8 9
7 9 9
7
7
8
EXERCÍCIOS - 4ª Lista - Distribuição de Frequências
1. Assinale a opção CORRETA:
a) Em estatística, entende-se por população um conjunto de pessoas.
b) A variável é discreta quando pode assumir qualquer valor dentro de determinado intervalo.
c) Frequência relativa de uma variável é o número de repetições dessa variável.
d) A série estatística é cronológica quando o elemento variável é o tempo.
e) Amplitude total é a diferença entre dois valores quaisquer do atributo.
2. Assinale a opção CORRETA. Frequência relativa simples de um valor da variável é:
a) O número de repetições desse valor
b) A porcentagem de repetições desse valor
c) O número de observações acumuladas até esse valor
d) A quantidade de elementos maiores que esse valor
e) As outras alternativas estão incorretas
3. Assinale a alternativa INCORRETA:
a) Rol é a relação obtida após a ordenação dos dados.
b) A distribuição de frequências é um tipo de tabela que condensa uma série de dados de acordo com a repetição
de seus valores (frequências).
37
c) Séries conjugadas ou tabelas de dupla entrada: apresentam duas ou mais séries em uma mesma tabela,
havendo duas ordens de classificação: uma horizontal e outra vertical.
d) O ponto médio é importante para o cálculo da média, pois, na tabela com intervalos de classe consideramos
esses valores como sendo o ‘representante’ do intervalo para que o erro seja o menor possível.
e) Amplitude total é a diferença entre dois valores quaisquer do atributo.
4. Assinale a opção CORRETA. As classes de uma distribuição de frequência devem ser mutuamente excluídas
para que:
a) Nenhum dado seja excluído.
b) Todos os dados sejam computados.
c) Nenhum dado seja contado mais de uma vez.
d) Possam exaurir totalmente o campo de variação.
e) Os limites inferiores e superiores sejam levados em consideração.
5. Em uma distribuição de frequências com intervalos de classes é CORRETO afirmar que:
a) l2 é o limite superior da 2ª classe
b) h = 5 significa que os dados estão distribuídos em 5 classes
c) o ponto médio da 1ª classe é x1= l 1L1
d) f1 é o número de elementos da 1ª classe
e) F3 é o número de elementos da 3ª classe
6. Assinale a opção CORRETA.
O gráfico ao lado é um
a) Gráfico de barras
b) Gráfico de colunas
c) Histograma
d) Pictograma
e) Polígono de retângulos
7. Gráficos são instrumentos úteis na estatística. Assinale a
afirmação INCORRETA.
a) Um histograma representa uma distribuição de frequências para variáveis do tipo contínuas.
b) O gráfico de setores é apropriado quando se quer representar as divisões de um montante total.
c) Um polígono de frequências acumuladas é construído unindo-se os pontos correspondentes aos limites
superiores dos intervalos de classe da distribuição de frequência.
d) Um polígono de frequências é construído unindo-se os pontos correspondentes aos limites superiores dos
intervalos de classe da distribuição de frequência.
e) O gráfico de barras às vezes é usado para séries geográficas.
8. Com relação aos gráficos, assinale a afirmação CORRETA:
a) O Polígono de frequências é um gráfico de colunas justapostas e serve para representar distribuições de
frequências.
b) O gráfico em linha pode ser utilizado para representar qualquer tipo de série estatística.
c) O gráfico em setores é empregado quando se quer ressaltar a participação do dado no total.
d) Quando as legendas são longas usa-se, de preferência, o gráfico em colunas verticais.
e) Os cartogramas são utilizados para representar as séries temporais.
9. Assinale a opção CORRETA. Para representarmos a distribuição de frequências, que tipo de gráficos poderíamos
usar?
a) Gráfico de Coluna ou histograma.
b) Histograma ou polígono de frequências.
c) Ogivograma ou gráfico de Setores.
d) Histograma ou gráfico de Linha.
e) Polígono de frequências ou gráfico de Barras.
10. Assinale a opção CORRETA. O gráfico estatístico que melhor representa uma distribuição de frequências com
intervalos de classes é o:
a) Gráfico de setores
b) Gráfico de colunas
c) Gráfico de barras
d) Cronograma
e) Histograma
18 22 26 30 34 38 Idade
Nº de
Alunos
12
10
8
6
4
2
0
38
11. (ESAF – IRB – 2006) No campo estatístico, ogivas são:
a) polígonos de frequência acumulada.
b) polígonos de frequência acumulada relativa ou percentual.
c) histograma de distribuição de frequência.
d) histograma de distribuição de frequência relativa ou percentual.
e) o equivalente à amplitude do intervalo.
12. Numa experiência laboratorial pretende-se fazer a contagem do número de células de levedura em suspensão num
certo líquido, utilizando-se para tal um hematímetro1
. Os resultados relativos ao número de células de levedura
existentes nos 400 quadrados de um hematímetro são os seguintes:
Com base nestes dados pede-se:
a) Identificar e classificar a variável de estudo.
b) A quantidade de classes em que os dados foram agrupados.
13. Efetue o arredondamento na casa decimal que se pede dos seguintes números classificados na tabela:
3ª casa decimal 2ª casa decimal 1ª casa decimal inteiro
3,5676
1,342
10,3333
2,0154
3,12461
7,8932
2,55555
4,12245
4,7777
14. Um pesquisador perguntou a 15 crianças quantas refeições diárias ela realiza e obteve as seguintes respostas:
3 4 2 2 5
4 4 3 4 2
5 3 3 4 4
Confeccione a tabela de distribuição de frequências para dados agrupados sem intervalos de classes e calcule as
frequências relativas percentuais.
15. Os dados abaixo se referem ao rol do número de sessões semanais de 30 pacientes que recorreram a certo
fisioterapeuta durante o ano de 2016 para aliviar problemas de coluna.
1 3 2 4 5 1 3 4 4 5
5 3 1 2 2 2 3 4 5 1
4 2 4 2 5 1 3 4 2 2
a) Agrupar estes dados em uma distribuição de frequências simples.
b) Calcular as frequências relativas percentuais e frequências acumuladas.
c) Qual a percentagem de pacientes que realizam mais de 3 sessões semanais?
d) Quantos pacientes tiveram menos de 3 sessões semanais?
e) Qual a proporção de pacientes com pelo menos 4 sessões semanais ?
16. Os dados abaixo se referem à idade de 36 doentes que recorreram a certo terapeuta durante o ano de 2007 para
corrigir problemas de coluna.
27 28 31 31 31 32
33 33 35 35 35 35
36 36 36 37 37 37
38 38 39 39 39 39
39 39 40 40 40 40
40 40 41 42 43 44
Com base nestes dados confeccione um gráfico de ramos-e-folhas.
1 s. m. (fr. hématimètre; ing. hemacytometer). Pequeno recipiente, com espessura muito reduzida e bem determinada, graduado
para permitir contar ao microscópio o número de células por unidade de superfície numa colheita de sangue.
Nº de células por quadrado 0 1 2 3 4 5 6
Nº de quadrados 75 103 121 54 30 13 4
39
17. Foi realizada uma pesquisa sobre os anos de estudo entre Funcionários da Clínica Happy. Complete a distribuição
de frequência dos anos de estudo destes funcionários.
Anos de Estudo de 60 funcionários da Clínica Happy
Tempo de estudo Nº de funcionários Fi Porcentagem Fri (%)
8 anos 6 10
11 anos 18
12 anos 39
14 anos 20
16 anos
Total - 100 -
18. Os dados a seguir referem-se às notas de 50 alunos:
60 85 33 52 65 77 84 65 74 57
71 35 81 50 35 64 74 47 54 68
80 61 41 91 55 73 59 53 77 45
71 55 78 48 69 85 67 39 60 76
94 98 66 66 73 42 65 94 88 89
Pede-se:
a) O diagrama de ramos-e-folhas
b) A amplitude total da amostra (A ).
c) O número de classes (k), pela regra da raiz, para uma distribuição por classes.
d) A amplitude das classes pela fórmula h =
e) As classes (valor inicial = 30).
f) As frequências absolutas das classes (f ).
g) As frequências relativas percentuais (f (%))
h) Os pontos médios das classes (x ).
i) As frequências acumuladas das classes (F ).
j) O histograma.
k) O polígono de frequências.
l) O polígono de frequências acumuladas.
19. Segue abaixo as notas de Pesquisa de Hábitos de Estudos e Atitudes (PHEA) para 18 alunas do primeiro ano de
uma faculdade:
154 109 137 115 152 140 154 178 101
103 126 126 137 165 165 129 200 148
e para 20 alunos do primeiro ano
108 140 114 91 180 115 126 92 169 146
109 132 75 88 113 151 70 115 187 104
Faça um ramo-e-folhas face-a-face destes dados (faça um ramo único para homens e mulheres, coloque a folhas
dos alunos de um lado e das alunas do outro).
20. A tabela abaixo apresenta os salários de 90 funcionários da Indústria HeleStar S/A.
Salários dos Funcionários da Indústria HeleStar S/A
julho/2012
Classes Salários Mínimos fi
1 1 | 3 40
2 3 | 5 30
3 5 | 7 10
4 7 | 9 5
5 9 | 11 5
Total 90
a) Determine as frequências simples relativas, as frequências absolutas acumuladas e as frequências relativas
acumuladas.
b) Quantos funcionários ganham menos de 3 salários mínimos?
c) Qual a percentagem de operários com salário entre 5 e 7 salários mínimos?
d) Qual a percentagem de operários com salário inferior a 7 salários mínimos?
e) Qual a classe do 30º salário? E do 45º salário?
f) Construa o histograma e o polígono de frequência.
40
21. Em uma turma do ensino médio o professor de educação física registrou o Índice de Massa Corporal dos seus
alunos conforme tabela:
IMC (kg/m2
)
Nº de
alunos
Peso ideal 20 | 25 10
Sobrepeso 25 | 30 16
Obesidade grau I 30 | 35 12
Obesidade grau II (grave) 35 | 40 8
Total 46
Com base nos dados da tabela :
a) determine os pontos médios das classes, as frequências acumuladas e as frequências relativas percentuais.
b) confeccione o histograma
41
4 MEDIDAS DESCRITIVAS
Quando a variável em estudo é quantitativa, podemos resumir certas informações dos dados (valores) por
algumas medidas descritivas. Os valores que representam o conjunto de dados observados ou então
promovem uma partição sobre este conjunto são chamados de Medidas de Posição. Entre as medidas de
posição destacam-se as Medidas de Tendência Central e as Separatrizes.
São chamadas Medidas de Tendência Central a Média aritmética, a Mediana e a Moda, pois representam
os fenômenos pelos valores em torno dos quais tendem a se concentrar os dados. Note que a maneira mais
simples de resumirmos as informações contidas em um conjunto de dados observados é estabelecer valores
centrais, ditos típicos, em torno dos quais os dados se distribuem.
São chamadas Separatrizes as medidas que têm por finalidade dividir o conjunto de dados observados em
K partes iguais e são exemplos a Mediana, os Quartis e os Percentis. Tais medidas orientam quanto à
posição do conjunto no eixo dos números reais e possibilitam comparações de séries de dados entre si pelo
confronto destes números.
Contudo, não é o bastante dar uma medida de posição para caracterizar perfeitamente um conjunto de
valores, devemos, também, medir a variabilidade do conjunto de valores em relação à essa medida de
posição. Assim, as Medidas de Dispersão são medidas estatísticas utilizadas para avaliar o grau de
variabilidade, ou dispersão, dos valores em torno de uma medida de posição.
Entre as diversas medidas de dispersão estão a Variância e o Desvio padrão que medem a dispersão dos
dados em torno da Média, isto é, servem para medir a representatividade da média. Outra medida muito útil
é o Desvio Inter-quartil ou Amplitude Interquartílica que é uma medida de dispersão alternativa empregada
para avaliar a dispersão dos dados em torno da Mediana.
4.1 A MÉDIA E O DESVIO PADRÃO
Primeiramente, consideraremos a Média e o Desvio Padrão, que são as medidas mais usadas para estudar a
posição central e a dispersão.
MÉDIA ARITMÉTICA (x )
Matematicamente, a média é definida como a soma dos valores dividida pelo número de valores observados.
Do ponto de vista teórico vários tipos de média podem ser calculados para uma massa de dados como, por
exemplo, a média geométrica e a média harmônica. O uso da média aritmética apresenta vantagens para
cálculos posteriores, devendo, entretanto, além de outros casos, ser empregada em séries que estejam em
progressão aritmética ou se os valores extremos não influírem sensivelmente sobre ela. Outra orientação
para seu emprego é na comparação com as outras medidas de tendência central.
Observação: A média populacional é denotada por 𝜇.
Média aritmética para dados não agrupados
Sejam 𝑥 , 𝑥 , . . . , 𝑥 , os 𝑛 valores da variável X. A média aritmética simples, denotada por x , é definida
por:
n
x
x
n
i
i

 1
onde 𝑛 é o número de valores observados da variável X.
42
Exemplo 1: Para determinar a média aritmética simples dos valores: 7,0; 3,0; 5,5; 6,5 e 8,0, calculamos:
0,6
5
30
5
0,85,65,50,30,7


x
Podemos dizer que a média aritmética indica o centro de um conjunto de valores, considerando o conceito
físico de ponto de equilíbrio ou centro de gravidade. Se imaginarmos os pontos como pesos sobre uma
tábua, a média é a posição em que um suporte equilibraria a tábua
| | | | | |
Exemplo 2: Considere as notas finais de três turmas de estudantes e as respectivas médias:
Turma Notas dos alunos Média da Turma
A 4 5 5 6 6 7 7 8 6,0
B 1 2 4 6 6 9 10 10 6,0
C 0 6 7 7 7 7,5 7,5 6,0
Veja a representação abaixo:
Observe que os três conjuntos de valores, apesar de estarem distribuídos sob diferentes formas, apontam
para uma mesma média. Comparando as notas da Turma A com as notas da Turma B verificamos que as
notas da Turma B são bem mais dispersas, indicando que essa turma é mais heterogênea. Na Turma C,
observamos um ponto discrepante dos demais, uma nota extremamente baixa. Com isso, a média fica abaixo
da maioria das notas da turma, ou seja, a presença de um valor discrepante arrasta a média para o seu lado
e assim a média deixa de representar propriamente um valor típico do conjunto de dados.
Note que essa avaliação é necessária, pois quando se trata de interpretar dados estatísticos, mesmo aqueles
já convenientemente simplificados, como a média aritmética, deve-se ter uma ideia retrospectiva de como
se apresentavam esses mesmos dados na amostra.
Assim, para melhorar o resumo dos dados, podemos apresentar, ao lado da média aritmética, uma medida
de dispersão, como o desvio padrão e o coeficiente de variação.
VARIÂNCIA (S2
) e DESVIO PADRÃO (S)
Servem para medir a representatividade da média.
A variância e o desvio padrão são medidas que levam em consideração a totalidade dos valores da variável
em estudo, o que faz delas índices de variabilidade bastante estáveis e, por isso mesmo, os mais geralmente
empregados. Estas medidas avaliam a dispersão do conjunto de valores em análise em torno da média.
3,0 4,0 5,0 6,0 7,0 8,0
0 2 4 6 8 10
Turma A
Turma B
Turma C
43
Essa avaliação é necessária, pois quando se trata de interpretar dados estatísticos, mesmo aqueles já
convenientemente simplificados, como a média aritmética, deve-se ter uma ideia retrospectiva de como se
apresentavam esses mesmos dados nas tabelas. Assim, não é o bastante dar uma medida de posição para
caracterizar perfeitamente um conjunto de valores, devemos, também, medir a variabilidade do conjunto
de valores em relação à essa medida de posição.
Se observarmos as sequências:
X: 10, 1, 18, 20, 35, 3, 7, 15, 11, 10
Y: 12, 13, 13, 14, 12, 14, 12, 14, 13, 13
Z: 13, 13, 13, 13, 13, 13, 13, 13, 13, 13
concluiremos que todas possuem a mesma média 13. No entanto, são sequências completamente distintas
do ponto de vista da variabilidade de dados.
 Na sequência Z não há variabilidade de dados. A média 13 representa bem qualquer valor da série.
 Na sequência Y, a média 13 representa bem a série, mas existem elementos da série levemente
diferenciados da média 13.
 Na sequência X existem muitos elementos bastante diferenciados da média 13.
 Concluímos que a média 13 representa otimamente a sequência Z, representa bem a sequência Y,
mas não representa bem a sequência X.
Chamando de dispersão, ou variabilidade, a maior ou menor diversificação dos valores de uma variável em
torno de um valor de tendência central tomado como ponto de comparação, podemos dizer que o conjunto
Z apresenta dispersão ou variabilidade nula e que o conjunto Y apresenta uma dispersão ou variabilidade
menor que o conjunto X.
Portanto, para qualificar os valores de uma dada variável, ressaltando a maior ou menor dispersão ou
variabilidade entre esses valores e a sua medida de posição, a Estatística recorre às medidas de dispersão.
As principais medidas de dispersão absolutas são: amplitude total, desvio médio, variância e desvio-padrão
e a principal medida de dispersão relativa que é o coeficiente de variação.
Neste texto estudaremos a variância, o desvio padrão e o coeficiente de variação.
Para o cálculo do desvio padrão devemos considerar os desvios de cada valor em relação à média aritmética.
Depois, construímos uma espécie de média desses desvios.
Observe as etapas do cálculo, usando as notas da Turma A do Exemplo 2 acima:
Descrição Notação Notas dos alunos Soma
Valores (notas dos alunos) 𝑥 4 5 5 6 6 7 7 8 ∑ 𝑥 = 48
Média 𝑥̅ 6
Desvios 𝑥 − 𝑥̅ -2 -1 -1 0 0 1 1 2 ∑(𝑥 − 𝑥̅) = 0
Desvios quadráticos (𝑥 − 𝑥̅) 4 1 1 0 0 1 1 4 ∑(𝑥 − 𝑥̅) = 12
Para evitar o problema dos desvios negativos e ∑(𝑥 − 𝑥̅) = 0, trabalhamos os desvios quadráticos, isto é,
para conseguir que as diferenças (𝑥 − 𝑥̅) se tornem sempre positivas ou nulas considerarmos o quadrado
destas diferenças, isto é (𝑥 − 𝑥̅) . Desta forma, a Variância é definida como a média aritmética dos
desvios quadráticos.
Quando a sequência de dados representa uma amostra, a variância será denotada por s2
e, por questões da
estatística inferencial, quando estimamos a variância da população usando n amostras
aleatórias xi onde i = 1, 2, ..., n, a fórmula seguinte da variância é um estimador não enviesado:
44
1
)( 2
2




n
xx
s
i
.
Observação: Quando a sequência de dados representa uma população a variância será denotada por
2
 e o desvio
padrão correspondente por  e o denominador da equação será o tamanho da população N. Vale ressaltar que para
valores grandes de n, esta distinção é geralmente muito pequena.
No exemplo anterior, a média de notas da Turma A é 𝑥̅ = 6 e calculando a variância obtemos:
...714285714,1
7
12
18
122


s
Observe ainda que no cálculo da variância a unidade de medida da sequência de dados fica elevada ao
quadrado, ou seja, a variância é dada sempre no quadrado da unidade de medida da série. Em algumas
situações, a unidade de medida da variância nem faz sentido. Portanto, o valor da variância não pode ser
comparado diretamente com os dados da série, ou seja: variância não tem interpretação. Exatamente para
suprir esta deficiência da variância é que se define o Desvio Padrão que será denotado por s.
O desvio padrão é a raiz quadrada positiva da variância:
1
)( 2




n
xx
s
i
Assim, para o exemplo anterior, o desvio padrão das notas da turma A é
...714285714,1s = 1,309307341
Concluímos que a turma A, cujas notas são: 4, 5, 5, 6, 6, 7, 7 e 8 apresenta nota média igual a 6,0
pontos, com uma variação média de 1,31 pontos em torno da média 6,0.
Quanto ao arredondamento vale ressaltar que devemos:
 Tomar uma casa decimal a mais em relação às que constam dos dados originais.
 Arredondar apenas o resultado final e não os resultados intermediários.
 Se necessitarmos arredondar os resultados intermediários, acrescente duas casas decimal a mais em relação
às que constam dos dados originais
E essa variação de 1,31 em relação à média de 6,0 é alta ou baixa? Para decidir sobre isso calculamos a
Variação Relativa, ou Coeficiente de Variação.
COEFICIENTE DE VARIAÇÃO (CV)
O coeficiente de variação é uma medida adimensional que normaliza o desvio padrão em relação à média.
Ele caracteriza a dispersão ou variabilidade dos dados em termos relativos a seu valor médio através da
fórmula:
100
x
s
CV
que é expresso em porcentagens.
Diz-se que a distribuição possui pequena variabilidade (dispersão), isto é, a distribuição é mais homogênea,
quando o coeficiente de variação der até 10%; média dispersão quando estiver acima de 10% até 20% ....
45
Assim, vamos considerar: Baixa dispersão: CV 10%
Moderada dispersão: 10% < CV  20%
Alta dispersão: 20% < CV  30%
Muito Alta dispersão: CV > 30%
Para o exemplo 2 das notas da Turma A tem-se: %8,21100.
6
31,1
CV o que indica uma moderada
dispersão das notas dos alunos em torno da média 6,0.
O Coeficiente de Variação é uma medida relativa de dispersão útil para a comparação em termos relativos
do grau de concentração em torno da média de séries distintas. Note que o desvio padrão por si só não nos
diz muita coisa. Assim, se uma série X apresenta x = 10 e xs = 2 e uma série Y apresenta y= 100 e
ys = 5, do ponto de vista da dispersão absoluta, a série Y apresenta maior dispersão que a série X. No
entanto, se levarmos em consideração as médias das séries, o desvio padrão de Y que é 5 em relação a 100
é um valor menos significativo que o desvio padrão de X que é 2 em relação a 10. Além disso, o fato de o
desvio padrão ser expresso na mesma unidade dos dados limita o seu emprego quando desejamos comparar
duas ou mais séries de valores, relativamente à sua dispersão ou variabilidade, quando expressas em
unidades diferentes. Ao comparar duas séries de dados, a mais homogênea é a que apresentar o menor
coeficiente de variação.
Exemplo: Numa empresa, o salário médio dos homens é de R$ 4.000,00, com desvio padrão de R$ 500,00,
e o das mulheres é em média de R$ 3.000,00 com desvio padrão de R$ 400,00. Então:
para os homens 100
x
s
CV = %5,12100
4000
500

para as mulheres 100
x
s
CV = %3,13100
3000
400

Logo, podemos concluir que os salários das mulheres apresentam maior dispersão relativa que os dos
homens.
FÓRMULA ALTERNATIVA PARA A VARIÂNCIA e o DESVIO PADRÃO
Ao calcular o desvio padrão nos casos em que a média 𝑥̅ acusar um valor fracionário, os desvios (𝑥 − 𝑥̅)
acumularão erros de arredondamento, que poderão comprometer o resultado final. Para evitar este
inconveniente usamos a seguinte fórmula para o cálculo da variância e do desvio padrão, obtida por
transformações na fórmula original:
1
22
2




n
xnx
s
i

1
22




n
xnx
s
i
46
Média aritmética e Desvio padrão para dados agrupados
Neste caso, usamos a média aritmética dos valores 𝑥 , 𝑥 , 𝑥 , . . . , 𝑥 , ponderada pelas suas respectivas
frequências absolutas 𝑓 , 𝑓 , 𝑓 , . . . , 𝑓 . Desta forma, temos:
n
fx
x
i
k
i
i

 1
e
1
)( 2




n
fxx
s
ii
ou
 
1
.
22




n
xnfx
s
ii
onde: 𝑛 = 𝑓 + 𝑓 + 𝑓 + . . . , +𝑓 = 

k
i
if
1
. Quando se tratar de uma distribuição de
frequência por classe, 𝑥 corresponde ao ponto médio da classe, ou seja,
2
ii
i
L
x



.
Outlier ou valores discrepantes, é descrito em estatística como um ponto que está muito distante
das demais observações em uma série estatística, e que chamamos comumente de “ponto fora da
curva”.
A tratativa mais comum para outliers é a exclusão manual destes componentes da amostra ou a utilização
de estatística robusta para eliminar as falhas que podem ser causadas nesta análise da amostra ou
da população. Independentemente disso, seus porquês precisam ser analisados mais a fundo.
Como identificar outliers
Os outliers podem ser sinalizados quando encontram-se fora de um intervalo da média para mais ou para
menos. Este intervalo para mais ou para menos é definido pelo desvio padrão.
No gráfico acima, observamos as vendas históricas mensais de um determinado produto, em determinada
empresa. Traçamos, também, uma linha paralela demonstrando a média fixa dos 12 meses e podemos
identificar os períodos em que superou-se ou ficou-se abaixo desta média. Superficialmente, podemos
assumir que os meses de Maio e Outubro são outliers? Primeiramente, precisamos definir qual a faixa média
de variação destas vendas, ou seja, o nosso desvio padrão da amostra, neste caso, o resultado é 343.
Significa que nossa série histórica varia em média 343 unidades para mais ou para menos.
De uma distribuição normal podemos afirmar que:
 68% dos valores encontram-se a uma distância da média inferior a um desvio padrão.
 95% dos valores encontram-se a uma distância da média inferior a duas vezes o desvio padrão.
 99,7% dos valores encontram-se a uma distância da média inferior a três vezes o desvio padrão.
47
Em geral, realiza-se uma análise com 95% de confiabilidade, o que significa que 95% das vendas descritas
na série histórica deverão estar entre a média mais duas vezes o desvio padrão e a média menos duas vezes
o desvio padrão, ou, 𝑥̅ + 2. 𝑠 e 𝑥̅ − 2. 𝑠, conforme descrito acima.
Desta forma, plotando no gráfico, um limite superior (média mais duas vezes o desvio padrão e um limite
inferior (média menos duas vezes o desvio padrão, e consideraremos como “pontos fora da curva”
ou outliers, as observações que fugirem aos limites estipulados, como o resultado de Maio, que fica acima
do limite superior de variação.
A partir daí, cabe uma análise mais profunda, mais focada e ágil, após identificação deste de ponto de
interesse: O que aconteceu em Maio?
Mais adiante estudaremos a mediana que, como medida de localização é mais robusta do que a média, pois
não é tão sensível aos dados.
EXERCÍCIOS - 5ª Lista – Média, Desvio padrão e Coeficiente de Variação
1. Assinale a alternativa CORRETA. Os valores de glicemia em jejum em mg medidos fotocolorimetricamente no
sangue de 10 adultos do sexo masculino, clinicamente normais e sem história familial de diabetes mellitus, foram:
79 86 91 96 100 102 108 108 110 120
Para a glicemia em jejum, a média é:
a) 99 b) 100 c) 101 d) 102 e) 108
2. Assinale a alternativa CORRETA. Num determinado país a população feminina representa 51% da população
total. Sabendo-se que a idade média (média aritmética das idades) da população feminina é de 38 anos e a da
masculina é de 36 anos. Qual a idade média da população?
a) 37,02 b) 37,0 c) 37,2 d) 36,6 e) 37,05
3. Assinale a alternativa CORRETA. Em uma amostra com 50 notas a média é 7,5. Os valores 4,5 e 5,7 foram
retirados. Então a nova média da amostra será, aproximadamente,
a) 7,2 b) 7,3 c) 7,5 d) 7,6 e) 7,7
48
4. Assinale a alternativa CORRETA. Em um estudo realizado com 100
pacientes portadores de asma foram registrados no mês de março os dados:
Neste mês, o número médio de crises, por paciente, foi:
b) 1,0 b) 1,2 c) 1,5 d) 2,0 e) 2,5
5. Assinale a alternativa CORRETA. A tabela ao lado é referente
aos pesos de 105 crianças que frequentam uma creche pública.
O peso médio das crianças da creche é:
a) 8,0 kg b) 8,6 kg c) 9,4 kg
d) 12,1 kg e) 13,0 kg
6. O histograma, a seguir, apresenta a altura média de 20 atletas de uma equipe
de natação. Assinale a alternativa CORRETA. Com base nos dados do
histograma a altura média é:
a) 180 cm b) 182 cm c) 184 cm d) 185 cm
7. Assinale a alternativa CORRETA. Entre os funcionários de uma clínica, foi
retirada uma amostra de dez indivíduos. Os números que representam as
ausências ao trabalho registradas para cada um deles, no último ano, são: {0;
0; 0; 2; 2; 2; 4; 4; 6; 10}. Sendo assim, o valor do desvio padrão desta amostra
é, aproximadamente:
a) 2 b) 3 c) 9 d) 10 e) 30
8. De acordo com as sentenças 1, 2 e 3, responda a alternativa CORRETA:
1. O desvio padrão nunca poderá ser negativo.
2. O coeficiente de variação pode ser usado em análise comparativa
de duas ou mais amostras de grandezas diferentes.
3. O desvio padrão e a variância são a mesma medida de variabilidade.
a) As sentenças 1 e 2 são verdadeiras.
b) As sentenças 2 e 3 são verdadeiras.
c) As sentenças 1 e 3 são verdadeiras.
d) Todas as sentenças são verdadeiras.
e) Todas as sentenças são falsas.
9. A lombalgia é a dor que ocorre nas regiões lombares inferiores da coluna lombar. Ela pode ser acompanhada de
dor que se irradia para uma ou ambas as nádegas ou para as pernas na distribuição do nervo ciático. Estudos
revelam que, com o tratamento, os sinais de melhora aparecem de 1 semana a 8 semanas e os casos mais graves
apresentam sintomas por mais de 6 meses. Exercícios aeróbicos leves durante as primeiras 2 semanas, seguido
por exercícios musculares do tronco, auxiliam no tratamento. Tomando-se uma amostra de 5 indivíduos que
sofrem com lombalgia e que foram acompanhados por um especialista verificou-se o número de semanas de
tratamento até que apresentaram melhora. Obteve-se:
2 2 4 5 7
Verifica-se que o tratamento dura, em média, 4 semanas. Assinale a alternativa CORRETA. A variabilidade
(desvio padrão) em torno dessa média é:
a) 2 semanas b) 2,5 semanas c) 3 semanas d) 3,5 semanas e) 4,5 semanas
10. Marque a alternativa CORRETA. A homogeneidade de uma série de valores ou de uma distribuição de
frequências é dada pela razão entre o desvio padrão e a média aritmética. Podemos afirmar que :
a) Quanto maior o coeficiente de variação maior homogeneidade.
b) Quanto menor o coeficiente de variação menor homogeneidade.
c) Quanto menor o coeficiente de variação maior a homogeneidade.
d) Quando o desvio padrão é igual a média menor a homogeneidade.
e) As alternativa "a" e "b" estão corretas.
Nº de crises Nº de pacientes
0 14
1 18
2 32
3 29
4 5
5 2
TOTAL 100
Pesos (kg) Nº de crianças
6 | 8 8
8 | 10 25
10 | 12 18
12 | 14 22
14 | 16 20
16 | 18 10
18 | 20 2
TOTAL 105
ALTURA DOS ATLETAS
DA EQUIPE DE NATAÇÃO
0
1
2
3
4
5
6
7
8
9
ALTURA (cm)
Nº de
Atletas
160 170 180 190 200
49
11. Em um estudo realizado com 100 pacientes portadores de asma foram
registrados no mês de março os seguintes dados:
Assinale a alternativa CORRETA. Sabendo-se que o número médio foi de duas
crises por paciente, então a dispersão absoluta populacional foi de:
a) 1,0
b) 1,2
c) 1,5
d) 2,0
e) 2,5
12. Na tabela abaixo são dadas as idades de um grupo de 54 pessoas.
Assinale a alternativa que corresponde a variabilidade absoluta da idade
desse grupo.
a) 5,0 anos
b) 6,2 anos
c) 6,6 anos
d) 8,7 anos
e) 9,3anos
13. (ESAF – AFRFB – 2005) De posse dos resultados de produtividade alcançados por funcionários de determinada
área da empresa em que trabalha, o Gerente de Recursos Humanos decidiu empregar a seguinte estratégia: aqueles
funcionários com rendimento inferior a dois desvios padrões abaixo da média (Limite Inferior - LI) deverão passar
por treinamento específico para melhorar seus desempenhos; aqueles
funcionários com rendimento superior a dois desvios padrões acima
da média (Limite Superior - LS) serão promovidos a líderes de equipe.
Assinale a opção que apresenta os limites LI e LS a serem utilizados
pelo Gerente de Recursos Humanos.
a) LI = 4,0 e LS = 9,0
b) LI = 3,6 e LS = 9,4
c) LI = 3,0 e LS = 9,8
d) LI = 3,2 e LS = 9,4
e) LI = 3,4 e LS = 9,6
14. Numa reunião estavam presentes 5 professores de Educação Física de níveis de ensino diferentes (Infantil,
Fundamental e Médio) e redes de ensino diferentes (Pública e Particular). Abaixo temos os valores dos salários
destes professores, em reais:
950 1550 1850 2200 2450
Assinale a alternativa CORRETA. O desvio padrão desta amostra é:
a) 342 reais
b) 523 reais
c) 585 reais
d) 675 reais
e) 1800 reais
15. Marque a alternativa CORRETA Os dados abaixo representam os pesos de crianças na enfermaria da clínica X:
15,0 18,6 20,5 21,2 22,3 25,6 28,6 29,4 35,2
Sabendo-se que a variância dos dados acima é 38,9, podemos afirmar que:
a) 0%  CV < 10%
b) 10%  CV < 20%
c) 20%  CV < 30%
d) 30%  CV < 40%
e) CV  40%
16. A tabela a seguir contém algumas estatísticas associadas aos tempos de vida da população de certa comunidade
(pessoas falecidas nos anos 2000-2007).
Média Mediana Moda Desvio padrão
Homens 69,2 73 80 16,4
Mulheres 78,7 80 83 13,7
Com base nestas informações, assinale a alternativa CORRETA.
a) O tempo de vida dos homens apresenta maior CV e por isso apresenta maior homogeneidade.
Nº de crises Nº de pacientes
0 14
1 18
2 32
3 29
4 5
5 2
TOTAL 100
Idades Nº de pessoas
10 | 15 6
15 | 20 11
20 | 25 16
25 | 30 13
30 | 35 5
35 | 40 3
 54
50
b) O tempo de vida dos homens apresenta menor variabilidade.
c) O tempo de vida das mulheres apresenta o menor CV e por isso apresenta maior homogeneidade.
d) Como a média de tempo de vida das mulheres é menor então elas apresentam menor variabilidade
e) O tempo de vida das mulheres possui maior dispersão porque tem a maior média.
17. Encontram-se a seguir alguns valores de Média e Desvio Padrão extraídos de uma pesquisa no hospital X.
Marque a alternativa CORRETA. Para medir a variabilidade
relativa das três variáveis mensuradas, e compará-las, a melhor
medida é:
a) a média
b) o desvio padrão
c) o qui-quadrado
d) o intervalo de confiança
e) o coeficiente de variação
18. Cinco grupos de alunos submeteram-se a um teste, obtendo os seguintes resultados:
Grupo A Grupo B Grupo C Grupo D Grupo E
3 1 5 3 3
4 3 5 5 5
5 5 5 5 5
6 7 5 7 6
7 9 5 5
Podemos afirmar que o grupo mais heterogêneo é:
a) O grupo D, pois o seu coeficiente de variação é maior.
b) O grupo C, pois o seu coeficiente de variação é maior.
c) O grupo A, pois o seu coeficiente de variação é maior.
d) O grupo B, pois o seu coeficiente de variação é maior.
e) O grupo E, pois o seu coeficiente de variação é maior.
19. Conhecidas as médias e os desvios-padrões da pressão sanguínea (mm/Hg) segundo o tipo de anestesia (halotano
ou morfina), determine qual tipo apresenta os dados mais homogêneos.
Informações sobre a amostra
Anestesia
Halotano Morfina
Média 66,9 75
Desvio-Padrão 12,5 13,5
a) Halotano é mais homogêneo porque possui a menor dispersão absoluta.
b) Halotano é mais homogêneo porque possui a maior dispersão relativa.
c) Morfina é mais homogêneo porque possui a maior dispersão absoluta.
d) Morfina é mais homogêneo porque possui a menor dispersão relativa.
e) Ambas apresentam a mesma homogeneidade.
20. A distribuição das estaturas de um grupo de pessoas apresentou uma estatura média de 182 cm e um desvio
padrão de 15 cm, enquanto que a distribuição dos pesos apresentou um peso médio de 78 kg, com um desvio
padrão de 8 kg. Podemos afirmar que:
a) A estatura apresenta menor variabilidade.
b) O peso apresenta menor variabilidade.
c) Nem a estatura nem o peso apresentam variabilidade.
d) A estatura e o peso apresentam a mesma variabilidade.
e) Não é possível determinar a variabilidade.
21. Perguntei a uma amostra de dez alunos de Estatística as notas que cada um deles precisava para passar na
disciplina e obtive as seguintes respostas:
4,5 7,0 8,3 4,3 8,8 4,5 3,5 9,0 3,8 7,5
Determine e interprete a média e o desvio padrão.
22. Estamos estudando o impacto do estágio na obtenção de bons empregos. Dentre os recém-formados e com
empregos considerados bons, foi sorteada uma amostra e observado o número de anos de estágio anteriores à
formatura.
Variável Média ± DP (mg/dL)
Glicemia 85,86 ± 14,77
Triglicerídeos 174,36 ± 75,24
Colesterol HDL 46,43 ± 11,71
51
Anos de estágio 0 1 2 3 4 5 6 Total
Frequência 25 58 147 105 72 45 10 462
a) Calcule a média e a desvio padrão;
b) Para efeito de análise, decidiu-se desprezar os valores que se distanciassem da média amostral por mais de
dois desvios padrão (outliers), isto é, só serão considerados os valores no intervalo
MÉDIA – 2 DESVIOS PADRÃO até MÉDIA + 2 DESVIOS PADRÃO. Recalcule (a) e comente os
resultados.
23. Em uma pesquisa de marketing, voltada para o
comportamento do consumidor, um grupo de 128 jovens,
entre 20 e 25 anos, foi questionado acerca do nível de
satisfação em relação a um novo produto. Dentre as diversas
investigações da pesquisa, deseja-se verificar se o nível de
satisfação do indivíduo está associado com a sua idade.
Obteve-se a seguinte distribuição de frequência simples para
as idades. Calcule a média, o desvio padrão e o coeficiente
de variação dessa amostra e interprete os resultados.
24. Dados dois grupos de pessoas, o grupo A com 10 elementos e o grupo B com 40 elementos. Se o peso médio do
grupo A for de 80 kg e o do grupo B for de 70 kg então é verdade que o peso médio dos dois grupos considerados
em conjunto é de 75 kg? Justifique.
25. Um Spa contrata pessoas de diversas área da saúde. No quadro de funcionários atual há 30 funcionários cujas
remunerações (em salários mínimos) estão na distribuição abaixo:
Calcule a variação relativa e interprete o resultado.
26. Em um exame final de Matemática Básica, o grau médio de um grupo de 150 alunos foi 6,8 e o desvio padrão
1,2. Em Estatística, entretanto, o grau médio final foi 6,9 e o desvio padrão, 1,3. Em que disciplina foi maior a
dispersão?
27. Em uma pesquisa na qual indivíduos contaminados pelo veneno de um certo tipo de inseto foram submetidos a
tratamento, foi observado o tempo (em horas) entre a administração do tratamento e a recuperação do indivíduo.
O conjunto de dados foi separado em três grupos denominados cura rápida, cuja recuperação ocorreu em 12
horas ou menos, cura normal, se o tempo de recuperação foi maior do que 12 horas e menor ou igual a 45 horas,
e cura lenta, se o tempo de recuperação foi acima de 45 horas.
Tipo de recuperação Média D.Padrão
Cura rápida 5,23 3,88
Cura normal 32,00 11,40
Cura lenta 57,00 16,56
Compare a variabilidade desses três grupos através de seus coeficientes de variação e identifique o tipo de
recuperação com resultados mais homogêneos.
28. Com base no texto abaixo, calcule os coeficientes de variação das amostras e interprete-os.
“O tipo de estudo foi o transversal de base populacional e a amostra escolhida aleatoriamente era composta por
100 idosas, com média de idade de 69,3 ± 4,7 anos, e 85 idosos, com média de idade de 72,4 8,3 anos.”
Idade
(anos)
Nº de
Consumidores
20 2
21 3
22 12
23 44
24 46
25 21
Total 128
Salários
Mínimos
Nº de funcionários
2 | 4 15
4 | 6 12
6 | 8 3
 30
52
4.2 MODA
Denotada por Mo é o valor mais frequente do conjunto de dados observados.
Por ser obtido pela frequência é a única medida de posição de pode não ocorrer ou ocorrer mais de uma
vez.
Na representação gráfica dos dados, obtém-se imediatamente o valor que representa a moda ou a classe
modal.
Esta medida também é útil para reduzir a informação de um conjunto de dados qualitativos, apresentados
sob a forma de nomes ou categorias, para os quais não se pode calcular a média e por vezes a mediana.
Moda para dados não agrupados
Para determinar a moda, basta identificar o(s) elemento(s) que mais se repete(m).
Exemplo 1: Determinar a moda dos conjuntos de dados abaixo:
a) 2; 8; 3; 5; 4; 5; 3; 5; 1
O elemento que mais se repete é o 5. Portanto: Mo = 5 (sequência unimodal).
b) 6; 10; 5; 6; 10; 2
Neste conjunto de dados o elemento 6 e o elemento 10 se repetem mais vezes que os demais. Portanto:
Mo1 = 6 e Mo2 = 10 (sequência bimodal).
c) 2; 2; 8; 8; 5; 5; 6; 6
Não há nenhum elemento que se destaque por possuir maior frequência. Portanto, a série não possui
moda e é dita amodal.
Nota: A moda só é considerada medida de tendência central no caso unimodal. Nos demais casos é uma
medida estatística de análise.
Moda para dados agrupados sem intervalos de classes
Neste caso, basta identificar o(s) elemento(s) de maior frequência.
Moda para dados agrupados com intervalos de classes
Neste caso há diversos processos para o cálculo da moda, entre eles: a moda bruta, a moda de Czuber e a
moda de Pearson. A mais simples entre elas é a Moda Bruta.
Fórmula da Moda Bruta
 Identifica-se a classe modal (a que possui maior frequência);
 Aplica-se a fórmula:
2
L
Mo MoMo 


= xi da classe modal
onde:
ℓMo = limite inferior da classe modal.
L Mo = limite superior da classe modal.
53
Exemplo:
Para a distribuição abaixo calcule a Moda Bruta
i classes fi
1 0 | 1 3
2 1 | 2 10
3 2 | 3 17  Classe Modal
4 3 | 4 8
5 4 | 5 5
TOTAL 43
Identifica-se a classe modal: 3ª classe (maior frequência = 17)
ℓMo = limite inferior da classe modal = 2
L Mo = limite superior da classe modal = 3
5,2
2
5
2
32
2
L
Mo MoMo






EXERCÍCIOS - 6ª Lista - Moda
1. Assinale a alternativa CORRETA:
a) A moda é a melhor medida de posição para dados discretos com poucas observações repetidas.
b) Para encontrar a moda de uma variável devemos somar todos os seus valores e dividir pela sua quantidade.
c) A moda é a única medida de localização central que pode ser utilizada para dados qualitativos.
d) A moda é denotada por Md.
e) A moda é o valor que divide a série em duas partes iguais.
2. Os valores de glicemia em jejum em mg medidos fotocolorimetricamente no sangue de 10 adultos do sexo
masculino, clinicamente normais e sem história familial de diabetes mellitus, foram:
79 86 91 96 100 102 108 108 110 120
Para a glicemia em jejum, a moda é:
a) 99 b) 100 c) 101 d) 102 e) 108
3. Em um estudo realizado com 100 pacientes portadores de asma foram registrados no mês de março os seguintes
dados:
Assinale a alternativa CORRETA. Neste mês, o número modal de crises,
por paciente, foi de:
a)1,0 b) 1,2 c) 1,5 d) 2,0 e) 2,5
4. A academia Boa Forma fez uma pesquisa sobre o peso dos seus
clientes. A tabela abaixo mostra o resultado obtido:
Assinale a alternativa CORRETA. Com base nos dados acima,
podemos concluir que o peso modal (moda bruta), é de:
a) 62,5 kg
b) 62,9 kg
c) 63,2 kg
d) 63,4 kg
e) 64,0 kg
Nº de crises Nº de pacientes
0 14
1 18
2 32
3 29
4 5
5 2
TOTAL 100
Peso (kg) Nº de pessoas
50 | 55 9
55 | 60 10
60 | 65 25
65 | 70 18
70 | 75 8
Total 70
54
5. Em uma amostra de 9 pacientes, os valores do nível de triglicérides (mg/dL) foram:
160 - 158 - 202 - 135 - 160 - 182 - 150 - 186 - 160
Considerando os dados da amostra, avalie as afirmações a seguir:
“160 mg/dL é o valor da moda do nível de triglicérides das 9 pessoas da amostra”,
PORQUE
“160 mg/dL é o valor mais frequente entre os valores do nível de triglicérides da amostra”.
Acerca dessas afirmações, assinale a opção CORRETA:
a) As duas afirmações são verdadeiras, e a segunda é uma justificativa correta da primeira.
b) As duas afirmações são verdadeiras, mas a segunda não é uma justificativa correta da primeira.
c) A primeira afirmação é verdadeira e a segunda é falsa.
d) A primeira afirmação é falsa e a segunda é verdadeira.
e) As duas afirmações são falsas.
6. Os dados abaixo se referem à idade de 32 alunos de uma turma de Fisioterapia.
Assinale a alternativa CORRETA. Com base nestes dados, podemos
afirmar que a distribuição é:
a) amodal
b) modal, e a moda é 8
c) modal, e a moda é 10
d) modal, e a moda é 22
e) bimodal, e as modas são 21 e 23
7. Por um lado, a fisioterapia procura a manutenção saudável dos movimentos humanos, através das condutas
fisioterapêuticas e por outro a educação física quer desenvolver e melhorar estes mesmos movimentos humanos,
através de um processo educacional. Ambos querem melhorar a qualidade de vida das pessoas, um preservando
a integridade e o outro, buscando a melhoria das competências físicas. Em uma academia com equipe
multidisciplinar, um fisioterapeuta e uma profissional da educação física se uniram para prestar uma assistência
mais completa aos alunos e, devido a soma dos conhecimentos dos dois grandes profissionais, tanto quando o
assunto é condicionamento físico, quanto quando falamos em tratamento, verificou-se que os alunos estão
recebendo atendimento vip. Visando conhecer melhor e atender às necessidades dos alunos foi realizado um
levantamento de diversas informações, entre elas, a idade, em anos:
25 32 18 38 35 27 29 30 32 19
17 45 36 65 48 52 29 25 38 32
44 58 25 23 42 38 42 60 21 25
18 25 22 38 37 25 57 35 24 38
38 65 41 30 59 63 38 25 44 17
Com base nestes dados, qual a idade modal dos alunos atendidos?
8. Na tabela ao lado são dadas as idades de 54 pessoas. Calcule a moda bruta e interprete.
Idades (anos) Nº de Alunos
20 4
21 8
22 10
23 8
24 2
 32
Idades Nº de pessoas
10 | 15 6
15 | 20 11
20 | 25 16
25 | 30 13
30 | 35 5
35 | 40 3
 54
55
4.3 MEDIANA, QUARTIS E DESVIO INTER-QUARTIL
A média e o desvio padrão são as medidas mais usadas para avaliar a posição central e a dispersão de um
conjunto de valores, porém são fortemente influenciadas por valores discrepantes (outliers). Nestes casos,
a mediana é uma medida de localização que pode ser usada como valor típico do conjunto de dados.
Exemplo: Se considerarmos 15 pessoas em uma academia e, destas, 14 pesam entre 45 e 70 kg enquanto
uma pesa 160 kg:
45 50 50 52 55 55 55 56 58 58 60 64 68 70 160
Se utilizarmos a média nesta amostra observaremos um valor de 64 kg, enquanto que a mediana resultaria
em 56 kg. A mediana é uma função de estatística robusta, por que consegue desconsiderar os pontos fora
da curva que enviesam a amostra (160 kg), enquanto que a média não.
MEDIANA (Md)
A mediana, denotada por Md, é o valor que divide o rol em duas partes contendo, cada uma, a mesma
quantidade de elementos. Assim, a mediana é o valor que ocupa a posição central de uma série de dados.
50% 50%
Md
Mediana é uma medida de posição que é simultaneamente, medida de tendência central e medida separatriz.
Sendo a mediana menos afetada por valores discrepantes ela é mais recomendada para a análise de dados
que possam conter valores discrepantes.
Mediana para dados não agrupados
Dado um conjunto de 𝑛 valores, definimos mediana como o valor, Md, que ocupa a posição do
conjunto de dados ordenados crescente ou decrescentemente. Se for decimal, toma-se como mediana
a média dos dois valores de posições mais próximas a .
Exemplo 1: Determinar a mediana da série: 20; 12; 23; 20; 8; 12; 2.
Ordenando os dados em Rol: 2; 8; 12; 12; 20; 20; 23.
Determinando a Posição da Mediana: = = 4ª
Identificando o elemento da 4ª posição do rol: Md=12
Exemplo 2: Determinar a mediana da série: 7; 21; 13; 15; 10; 8; 9; 18.
Ordenando os dados em Rol: 7; 8; 9; 10; 13; 15; 18; 21
Determinando a Posição da Mediana: = = 4,5ª (entre a 4ª e a 5ª posições)
Identificando o elemento mediano dos dados: Md= = 11,5
56
Assim,
 Quando o rol possui uma quantidade ímpar de elementos a Mediana é o elemento que ocupa posição
central.
 Quando a quantidade de elementos é par a Mediana é a média aritmética dos dois elementos que ocupam
as posições centrais.
A mediana separa a série em duas partes iguais, onde cada parte contém o mesmo número de elementos, a
mesma série pode ser dividida em mais partes que contenham a mesma quantidade de elementos. O nome
da medida de posição separatriz será de acordo com a quantidade de partes em que é dividida a série.
 Mediana: divide a série em duas partes iguais (Md);
 Quartis: divide a série em quatro partes iguais (Q1, Q2, Q3);
 Decis: divide a série em 10 partes iguais (D1, D2, D3, D4, D5, D6, D7, D8, D9);
 Percentis: divide a série em 100 partes iguais (P1, P2, P3, ..., P99).
Observação: Mediana = 2º Quartil = 5º Decil = 50º Percentil
QUARTIS (QK)
O primeiro quartil: Q1 : é o elemento do conjunto de dados onde abaixo dele se situam 25% dos casos e
acima se situam 75%.
O segundo quartil: Q2 = Md, pois abaixo ou acima dele se situam 50% dos casos.
O terceiro quartil: Q3 : 75% dos casos se situam abaixo e 25% se situam acima.
25% 25% 25% 25%
Q1 Q3
Q2=Md
Para calcular os quartis: Q1 e Q3 de dados não agrupados, o método mais prático é o de utilizar o princípio
do cálculo da mediana. Na realidade serão calculadas "três medianas" em uma mesma série ordenada.
Roteiro:
 Ordenar os dados por ordem crescente e calcular a mediana;
 O 1.º quartil, Q1, é a mediana dos dados que ficam para a esquerda da mediana;
 O 3.º quartil, Q3, é a mediana dos dados que ficam para a direita da mediana.
Dado um conjunto de valores ordenados, podemos obter o quartil inferior ou primeiro quartil, Q1, como a
mediana dos valores de posições menores ou iguais à posição da Md. E a mediana dos valores de posições
maiores ou iguais à Md corresponde ao quartil superior, ou terceiro quartil, Q3.
Se a mediana coincidir com um valor do conjunto de valores, vamos convencionar em considerá-la tanto
no cômputo de Q1 como no de Q3.
Exemplo 1: Dados: 12, 10, 15, 17, 19, 11, 13, 14, 16, 18.
Ordenando:
Logo: Md = 14,5, Q1 = 12 e Q3 = 17.
10 11 12 13 14 15 16 17 18 19
Q1 Md Q3
57
Exemplo 2: Dados: 2, 3, 4, 4, 5, 5, 5, 7, 8, 9, 10
2 3 4 4 5 5 5 7 8 9 10
Q1 Md Q3
Então: Md = 5, Q1 = 4 e Q3 = 7,5.
Para um estudo mais aprofundado a respeito das posições dos quartis Q1 e Q3 leia
http://wikiciencias.casadasciencias.org/wiki/index.php/Quartis
DESVIO INTER-QUARTIL e INTERVALO INTERQUARTÍLICO
Ou desvio interquartílico é o desvio entre quartis
𝑑 = 𝑄 − 𝑄
É muitas vezes usado como uma medida de dispersão.
Uma regra muitas vezes usada para detectar valores discrepantes é verificar se existe algum valor do
conjunto de dados que se afasta mais do que 1,5 ∙ 𝑑 do quartil superior (ou inferior). Assim definimos
o Intervalo Inter-Quartílico
IIQ = 𝑄 − 1,5 ∙ 𝑑 ; 𝑄 + 1,5 ∙ 𝑑
Os valores do conjunto de dados que ficarem fora do intervalo acima são considerados valores discrepantes.
DIAGRAMA EM CAIXAS ou BOXPLOT
Um gráfico box–plot é uma ferramenta de análise de dados exploratória que enfatiza as características mais
importantes de um conjunto de dados. Ele apresenta os aspectos mais relevantes de uma distribuição de
frequência e é chamado de diagrama em caixas, desenho esquemático, caixa-e-bigodes ou boxplot.
Embora as três medidas Q1, Md e Q3 mostrem a forma da distribuição de 50% dos valores ao redor da
mediana, a adição dos valores Mínimo e Máximo a estas três medidas permite obter um conjunto mais
completo de informações sobre a forma da distribuição. O BoxPlot é a forma gráfica de representar estas
cinco medidas estatísticas (Five Number Summary) num único conjunto de resultados conforme ilustrado
abaixo.
Traçamos dois retângulos: um representando o espaço entre o quartil inferior (Q1) e a mediana (Md), e o
outro entre a mediana (Md) e quartil superior (Q3). O gráfico pode ser construído na horizontal, ou na
vertical.
Entre os quartis e os extremos traçamos uma linha.
58
IMPORTANTE: Caso existam valores discrepantes (valores inferiores a 𝑄 − 1,5 ∙ 𝑑 ou superiores
a 𝑄 + 1,5 ∙ 𝑑 ), a linha é traçada até o último valor não discrepante, e os valores discrepantes são
indicados por pontos.
Finalizando: o gráfico BoxPlot nos fornece informações sobre a posição central, dispersão e assimetria da
respectiva distribuição de frequências dos dados.
Mediana e Quartis para dados agrupados sem intervalos de classes
O procedimento para o cálculo da mediana e dos quartis para dados agrupados sem intervalos de classes é
o mesmo utilizado para dados não agrupados. Para auxiliar na localização das separatrizes calcula-se as
frequências acumuladas.
EXERCÍCIOS - 7ª Lista – Mediana e Quartis
1. Assinale a alternativa CORRETA. São fornecidos valores de nível de triglicérides (mg/dL) de 9 pessoas
166 158 202 162 135 82 150 86 121
Com o cálculo da mediana podemos afirmar que 50% dessas pessoas possuem nível de triglicérides menor que:
a) 135 b) 140 c) 150 d) 166 e) 202
2. Assinale a alternativa CORRETA. Uma dieta hipocalórica foi prescrita a 16 jovens com tendências a obesidade.
Após período determinado, os pesos dos jovens foram verificados e registradas suas reduções de peso no quadro
abaixo em kg:
0 1 1 2 3 4 4 8
0 1 2 2 4 4 5 10
Com base nestes dados, determine a mediana para verificar que 50% destes jovens perderam, no máximo:
a) 2,0 kg b) 2,5 kg c) 3,0 kg d) 3,5 kg e) 4,0 kg
3. Os tempos, em segundos, que 8 atletas levam para percorrer uma distância de 100 metros na prova de atletismo,
são:
90 85 100 92 92 87 84 98
Assinale a alternativa CORRETA. Neste caso, o valor 91 representa:
a) a média
b) a média e a mediana
c) a média e a moda
d) a mediana e a moda
e) a média, a mediana e a moda
4. Estudos mostram que pelo menos 70% dos idosos têm problema de saúde e a atividade física pode ser uma grande
aliada do tratamento. A prática da atividade física pode controlar a manifestação e os sintomas de várias doenças,
59
como a hipertensão, por exemplo. Uma pressão arterial abaixo de 120/80 é considerada normal; já a pressão alta
é aquela de 140/90 mmHg ou superior. O primeiro número é a pressão sistólica e o último a diastólica. Uma
amostra de 25 idosos do sexo feminino, com idade média de 65 anos foi selecionada em um centro de gerontologia
para verificar os níveis de pressão arterial sistólica. Obteve-se:
90 90 90 100 100
100 100 100 110 110
110 110 120 120 120
120 120 130 130 130
140 140 140 140 150
Assinale a alternativa CORRETA. Podemos afirmar que 50% das senhoras têm pressão arterial sistólica abaixo
de:
a) 100 b) 110 c) 120 d) 130 e) 140
5. Considerando os dados da amostra, avalie as afirmações a seguir:
Dados de pesquisas mostram que o peso das mochilas de muitas crianças está bem acima do recomendado por
especialistas, que é de até 10% do peso do aluno. Em certa turma do 6º ano, na qual os alunos têm 10 ou 11
anos, selecionou-se uma amostra de onze alunos com peso corporal de 40 quilos e foram medidos os pesos das
mochilas, também em quilos, e obteve-se:
5,7 3.5 3,3 4,2 4,8 5,2 5,5 3,5 3,6 3,8 4,2
“Nesta amostra confirma-se que o peso mediano das mochilas está acima do recomentado”,
PORQUE
“Metade das mochilas pesam mais do que 4,0 quilos”
Acerca dessas afirmações, assinale a opção CORRETA:
a) As duas afirmações são verdadeiras, e a segunda é uma justificativa correta da primeira.
b) As duas afirmações são verdadeiras, mas a segunda não é uma justificativa correta da primeira.
c) A primeira afirmação é verdadeira e a segunda é falsa.
d) A primeira afirmação é falsa e a segunda é verdadeira.
e) As duas afirmações são falsas.
6. Durante uma epidemia de cólera, recolheu-se certo número de mortos em 35 cidades de
um país, obtendo-se a seguinte tabela:
Assinale a alternativa CORRETA. Pode-se afirmar que o número mediano de mortos
foi:
a) 1,0 b) 1,5 c) 1,7 d) 2,0 e) 2,4
7. (CESPE – ABIN – 2010)
Considerando que o diagrama de ramos-e-folhas acima mostra a distribuição das idades (em anos) dos servidores de
determinada repartição pública, julgue Verdadeiro ou Falso os próximos itens.
( ) O primeiro quartil e o terceiro quartil são, respectivamente, 34 e 46 anos de idade.
( ) A mediana das idades dos servidores é igual a 39,5 anos.
8. Com o objetivo de verificar o comportamento do consumidor, um órgão de defesa do consumidor registrou o
seguinte número de queixas ao longo de 11 dias:
58 39 63 88 95 48 56 72 75 83 60
Com base nos dados calcule a mediana e os quartis do número de queixas por dia desta amostra.
9. Os tempos despendidos por 12 alunos, em segundos, para percorrer certo trajeto, sem barreira, foram:
16 17 16 20 18 16 17 19 21 22 16 23
Com base nos dados, calcule nesta amostra a mediana e os quartis do tempo despendido para percorrer o trajeto.
(nº) Mortos (nº) Cidades
0 9
1 9
2 11
3 3
4 2
5 1
Total 35
60
10. Considere o gráfico ramo-e-folhas seguinte referentes à renda familiar (em salários mínimos) de 33 alunos
cadastrados em um curso de línguas. Obtenha a partir dele o gráfico "box-plot" correspondente. A barra separa a
unidade da decimal, utiliza-se apenas uma casa decimal. Isto é, 3 | 1 significa 3,1. Interprete os resultados.
3 4 5 6 7 8 9 10
1 3 2 0 0 0 0 1
4 5 2 1 2 1
5 4 2 4 4
7 7 3 5 4
7 9 3 6
7 5
8 6
8
11. Um levantamento foi realizado com relação ao tempo com que os serviços de atendimento ao consumidor (SACs)
de fabricantes de computadores solucionam chamados técnicos. Foram obtidos os seguintes resultados sobre o
número de dias que os SACs de 14 fabricantes de computadores necessitaram para resolver certo problema.
Fabricante Dias para resolver
o problema
Fabricante Dias para resolver
o problema
1 13 8 21
2 27 9 27
3 11 10 12
4 14 11 14
5 14 12 20
6 17 13 40
7 16 14 17
a) Determine e classifique a variável que está sendo estudada.
b) Qual fabricante resolveu o problema mais rapidamente? Em quantos dias o problema foi resolvido?
c) Qual fabricante demorou mais para resolver o problema? Em quantos dias o problema foi resolvido?
d) Obtenha o número mediano de dias necessários para que o problema fosse resolvido.
e) Calcule os quartis Q1 e Q3 para o número de dias em questão.
f) Com base nos cinco valores calculados construa o gráfico boxplot para o número de dias necessários para que o
problema fosse resolvido.
12. Abaixo é dado o rol do número de atendimentos/dia realizados em certo consulado durante um período de 20
dias:
5 8 10 10 10 15 15 18 18 20
22 25 25 26 27 30 35 40 55 58
(A) Construa um ramo-e-folhas. (B) Determine as medidas separatrizes Md, Q1, e Q3.
(C) Obtenha o intervalo interquartílico. (D) Confeccione o boxplot para os dados amostrados. Comente.
13. Os tempos, em segundos, que 96 atletas mirins levam para percorrer uma
distância de 100 metros na prova de atletismo, estão indicados na distribuição
de frequencias ao lado. De acordo com a tabela calcule o tempo
mediano e interprete.
Tempos (s) Nº de atletas
85 1
86 5
87 10
88 15
89 16
90 18
91 23
95 5
99 2
110 1
TOTAL 96
61
14. Considere as notas de Pesquisa de Hábitos de Estudos e Atitudes – PHEA.
para 18 alunas do primeiro ano de uma faculdade:
154 109 137 115 152 140 154 178 101
103 126 126 137 165 165 129 200 148
e para 20 alunos do primeiro ano
108 140 114 91 180 115 126 92 169 146
109 132 75 88 113 151 70 115 187 104
A figura ao lado apresenta os Box-plots das notas dos conjuntos de dados referentes às alunas (Feminino) e aos
alunos (Masculino) e a todos os estudantes (Todos).
a) Para cada um dos conjuntos de dados, estime
graficamente a mediana, o primeiro e o
terceiros quartis e uma medida de dispersão;
b) Faça uma breve comparação dos grupos de
alunos e alunas. As mulheres, como grupo, têm
maiores notas do que os homens? Que grupo de
notas se apresenta mais disperso?
15. Um levantamento da qualidade de vida das pessoas que pertencem ao grupo da
terceira idade constatou que, com o passar dos anos, as comunidades apresentam um
percentual cada vez maior de pessoas que fazem parte do grupo da maturidade. Abaixo
encontram-se os rols de 4 amostras de idades de pessoas das comunidades A, B, C e D.
Para facilitar a escolha da comunidade que apresenta a maior concentração de pessoas
mais idosas, realize os cálculos dos coeficientes de variação. Também confeccione e
analise os Box plots para selecionar a comunidade mais idosa e justifique sua escolha.
16. A figura ao lado apresenta os Box-plots das notas de
Pesquisa de Hábitos de Estudos e Atitudes – PHEA de uma
amostra de 18 alunas e de 20 alunos do primeiro ano de uma
faculdade. Comparando os grupos pode-se dizer que a alternativa
correta é:
a) As notas das mulheres apresentam maior dispersão do que as
notas dos homens.
b) Ambos os conjuntos apresentam valores discrepantes.
c) As notas dos homens apresentam menor desvio interquartílico.
d) A nota mediana das mulheres é maior do que a nota mediana
dos homens.
17. Considerando os gráficos (Box-plots) ao lado assinale a
alternativa correta:
a) A mediana da classe B é superior à mediana da classe A.
b) A categoria A apresenta maior desvio interquartílico
quando comparado à demais categorias.
c) A categoria C não apresenta valores discrepantes.
d) A categoria B apresenta maior dispersão de dados.
A B C D
49 50 45 57
51 51 69 61
55 56 73 66
59 67 76 72
63 74 82 79
64 86 85 84
77 87 90 85
78 92 92 88
89 104 95 102
112 104 97 105
TodosMasculinoFeminino
200
180
160
140
120
100
80
60
Conjuntos
Notas
62
CONSIDERAÇÕES GERAIS ACERCA DAS MEDIDAS DE POSIÇÃO
Quando a distribuição é simétrica, a média, a mediana e a moda coincidem.
A média ao contrário da mediana, é uma medida muito influenciada por valores "muito grandes" ou "muito
pequenos", mesmo que estes valores surjam em pequeno número na amostra. Estes valores são os
responsáveis pela má utilização da média em muitas situações em que teria mais significado utilizar a
mediana, ou a moda.
A mediana e a moda não são tão sensíveis, como a média, às observações que são muito maiores ou muito
menores (discrepantes) do que as restantes (outliers). Por outro lado a média reflete o valor de todas as
observações.
A partir do exposto, deduzimos que se a distribuição dos dados:
 for enviesada para a esquerda (alguns valores pequenos como "outliers"), a média tende a ser
inferior à mediana.
 for aproximadamente simétrica, a média aproxima-se da mediana .
 for enviesada para a direita (alguns valores grandes como "outliers"), a média tende a ser maior que
a mediana.
63
5 CORRELAÇÃO E REGRESSÃO
Ao se estudar uma variável o interesse eram as medidas de tendência central, dispersão, assimetria, etc.
Com duas ou mais variáveis além destas medidas individuais também é de interesse conhecer se elas têm
algum relacionamento entre si, isto é, se valores altos (baixos) de uma das variáveis implicam em valores
altos (ou baixos) da outra variável.
Por exemplo, pode-se verificar se existe associação entre a taxa de desemprego e a taxa de criminalidade
em uma grande cidade, entre verba investida em propaganda e retorno nas vendas, etc. A associação entre
duas variáveis poder ser de dois tipos: correlacional e experimental.
Numa relação experimental os valores de uma das variáveis são controlados pela atribuição ao acaso do
objeto sendo estudado e observando o que acontece com os valores da outra variável. Por exemplo, pode-
se atribuir dosagens casuais de uma certa droga e observar a resposta do organismo; pode-se atribuir níveis
de fertilizante ao acaso e observar as diferenças na produção de uma determinada cultura.
No relacionamento correlacional, por outro lado, não se tem nenhum controle sobre as variáveis sendo
estudadas. Elas são observadas como ocorrem no ambiente natural, sem nenhuma interferência, isto é, as
duas variáveis são aleatórias. Assim a diferença entre as duas situações é que na experimental nós
atribuímos valores ao acaso de uma forma não tendenciosa e na outra a atribuição é feita pela natureza.
Ao estudo do relacionamento entre duas ou mais variáveis denominamos de correlação e regressão. Se o
estudo tratar apenas de duas variáveis tem-se a correlação e a regressão simples, se envolver mais do que
duas variáveis, tem-se a correlação e a regressão múltiplas. A regressão e a correlação tratam apenas do
relacionamento do tipo linear entre duas variáveis
A correlação e a regressão são duas técnicas estreitamente relacionadas que envolvem uma forma de
estimação. As técnicas agora apresentadas se referem à estimação de uma relação que possa existir na
população.
Mais especificamente, a análise de correlação e regressão compreende a análise de dados amostrais para
saber se e como duas ou mais variáveis estão relacionadas uma com a outra numa população.
A análise de correlação dá um número que resume o grau de relacionamento entre duas variáveis.
A análise de regressão tem como resultado uma equação matemática que descreve o relacionamento. A
equação pode ser usada para estimar, ou predizer, valores futuros de uma variável quando se conhecem ou
se supõem conhecidos valores da outra variável.
5.1 CORRELAÇÃO
Quando duas variáveis estão ligadas por uma relação estatística, dizemos que existe correlação entre elas.
A confusão entre a correlação e causalidade é fator base de muitas confusões e concepções equivocadas. A
correlação, isto é, a ligação entre dois eventos, não implica necessariamente uma relação de causalidade,
ou seja, que um dos eventos tenha causado a ocorrência do outro. Em poucas palavras, o que descreve esta
advertência é que se dois fatos se produzem ao mesmo tempo ou parecem estar relacionados entre si, isso
não significa necessariamente que um dos fatos seja a causa do outro.
64
DIAGRAMA DE DISPERSÃO
Representando os pares ordenados (xi, yi) em um sistema cartesiano, obtemos uma nuvem de pontos
denominada diagrama de dispersão, que fornece uma ideia da correlação existente.
O diagrama de dispersão indica se
existem dados discrepantes e se o padrão
geral dos dados é linear. Isso é importante
para o uso do coeficiente de correlação.
CORRELAÇÃO LINEAR
A correlação de forma elíptica tem como "imagem" uma reta, sendo por isso, denominada correlação linear.
Assim, uma correlação é:
a) linear positiva se os pontos do diagrama têm como "imagem" uma reta ascendente;
b) linear negativa se os pontos têm como "imagem" uma reta descendente;
c) não-linear se os pontos têm como "imagem" uma curva.
Observação: Não haver relação linear não significa que as variáveis não possuam nenhuma ligação.













Correlação linear positiva















Correlação linear negativa







 





Correlação não-linear



 












Não há correlação
2
2
4
4
6
6
8
8
10
10
.
.
.
.
.
.
. .
. .
.
65
Observe que:
 Se, quando uma das variáveis “cresce”, a outra, em média, também “cresce”, dizemos que entre as
duas variáveis existe uma correlação positiva, tanto mais forte quanto mais perto de uma reta
imaginária os pontos estiverem;
 Se, quando uma das variáveis “cresce”, a outra, em média, “decresce”, dizemos que entre as duas
variáveis existe uma correlação negativa, tanto mais forte quanto mais perto de uma reta
imaginária os pontos estiverem;
 Se os pontos estiverem dispersos, sem definição, dizemos que a correlação é muito baixa, ou
mesmo nula. As variáveis nesse caso são ditas não relacionadas.
Coeficiente de correlação linear (𝒓)
Dado um problema, primeiro precisamos dizer, em teoria, porque achamos que a associação existe.
Devemos examinar a qualidade dos dados e as escalas de medida e construir um diagrama de dispersão,
para saber se a relação é linear e se existem valores discrepantes.
Apesar do diagrama de dispersão nos fornecer uma ideia do tipo e extensão do relacionamento entre duas
variáveis X e Y, seria altamente desejável ter um número que medisse esta relação. Esta medida existe e é
denominada de coeficiente de correlação. Quando se está trabalhando com amostras o coeficiente de
correlação é indicado pela letra 𝑟 que é, por sua vez, uma estimativa do coeficiente de correlação
populacional: ρ (rho).
Calculamos o coeficiente de correlação (indicado por 𝑟) e analisamos o resultado que possui dois
componentes: o sinal e o valor numérico. O sinal informa se a associação é positiva ou negativa, e o valor
numérico indica o grau de correlação, que varia entre 0 (nenhuma associação linear) e 1 (associação linear
perfeita). Por isso dizemos que este coeficiente indica o grau de intensidade da correlação entre duas
variáveis e, ainda, o sentido dessa correlação (ou ).
Coeficiente de Pearson:
O coeficiente de correlação do momento produto, também conhecido como coeficiente de correlação de
Pearson é a maneira de descobrir a natureza e a extensão da associação linear entre duas variáveis. A
fórmula é:



























  
  
2
2
2
2
..
.
iiii
iiii
yynxxn
yxyxn
r ,  1 ≤ 𝑟 ≤ 1
onde 𝑛 é o número de observações.
Com respeito ao sinal do relacionamento entre as variáveis X e Y observa-se:
Se r > 0, há uma correlação linear positiva entre as variáveis;
Se r < 0, há uma correlação linear negativa entre as variáveis;
Se r = 0, ou não há correlação entre as variáveis ou a relação que por ventura exista não é linear.
Se r = 1, há uma correlação perfeita e positiva entre as variáveis;
Se r = 1, há uma correlação perfeita e negativa entre as variáveis;
66
Com respeito à intensidade do relacionamento entre as variáveis X e Y podemos adotar o seguinte critério:
−1 < 𝑟 < −0,7  correlação linear negativa forte
−0,7 ≤ 𝑟 ≤ −0,3  correlação linear negativa moderada
−0,3 < 𝑟 < 0  correlação linear negativa fraca
0 < 𝑟 < 0,3  correlação linear positiva fraca
0,3 ≤ 𝑟 ≤ 0,7  correlação linear positiva moderada
0,7 < 𝑟 < 1  correlação linear positiva forte
| | | | | | |
−1 −0,7 −0,3 0 0,3 0,7 1
Coeficiente de determinação (𝒓 𝟐
)
O coeficiente de determinação ou simplesmente 𝒓 𝟐
é o quadrado do coeficiente de correlação de Pearson.
O coeficiente de determinação é uma medida de ajustamento de um modelo estatístico linear generalizado
(como a Regressão Linear) em relação aos valores observados. O 𝒓 𝟐
varia entre 0 e 1, indicando, em
percentagem, o quanto o modelo consegue explicar os valores observados. Vale ressaltar que é importante
identificar a variável independente X e a variável dependente Y para uma adequada interpretação do
coeficiente de determinação.
Em outras palavras, o coeficiente de determinação é uma medida da proporção da variabilidade de Y que é
explicada pela variabilidade de X.
É pouco comum que tenhamos uma correlação perfeita (𝑟 = 1) na prática, porque existem muitos fatores
que determinam as relações entre variáveis na vida real. Por exemplo, dadas as variáveis X e Y, se tivermos
𝑟 =0,79, teremos 𝑟 =0,62 ou 62%. Então cerca de 38% da variabilidade de Y não pode ser descrito (ou
explicado) pela variabilidade de X e vice-versa, ou seja, existem outros fatores que poderiam ser
importantes, para as variabilidades de X e Y.
FRACA
MODERADA
FORTE
67
5.2 REGRESSÃO LINEAR SIMPLES
A análise de regressão tem por objetivo descrever,
através de uma equação matemática, o relacionamento
entre duas variáveis, partindo de n observações das
mesmas.
A variável sobre a qual desejamos fazer uma estimativa
recebe o nome de variável dependente (Y) e a outra
recebe o nome de variável independente (X).
Equação da Reta:
𝑌 = 𝑎 + 𝑏𝑋, onde 𝑎 e 𝑏 são os parâmetros.
Fórmulas para o cálculo dos valores dos parâmetros a e b:
  
  


 22
ii
iiii
xxn
yxyxn
b
e xbya  onde:
n é o número de observações
x é a média dos valores xi












n
x
x
i
e y é a média dos valores yi












n
y
y
i
Interpretação do coeficiente de regressão (𝒃)
Obtida uma reta de regressão, o primeiro passo na sua interpretação é verificar o sinal de 𝑏 que indica a
inclinação da reta. Se 𝑏 for positivo, indica que, quanto maior o valor de X, maior o valor de Y; se 𝑏 for
negativo, indica que quanto maior o valor de X, menor o valor de Y.
Uma interpretação mais informativa para o coeficiente de regressão (𝑏) é que ele representa em quanto
varia a média de Y para o aumento de uma unidade da variável X. Esta variação pode ser negativa, situação
em que para um acréscimo de X corresponde um decréscimo de Y.
Assim, quando X aumenta em média 1 unidade tem-se em média um acréscimo (se 𝑏>0) ou decréscimo
(se 𝑏<0), de b unidades em Y.
2
2
4
4
6
6
8
8
10
10
.
.
. . .
.
. .
. . reta
imagem
68
O coeficiente 𝒂 é dito intercepto e determina o ponto em que a reta corta o eixo de Y, isto indica qual o
valor da variável Y quando X=0, o que muitas vezes não tem significado no contexto das variáveis.
OBSERVAÇÕES:
 Como estamos utilizando uma amostra para obtermos os valores dos parâmetros, o resultado é uma
estimativa da verdadeira equação de regressão. Sendo assim, escrevemos: bXaY ˆ , onde Yˆ é
o Y estimado.
 A reta de regressão que se obtém através do método dos mínimos quadrados é apenas uma
aproximação da realidade, ela é um modo útil para indicar a tendência dos dados. O coeficiente de
determinação pode indicar o quanto útil ou aproximado da realidade é a reta.
 Uma norma importante no uso de equações de regressão é a usá-la para interpolações, e não
extrapolações, exceto quando considerações teóricas ou experimentais demonstrarem a
possibilidade de extrapolação.
Observe ainda que o coeficiente de determinação indica quantos por cento a variação explicada pela
regressão representa sobre a variação total. Como 0 ≤ 𝑟 ≤ 1:
 Se 𝑟 for igual a 1, isto significa que todos os pontos observados (no diagrama de dispersão) se
situam “exatamente” sobre a reta de regressão. Tendo-se, neste caso, um ajuste perfeito. As
variações da variável Y são 100% explicadas pelas variações da variável X, não ocorrendo desvios
em torno da função estimada.
 Por outro lado, se 𝑟 = 0, isto quer dizer que as variações de Y são exclusivamente aleatórias e
explicadas pelas variações de outros fatores que não X.
EXERCÍCIOS - 8ª Lista - Correlação e Regressão
1. Observe a figura onde:
X: Cobertura por Sistemas de Esgoto Sanitário (em %)
Y: Taxa de Mortalidade Infantil (<1ano-por 1000nv.)
Neste caso, as variáveis têm correlação linear:
a) nula.
b) variável.
c) perfeita.
d) positiva.
e) negativa.
2. Observe a figura e marque a alternativa correspondente.
As variáveis:
X: Idade de crianças (em anos).
Y: Peso dessas crianças (em Kg).
têm correlação linear:
a) perfeita e negativa.
b) perfeita e positiva.
c) positiva forte.
d) negativa forte.
e) nula.
0
5
10
15
20
25
30
0 1 2 3 4 5 6 7 8 9 10
X
Y
0
10
20
30
40
50
60
70
80
90
30 40 50 60 70 80 90 100
69
3. É esperado que a massa muscular de uma pessoa diminua com a idade. Para estudar esta suposição em mulheres,
uma nutricionista aleatoriamente selecionou 2 mulheres de cada grupo com faixa de idade de 10 anos, iniciando
com 40 anos e terminando com 79 anos. Os resultados são dados abaixo; X é a idade e Y é uma medida da massa
muscular.
Analisando a tabela, assinale a afirmação CORRETA.
a) Existe uma correlação linear perfeita entre as variáveis idade e
medida da massa muscular.
b) Existe uma correlação linear positiva entre as variáveis idade e
medida da massa muscular.
c) Existe uma correlação linear negativa entre as variáveis idade e
medida da massa muscular.
d) Não existe correlação entre as variáveis idade e medida da massa
muscular.
e) Apenas com os dados da tabela não é possível tirar conclusões.
4. Um estudo acerca da obesidade infantil deseja verificar a relação entre a medida do índice de massa corporal (X)
e a porcentagem de gordura corporal (Y) em escolares, na faixa etária de 6 a 10 anos. Uma amostra piloto
composta por 8 escolares apresentou a seguinte equação de reta de regressão ajustada para os dados coletados:
Y=3,41,2X. Para um índice de massa corporal X=25, a porcentagem de gordura corporal Y esperada é de
aproximadamente:
a) 23 % b) 25 % c) 27 % d) 29 % e) 31 %
5. Foram selecionadas aleatoriamente 14 pacientes que estão sendo
pesquisados sobre a síndrome metabólica. Alguns dados foram
registrados para pesquisa, desde os dados socioeconômicos até os
dados bioquímicos. Considere os seguintes dados:
a) Identifique as variáveis X e Y.
b) A equação de regressão referente aos dados da tabela é
Y=0,0531X84,623, interprete o coeficiente b.
c) Determine a medida estimada da circunferência de cintura para uma
glicose de 99 mg/dl.
6. Um estudo acerca da obesidade infantil deseja verificar a relação
entre a medida do índice de massa corporal (X) e a porcentagem de gordura corporal (Y) em escolares, na faixa
etária de 6 a 10 anos. Uma amostra piloto composta por 8 escolares apresentou os seguintes resultados:
a) O coeficiente de correlação linear de Pearson é r=0,8075. Interprete-o.
b) Calcule o coeficiente de determinação e Interprete-o.
c) Sabendo que a reta de regressão ajustada para os dados coletados é dada por 𝑌=3,41,2X, para um índice de massa
corporal X=25, determine a porcentagem de gordura corporal Y esperada. Interprete o coeficiente b.
7. Para realizar uma investigação sobre a ocorrência de anemia e infecção em uma comunidade estimamos a
concentração de hemoglobina (X), em g/dL, e a contagem de eritrócitos e leucócitos no sangue pela medida do
hematócrito (Y), em %. Conduzindo um estudo-piloto a partir dos resultados da rotina de um laboratório de
hematologia coletados de 10 pacientes obtemos:
X 11 11 12 12 14 15 15 17 18 18
Y 38 38 40 40 42 45 46 48 48 48
a) Interprete o coeficiente de correlação linear de Pearson que é r=0,98. Calcule o coeficiente de determinação e
interprete.
n X Y X2
Y2
XY
1 43 100 1.849 10.000 4.300
2 49 105 2.401 11.025 5.145
3 53 98 2.809 9.604 5.194
4 56 80 3.136 6.400 4.480
5 65 84 4.225 7.056 5.460
6 68 78 4.624 6.084 5.304
7 71 82 5.041 6.724 5.822
8 76 65 5.776 4.225 4.940
 481 692 29.861 61.118 40.645
Circunferência
da cintura (cm)
Glicose (mg/dl)
83 92
95 92
101 92
99 93
64 95
94 105
84,5 107
102 110
75 129
94 144
107 147
90 170
100 172
88,5 189
1277 1737
X 18 13 20 15 17 23 19 21
Y 20 10 25 14 15 20 17 20
70
b) Com base nos dados, a equação da reta de regressão é dada por 𝑌=221,5X. Para uma concentração de hemoglobina
X=13 g/dL, qual é a estimativa da medida do hematócrito (Y)? Interprete o coeficiente b.
8. Uma cadeia de supermercados financiou um estudo dos gastos realizados por família de quatro pessoas com renda
mensal líquida entre oito e vinte salários mínimos. A pesquisa levou a equação de regressão 𝑌= 1,2 + 0,4 X,
onde Y representa a despesa mensal estimada (através do modelo) e X a renda mensal líquida expressa em número
de salários mínimos.
a) Estime a despesa mensal de uma família com renda líquida mensal de 15 salários mínimos.
b) Interprete o coeficiente angular da equação da reta de regressão.
c) A equação em questão serve para estimar a despesa mensal de uma família de 5 pessoas com renda líquida de 12
salários mínimos? Justifique.
9. Tendo em vista o grande interesse do uso da urina nos
programas de controle e prevenção do uso de álcool e drogas
no ambiente de trabalho e nas clínicas de reabilitação, surge a
necessidade de estudos mais detalhados sobre o fator de
conversão utilizado para transformar os valores de
concentração de etanol na urina (Y) em valores de
concentração de etanol no sangue (X) e sua validade (os
valores de concentração sanguínea são calculados a partir de
concentrações urinárias e comparados com os resultados das
análises cromatográficas do sangue). Com base no gráfico de
dispersão de certa amostra (ao lado), e sabendo que o
coeficiente de correlação linear de Pearson é r = 0,85:
a) interprete o coeficiente de correlação entre as variáveis:
X: Valores de Concentração de Etanol no Sangue e
Y: Valores de Concentração de Etanol na Urina.
b) calcule e interprete o coeficiente de determinação r2
.
10. Procurando quantificar os efeitos da escassez de sono sobre a capacidade de resolução
de problemas simples, um pesquisador tomou ao acaso 10 sujeitos e os submeteu a
experimentação. Deixou-os sem dormir por diferentes números de horas, após o que
solicitou que os mesmos resolvessem os itens “contas de adicionar” de um teste. Obteve,
assim, os seguintes dados
a) Identifique a variável independente X e a variável dependente Y.
b) Com base nos dados, obteve-se o coeficiente de correlação linear de Pearson
r=0,7824. Interprete-o.
c) O coeficiente de determinação é r2
=0,6122, o que significa?
d) A equação da reta de regressão que modela o experimento é dada por
y=3,2371+0,4631x. Interprete o coeficiente de regressão b.
e) Qual é o número de erros esperado para uma pessoa que ficou sem dormir 22 horas? E
se ela ficou 36 horas sem dormir?
11. Um pesquisador deseja estudar o relacionamento entre o Índice de Massa Corporal (X), em kg/m2
, e as medidas
(somatório) das dobras cutâneas (Y), em milímetros, em alunos de certa escola pública. Um estudo piloto
observou 9 alunos e obteve os seguintes dados:
Sabendo que a equação da reta de regressão ajustada é dada por 𝒀 = −𝟐𝟏 + 𝟑, 𝟖𝑿, pede-se:
a) Interpretar o coeficiente de regressão.
b) Estimar a medida das dobras cutâneas para um índice de massa corporal igual a 23.
12. Foram selecionados aleatoriamente 14 pacientes que estão sendo pesquisados sobre a síndrome metabólica.
Dentre os dados registrados na pesquisa foram obtidos os valores das variáveis Y: circunferência da cintura (cm)
e X: glicose (mg/dL).
a) Dado que a equação de regressão obtida foi Y = 0,5 X44,6, interprete o coeficiente b;
b) Determine a medida estimada da circunferência da cintura para uma glicose de 80 mg/dL.
13. Um estudo realizado com pacientes idosos admitidos na clínica médica do Hospital Universitário de Brasília
utilizou uma amostra composta por 49 pacientes idosos, de ambos os sexos. O objetivo do estudo foi identificar
a associação entre os valores do risco de disfasia (X) e o risco nutricional dos pacientes (Y). A amostra resultou
em um coeficiente de correlação linear (r) igual a –0,61.
Número
de erros
Horas
sem
dormir
8 8
6 8
6 12
10 12
8 16
14 16
14 20
12 20
16 24
12 24
71
a) Interprete o tipo de correlação existente entre as variáveis X e Y;
b) Calcule o coeficiente de determinação e interprete o resultado.
72
REFERÊNCIAS BIBLIOGRÁFICAS
Foram utilizados fragmentos de textos e listas de exercícios de diversos livros e endereços da internet.
Dentre outros:
CRESPO, Antonio Arnot, Estatística fácil  São Paulo : Editora Saraiva, 1997.
SILVER, Mick, Estatística para Administração  São Paulo : Atlas, 2000.
STEVENSON, William J., Estatística aplicada à Administração  São Paulo :
Harper & Row do Brasil, 1981.
RESPOSTAS DE ALGUNS EXERCÍCIOS
1ª Lista – Conceitos Básicos – PÁGINA 4
1. b 2. c 3. a 4. c 5. a 6. b 7. e 8. c 9. d
10. e 11. c 12. C-N-N-D-O
2ª Lista  Amostragem - PÁGINA 11
1. d 2. c 3. b 4. a 5. e 6. c 7. c 8. d 9. b 10. b
11. d 12. b 13. e 14. e 15. a 16. b 17. d 18. a 19. a
3ª Lista – Séries e Gráficos Estatísticos - PÁGINA 21
1. d 2. a 3. d 4. b 5. d 6. c 7. c 8. e 9. c 10. a
11. b 12. c 13. d 14. c 15.c 16.geográfica/descritiva/inferencial/população/censo/temporal
17. e
4ª Lista – Distribuição de Frequências - PÁGINA 36
1. d 2. b 3. e 4. c 5. d 6. c 7. d 8. c 9. b 10. e
11. a
5ª Lista – Média, Desvio Padrão e Coeficiente de Variação - PÁGINA 47
1. b 2. a 3. d 4. d 5. d 6. d 7. b 8. a 9. a 10. c
11. b 12. c 13. e 14. c 15. c 16. c 17. e 18. d 19. d 20. a
6ª Lista – Moda - PÁGINA 53
1. c 2. e 3. d 4. a 5. a 6. d
7ª Lista – Mediana e Quartis - PÁGINA 58
1. c 2. b 3. b 4. c 5. a 6. a
7. FV
8ª Lista - Correlação e Regressão - PÁGINA 68
1. e 2. c 3. c 4. c 5. c
73
QUESTÕES DO ENADE
ENADE 2004 (GERAL)
ENADE 2004 (ED. FÍSICA)
74
ENADE 2004 (FISIOTERAPIA)
ENADE 2007 (GERAL)
75
ENADE 2007 (ENFERMAGEM)
ENADE 2007 (ENFERMAGEM)
76
ENADE (FARMACIA) 2007
77
ENADE 2007 (ENFERMAGEM)
ENADE 2007 (FISIOTERAPIA)
78
ENADE 2010 (GERAL)
79
ENADE 2010 (ED. FÍSICA) ENADE 2010 (ENFERMAGEM)
80
ENADE 2010 (ENFERMAGEM) ENADE 2010 (ENFERMAGEM)
81
ENADE 2010 (ENFERMAGEM)
82
ENADE 2013 (GERAL)
83
ENADE 2013 (ED. FÍSICA)
84
ENADE 2013 (ENFERMAGEM)
85
ENADE 2004 (ED. FÍSICA)

Apostila bioestatistica 2018

  • 1.
    Universidade Salgado deOliveira Reconhecida pela Portaria Ministerial nº 1283 de 08/09/93, publicada no D.O.U. de 09/09/93 Mantida pela Associação Salgado de Oliveira de Educação e Cultura (ASOEC) BIOESTATÍSTICA Professora Sandra Peres 2018
  • 2.
    2 Conteúdo 1 CONCEITOS BÁSICOS...............................................................................................3 2AMOSTRAGEM...........................................................................................................7 2.1 AMOSTRAGEM PROBABILÍSTICA..................................................................7 2.2 AMOSTRAGEM NÃO PROBABILÍSTICA......................................................10 3 ORGANIZAÇÃO DE DADOS EM TABELAS E GRÁFICOS ................................15 3.1 Séries estatísticas..................................................................................................15 3.2 Gráficos Estatísticos.............................................................................................17 3.3 Distribuição de Frequências.................................................................................26 3.4 Representação Gráfica das Distribuições de Frequências....................................33 4 MEDIDAS DESCRITIVAS ........................................................................................41 4.1 A MÉDIA E O DESVIO PADRÃO ....................................................................41 4.2 MODA..................................................................................................................52 4.3 MEDIANA, QUARTIS E DESVIO INTER-QUARTIL.....................................55 5 CORRELAÇÃO E REGRESSÃO ..............................................................................63 5.1 CORRELAÇÃO...................................................................................................63 5.2 REGRESSÃO LINEAR SIMPLES .....................................................................67 REFERÊNCIAS BIBLIOGRÁFICAS ..............................................................................72 RESPOSTAS DE ALGUNS EXERCÍCIOS.....................................................................72 QUESTÕES DO ENADE..................................................................................................73
  • 3.
    3 1 CONCEITOS BÁSICOS ESTATÍSTICA é um conjunto de métodos e processos quantitativos que serve para estudar e medir os fenômenos coletivos. É a ciência que estuda as técnicas necessárias para coletar, organizar, apresentar, analisar e interpretar os dados, a fim de extrair informações a respeito de uma população.  BIOESTATÍSTICA é a aplicação da estatística ao campo biológico, médico. É essencial ao planejamento, coleta, avaliação e interpretação de todos os dados obtidos em pesquisa na área da saúde. PARTES DA ESTATÍSTICA  Estatística Descritiva – é a parte da Estatística que trabalha com a organização e a apresentação dos dados.  Estatística Indutiva ou Inferência Estatística – é a parte da Estatística que trabalha com análise e interpretação dos dados, com o objetivo de obter e generalizar conclusões para a população a partir de uma amostra.  POPULAÇÃO é o conjunto de todos os elementos (pessoas ou objetos) que interessam ao estudo de um fenômeno coletivo segundo alguma característica.  AMOSTRA é qualquer subconjunto não vazio de uma população.  PARÂMETRO é uma característica numérica estabelecida para toda uma população.  ESTIMADOR é uma característica numérica estabelecida para uma amostra.  DADO ESTATÍSTICO é toda informação devidamente coletada e registrada. Todo dado se refere a uma variável.  VARIÁVEL é uma característica dos elementos de uma população ou de uma amostra, que pode assumir diferentes valores, sejam numéricos ou não, e que interessa ao estudo.  CLASSIFICAÇÃO DAS VARIÁVEIS: Ordinal Qualitativa Nominal Variável Discreta Quantitativa Contínua Variável Qualitativa: tipo de variável que não pode ser medida numericamente. Variável Qualitativa Ordinal: quando seus elementos têm relação de ordem. Exemplos: colocação (primeiro lugar, segundo lugar, etc.), conceito (ótimo, bom, regular, péssimo), estado civil (solteiro, casado, divorciado...), intensidade da dor (fraca, moderada, aguda), nível de escolaridade (fundamental, médio, graduação, mestrado...), etc. Variável Qualitativa Nominal: quando seus elementos são identificados por um nome.
  • 4.
    4 Exemplos: cor dosolhos, gênero (masculino ou feminino), ocorrência de uma doença num paciente, tipo sanguíneo, medicamento em uso, profissão, naturalidade, etc. Variável Quantitativa: tipo de variável que pode ser medida numericamente. Variável Quantitativa Discreta: tipo de variável que só pode assumir valores pertencentes a um conjunto enumerável. Normalmente seus valores estão associados a característica de contagem. Exemplos: número de filhos, número de vacinas, quantidade de pessoas infectadas pelo HIV, glóbulos brancos no sangue, etc. Variável Quantitativa Contínua: tipo de variável que pode assumir qualquer valor em um intervalo de valores. Normalmente seus valores estão associados a característica de medidas. Exemplos: altura das pessoas, peso dos recém-nascidos, idade, índice de massa corporal, custo de um dia de internação num hospital, temperatura, tempo de tratamento de um paciente, pressão arterial sistólica, etc.  CENSO é um levantamento estatístico (pesquisa) que abrange todos os elementos de uma população.  AMOSTRAGEM é o processo de obter as amostras, com a finalidade de fazer generalizações sobre a população sem precisar examinar cada um de seus elementos. Principais propriedades do Censo:  Confiabilidade 100%  Custo elevado  Lento  Nem sempre é viável Principais propriedades da Amostragem:  Confiabilidade menor que 100%  Mais barata  Mais rápida  É sempre viável ATRIBUIÇÕES DA ESTATÍSTICA DESCRITIVA-Fases do Método Estatístico  Definição do problema  O que exatamente se pretende pesquisar? Delimitar o tema.  Planejamento  Como levantar informações? Que dados deverão ser obtidos? Qual levantamento a ser utilizado? Censo? Amostragem? Qual é o cronograma de atividades? Quais são os custos envolvidos no processo?  Obtenção ou coleta de dados – normalmente feita através de um questionário ou de observação direta  Crítica, Apuração e Organização dos dados – consiste na ordenação e crítica dos dados para evitar erros que possam vir a alterar os resultados  Apresentação dos dados – através de tabelas e gráficos  Obtenção de algumas informações como médias, proporções, dispersões, índices ... que facilitam a descrição e análise dos fenômenos observados. EXERCÍCIOS - 1ª Lista - Conceitos Básicos 1. Assinale a alternativa CORRETA. A estatística subdivide-se em duas áreas: a) Discreta e contínua b) Descritiva e inferencial c) Dedutiva e indutiva d) Descritiva e referencial e) Dedutiva e inferencial 2. Assinale a alternativa CORRETA sobre o conceito de população ou universo. a) Conjunto de pessoas. b) Conjunto de pessoas apresentando uma característica especial. c) Conjunto de todos os indivíduos, objetos ou informações que apresentam pelo menos uma característica comum. d) Conjunto de observações. e) Todas as alternativas anteriores estão incorretas.
  • 5.
    5 3. Assinale aopção CORRETA. Em alguma fase de seu trabalho, o pesquisador se vê às voltas com o problema de analisar e entender uma massa de dados, relevante ao seu particular objeto de estudo. Se forem informações sobre uma amostra ou população, ele necessitará resumir os dados para que estes sejam informativos, ou para compará- los com outros resultados, ou ainda para julgar sua adequação a alguma teoria. Em sentido mais restrito, o termo ‘estatística’ é usado para: a) designar os próprios dados ou números deles derivados, métodos científicos para a coleta, organização, resumo e análise de dados. b) análise de dados do tipo descritivos. c) análise de dados do tipo analítico. d) a coleta de dados sem se preocupar com a análise de compreensão. e) As outras alternativas estão incorretas. 4. De acordo com as sentenças I, II e III, responda a alternativa CORRETA: I. O peso de uma criança é uma variável quantitativa contínua. II. A idade de uma pessoa é uma variável quantitativa discreta. III. O nível de escolaridade de um brasileiro em idade escolar é uma variável qualitativa ordinal. a) As sentenças I e II são verdadeiras b) As sentenças II e III são verdadeiras c) As sentenças I e III são verdadeiras d) Todas as sentenças são verdadeiras e) Todas as sentenças são falsas 5. Elaborou-se um formulário para medir o grau de satisfação e longevidade dos funcionários de uma clínica-escola e, de posse das informações obtidas, serão tomadas decisões para melhorais na qualidade do trabalho e atendimento. Dentre as 10 perguntas do formulário estão: A. Qual a sua idade, em anos? B. Qual o seu setor de trabalho? C. Em termos gerais, qual o seu grau de satisfação com o seu emprego? Assinale a opção CORRETA. As variáveis apresentadas nestas três perguntas são, respectivamente: a) Quantitativa contínua, qualitativa nominal, qualitativa ordinal. b) Quantitativa discreta, qualitativa nominal, qualitativa ordinal. c) Quantitativa discreta, qualitativa nominal, qualitativa nominal. d) Quantitativa contínua, qualitativa ordinal, qualitativa ordinal. e) Quantitativa contínua, qualitativa nominal, qualitativa nominal. 6. Classifique as variáveis abaixo quanto ao tipo: qualitativa (Q), quantitativa discreta (D) ou quantitativa contínua (C): I. Número de chamadas telefônicas de um consultório. II. Salário. III. Gênero (sexo). A alternativa que apresenta a ordem CORRETA é: a) C, D, Q b) D, C, Q c) D, D, Q d) C, C, Q e) Q, C, D 7. Assinale a opção CORRETA. Classifique as variáveis em qualitativa (Q), quantitativa contínua (C) ou quantitativa discreta (D). População: Variável: Pacientes do Doutor XY Tipo sanguíneo Enfermeiros do Hospital AB Anos de trabalho Associações da cidade ZT Número de assistentes sociais a) Q, C, Q b) Q, D, Q c) Q, D, D d) Q, C, C e) Q, C, D 8. Observe cada informação abaixo e identifique se a variável observada é discreta ou contínua:  Ao completar um programa de treinamento de um pré-campeonato, José da Silva pesava 5 kg menos do que no início.  Numa coleta de sangue compareceram 11 doadores.
  • 6.
    6  O consumode água no mês de agosto da família Souza foi de 30 m3 . A alternativa que apresenta a ordem CORRETA é: a) discreta, discreta, discreta b) discreta, contínua, contínua c) contínua, discreta, contínua d) contínua, contínua, contínua e) discreta, contínua, discreta 9. De acordo com as sentenças I, II e III, responda a alternativa CORRETA: I. São fases do método estatístico: definição do problema, planejamento, coleta, crítica, apuração, apresentação dos dados e análise dos resultados. II. A análise e a interpretação dos dados amostrais, associado a uma margem de incerteza pertencem à Estatística Inferencial. III. Uma variável é quantitativa contínua quando resulta de mensuração, ou seja, pode assumir qualquer valor entre dois limites. a) As sentenças I e II são verdadeiras b) As sentenças I e III são verdadeiras c) As sentenças II e III são verdadeiras d) Todas as sentenças são verdadeiras e) Todas as sentenças são falsas 10. Em Estatística, uma Variável é uma característica dos elementos de uma população ou de uma amostra, que pode assumir diferentes valores, sejam numéricos ou não, e que interessa ao estudo. Com relação à esse conceito, julgue os itens a seguir: I. Uma variável é quantitativa contínua quando resulta de mensuração, ou seja, pode assumir qualquer valor entre dois limites. II. O consumo de água mensal de uma família é uma variável quantitativa discreta. III. A idade de uma pessoa é uma variável quantitativa contínua. IV. O tipo sanguíneo dos pacientes de um hospital é uma variável qualitativa nominal. É correto apenas o que se afirma em: a) ( ) I e III b) ( ) I e IV c) ( ) II e III d) ( ) I, II e III e) ( ) I, III, e IV 11. Elaborou-se um formulário para medir o grau de satisfação e longevidade dos funcionários de uma clínica-escola e, de posse das informações obtidas, serão tomadas decisões para melhorias na qualidade do trabalho e atendimento. Dentre as 10 perguntas do formulário estão: Qual a sua idade, em anos? Qual o seu setor de trabalho? Em termos gerais, qual o seu grau de satisfação com o seu trabalho? Considerando o contexto acima, avalie as asserções a seguir e a relação proposta entre elas. I. A variável idade é classificada como quantitativa contínua, PORQUE II. As variáveis quantitativas contínuas têm seus valores associados a característica de contagem. A respeito dessas asserções, assinale a opção correta: a) ( ) As asserções I e II são proposições verdadeiras, e a II é uma justificativa correta da I. b) ( ) As asserções I e II são proposições verdadeiras, mas a II não é uma justificativa correta da I. c) ( ) A asserção I é uma proposição verdadeira, e a II é uma proposição falsa. d) ( ) A asserção I é uma proposição falsa, e a II é uma proposição verdadeira. e) ( ) As asserções I e II são proposições falsas. 12. Classifique as variáveis em: Qualitativa Nominal  N, Qualitativa Ordinal  O, Quantitativa Discreta – D, Quantitativa Contínua  C. a) ( ) Idade de um trabalhador. b) ( ) Tipo sanguíneo de um paciente. c) ( ) Setor de trabalho de um funcionário d) ( ) Número de atendimentos de emergência. e) ( ) Grau de satisfação com o seu trabalho.
  • 7.
    7 2 AMOSTRAGEM A amostragemé o estudo das relações existentes entre  a amostra,  a população de onde ela foi extraída e  a forma como ocorre esta extração. É útil na avaliação de grandezas desconhecidas da população, frequentemente denominadas parâmetros, com base no conhecimento de grandezas correspondentes das amostras, geralmente chamadas estimativas ou estatísticas (Teoria da Estimação). Também auxilia na verificação de diferenças observadas entre duas ou mais amostras (tratamentos), para verificar se estas diferenças são devidas a uma variação casual ou se são verdadeiramente relacionadas aos efeitos de tratamentos (Teoria da Decisão). Portanto, a amostragem tem por objetivo principal determinar meios e métodos para estudar as populações através de amostras. Observe que, quando obtemos informações a partir das amostras e tentamos atingir as populações, estamos realizando uma inferência. Para que as conclusões da teoria de amostragem sejam válidas, as amostras devem ser escolhidas de modo a serem representativas da população. Isso significa que a amostra deve possuir as mesmas características básicas da população, no que diz respeito à(s) variável(eis) que desejamos estudar. Desta forma, o plano de amostragem deve ser formulado para garantir esta representatividade. O plano de amostragem consiste em definir:  as unidades amostrais, isto é, as unidades selecionadas na amostragem para calcular as estatísticas,  a maneira pela qual a amostra será retirada (o tipo de amostragem), e  o próprio tamanho da amostra. As unidades amostrais podem corresponder aos próprios elementos da população, quando há acesso direto a eles, ou qualquer outra unidade que possibilite chegar até eles. Podemos, por exemplo, considerar como população os domicílios de uma cidade e que se deseje avaliar o perfil socioeconômico. A unidade amostral será cada um dos domicílios, que corresponderá aos elementos da população. Caso a unidade amostral for definida como os quarteirões, a unidade amostral não corresponderá aos elementos populacionais. Podemos ter dois tipos de amostragem, as probabilísticas e as não probabilísticas. Amostragem probabilística: quando todos os elementos da população tiveram uma probabilidade conhecida e diferente de zero de pertencer à amostra. Amostragem não probabilística: quando não se conhece a probabilidade de um elemento da população pertencer à amostra. 2.1 AMOSTRAGEM PROBABILÍSTICA A realização deste tipo de amostragem só é possível se a população for finita e totalmente acessível. A utilização de uma amostra probabilística é melhor para garantir a representatividade da amostra, pois o acaso será o único responsável por eventuais discrepâncias entre população e amostra. Estas discrepâncias são levadas em consideração nas inferências estatísticas.
  • 8.
    8  AMOSTRAGEM ALEATÓRIASIMPLES OU CASUAL Deve-se utilizar a Amostragem Aleatória Simples (AAS) somente quando a população for homogênea em relação à variável que se deseja estudar e todos os elementos da população têm a mesma probabilidade de pertencer à amostra. Geralmente, atribuímos uma numeração a cada indivíduo da população, e através de um sorteio aleatório os elementos que vão compor a amostra são selecionados. Quando o número de elementos da amostra é muito grande, esse tipo de sorteio torna-se muito trabalhoso. Neste caso utiliza-se uma Tabela de números aleatórios, construída de modo que os algarismos de 0 a 9 são distribuídos ao acaso nas linhas e colunas, como no exemplo ao lado. Na tabela de números aleatórios os dez algarismos 0,1,2, ..., 8,9, podem ser lidos isoladamente ou em grupos; podem ser lidos em qualquer ordem, como por colunas, num sentido ou noutro, por linhas, diagonalmente etc., e podem ser considerados aleatórios. A opção de leitura, porém, deve ser feita, antes de iniciado o processo. Exemplo: Para obter uma amostra representativa para a pesquisa da estatura de 90 alunos de uma escola o professor selecionará ao acaso 10 alunos. Primeiramente ele enumera os alunos de 1 a 90 e depois há duas formas dele proceder:  escrever os números dos alunos, de 1 a 90, em pedaços iguais de papel, colocar em uma urna e misturar todos os papéis. Daí retirar, um a um, dez números que formarão a amostra.  utilizar uma tabela de números aleatórios, começando, por exemplo, na primeira coluna e anotando os números com dois algarismos (entre 01 e 90) até obter a amostra com 10 números distintos.  AMOSTRAGEM SISTEMÁTICA Em algumas situações, quando os elementos da população se apresentam ordenados, é conveniente retirar os elementos que vão compor a amostra de forma cíclica (em períodos). Quando os elementos da população já se acham ordenados, não há necessidade de construir o sistema de referência. São exemplos os prontuários médicos de um hospital, os prédios de uma rua, etc. Porém, é de fundamental importância que a variável de interesse não apresente ciclos de variação coincidente com os ciclos de retirada, pois este fato tornará a amostragem não aleatória. Geralmente, toma-se o tamanho da população N e divide-se pelo tamanho da amostra n encontrando-se assim a constante K que servirá como o ciclo de repetição da retirada. Após a definição do valor de K, sorteia-se o ponto inicial da amostragem, ou seja, um dos elementos do primeiro intervalo constituído pelos elementos populacionais numerados de 1 até K. Escolhesse o seguinte, que será o elemento de ordem (i + K); e assim por diante, sempre somando-se K à ordem do elemento anterior, até completar a escolha dos n elementos que vão compor a amostra. Exemplo: Suponha que se queira retirar uma amostra de currículos apresentados para um processo seletivo, e a variável de interesse corresponde à idade dos candidatos. Pode ocorrer que pessoas de uma determinada faixa etária deixem para entregar o currículo no último dia. Então, se pegássemos os currículos de forma aleatória, poderíamos estar subestimando ou superestimando a idade média. Nesta situação, os 500 currículos recebidos podem ser ordenados por ordem alfabética. Deseja- se amostrar 50 currículos para estimar a idade média dos candidatos. Supondo que as idades estejam aleatoriamente distribuídas na população, ou seja, sem qualquer ciclo de repetição utiliza-se a técnica de amostragem sistemática. Primeiramente, deve-se enumerar a população de 1 a 500 e calcular a constante (K) que servirá como fator de ciclo para retirada dos currículos amostrados. Neste caso, vamos dividir os 500 currículos pelo tamanho da amostra (50) que se deseja trabalhar. Teremos uma constante igual a 10, e os elementos serão amostrados a cada dez elementos. Os espaços entre os números são apenas para facilitar a leitura, mas os números podem ser lidos comaquantidadedealgarismosquesequeira
  • 9.
    9  AMOSTRAGEM ESTRATIFICADA Quandoa variável de interesse apresenta uma heterogeneidade na população e esta heterogeneidade permite a identificação de grupos homogêneos, dividi-se a população em grupos (estratos) e faz-se uma amostragem dentro de cada estrato, garantindo, assim, a representatividade de cada estrato na amostra. Como estamos dividindo a população em estratos (grupos) que são homogêneos dentro de si, podemos, então, caracterizar a amostragem estratificada. Para efetuarmos a amostragem estratificada de forma proporcional, precisamos primeiramente definir a proporção do estrato em relação à população. Exemplo: Podemos verificar que pesquisas eleitorais apresentam uma grande heterogeneidade em relação à intenção de votos, quando consideramos, por exemplo, a faixa salarial ou o nível de escolaridade. Então, se fizéssemos uma amostragem aleatória simples, poderíamos incluir na amostra uma maior quantidade de elementos de um grupo, e, proporcionalmente, este grupo é pequeno em relação à população. Desta forma, não teríamos uma amostra representativa da população a ser estudada. Então, podemos dividir a população em grupos (estratos) que são homogêneos para a característica que estamos avaliando, ou seja, neste caso, a intenção de votos.  AMOSTRAGEM POR CONGLOMERADOS Apesar de a amostragem estratificada apresentar resultados satisfatórios, a sua implementação é dificultada pela falta de informações sobre a população para fazer a estratificação. Para poder contornar este problema, você pode trabalhar com o esquema de amostragem chamado amostragem por conglomerados (clusters). Os conglomerados são definidos em função da experiência do gestor ou pesquisador. Geralmente, podemos definir os conglomerados por fatores geográficos, como por exemplo, bairros e quarteirões. A utilização da amostragem por conglomerados possibilita uma redução significativa do custo do processo de amostragem. Portanto, um conglomerado é um subgrupo da população, que individualmente reproduz a população, ou seja, individualmente os elementos que o compõem são muito heterogêneos entre si. Este tipo de amostragem é muito útil quando a população é grande, por exemplo, no caso de uma pesquisa em nível nacional. Conglomerados podem ser formados por: quarteirões; ruas (face dos quarteirões); departamentos; prateleiras; caixas; lotes de produtos; etc... Para efetuarmos a amostragem por conglomerados, primeiramente definimos o conglomerado e assim dividimos a população nos conglomerados. Sorteamos os conglomerados por meio de um processo aleatório e avaliamos todos os indivíduos presentes no conglomerado, que é chamado de amostragem por conglomerados em um estágio. Caso façamos um sorteio de elementos dentro de cada conglomerado, teremos uma amostragem por conglomerados em dois estágios. Exemplo: Estudo sobre a percepção social dos problemas de quantidade, qualidade e custo dos recursos hídricos em certa cidade. Definindo-se os quarteirões como sendo os conglomerados:  em 1 estágio: Uma A.A.S. é aplicada para a seleção de uma amostra aleatória de quarteirões, e o questionário é aplicado a todos os domicílios dos quarteirões selecionados.  em 2 estágios: - no 1º. estágio: aplica-se uma A.A.S. para se selecionar uma amostra de quarteirões; - no 2º. estágio: dentre os quarteirões selecionados no 1º. estágio, sorteia-se uma amostra aleatória de domicílios que efetivamente participarão da amostra.
  • 10.
    10 2.2 AMOSTRAGEM NÃOPROBABILÍSTICA Quando trabalhamos com a amostragem não probabilística, não conhecemos a priori a probabilidade que um elemento da população tem de pertencer à amostra. Neste caso, não é possível calcular o erro decorrente da generalização dos resultados das análises estatísticas da amostra para a população de onde a amostra foi retirada. Utilizamos, geralmente, a amostragem não probabilística por simplicidade ou por impossibilidade de se obter uma amostra probabilística, como seria desejável, ou ainda, quando somos obrigados a colher a amostra na parte da população a que temos acesso.  AMOSTRAGEM A ESMO OU ACIDENTAL Trata-se de uma amostra formada por aqueles elementos que vão aparecendo, que são possíveis de se obter até completar o número de elementos da amostra. Geralmente utilizada em pesquisas de opinião, em que os entrevistados são acidentalmente escolhidos. Exemplo: Imagine uma caixa com 1.000 comprimidos. A enumeração destes comprimidos ficaria muito difícil, e a amostragem aleatória simples se torna inviável. Então, em situações deste tipo, supondo que a população de comprimidos seja homogênea, escolhemos a esmo a quantidade relativa ao tamanho da amostra. Quanto mais homogênea for a população, mais podemos supor a equivalência com uma AAS. Desta forma, os comprimidos serão escolhidos para compor a amostra de um determinado tamanho sem nenhuma norma ou a esmo. Daí vem o nome deste tipo de amostragem. Outros exemplos: Pesquisas de opinião em praças públicas, ruas movimentadas de grandes cidades etc.  AMOSTRAGEM INTENCIONAL A amostragem intencional corresponde àquela em que o amostrador deliberadamente escolhe certos elementos para pertencer à amostra, por julgar tais elementos bem representativos da população. Um exemplo deste tipo de amostragem corresponde à situação em que se deseja saber a aceitação em relação a uma nova marca de whisky a ser inserida no mercado de uma cidade. Somente entrarão para compor a amostra pessoas que façam uso da bebida e que tenham condições financeiras de comprar esta nova marca (classe social de maior poder aquisitivo).  AMOSTRAGEM POR COTAS Neste tipo de amostragem, a população é dividida em grupos, e seleciona-se uma cota proporcional ao tamanho de cada grupo. Entretanto, dentro de cada grupo não é feito sorteio, e sim os elementos são procurados até que a cota de cada grupo seja cumprida. Em pesquisas eleitorais, a divisão de uma população em grupos (considerando, por exemplo, o sexo, o nível de escolaridade, a faixa etária e a renda) pode servir de base para a definição dos grupos, partindo da suposição de que estas variáveis definem grupos com comportamentos diferenciados no processo eleitoral. Para se ter uma ideia do tamanho destes grupos, pode-se recorrer a pesquisas feitas anteriormente pelo IBGE (Instituto Brasileiro de Geografia e Estatística).
  • 11.
    11 EXERCÍCIOS - 2ªLista - Amostragem 1. Assinale a opção CORRETA: a) Parâmetros são medidas características de grupos, determinadas por meio de uma amostra aleatória. b) Uma população só pode ser caracterizada se forem observados todos os seus componentes. c) A estatística descritiva compreende as técnicas por meio das quais são tomadas decisões sobre uma população com base na observação de uma amostra. d) O processo utilizado para se medir as características de todos os membros de uma dada população recebe o nome de censo. e) A estatística inferencial compreende um conjunto de técnicas destinadas à síntese dos dados numéricos. 2. Assinale a alternativa CORRETA. Não é exemplo de amostragem probabilística a: a) Amostragem aleatória simples; b) Amostragem sistemática; c) Amostragem por cotas; d) Amostragem estratificada; e) Amostragem por conglomerados. 3. Numa pesquisa verificou-se que a população divide-se em 140 pessoas adultas, 80 crianças e 50 pessoas idosas. Para retirar-se uma amostra de 10% dessa população o tipo de amostragem mais adequado é: a) amostragem por conglomerados b) amostragem estratificada c) amostragem intencional d) amostragem por cotas e) censo 4. De acordo com as sentenças I, II e III, responda a alternativa CORRETA: I. Na amostragem probabilística os tipos utilizados com maior frequência são Amostragem Aleatória; Amostragem Sistemática; Amostragem Estratificada. II. Na amostragem não probabilística estão os procedimentos, tais como: amostras intencionais, onde os elementos são selecionados com o auxílio de especialistas e amostras de voluntários. III. A principal vantagem da amostragem não-probabilística é de poder medir o erro amostral e consequentemente a precisão da amostra obtida, baseando-se nos resultados contidos na própria amostra. a) As sentenças I e II são verdadeiras; b) As sentenças II e III são verdadeiras; c) As sentenças I e III são verdadeiras; d) Todas as sentenças são verdadeiras; e) Todas as sentenças são falsas. 5. Com respeito à Amostragem é CORRETO afirmar que: a) Na amostragem intencional é escolhida uma amostra formada por elementos que vão aparecendo, que são possíveis de se obter até completar os elementos da amostra. b) Na amostragem por cotas, a população é dividida em extratos ou subconjuntos da população. c) Na amostragem estratificada os dados são geralmente mais heterogêneos dentro de cada estrato do que na população como um todo. d) Uma amostra pode ser selecionada de qualquer maneira a fim de garantir a menor margem de erro na pesquisa. e) O método não-probabilístico consiste na escolha deliberada dos elementos da amostra. 6. De acordo com as sentenças I, II e III, responda a alternativa CORRETA: I. As amostras obtidas por seleção aleatória são ditas probabilísticas. II. O tamanho da amostra deve sempre ser estabelecido em 10% do tamanho total da população. III. A amostra casual simples é composta de elementos retirados por sorteio da população. a) As sentenças I e II são verdadeiras; b) As sentenças II e III são verdadeiras; c) As sentenças I e III são verdadeiras; d) Todas as sentenças são verdadeiras; e) Todas as sentenças são falsas.
  • 12.
    12 7. Analise asduas situações descritas a seguir:  Deseja-se recolher uma amostra de 20% da população dos doentes de gonorréia diagnosticados numa clínica de DST. Sorteia-se um valor de 1 a 5. Se o sorteado for o 2, incluem-se na amostra o paciente 2, o 7, o 12 e assim por diante de cinco em cinco.  Deseja-se recolher uma amostra de 20% da população de pacientes com depressão profunda. A população é composta por 40% de homens e 60% de mulheres. Separam-se os dois grupos e sorteiam-se 20 homens e 30 mulheres . Assinale a alternativa CORRETA. Podemos afirmar que, em relação ao tipo de amostragem, a) ambas as situações são amostragem sistemática b) ambas as situações são amostragem estratificada c) a 1ª e sistemática e a 2ª é estratificada d) a 1ª é estratificada e a 2ª é sistemática e) nenhuma das anteriores 8. Assinale a alternativa CORRETA: a) O tamanho da amostra deve ser tomado como um percentual do tamanho da população para ser representativa; b) Para populações infinitas deve-se fazer o censo; c) Utilizam-se as técnicas de amostragem toda vez que é necessário o resultado exato da pesquisa; d) Na amostragem por cotas deve-se classificar a população em termos de propriedades que se sabe, serem relevantes para a característica a ser estudada. e) Na amostragem estratificada os dados são geralmente mais heterogêneos dentro de cada estrato do que na população como um todo; 9. Assinale a alternativa CORRETA: A amostragem estratificada: a) É equivalente a um sorteio. b) É utilizada quando uma população é heterogênea quanto ao estudo a ser realizado, porém pode-se dividir a população em subpopulações homogêneas. c) É o mesmo que Amostragem Sistemática. d) Também é conhecida como Amostragem por Conglomerados. e) é um tipo de amostragem não-probabilística. 10. Identifique o item CORRETO: a) A amostragem sistemática é usada quando os elementos da população se acham desordenados. b) A amostragem aleatória simples é o processo de amostragem mais utilizado. c) Não devemos utilizar a tabela de números aleatórios quando o número de elementos da amostra é muito grande. d) A amostragem sistemática é o processo de amostragem mais utilizado. e) Quando a população se divide em estratos devemos usar a amostragem sistemática. 11. Quanto ao uso e importância das estatísticas de saúde, conceitos e interpretações, assinale a alternativa INCORRETA: a) O objetivo da estatística de saúde é fornecer dados dos níveis de saúde da população que auxiliarão na elaboração de programas de saúde, implementações e avaliações. b) Por meio da estatística pode-se analisar o perfil clínico-epidemiológico dos casos de meningite das crianças internadas em um hospital público e os fatores associados à evolução hospitalar. c) Quando se estuda uma variável, o maior interesse do pesquisador é conhecer a distribuição dessa variável através das possíveis realizações ou valores assumidos pela mesma. d) Para conhecer a frequência da desnutrição como causa de morte na população idosa deve-se realizar um censo. e) A estatística descritiva é a coleta, a organização, a descrição, o cálculo, a análise e interpretação dos dados de um conjunto conhecido. 12. Na amostragem, os métodos não-probabilísticos são aqueles nos quais há uma escolha deliberada dos elementos da amostra. São exemplos de amostragens não-probabilísticas: a) Amostragem acidental e amostragem sistemática b) Amostragem intencional e amostragem por cotas c) Amostragem por conglomerados e amostragem casual d) Amostragem por cotas e amostragem estratificada e) Amostragem por cotas e amostragem por conglomerados
  • 13.
    13 13. (FGV –Senado Federal – 2008) A respeito dos principais tipos de amostragem, é correto afirmar que: a) a amostragem sistemática possui caráter não-probabilístico. b) na amostragem aleatória estratificada há a possibilidade de que nenhuma unidade de um ou mais estratos sejam selecionadas. c) as informações obtidas através de uma amostragem acidental permitem a obtenção de inferências científicas de características da população. d) na amostragem de conglomerados todos os conglomerados são sempre selecionados. e) a amostragem estratificada é geralmente mais eficiente do que a amostragem aleatória simples de mesmo tamanho. 14. Assinale a alternativa CORRETA: A amostragem intencional: a) É equivalente a um sorteio. b) É utilizada quando uma população é heterogênea quanto ao estudo a ser realizado, porém pode-se dividir a população em subpopulações homogêneas. c) É o mesmo que Amostragem Sistemática. d) Também é conhecida como Amostragem por Conglomerados e) É um tipo de amostragem não-probabilística. 15. Um pesquisador quer estudar os efeitos da falta de sono nas habilidades motoras. Dezoito pessoas foram voluntárias para o experimento: Sérgio, Ana Clara, Caroline, Bruno, Herivelto, Pio, Andréia, Elivânia, Daucy, Amarildo, Selmo, Nazareth, Jackie, Patrícia, Hector, Victor Hugo, João e José. Foi utilizado um gerador de números aleatórios para a escolha de nove sujeitos para o grupo de tratamentos. Os outros nove irão para o grupo de controle. Identifique qual a técnica de amostragem mais adequada a ser utilizada neste estudo: a) Amostragem Aleatória Simples. b) Amostragem Aleatória Sistemática. c) Amostragem Aleatória Estratificada. d) Amostragem Aleatória por Conglomerados. e) Amostragem Intencional. 16. O quadro abaixo representa o número de fumantes que trabalham no hospital “Boa Saúde”: Sexo Nº de fumantes Masculino 89 Feminino 61 Deseja-se obter uma amostra estratificada de 30% da população de fumantes. Marque a alternativa CORRETA para os respectivos estratos (sexo masculino e sexo feminino): a) 18 e 21 b) 27 e 18 c) 21 e 18 d) 27 e 21 e) 21 e 27 17. Há dois tipos de amostragem, as probabilísticas e as não-probabilísticas. A amostragem é probabilística quando todos os elementos da população tiveram uma probabilidade conhecida e diferente de zero de pertencer à amostra. A amostragem é não-probabilística quando não se conhece a probabilidade de um elemento da população pertencer à amostra. Considerando as definições acima, avalie as asserções a seguir e a relação proposta entre elas. III. A amostragem por cotas é exemplo de amostragem probabilística PORQUE IV. Na amostragem por cotas deve-se classificar a população em termos de propriedades que se sabe, serem relevantes para a característica a ser estudada e os elementos são procurados até que a cota de cada grupo seja cumprida. A respeito dessas afirmações, assinale a opção correta: a) ( ) As afirmações I e II são proposições verdadeiras, e a II é uma justificativa correta da I. b) ( ) As afirmações I e II são proposições verdadeiras, mas a II não é uma justificativa correta da I. c) ( ) A afirmação I é uma proposição verdadeira, e a II é uma proposição falsa. d) ( ) A afirmação I é uma proposição falsa, e a II é uma proposição verdadeira. e) ( ) As afirmações I e II são proposições falsas.
  • 14.
    14 18. Há doistipos de amostragem, as probabilísticas e as não-probabilísticas. A amostragem é probabilística quando todos os elementos da população tiveram uma probabilidade conhecida e diferente de zero de pertencer à amostra. A amostragem é não-probabilística quando não se conhece a probabilidade de um elemento da população pertencer à amostra. Considerando as definições acima, avalie as asserções a seguir e a relação proposta entre elas. I. A amostragem intencional é exemplo de amostragem não-probabilística PORQUE II. Neste tipo de amostragem estão os procedimentos onde os elementos são selecionados com o auxílio de especialistas e amostras de voluntários. A respeito dessas afirmações, assinale a opção correta: a) ( ) As afirmações I e II são proposições verdadeiras, e a II é uma justificativa correta da I. b) ( ) As afirmações I e II são proposições verdadeiras, mas a II não é uma justificativa correta da I. c) ( ) A afirmação I é uma proposição verdadeira, e a II é uma proposição falsa. d) ( ) A afirmação I é uma proposição falsa, e a II é uma proposição verdadeira. e) ( ) As afirmações I e II são proposições falsas. 19. A amostragem é o estudo das relações existentes entre a amostra, a população de onde ela foi extraída e a forma como ocorre esta extração. É útil na avaliação de grandezas desconhecidas da população, denominadas parâmetros, com base no conhecimento de grandezas correspondentes das amostras, geralmente chamadas estimativas. Com relação a esse conceito, julgue os itens a seguir: I. Uma amostragem é dita não-probabilística quando não se conhece a probabilidade de um elemento da população pertencer à amostra. II. Na Amostragem Intencional é escolhida uma amostra formada por elementos que vão aparecendo, que são possíveis de se obter até completar os elementos da amostra. III. A Amostragem por Conglomerados é um exemplo de amostragem probabilística. IV. O tamanho da amostra deve sempre ser estabelecido em 10% do tamanho total da população. É correto apenas o que se afirma em: a) ( ) I e III b) ( ) I e IV c) ( ) II e III d) ( ) I, II e III e) ( ) I, III, e IV
  • 15.
    15 3 ORGANIZAÇÃO DEDADOS EM TABELAS E GRÁFICOS Objetivo: apresentar resumidamente, de maneira clara e precisa, um conjunto de dados estatísticos.  ELEMENTOS DAS TABELAS Título – texto conciso, indicador do conteúdo de uma tabela. Localizado no topo da tabela, responde às perguntas: O quê? Quando? Onde? Cabeçalho – parte superior da tabela que especifica o conteúdo das colunas. Coluna Indicadora – parte da tabela que especifica o tipo de informação que cada linha contém. Corpo – conjunto de linhas e colunas que contém informações sobre a variável em estudo. Cada cruzamento de uma linha com uma coluna constitui uma casa ou célula. Fonte – identificador do responsável (pessoa física ou jurídica) pelo fornecimento dos dados. Não se indica a fonte no caso em que a tabela é apresentada pelo próprio pesquisador, ou pelo próprio grupo de pesquisadores, ou pela própria instituição que obteve os dados. É inscrita na primeira linha do rodapé (parte inferior da tabela) e deve ser precedida da palavra Fonte:. Notas – são informações de natureza geral que servem para esclarecer o conteúdo das tabelas ou para explicar o método utilizado no levantamento dos dados. As notas são colocadas logo após a fonte. Chamadas – são informações de natureza específica que servem para explicar ou conceituar determinados dados. As chamadas são inscritas no rodapé após a Fonte e as Notas. Exemplo de tabela: Proporção de pessoas que costumam procurar o mesmo lugar, médico ou serviço de saúde, quando precisam de atendimento de saúde (%) Centro-Oeste – 2013 Título Coluna Indicadora Unidades da Federação Avaliação do estado de saúde CabeçalhoBom e Muito bom Regular Ruim e Muito ruim Mato Grosso do Sul 86.6 85.6 91.4 Mato Grosso 79.8 77.9 79.1 Casa ou célula Goiás 72.6 70.4 73.6 Distrito Federal 65.2 64.9 69.1 Corpo Rodapé Fonte: IBGE, Diretoria de Pesquisas, Coordenação de Trabalho e Rendimento, Pesquisa Nacional de Saúde 2013. Publicado em 13/04/2017 e Atualizado em 02/02/2018 3.1 Séries estatísticas SÉRIE ESTATÍSTICA é toda tabela que apresenta a distribuição de um conjunto de dados estatísticos em função do tempo, do local ou do fenômeno. Tabelas apresentando variáveis qualitativas. Tipos Básicos de Séries:  Temporal, Cronológica ou Histórica  Geográfica, Territorial ou de Localização  Categórica ou Específica
  • 16.
    16  SÉRIE TEMPORAL Usadapara apresentar dados observados em determinado local, discriminados ao longo do tempo. Exemplo 1: Expectativa de vida aos 65 anos Brasil - 1940/2016 Ano Número de anos 1940 10,6 1950 10,8 1960 11,4 1970 12,1 1980 13,1 1991 15,4 2000 15,8 20’0 17,6 2014 18,3 2016 18,5 Fonte: IBGE 1940 1950,1960 e 1970 - Tábuas construídas no âmbito da Gerência de Estudos e Análises da Dinâmica Demográfica. 1980 e 1991 - ALBUQUERQUE, Fernando Roberto P. de C. e SENNA, Janaína R. Xavier “Tábuas de Mortalidade por Sexo e Grupos de Idade - Grandes e Unidades da Federação – 1980, 1991 e 2000”. Textos para discussão, Diretoria de Pesquisas, IBGE, Rio de Janeiro, 2005.161p. ISSN 1518-675X ; n. 20. 2000 em diante - IBGE/Diretoria de Pesquisas. Coordenação de População e Indicadores Sociais. Gerência de Estudos e Análises da Dinâmica Demográfica. Projeção da população do Brasil por sexo e idade para o período 2000-2060.  SÉRIE GEOGRÁFICA Usada para apresentar dados de diferentes regiões geográficas, em determinado tempo. Exemplo 2: ÓBITOS POR NEOPLASIAS MALIGNAS Brasil – 2009 Regiões Quantidade (por 100 mil habitantes) Norte 46,7 Nordeste 66,2 Sudeste 102,8 Sul 121,1 Centro-Oeste 73,2 Fonte: Ministério da Saúde/Indicadores e Dados Básicos-Brasil-2010 O Instituto do Câncer (Inca) é o órgão de referência Técnica nacional para uso do indicador  SÉRIE CATEGÓRICA Usada para apresentar dados que se distribuem em diferentes categorias, em determinado tempo e local. Exemplo 3: Número de Matriculas de Graduação no ensino a distância das IES, no Ensino Público - Brasil – 2016 Organização Acadêmica Quantidade Universidade 109684 Centro Universitário 0 Faculdade 4108 IF e CEFET 8809 Fonte: MEC/Inep; Tabela elaborada por Inep/Deed
  • 17.
    17  SÉRIES MISTASOU CONJUGADAS Também chamada tabela de dupla entrada. É usada quando são feitas combinações de duas ou mais séries. Exemplo 4: Valor exportado por Microempresas Brasileiras 1998/2010 Importadores 1998 2004 2009 2010 Mercosul 34,1 29,1 35,6 41,8 ALADI (exclusive Mercosul) 17,0 22,9 28,1 30,9 União Europeia 19,5 32,9 32,9 30,6 Estados Unidos e Canadá 13,2 22,1 22,2 24,2 Ásia-Pacífico 6,6 8,6 12,7 14,3 Demais Países 8,8 17,4 27,1 26,8 Total 99,2 133,0 158,6 168,6 Fontes: SECEX/MDIC, RAIS/MET e IBGE (PIA e Cadastro Central de Empresas) Valores em milhões de dólares 3.2 Gráficos Estatísticos Como representação gráfica das séries estatísticas os gráficos produzem uma visão mais rápida e viva do fenômeno em estudo, ajudando a visualizar as tendências e a interpretar os valores representativos deste fenômeno. Dados estatísticos estão mais presentes em nosso cotidiano do que imaginamos. O desempenho de um time de futebol no campeonato, dados sobre a economia, informações demográficas e pesquisas eleitorais costumam aparecer na mídia ilustradas em gráficos e tabelas. Esta é a estatística descritiva, que utiliza números para descrever fatos, que compreende a coleta, a organização, o resumo e a simplificação de informações que podem ser muito complexas. Em geral, as questões que envolvem gráficos exploram as razões, proporções, cálculos de porcentagem e interpretação dos dados. O primeiro passo para a interpretação dos dados de um gráfico é identificar qual o tipo de representação utilizada naquela pesquisa, pois dependendo da informação que se deseja apresentar, um gráfico é mais indicado que outro. Depois da interpretação inicial, deve-se retirar do gráfico os dados numéricos apresentados e realizar o que o enunciado pede. Em geral, nesse tipo de situação, não é necessário fazer cálculos muito complicados, mas é preciso tomar cuidado com os dados do gráfico e também saber quais fórmulas deverão ser aplicadas na resolução. Muitas vezes os principais cálculos solicitados são os de média aritmética e desvio-padrão ou cálculos de razão, proporção e porcentagem que podem ser resolvidos com uma regra de três simples. Requisitos Fundamentais na Representação Gráfica:  O gráfico deve ser simples, claro e deve expressar a verdade sobre o fenômeno em estudo;  Todo gráfico deve ter título e escala, para que possa ser interpretado sem que haja necessidade de esclarecimentos adicionais no texto;  O título do gráfico pode ser escrito acima ou abaixo do gráfico. O IBGE escreve o título acima do gráfico. A escala deve iniciar-se na origem do sistema de eixos cartesianos. Quando os valores iniciais dos dados são muito altos, deve ser feita uma interrupção no eixo, com indicação clara da posição do zero;  As variáveis devem ser claramente identificadas;  O sistema de eixos cartesianos e as linhas auxiliares devem ter traçado mais leve do que a parte do gráfico que se pretende evidenciar. Para facilitar a leitura, podem ser feitas linhas auxiliares. Nesses casos, o gráfico é feito dentro de um retângulo.
  • 18.
    18 Principais Tipos deGráficos:  Cartogramas  Pictogramas  Diagramas  CARTOGRAMAS: São representações através de mapas (cartas geográficas). Este gráfico é empregado quando o objetivo é o de relacionar os dados estatísticos diretamente com áreas geográficas ou políticas (Figura à direita). A confecção de cartogramas é a área da cartografia temática. Cartogramas são mapas esquemáticos, com elevado nível de abstração, em que formas ou localizações reais são estilizadas com fins conceituais e informativos. Exemplo 1:  PICTOGRAMAS: É a representação gráfica através de figuras. Por se tratar de uma apresentação atraente, é um gráfico que desperta muito a atenção do leitor. (Figuras abaixo) Exemplo 2:  DIAGRAMAS: São gráficos geométricos construídos, em geral, no sistema cartesiano. Principais Diagramas: Gráfico em Linha, Gráfico em Colunas, Gráfico em Barras, Gráfico em Colunas ou em Barras Múltiplas e Gráfico em Setores.
  • 19.
    19  GRÁFICO EMLINHA Usado para apresentar as séries temporais. Representado num sistema de coordenadas cartesianas, cada par de valores da série corresponde a um ponto. Estes pontos são unidos por segmentos de reta. Exemplo 3: GASTO FEDERAL COM SAÚDE COMO PROPORÇÃO DO PIB 2000-2009 ANOS Percentual/PIB 2000 0,87 2001 0,81 2002 0,75 2003 0,67 2004 0,54 2005 0,48 2006 0,52 2007 0,47 2008 0,46 2009 0,60 FONTE: IBGE  GRÁFICO EM COLUNAS Usado para representar as séries temporais, geográficas e categóricas. Representado por meio de retângulos de mesma base, dispostos verticalmente (em colunas). Exemplo 4:  GRÁFICO EM BARRAS Usado para representar as séries geográficas e categóricas. Representado por meio de retângulos dispostos horizontalmente (em barras). Exemplo 5: Famílias residentes em domicílios particulares permanentes 2011 ESTADOS Famílias ( 1000) Norte 4.832 Nordeste 17.001 Sudeste 27.904 Sul 9.695 Centro-Oeste 4.926 FONTE: IBGE, Pesquisa Nacional por Amostra de Domicílios 2001/2011 Sempre que os dizeres a serem inscritos forem extensos, deve-se dar preferência ao gráfico em barras (séries geográficas e específicas). LEITOS EM HOSPITAIS PÚBLICOS – 2009 ESTADO Quantidade (leito/1000 habitantes) Bahia 0,9 Distrito Federal 1,39 Espírito Santo 0,58 Goiás 0,87 Minas Gerais 0,55 Paraná 0,61 Rio de Janeiro 1,04 São Paulo 0,58 Tocantins 1,65 FONTE: IBGE, Pesquisa de Assistência Médico-Sanitária
  • 20.
    20  GRÁFICO EMCOLUNAS OU EM BARRAS MÚLTIPLAS Usado para representar as séries conjugadas. Exemplo 6: BALANÇA COMERCIAL DO BRASIL 2006 – 2010 ESPECIFICAÇÕES VALOR (US$ 1.000.000) 2006 2007 2008 2009 2010 Exportação 137.470 160.649 197.942 152.995 201.915 Importação 201.915 120.621 173.197 127.722 181.649 FONTE: Ministério de Desenvolvimento Indústria e Comércio Exterior  GRÁFICO EM SETORES Construído com base em um círculo, este gráfico é usado para comparar proporções. Exemplo 7: REBANHO SUÍNO DO SUDESTE DO BRASIL 2009 ESTADOS QUANTIDADE (mil cabeças) Minas Gerais 4.640 Espírito Santo 263 Rio de Janeiro 150 São Paulo 1.639 Total 6.692 FONTE: IBGE IMPORTANTE: Para clareza dos dados, deve-se usar no máximo sete setores. Apesar de existirem diversos tipos de gráficos, nem todos eles podem ser usados em qualquer situação. Justamente por isso, entender as motivações, ou os porquês destas escolhas, é fundamental para evitar confusões e erros na interpretação dos dados.
  • 21.
    21 Dicas para Lere Interpretar Gráficos: Agora que já sabemos o que são e como são, vamos ver o que pode nos ajudar na leitura e interpretação. Ao analisar um gráfico, devemos verificar com que tipo de gráfico estamos lidando e levar em consideração que ele está fazendo uso de duas grandezas. Dessa forma, resta-nos analisá-las para que, junto a uma cuidadosa leitura do enunciado, consigamos resolver a questão. 1. Confira se as informações do gráfico batem com as do enunciado do exercício Muitas vezes esquecemos de nos atentar a essa parte e seguimos direto para o gráfico. O enunciado pode ter informações complementares que vão facilitar muito a resolução da questão. Portanto, leia sempre e circule as informações principais. 2. Entenda qual tipo de informação está destacada no eixo vertical e qual está no eixo horizontal Antes de analisar alguma informação, precisamos entender o gráfico como um todo 3. Interprete com calma, pois geralmente as questões são contextualizadas Em geral, a apresentação gráfica é abordada de forma contextualizada, de modo que o entendimento do contexto apresentado facilita a resolução. Em geral, a interpretação de gráficos não requer conhecimentos de fórmulas matemáticas ou exige grandes cálculos. Em provas, avaliações e concursos, o objetivo é observar se além de utilizar informações expressas em gráficos, o estudante/candidato sabe como resolver problemas com essas informações e consegue analisá-las a fim de construir argumentos, utilizando assim conhecimentos relacionados à Estatística. EXERCÍCIOS - 3ª Lista - Séries e Gráficos Estatísticos 1. Assinale a afirmação INCORRETA: a) Uma população estatística é um conjunto de indivíduos (objetos ou pessoas) que apresentam pelo menos uma característica em comum. b) A estatística descritiva ocupa-se da descrição dos dados do grupo estudado. c) Censo é o nome dado às pesquisas estatísticas feitas numa população. d) Uma das principais características da Amostragem é ser 100% confiável. e) Uma série estatística apresentada em função da época é chamada série estatística temporal. 2. Assinale a opção CORRETA. A série estatística apresentada ao lado é: a) Temporal b) Específica c) Geográfica d) Temporal e volumétrica e) Categórica e histórica 3. Assinale a afirmativa INCORRETA: a) Os gráficos são representações visuais dos dados estatísticos e não substituem as tabelas. b) Os gráficos, se mal elaborados podem trazer uma ideia falsa dos dados que estão sendo analisados, chegando mesmo a confundir o leitor. c) Os gráficos são figuras autoexplicativas, de preferência com comentários inseridos, apresentados em forma de cartogramas, diagramas e pictogramas e que auxiliam na tomada de decisões. d) As séries temporais geralmente são representadas por gráficos de setores. e) O gráfico de barras às vezes é usado para séries geográficas. Consumo de água das clínicas XY 2005-2007 ANOS VOLUME (1.000 m3 ) 2005 3.267,7 2006 9.723,1 2007 5.121,3 Fonte: fictícia
  • 22.
    22 4. A tabelaabaixo representa as frequências dos 36 empregados da seção de empacotamento da empresa farmacêutica COM Primido segundo o grau de instrução. Grau de instrução Número de empregados Fundamental 12 Médio 18 Superior 6 Total 36 Esta tabela representa uma série: a) geográfica b) específica c) temporal d) quantitativa e) qualitativa 5. O esquema abaixo indica as partes de uma tabela. Assinale a opção CORRETA. Se na coluna indicadora a variável apresentada forem os meses do ano, classificamos a tabela como: a) Série específica b) Série mensal c) Série categórica d) Série temporal e) Série geográfica 635 1014 137 168 822 9540 116 24 13261330 1293 0 200 400 600 800 1000 1200 1400 Pediátrica Médica Obstétrica Cirúrgica Particulares SUS Outros Convênios NÚMERO DE PACIENTES INTERNADOS NO HOSPITAL ABC, POR TIPO DE CLÍNICA E POR TIPO DE CONVÊNIO 2007 FONTE: Dados Fictícios
  • 23.
    23 6. O gráficoacima representa uma tabela de contingência (i.e. representa duas variáveis categóricas simultaneamente). No gráfico são dadas informações dos 7.000 pacientes internados no Hospital ABC no ano de 2007. Com base no gráfico assinale a alternativa CORRETA: a) Em relação às internações pelo SUS, o número de pacientes atendidos em clínica Cirúrgica é o dobro do número de pacientes atendidos em clínica Pediátrica. b) O número de pacientes atendidos pelo SUS é maior que o dobro de pacientes atendidos por outros convênios. c) O número de pacientes atendidos pelo SUS em clínica Médica representa 19% do total de pacientes atendidos pelo Hospital ABC. d) Mais de 65% das internações feitas no Hospital ABC foram realizadas pelo SUS. e) Mais de 50% dos pacientes internados no Hospital tiveram atendimento na clínica Obstétrica ou Cirúrgica. 7. Assinale a afirmativa CORRETA: a) Os gráficos são representações virtuais dos dados estatísticos e substituem as tabelas. b) Os gráficos, quando bem elaborados podem confundir o leitor. c) O gráfico de barras é uma forma de representação gráfica para dados qualitativos em que as legendas são longas. d) As séries temporais geralmente são representadas por gráficos de setores. e) O Histograma é o gráfico que melhor representa uma série estatística categórica. 8. Assinale a opção CORRETA. O gráfico ao lado é um a) Cartograma b) Gráfico em colunas c) Gráfico em barras d) Gráfico populacional e) Pictograma 9. Assinale a opção CORRETA. A série estatística geográfica ao lado não pode ser representada pelo a) Gráfico de colunas b) Gráfico de barras c) Gráfico de linha d) Pictograma e) Cartograma 10. Assinale a opção CORRETA. O gráfico abaixo é um a) Cartograma b) Diagrama c) Mapograma d) Pictograma e) Não é um gráfico
  • 24.
    24 11. Um estudo,realizado em 2006, analisou os parâmetros individuais e sócio-ambientais da qualidade de vida percebida na carreira docente em Educação Física do Magistério Público Estadual/RS, de acordo com os Ciclos de Desenvolvimento Profissional. A pesquisa utilizou como instrumento de coleta de dados o “Perfil do Estilo de Vida Individual” (PEVI), para verificar a percepção do indivíduo sobre sua posição na vida, no contexto da cultura e dos sistemas de valores nos quais ele vive e, em relação a seus objetivos, expectativas, padrões e preocupações. As variáveis pesquisadas pertencem aos domínios: nutrição, atividade física, comportamento preventivo, relacionamentos e controle de estresse. FONTE: Rev. Brás. Educ. Física. São Paulo, v.21, n.2, p.81-93, abr./jun.2007 Com base no gráfico assinale a alternativa CORRETA: a) Os participantes da investigação demonstram percentuais mais elevados de perfil negativo em relacionamentos, comportamento preventivo e atividade física. b) Em relação ao perfil negativo do estilo de vida, os professores perceberam a componente nutrição e controle de estresse como aquelas com maior frequência. c) Os dados demonstram que a maioria dos professores de Educação Física não possui nenhuma percepção sobre o seu estilo de vida. d) A qualidade de vida na percepção dos professores pesquisados segue a seguinte ordem crescente de importância: relacionamentos, comportamento preventivo, controle de estresse, atividade física, e nutrição. e) A atividade física foi o que apresentou menor alteração de perfil. ATIVIDADE ECONÔMICA DAS PESSOAS ACIMA DE 10 ANOS 2005 REGIÕES INDÚSTRIA COMÉRCIO SERVIÇOS Norte 18,1 13,0 24,3 22,2 15,8 18,3 51,0 Nordeste 12,5 33,7 Sudeste 14,0 48,5 Sul 12,1 37,6 Centro Oeste 13,4 46,9 Fonte: Dados Fictícios Valores em percentagem 12. Assinale a alternativa CORRETA: a) A série acima é classificada como série geográfica e o melhor tipo de gráfico para representá-la é o gráfico de setores. b) A série acima é classificada como geográfica e o melhor tipo de gráfico para representá-la é o gráfico de linhas colunas. c) A série acima é classificada como geográfica-específica e o melhor tipo de gráfico para representá-la é o gráfico de barras. d) A série acima é classificada como geográfica-específica e o melhor tipo de gráfico para representá-la é o gráfico de setores. e) A série acima é classificada como específica e o melhor tipo de gráfico para representá-la é o gráfico de barras. Percepção dos professores considerando os componentes do PEVI 0 20 40 60 80 100 Nutrição Atividade física Comportamento preventivo Relacionamentos Controle de estresse Perfil Positivo Perfil Intermediário Perfil Negativo
  • 25.
    25 13. Foi realizadoum levantamento retrospectivo das lesões que ocorreram durante uma temporada de futebol de fev/03 a jan/04. Participaram do estudo 110 atletas de dois grandes clubes de futebol de Minas Gerais. Os atletas foram agrupados de acordo com as categorias: infantil (entre 14 e 16 anos) e juvenil (entre 16 e 18 anos). Com base no gráfico acima assinale a alternativa CORRETA: a) Na categoria juvenil a quantidade de contusões foi 3 vezes menor que a lombalgia/cervicalgia. b) Na categoria juvenil observou-se uma maior ocorrência de entorse e luxações/subluxações. c) A categoria infantil apresenta maior diversidade de lesões. d) A maioria das lesões foi diagnosticada como contusões. e) Os dados estão apresentados em um gráfico de colunas. 14. Assinale a opção CORRETA. O gráfico em linha é um diagrama usado para apresentar as séries: a) Geográfica b) Categóricas c) Temporais d) Temporais e categóricas e) Temporais, geográficas e categóricas 15. Como representação gráfica das séries estatísticas os gráficos produzem uma visão mais rápida e viva do fenômeno em estudo, ajudando a visualizar as tendências e a interpretar os valores representativos deste fenômeno. Assinale a alternativa que apresenta corretamente o tipo de gráfico apresentado ao lado e o tipo de série estatística que está representada. a) gráfico em linha; série temporal. b) gráfico em barras; série de localização. c) gráfico em colunas; série geográfica. d) histograma; série categórica. e) pictograma; série específica. Localização da Lesão 0 5 10 15 20 25 30 35 Outras Tendinopatias Luxação/subluxação Lombalgia/cervicalgia Lesão ligamento com instabilidade Lesão de menisco Fadiga muscular Estiramento muscular Entorse Cortocontusa Contusão Bursite Infantil Juvenil
  • 26.
    26 16. Complete: a) Umasérie estatística apresentada em função da local é chamada ____________________. b) A Estatística subdivide-se em duas áreas: ____________________ e ____________________. c) ____________________ é o conjunto de todos os indivíduos, objetos ou informações que apresentam pelo menos uma característica comum. d) ______________ é o processo utilizado para se medir as características de todos os membros de uma dada população. e) O gráfico em linha é um diagrama usado para apresentar as séries ____________________. 17. Como representação gráfica das séries estatísticas os gráficos produzem uma visão mais rápida e viva do fenômeno em estudo, ajudando a visualizar as tendências e a interpretar os valores representativos deste fenômeno. Assinale a alternativa que apresenta corretamente o tipo de variável e o tipo de gráfico estatístico apresentado abaixo: a) ( ) variável qualitativa nominal; diagrama em linha b) ( ) variável qualitativa ordinal; diagrama em colunas c) ( ) variável qualitativa ordinal; pictograma d) ( ) variável quantitativa discreta; diagrama em barras e) ( ) variável qualitativa nominal; pictograma 3.3 Distribuição de Frequências Frequentemente, ao coletar dados, o pesquisador se depara com uma grande massa de valores numéricos, que se repetem algumas vezes, dificultando sua análise e interpretação. Surge então a necessidade de organizar esses dados em uma tabela onde os valores observados se apresentam associados individualmente ou em classes com os números de suas repetições, isto é, com suas respectivas frequências. Esta tabela recebe o nome de Distribuição de Frequências. A quantidade de dados observados, ou tamanho da amostra será denotado por 𝑛. De acordo com a disposição dos dados tem-se dois tipos de distribuição:  DISTRIBUIÇÃO DE FREQUÊNCIAS SIMPLES (dados não agrupados ou não tabulados em classes de valores) É uma tabela onde os valores da variável analisada aparecem individualmente correlacionados com os números de suas repetições (frequências). Esse tipo de distribuição é normalmente usado para representar variáveis discretas. Exemplo: Tabela 1 Número de irmã(os) dos alunos da turma M1 Bioestatística – Universo – 2017/2 Nº de Irm@s Nº de Alunos 0 18 1 15 2 7 3 3 4 1 Total 44 FONTE: Dados Hipotéticos
  • 27.
    27  DISTRIBUIÇÃO DEFREQUÊNCIAS POR CLASSES (dados agrupados ou tabulados em classes de valores) Quando a variável analisada apresenta um grande número de valores torna-se mais vantajoso o agrupamento destes em classes de frequência, evitando assim grande extensão da tabela e facilitando a visualização do fenômeno como um todo. A distribuição de frequências por classes é uma tabela onde os valores observados são agrupados em classes, isto é, em intervalos de variações da variável em questão. Esse tipo de distribuição é normalmente usado para representar variáveis contínuas. É utilizada também para representar variáveis discretas em um grande número de valores observados. Exemplo: Tabela 2 Salários dos funcionários da Drogaria XY Salários (R$) Nº de funcionários 1000 | 1400 2 1400 | 1800 6 1800 | 2200 10 2200 | 2600 5 2600 | 3000 2 Total 25 FONTE: Dados Fictícios A seguir são apresentados alguns conceitos fundamentais para a compreensão dessas séries. Frequência Absoluta Simples (ou simplesmente frequência): Denotada por fi, a frequência indica o número de ocorrências de cada valor ou o número de valores pertencentes a uma classe. Na Tabela 1: f5 = f(4 irmãos) = 1 e Na Tabela 2: f2 =f(salários de 1400 a 1799,99)= 6 Dados Brutos: É a apresentação dos dados observados na sequência em que foram coletados, isto é, sem nenhuma ordenação numérica. Rol: É a organização dos dados brutos em ordem crescente ou decrescente. Exemplo: O número de injeções aplicadas durante vinte dias na Farmácia “Boa Saúde” foram: 2 – 4 – 2 – 1 – 2 – 3 – 1 – 0 – 5 – 1 – 0 – 1 – 1 – 2 – 0 – 1 – 3 – 0 – 1 – 2 O rol destes dados é: 0 – 0 – 0 – 0 – 1 – 1 – 1 – 1 – 1 – 1 – 1 – 2 – 2 – 2 – 2 – 2 – 3 – 3 – 4 – 5 Amplitude Total (AT): É a diferença entre o maior valor e o menor valor da sequência dos dados observados. AT = valor máximo – valor mínimo Exemplo: A amplitude total do rol apresentado é: AT = 5 – 0 = 5 DISTRIBUIÇÃO DE FREQUÊNCIAS SIMPLES - Roteiro para sua elaboração a) Escreve-se, ordenadamente, os dados observados na coluna indicadora. b) Obtém-se as frequências absolutas simples dos dados ( fi ). Essas frequências constituem o corpo da tabela.
  • 28.
    28 Exemplo: Sejam osdados abaixo representativos de uma pesquisa sobre o número de irmãos de 20 alunos da Turma M1. Dados Brutos: 1 – 3 – 0 – 5 – 2 – 1 – 1 – 0 – 0 – 1 – 4 – 3 – 1 – 0 – 1 – 2 – 2 – 1 – 3 – 1 Rol: 0 – 0 – 0 – 0 – 1 – 1 – 1 – 1 – 1 – 1 – 1 – 1 – 2 – 2 – 2 – 3 – 3 – 3 – 4 – 5 A distribuição de frequências do rol apresentado é: Tabela 3 Número de Irmãos de 20 alunos da Turma M1 Número de Irmãos (xi) Repetições (fi) 0 4 1 8 2 3 3 3 4 1 5 1 Total 20 1ª Coluna (i) – número de ordem dos valores distintos da variável número de irmãos. 2ª Coluna (xi) – valores distintos da variável número de irmãos. 3ª Coluna (fi) – número de repetições dos valores distintos da variável número de irmãos. Observa-se que neste tipo de tabela não há perda de informação, podendo os dados originais serem reconstituídos a partir da distribuição elaborada. Observe que, de modo geral, uma tabela de distribuição de frequência simples é confeccionada da seguinte forma: Título Valores da Variável Repetições (fi) 𝑥 𝑓 𝑥 𝑓 𝑥 𝑓 ⋮ ⋮ 𝑥 𝑓 Total 𝑛 TIPOS DE FREQUÊNCIAS A interpretação dos resultados de uma pesquisa, conforme os tipos de informações requeridas, utiliza diversos tipos de frequências de dados. A seguir serão apresentados os tipos de frequências, derivados da distribuição de frequências absolutas, bastante úteis na interpretação de dados. Frequência Total: É a soma de todas as frequências absolutas simples em uma tabela.    k 1i i nf A frequência total de uma distribuição de frequências é igual ao número total de observações (n).
  • 29.
    29 Exemplo: Na Tabela3, temos: 20113384fffffff 654321 6 1i i   Frequência Relativa Simples, ou simplesmente, Frequência Relativa: Simbolizada por fri, a frequência relativa simples fornece a proporção de cada valor ou de casos ocorridos em cada classe, em relação ao número total de observações. Portanto é um número relativo. Para calcular a frequência relativa, basta dividir a frequência absoluta da ordem em questão pelo número de observações. n f fr i i  As comparações expressas através de porcentagem são mais usuais. Para obter a porcentagem de cada valor ou de casos ocorridos em cada classe, multiplica-se o quociente obtido por 100, ou seja: 100 n f fr i i  Nota:    k 1i i 1fr ou 100% Exemplo: Na Tabela 3, temos: 20100200 20 4 20 f fr 1 1  , %  100400 20 8 20 f fr 2 2 , 40% 15100150 20 3 20 f fr 3 3  , % 15100150 20 3 20 f fr 4 4  , % 5100050 20 1 20 f fr 5 5  , % 5100050 20 1 20 f fr 6 6  , % Frequência Absoluta Acumulada: Denotada por Fi, a frequência absoluta acumulada fornece a informação de quantos elementos se situam até determinado valor. A frequência acumulada do i-ésimo valor ou i-ésima classe (frequência acumulada de ordem i) é obtida somando-se a frequência desse valor ou classe com as frequências anteriores, ou seja, é a soma de todas as frequências de ordens menores ou igual a da ordem em questão. Exemplo: F3 =   3 1i fi = f1 + f2 + f3 F4 =   4 1i fi = f1 + f2 + f3 + f4 Exemplo: Na tabela 3, temos: F1 = f1 = 4 F4 = f1 + f2 + f3 + f4 = 15 + 3 = 18 F2 = f1 + f2 = 4 + 8 = 12 F5 = f1 + f2 + f3 + f4 + f5 = 18 + 1 = 19 F3 = f1 + f2 + f3 = 12 + 3 = 15 F6=f1 + f2 + f3 + f4 + f5 + f6=19+1=20 Frequência Acumulada Relativa: Denotada por Fri, fornece a proporção de elementos situados até determinado valor. Consiste na soma da frequência relativa de cada valor ou classe com as frequências relativas dos valores ou classes anteriores, ou seja, é a soma das frequências simples relativas de ordens menores ou iguais a da ordem em questão. Exemplo: Fr3 =   3 1i fri = fr1 + fr2 + fr3
  • 30.
    30 Exemplo: Na tabela3, temos: Fr1 = fr1 = 0,20 = 20% Fr2 = fr1 + fr2 = 0,20 + 0,40 = 0,60 = 60% Fr3 = fr1 + fr2 + fr3 = 0,60 + 0,15 = 0,75 = 75% Fr4 = fr1 + fr2 + fr3 + fr4 = 0,75 + 0,15 = 0,90 = 90% Fr5 = fr1 + fr2 + fr3 + fr4 + fr5 = 0,90 + 0,05 = 0,95 = 95% Fr6 = fr1 + fr2 + fr3 + fr4 + fr5 + fr6 = 0,95 + 0,05 = 1 = 100% A frequência relativa acumulada de ordem i pode ser também calculada através do quociente: n F Fr i i  Exemplo: 7575,0 20 15 Fr3  % Com relação à Tabela 3, utilizando todos os tipos de frequências definidas anteriormente, podemos construir a seguinte distribuição de frequências: Tabela 4 Número de Irmãos de 20 alunos da Turma M1 i xi fi fri fri (%) Fi Fri Fri(%) 1 0 4 0,20 20 4 0,20 20 2 1 8 0,40 40 12 0,60 60 3 2 3 0,15 15 15 0,75 75 4 3 3 0,15 15 18 0,90 90 5 4 1 0,05 5 19 0,95 95 6 5 1 0,05 5 20 1,00 100 Total 20 1,00 100    FONTE: Dados Fictícios Interpretação:  f2 = 8; significa que 8 alunos responderam que têm 1 irmão;  fr3 = 0,15; significa que 15% dos alunos responderam que têm 2 irmãos.  F2 = 12; significa que 12 alunos têm, no máximo, 1 irmão.  Fr3 = 0,75; significa que 75% dos alunos responderam que têm entre 0 e 2 irmãos. Regras de Arredondamento Quando o primeiro algarismo a ser abandonado for 0, 1, 2, 3 ou 4, o algarismo a permanecer ficará sem alteração. Por exemplo, 4,84 passa a 4,8; Quando o primeiro algarismo a ser abandonado for 5, 6, 7, 8 ou 9, o último algarismo a permanecer será aumentado de um. Por exemplo, 4,87 passa a 4,9;
  • 31.
    31 DISTRIBUIÇÃO DE FREQUÊNCIASCOM INTERVALOS DECLASSES - Nomenclatura Intervalo de Classe ou Classe: Classes são intervalos de variações da variável, ou seja, é cada um dos grupos de valores em que se subdivide a amplitude total do conjunto de valores observados da variável. Uma determinada classe pode ser identificada por seus extremos ou pela ordem em que ela se encontra na tabela (valor do índice i) O número de classes de uma distribuição de frequências será denotado por k. A notação | indica intervalo fechado à esquerda. Assim, na Tabela 2, um funcionário que apresentou salário de R$ 1400,00 pertence à classe 1400 | 1800, ou segunda classe (i = 2). Exemplo: Tabela 2 Salários dos funcionários da Drogaria XY Salários (R$) Nº de funcionários 1000 | 1400 2 1400 | 1800 6 1800 | 2200 10 2200 | 2600 5 2600 | 3000 2 Total 25 FONTE: Dados Fictícios Existem diversas maneiras de expressar as classes: a) a || b compreende todos os valores entre a e b, incluindo a e b b) a | b compreende todos os valores entre a e b, excluindo a c) a | b compreende todos os valores entre a e b, excluindo b d) a  b compreende todos os valores entre a e b, excluindo a e b Em nosso curso usaremos a forma expressa em “c”. Limites de Classe: São os valores extremos de cada classe. O menor valor denomina-se limite inferior da classe i (ℓi) e o maior, limite superior da classe i (Li). Assim, na quarta classe da Tabela 2 tem-se ℓ4 = 2200 e L4 = 2600. Amplitude do Intervalo de Classe (h): A amplitude do intervalo de classe é o comprimento da classe, sendo definida como a diferença entre o limite superior e o limite inferior da classe. hi = Li  ℓi Exemplo: Na Tabela 2, temos: h1 = 1400 – 1000 = 400 e h3 = 2200 – 1800 = 400 Número de Classes (k): Não existe uma regra fixa que forneça o número de classes. No entanto, como o objetivo da distribuição de frequências é facilitar a compreensão dos dados, é importante que a distribuição contenha um número adequado de classes. Se este número for escasso, os dados originais ficarão tão comprimidos que pouca informação poderá ser extraída da tabela. Se por outro lado forem utilizadas várias classes, haverá algumas com frequências nulas ou muito pequenas e o resultado será uma distribuição irregular e prejudicial à interpretação do fenômeno como um todo. Na prática esse número não deve ser superior a 20 nem inferior a 5. Se a quantidade de dados for pequena não se justifica a construção de uma tabela, e se for grande, mais de 20 classes dificulta a análise. Em função do total de observações existem vários métodos que orientam a escolha de um número de classes conveniente. Seguem-se os dois mais utilizados: a) Regra da Raiz Quadrada k = 5 para n  25 k = n para n > 25, onde n é o número de observações. Exemplo: Para n = 30, o número de classes será 48,530   5.
  • 32.
    32 b) Regra deSturges k = 1 + 3,3 log n , onde: n = número de observações. Exemplo: Para n = 30, tem-se: k = 1 + 3,3 log 30  6. Para n = 30 os resultados obtidos pelos dois critérios são bastante próximos. O mesmo não acontece para valores grandes de n onde a regra de Sturges tem o inconveniente de prever um número relativamente pequeno de classes e o procedimento da raiz quadrada, um número relativamente grande. Neste caso deve prevalecer o bom senso do analista. Exemplo: Para n=500, tem-se pela regra da raiz: k= 500 =22 e pela regra de Sturges: k=13,3 log 500=13,32,7=9,9110 Ponto Médio da Classe (xi): Considerando que os valores de uma classe estão distribuídos uniformemente, o ponto médio ou valor médio de uma classe é o valor que melhor a representa para efeito de cálculo de certas medidas. O ponto médio de uma classe i é definido por: 2 L x ii i    Uma outra maneira de obter o ponto médio é adicionar a metade da amplitude ao limite inferior da classe. Na Tabela 2, o ponto médio da segunda classe 1400 | 1800 é: 1600 2 18001400 x3    ou 1600 2 400 1400x3  Distribuição de Frequências com Intervalos de Classes Desiguais Existem casos em que é mais adequado agrupar os dados em classes com larguras desiguais, como, por exemplo, as idades dos atletas de acordo com a categoria a que pertencem. Exemplo: Tabela 5 Categoria de Atletas por Idade Classes Idades fi 1 2 | 13 12 2 13 | 15 5 3 15 | 18 8 4 18 | 30 30 5 30 | 40 12 6 40 | 60 10 7 60 | 90 2 Total 79
  • 33.
    33 3.4 Representação Gráficadas Distribuições de Frequências Gráfico em Hastes A Distribuição de Frequências Simples pode ser representada graficamente por um Gráfico em Hastes, um diagrama onde as frequências são representadas por segmentos de retas perpendiculares ao eixo das abscissas. Cada segmento é determinado pelos pontos (xi, fi) e (xi, 0). Exemplo: Representação gráfica da Tabela 3. Gráfico de Pontos ou Diagrama Pontual (Dot plot) A Distribuição de Frequências Simples também pode ser representada graficamente por um Gráfico de Pontos, um diagrama onde cada observação (frequência) é representada por um ponto. Um gráfico de pontos assemelha-se ao Gráfico de Hastes, sem as linhas, pois somente os pontos de dados são exibidos. Os gráficos de pontos são úteis para mostrar os dados quantitativos de uma forma organizada. Exemplo: Representação gráfica da Tabela 3
  • 34.
    34 Histograma É um tipode gráfico apropriado para representar dados agrupados em classes. Consiste de colunas justapostas cujas bases representam as classes e as alturas correspondem às frequências das classes. Polígono de Frequências Trata-se da representação de uma distribuição de frequências por classes, através de um polígono. O eixo das abscissas constitui a base do polígono. Os vértices são os pontos (xi, fi) onde xi é o ponto médio e fi é a frequência da classe. O fechamento da poligonal com a base é feito unindo o primeiro vértice ao ponto médio de uma classe anterior à primeira, e o último vértice ao ponto médio de uma classe posterior à última. Esse gráfico é adequado também para a representação de frequências relativas e percentuais. Exemplo: Tabela 6 Notas de 50 alunos da turma N2 i Notas Nº de alunos (fi) xi Fi 1 30 | 40 4 35 4 2 40 | 50 5 45 9 3 50 | 60 8 55 17 4 60 | 70 12 65 29 5 70 | 80 10 75 39 6 80 | 90 7 85 46 7 90 | 100 4 95 50 Total 50   Histograma Polígono de Frequências 30 40 50 60 70 80 90 100 Notas 12 10 8 6 4 2 0 Nº de alunos
  • 35.
    35 Ogivograma É o gráficode frequências acumuladas. Ele é construído da mesma forma que o histograma, porém as alturas correspondem às frequências acumuladas das classes. Polígono de Frequências Acumuladas (ou Ogiva de Galton) Utilizado para representar as frequências acumuladas. Os vértices são os pontos (Li, fi). Pode ser usado também para representar as frequências acumuladas relativas percentuais. O fechamento é feito unindo o primeiro vértice ao limite inferior da primeira classe. Esse gráfico será útil para a determinação das medidas separatrizes que serão tratadas posteriormente. Exemplo: Observando a Tabela 6, o Ogivograma e o Polígono de frequências Acumuladas dessa distribuição são: Ogiva de Galton Ogivograma Diagrama de ramo-e-folhas O Diagrama de ramo e folhas é um dispositivo semi-gráfico que estabelece uma forma de organização e apresentação de dados semelhante à distribuição de frequências. Nessa disposição considera-se somente os algarismos significativos do dado, com eventual descarte de alguns dígitos menos significativos. O nome ramo-e-folhas deriva da forma como os valores são apresentados. Um ou mais dos dígitos mais significativos são escolhidos para compor os ramos e um ou mais dos dígitos menos significativos correspondentes aos mesmos ramos são denominados folhas, num processo semelhante à consideração de dezenas e posteriormente das unidades dentro das dezenas, ou de centenas e depois dezenas dentro de centenas, por exemplo. O diagrama de ramo e folhas permite obter ou observar com relativa facilidade:  A amplitude onde ocorrem os dados.  O modo como se distribuem os valores, indicando concentrações ou agrupamentos, dispersão e simetria, sem perder a informação individual do dado.  Buracos ou lacunas na distribuição.  Valores atípicos no conjunto de dados. Para a construção do gráfico deve-se proceder à ordenação dos dados (rol), pela própria natureza do diagrama e pelas facilidades nos demais cálculos. 30 40 50 60 70 80 90 100 Notas 50 45 40 35 30 25 20 15 10 5 0 Nº de alunos
  • 36.
    36 Exemplo 1: Gráficode ramo-e-folha do número de pacientes atendidos por mês, de janeiro a dezembro, por um psicólogo: ROL: 48, 56, 59, 63, 65, 65, 65, 68, 70, 72, 75, 81 (Unidade das folhas = 1) 4 8 5 6 9 6 3 5 5 5 8 7 0 2 5 8 1 Exemplo 2: Abaixo o gráfico ramo-e-folhas refere-se à renda familiar (em salários mínimos) de 83 alunos cadastrados em um curso de línguas. A barra separa a unidade da decimal, utiliza-se apenas uma casa decimal. Isto é, 3 | 1 significa 3,1. 3 4 5 6 7 8 9 10 11 12 13 14 15 1 3 2 0 0 0 0 1 0 2 0 1 6 4 5 2 0 0 1 0 3 0 3 7 5 3 0 1 3 3 4 4 5 4 1 1 4 4 6 5 7 7 2 2 4 4 7 8 7 9 3 2 5 5 7 9 7 3 4 5 5 8 5 4 7 6 6 5 7 8 7 6 8 9 7 8 9 7 9 9 7 7 8 EXERCÍCIOS - 4ª Lista - Distribuição de Frequências 1. Assinale a opção CORRETA: a) Em estatística, entende-se por população um conjunto de pessoas. b) A variável é discreta quando pode assumir qualquer valor dentro de determinado intervalo. c) Frequência relativa de uma variável é o número de repetições dessa variável. d) A série estatística é cronológica quando o elemento variável é o tempo. e) Amplitude total é a diferença entre dois valores quaisquer do atributo. 2. Assinale a opção CORRETA. Frequência relativa simples de um valor da variável é: a) O número de repetições desse valor b) A porcentagem de repetições desse valor c) O número de observações acumuladas até esse valor d) A quantidade de elementos maiores que esse valor e) As outras alternativas estão incorretas 3. Assinale a alternativa INCORRETA: a) Rol é a relação obtida após a ordenação dos dados. b) A distribuição de frequências é um tipo de tabela que condensa uma série de dados de acordo com a repetição de seus valores (frequências).
  • 37.
    37 c) Séries conjugadasou tabelas de dupla entrada: apresentam duas ou mais séries em uma mesma tabela, havendo duas ordens de classificação: uma horizontal e outra vertical. d) O ponto médio é importante para o cálculo da média, pois, na tabela com intervalos de classe consideramos esses valores como sendo o ‘representante’ do intervalo para que o erro seja o menor possível. e) Amplitude total é a diferença entre dois valores quaisquer do atributo. 4. Assinale a opção CORRETA. As classes de uma distribuição de frequência devem ser mutuamente excluídas para que: a) Nenhum dado seja excluído. b) Todos os dados sejam computados. c) Nenhum dado seja contado mais de uma vez. d) Possam exaurir totalmente o campo de variação. e) Os limites inferiores e superiores sejam levados em consideração. 5. Em uma distribuição de frequências com intervalos de classes é CORRETO afirmar que: a) l2 é o limite superior da 2ª classe b) h = 5 significa que os dados estão distribuídos em 5 classes c) o ponto médio da 1ª classe é x1= l 1L1 d) f1 é o número de elementos da 1ª classe e) F3 é o número de elementos da 3ª classe 6. Assinale a opção CORRETA. O gráfico ao lado é um a) Gráfico de barras b) Gráfico de colunas c) Histograma d) Pictograma e) Polígono de retângulos 7. Gráficos são instrumentos úteis na estatística. Assinale a afirmação INCORRETA. a) Um histograma representa uma distribuição de frequências para variáveis do tipo contínuas. b) O gráfico de setores é apropriado quando se quer representar as divisões de um montante total. c) Um polígono de frequências acumuladas é construído unindo-se os pontos correspondentes aos limites superiores dos intervalos de classe da distribuição de frequência. d) Um polígono de frequências é construído unindo-se os pontos correspondentes aos limites superiores dos intervalos de classe da distribuição de frequência. e) O gráfico de barras às vezes é usado para séries geográficas. 8. Com relação aos gráficos, assinale a afirmação CORRETA: a) O Polígono de frequências é um gráfico de colunas justapostas e serve para representar distribuições de frequências. b) O gráfico em linha pode ser utilizado para representar qualquer tipo de série estatística. c) O gráfico em setores é empregado quando se quer ressaltar a participação do dado no total. d) Quando as legendas são longas usa-se, de preferência, o gráfico em colunas verticais. e) Os cartogramas são utilizados para representar as séries temporais. 9. Assinale a opção CORRETA. Para representarmos a distribuição de frequências, que tipo de gráficos poderíamos usar? a) Gráfico de Coluna ou histograma. b) Histograma ou polígono de frequências. c) Ogivograma ou gráfico de Setores. d) Histograma ou gráfico de Linha. e) Polígono de frequências ou gráfico de Barras. 10. Assinale a opção CORRETA. O gráfico estatístico que melhor representa uma distribuição de frequências com intervalos de classes é o: a) Gráfico de setores b) Gráfico de colunas c) Gráfico de barras d) Cronograma e) Histograma 18 22 26 30 34 38 Idade Nº de Alunos 12 10 8 6 4 2 0
  • 38.
    38 11. (ESAF –IRB – 2006) No campo estatístico, ogivas são: a) polígonos de frequência acumulada. b) polígonos de frequência acumulada relativa ou percentual. c) histograma de distribuição de frequência. d) histograma de distribuição de frequência relativa ou percentual. e) o equivalente à amplitude do intervalo. 12. Numa experiência laboratorial pretende-se fazer a contagem do número de células de levedura em suspensão num certo líquido, utilizando-se para tal um hematímetro1 . Os resultados relativos ao número de células de levedura existentes nos 400 quadrados de um hematímetro são os seguintes: Com base nestes dados pede-se: a) Identificar e classificar a variável de estudo. b) A quantidade de classes em que os dados foram agrupados. 13. Efetue o arredondamento na casa decimal que se pede dos seguintes números classificados na tabela: 3ª casa decimal 2ª casa decimal 1ª casa decimal inteiro 3,5676 1,342 10,3333 2,0154 3,12461 7,8932 2,55555 4,12245 4,7777 14. Um pesquisador perguntou a 15 crianças quantas refeições diárias ela realiza e obteve as seguintes respostas: 3 4 2 2 5 4 4 3 4 2 5 3 3 4 4 Confeccione a tabela de distribuição de frequências para dados agrupados sem intervalos de classes e calcule as frequências relativas percentuais. 15. Os dados abaixo se referem ao rol do número de sessões semanais de 30 pacientes que recorreram a certo fisioterapeuta durante o ano de 2016 para aliviar problemas de coluna. 1 3 2 4 5 1 3 4 4 5 5 3 1 2 2 2 3 4 5 1 4 2 4 2 5 1 3 4 2 2 a) Agrupar estes dados em uma distribuição de frequências simples. b) Calcular as frequências relativas percentuais e frequências acumuladas. c) Qual a percentagem de pacientes que realizam mais de 3 sessões semanais? d) Quantos pacientes tiveram menos de 3 sessões semanais? e) Qual a proporção de pacientes com pelo menos 4 sessões semanais ? 16. Os dados abaixo se referem à idade de 36 doentes que recorreram a certo terapeuta durante o ano de 2007 para corrigir problemas de coluna. 27 28 31 31 31 32 33 33 35 35 35 35 36 36 36 37 37 37 38 38 39 39 39 39 39 39 40 40 40 40 40 40 41 42 43 44 Com base nestes dados confeccione um gráfico de ramos-e-folhas. 1 s. m. (fr. hématimètre; ing. hemacytometer). Pequeno recipiente, com espessura muito reduzida e bem determinada, graduado para permitir contar ao microscópio o número de células por unidade de superfície numa colheita de sangue. Nº de células por quadrado 0 1 2 3 4 5 6 Nº de quadrados 75 103 121 54 30 13 4
  • 39.
    39 17. Foi realizadauma pesquisa sobre os anos de estudo entre Funcionários da Clínica Happy. Complete a distribuição de frequência dos anos de estudo destes funcionários. Anos de Estudo de 60 funcionários da Clínica Happy Tempo de estudo Nº de funcionários Fi Porcentagem Fri (%) 8 anos 6 10 11 anos 18 12 anos 39 14 anos 20 16 anos Total - 100 - 18. Os dados a seguir referem-se às notas de 50 alunos: 60 85 33 52 65 77 84 65 74 57 71 35 81 50 35 64 74 47 54 68 80 61 41 91 55 73 59 53 77 45 71 55 78 48 69 85 67 39 60 76 94 98 66 66 73 42 65 94 88 89 Pede-se: a) O diagrama de ramos-e-folhas b) A amplitude total da amostra (A ). c) O número de classes (k), pela regra da raiz, para uma distribuição por classes. d) A amplitude das classes pela fórmula h = e) As classes (valor inicial = 30). f) As frequências absolutas das classes (f ). g) As frequências relativas percentuais (f (%)) h) Os pontos médios das classes (x ). i) As frequências acumuladas das classes (F ). j) O histograma. k) O polígono de frequências. l) O polígono de frequências acumuladas. 19. Segue abaixo as notas de Pesquisa de Hábitos de Estudos e Atitudes (PHEA) para 18 alunas do primeiro ano de uma faculdade: 154 109 137 115 152 140 154 178 101 103 126 126 137 165 165 129 200 148 e para 20 alunos do primeiro ano 108 140 114 91 180 115 126 92 169 146 109 132 75 88 113 151 70 115 187 104 Faça um ramo-e-folhas face-a-face destes dados (faça um ramo único para homens e mulheres, coloque a folhas dos alunos de um lado e das alunas do outro). 20. A tabela abaixo apresenta os salários de 90 funcionários da Indústria HeleStar S/A. Salários dos Funcionários da Indústria HeleStar S/A julho/2012 Classes Salários Mínimos fi 1 1 | 3 40 2 3 | 5 30 3 5 | 7 10 4 7 | 9 5 5 9 | 11 5 Total 90 a) Determine as frequências simples relativas, as frequências absolutas acumuladas e as frequências relativas acumuladas. b) Quantos funcionários ganham menos de 3 salários mínimos? c) Qual a percentagem de operários com salário entre 5 e 7 salários mínimos? d) Qual a percentagem de operários com salário inferior a 7 salários mínimos? e) Qual a classe do 30º salário? E do 45º salário? f) Construa o histograma e o polígono de frequência.
  • 40.
    40 21. Em umaturma do ensino médio o professor de educação física registrou o Índice de Massa Corporal dos seus alunos conforme tabela: IMC (kg/m2 ) Nº de alunos Peso ideal 20 | 25 10 Sobrepeso 25 | 30 16 Obesidade grau I 30 | 35 12 Obesidade grau II (grave) 35 | 40 8 Total 46 Com base nos dados da tabela : a) determine os pontos médios das classes, as frequências acumuladas e as frequências relativas percentuais. b) confeccione o histograma
  • 41.
    41 4 MEDIDAS DESCRITIVAS Quandoa variável em estudo é quantitativa, podemos resumir certas informações dos dados (valores) por algumas medidas descritivas. Os valores que representam o conjunto de dados observados ou então promovem uma partição sobre este conjunto são chamados de Medidas de Posição. Entre as medidas de posição destacam-se as Medidas de Tendência Central e as Separatrizes. São chamadas Medidas de Tendência Central a Média aritmética, a Mediana e a Moda, pois representam os fenômenos pelos valores em torno dos quais tendem a se concentrar os dados. Note que a maneira mais simples de resumirmos as informações contidas em um conjunto de dados observados é estabelecer valores centrais, ditos típicos, em torno dos quais os dados se distribuem. São chamadas Separatrizes as medidas que têm por finalidade dividir o conjunto de dados observados em K partes iguais e são exemplos a Mediana, os Quartis e os Percentis. Tais medidas orientam quanto à posição do conjunto no eixo dos números reais e possibilitam comparações de séries de dados entre si pelo confronto destes números. Contudo, não é o bastante dar uma medida de posição para caracterizar perfeitamente um conjunto de valores, devemos, também, medir a variabilidade do conjunto de valores em relação à essa medida de posição. Assim, as Medidas de Dispersão são medidas estatísticas utilizadas para avaliar o grau de variabilidade, ou dispersão, dos valores em torno de uma medida de posição. Entre as diversas medidas de dispersão estão a Variância e o Desvio padrão que medem a dispersão dos dados em torno da Média, isto é, servem para medir a representatividade da média. Outra medida muito útil é o Desvio Inter-quartil ou Amplitude Interquartílica que é uma medida de dispersão alternativa empregada para avaliar a dispersão dos dados em torno da Mediana. 4.1 A MÉDIA E O DESVIO PADRÃO Primeiramente, consideraremos a Média e o Desvio Padrão, que são as medidas mais usadas para estudar a posição central e a dispersão. MÉDIA ARITMÉTICA (x ) Matematicamente, a média é definida como a soma dos valores dividida pelo número de valores observados. Do ponto de vista teórico vários tipos de média podem ser calculados para uma massa de dados como, por exemplo, a média geométrica e a média harmônica. O uso da média aritmética apresenta vantagens para cálculos posteriores, devendo, entretanto, além de outros casos, ser empregada em séries que estejam em progressão aritmética ou se os valores extremos não influírem sensivelmente sobre ela. Outra orientação para seu emprego é na comparação com as outras medidas de tendência central. Observação: A média populacional é denotada por 𝜇. Média aritmética para dados não agrupados Sejam 𝑥 , 𝑥 , . . . , 𝑥 , os 𝑛 valores da variável X. A média aritmética simples, denotada por x , é definida por: n x x n i i   1 onde 𝑛 é o número de valores observados da variável X.
  • 42.
    42 Exemplo 1: Paradeterminar a média aritmética simples dos valores: 7,0; 3,0; 5,5; 6,5 e 8,0, calculamos: 0,6 5 30 5 0,85,65,50,30,7   x Podemos dizer que a média aritmética indica o centro de um conjunto de valores, considerando o conceito físico de ponto de equilíbrio ou centro de gravidade. Se imaginarmos os pontos como pesos sobre uma tábua, a média é a posição em que um suporte equilibraria a tábua | | | | | | Exemplo 2: Considere as notas finais de três turmas de estudantes e as respectivas médias: Turma Notas dos alunos Média da Turma A 4 5 5 6 6 7 7 8 6,0 B 1 2 4 6 6 9 10 10 6,0 C 0 6 7 7 7 7,5 7,5 6,0 Veja a representação abaixo: Observe que os três conjuntos de valores, apesar de estarem distribuídos sob diferentes formas, apontam para uma mesma média. Comparando as notas da Turma A com as notas da Turma B verificamos que as notas da Turma B são bem mais dispersas, indicando que essa turma é mais heterogênea. Na Turma C, observamos um ponto discrepante dos demais, uma nota extremamente baixa. Com isso, a média fica abaixo da maioria das notas da turma, ou seja, a presença de um valor discrepante arrasta a média para o seu lado e assim a média deixa de representar propriamente um valor típico do conjunto de dados. Note que essa avaliação é necessária, pois quando se trata de interpretar dados estatísticos, mesmo aqueles já convenientemente simplificados, como a média aritmética, deve-se ter uma ideia retrospectiva de como se apresentavam esses mesmos dados na amostra. Assim, para melhorar o resumo dos dados, podemos apresentar, ao lado da média aritmética, uma medida de dispersão, como o desvio padrão e o coeficiente de variação. VARIÂNCIA (S2 ) e DESVIO PADRÃO (S) Servem para medir a representatividade da média. A variância e o desvio padrão são medidas que levam em consideração a totalidade dos valores da variável em estudo, o que faz delas índices de variabilidade bastante estáveis e, por isso mesmo, os mais geralmente empregados. Estas medidas avaliam a dispersão do conjunto de valores em análise em torno da média. 3,0 4,0 5,0 6,0 7,0 8,0 0 2 4 6 8 10 Turma A Turma B Turma C
  • 43.
    43 Essa avaliação énecessária, pois quando se trata de interpretar dados estatísticos, mesmo aqueles já convenientemente simplificados, como a média aritmética, deve-se ter uma ideia retrospectiva de como se apresentavam esses mesmos dados nas tabelas. Assim, não é o bastante dar uma medida de posição para caracterizar perfeitamente um conjunto de valores, devemos, também, medir a variabilidade do conjunto de valores em relação à essa medida de posição. Se observarmos as sequências: X: 10, 1, 18, 20, 35, 3, 7, 15, 11, 10 Y: 12, 13, 13, 14, 12, 14, 12, 14, 13, 13 Z: 13, 13, 13, 13, 13, 13, 13, 13, 13, 13 concluiremos que todas possuem a mesma média 13. No entanto, são sequências completamente distintas do ponto de vista da variabilidade de dados.  Na sequência Z não há variabilidade de dados. A média 13 representa bem qualquer valor da série.  Na sequência Y, a média 13 representa bem a série, mas existem elementos da série levemente diferenciados da média 13.  Na sequência X existem muitos elementos bastante diferenciados da média 13.  Concluímos que a média 13 representa otimamente a sequência Z, representa bem a sequência Y, mas não representa bem a sequência X. Chamando de dispersão, ou variabilidade, a maior ou menor diversificação dos valores de uma variável em torno de um valor de tendência central tomado como ponto de comparação, podemos dizer que o conjunto Z apresenta dispersão ou variabilidade nula e que o conjunto Y apresenta uma dispersão ou variabilidade menor que o conjunto X. Portanto, para qualificar os valores de uma dada variável, ressaltando a maior ou menor dispersão ou variabilidade entre esses valores e a sua medida de posição, a Estatística recorre às medidas de dispersão. As principais medidas de dispersão absolutas são: amplitude total, desvio médio, variância e desvio-padrão e a principal medida de dispersão relativa que é o coeficiente de variação. Neste texto estudaremos a variância, o desvio padrão e o coeficiente de variação. Para o cálculo do desvio padrão devemos considerar os desvios de cada valor em relação à média aritmética. Depois, construímos uma espécie de média desses desvios. Observe as etapas do cálculo, usando as notas da Turma A do Exemplo 2 acima: Descrição Notação Notas dos alunos Soma Valores (notas dos alunos) 𝑥 4 5 5 6 6 7 7 8 ∑ 𝑥 = 48 Média 𝑥̅ 6 Desvios 𝑥 − 𝑥̅ -2 -1 -1 0 0 1 1 2 ∑(𝑥 − 𝑥̅) = 0 Desvios quadráticos (𝑥 − 𝑥̅) 4 1 1 0 0 1 1 4 ∑(𝑥 − 𝑥̅) = 12 Para evitar o problema dos desvios negativos e ∑(𝑥 − 𝑥̅) = 0, trabalhamos os desvios quadráticos, isto é, para conseguir que as diferenças (𝑥 − 𝑥̅) se tornem sempre positivas ou nulas considerarmos o quadrado destas diferenças, isto é (𝑥 − 𝑥̅) . Desta forma, a Variância é definida como a média aritmética dos desvios quadráticos. Quando a sequência de dados representa uma amostra, a variância será denotada por s2 e, por questões da estatística inferencial, quando estimamos a variância da população usando n amostras aleatórias xi onde i = 1, 2, ..., n, a fórmula seguinte da variância é um estimador não enviesado:
  • 44.
    44 1 )( 2 2     n xx s i . Observação: Quandoa sequência de dados representa uma população a variância será denotada por 2  e o desvio padrão correspondente por  e o denominador da equação será o tamanho da população N. Vale ressaltar que para valores grandes de n, esta distinção é geralmente muito pequena. No exemplo anterior, a média de notas da Turma A é 𝑥̅ = 6 e calculando a variância obtemos: ...714285714,1 7 12 18 122   s Observe ainda que no cálculo da variância a unidade de medida da sequência de dados fica elevada ao quadrado, ou seja, a variância é dada sempre no quadrado da unidade de medida da série. Em algumas situações, a unidade de medida da variância nem faz sentido. Portanto, o valor da variância não pode ser comparado diretamente com os dados da série, ou seja: variância não tem interpretação. Exatamente para suprir esta deficiência da variância é que se define o Desvio Padrão que será denotado por s. O desvio padrão é a raiz quadrada positiva da variância: 1 )( 2     n xx s i Assim, para o exemplo anterior, o desvio padrão das notas da turma A é ...714285714,1s = 1,309307341 Concluímos que a turma A, cujas notas são: 4, 5, 5, 6, 6, 7, 7 e 8 apresenta nota média igual a 6,0 pontos, com uma variação média de 1,31 pontos em torno da média 6,0. Quanto ao arredondamento vale ressaltar que devemos:  Tomar uma casa decimal a mais em relação às que constam dos dados originais.  Arredondar apenas o resultado final e não os resultados intermediários.  Se necessitarmos arredondar os resultados intermediários, acrescente duas casas decimal a mais em relação às que constam dos dados originais E essa variação de 1,31 em relação à média de 6,0 é alta ou baixa? Para decidir sobre isso calculamos a Variação Relativa, ou Coeficiente de Variação. COEFICIENTE DE VARIAÇÃO (CV) O coeficiente de variação é uma medida adimensional que normaliza o desvio padrão em relação à média. Ele caracteriza a dispersão ou variabilidade dos dados em termos relativos a seu valor médio através da fórmula: 100 x s CV que é expresso em porcentagens. Diz-se que a distribuição possui pequena variabilidade (dispersão), isto é, a distribuição é mais homogênea, quando o coeficiente de variação der até 10%; média dispersão quando estiver acima de 10% até 20% ....
  • 45.
    45 Assim, vamos considerar:Baixa dispersão: CV 10% Moderada dispersão: 10% < CV  20% Alta dispersão: 20% < CV  30% Muito Alta dispersão: CV > 30% Para o exemplo 2 das notas da Turma A tem-se: %8,21100. 6 31,1 CV o que indica uma moderada dispersão das notas dos alunos em torno da média 6,0. O Coeficiente de Variação é uma medida relativa de dispersão útil para a comparação em termos relativos do grau de concentração em torno da média de séries distintas. Note que o desvio padrão por si só não nos diz muita coisa. Assim, se uma série X apresenta x = 10 e xs = 2 e uma série Y apresenta y= 100 e ys = 5, do ponto de vista da dispersão absoluta, a série Y apresenta maior dispersão que a série X. No entanto, se levarmos em consideração as médias das séries, o desvio padrão de Y que é 5 em relação a 100 é um valor menos significativo que o desvio padrão de X que é 2 em relação a 10. Além disso, o fato de o desvio padrão ser expresso na mesma unidade dos dados limita o seu emprego quando desejamos comparar duas ou mais séries de valores, relativamente à sua dispersão ou variabilidade, quando expressas em unidades diferentes. Ao comparar duas séries de dados, a mais homogênea é a que apresentar o menor coeficiente de variação. Exemplo: Numa empresa, o salário médio dos homens é de R$ 4.000,00, com desvio padrão de R$ 500,00, e o das mulheres é em média de R$ 3.000,00 com desvio padrão de R$ 400,00. Então: para os homens 100 x s CV = %5,12100 4000 500  para as mulheres 100 x s CV = %3,13100 3000 400  Logo, podemos concluir que os salários das mulheres apresentam maior dispersão relativa que os dos homens. FÓRMULA ALTERNATIVA PARA A VARIÂNCIA e o DESVIO PADRÃO Ao calcular o desvio padrão nos casos em que a média 𝑥̅ acusar um valor fracionário, os desvios (𝑥 − 𝑥̅) acumularão erros de arredondamento, que poderão comprometer o resultado final. Para evitar este inconveniente usamos a seguinte fórmula para o cálculo da variância e do desvio padrão, obtida por transformações na fórmula original: 1 22 2     n xnx s i  1 22     n xnx s i
  • 46.
    46 Média aritmética eDesvio padrão para dados agrupados Neste caso, usamos a média aritmética dos valores 𝑥 , 𝑥 , 𝑥 , . . . , 𝑥 , ponderada pelas suas respectivas frequências absolutas 𝑓 , 𝑓 , 𝑓 , . . . , 𝑓 . Desta forma, temos: n fx x i k i i   1 e 1 )( 2     n fxx s ii ou   1 . 22     n xnfx s ii onde: 𝑛 = 𝑓 + 𝑓 + 𝑓 + . . . , +𝑓 =   k i if 1 . Quando se tratar de uma distribuição de frequência por classe, 𝑥 corresponde ao ponto médio da classe, ou seja, 2 ii i L x    . Outlier ou valores discrepantes, é descrito em estatística como um ponto que está muito distante das demais observações em uma série estatística, e que chamamos comumente de “ponto fora da curva”. A tratativa mais comum para outliers é a exclusão manual destes componentes da amostra ou a utilização de estatística robusta para eliminar as falhas que podem ser causadas nesta análise da amostra ou da população. Independentemente disso, seus porquês precisam ser analisados mais a fundo. Como identificar outliers Os outliers podem ser sinalizados quando encontram-se fora de um intervalo da média para mais ou para menos. Este intervalo para mais ou para menos é definido pelo desvio padrão. No gráfico acima, observamos as vendas históricas mensais de um determinado produto, em determinada empresa. Traçamos, também, uma linha paralela demonstrando a média fixa dos 12 meses e podemos identificar os períodos em que superou-se ou ficou-se abaixo desta média. Superficialmente, podemos assumir que os meses de Maio e Outubro são outliers? Primeiramente, precisamos definir qual a faixa média de variação destas vendas, ou seja, o nosso desvio padrão da amostra, neste caso, o resultado é 343. Significa que nossa série histórica varia em média 343 unidades para mais ou para menos. De uma distribuição normal podemos afirmar que:  68% dos valores encontram-se a uma distância da média inferior a um desvio padrão.  95% dos valores encontram-se a uma distância da média inferior a duas vezes o desvio padrão.  99,7% dos valores encontram-se a uma distância da média inferior a três vezes o desvio padrão.
  • 47.
    47 Em geral, realiza-seuma análise com 95% de confiabilidade, o que significa que 95% das vendas descritas na série histórica deverão estar entre a média mais duas vezes o desvio padrão e a média menos duas vezes o desvio padrão, ou, 𝑥̅ + 2. 𝑠 e 𝑥̅ − 2. 𝑠, conforme descrito acima. Desta forma, plotando no gráfico, um limite superior (média mais duas vezes o desvio padrão e um limite inferior (média menos duas vezes o desvio padrão, e consideraremos como “pontos fora da curva” ou outliers, as observações que fugirem aos limites estipulados, como o resultado de Maio, que fica acima do limite superior de variação. A partir daí, cabe uma análise mais profunda, mais focada e ágil, após identificação deste de ponto de interesse: O que aconteceu em Maio? Mais adiante estudaremos a mediana que, como medida de localização é mais robusta do que a média, pois não é tão sensível aos dados. EXERCÍCIOS - 5ª Lista – Média, Desvio padrão e Coeficiente de Variação 1. Assinale a alternativa CORRETA. Os valores de glicemia em jejum em mg medidos fotocolorimetricamente no sangue de 10 adultos do sexo masculino, clinicamente normais e sem história familial de diabetes mellitus, foram: 79 86 91 96 100 102 108 108 110 120 Para a glicemia em jejum, a média é: a) 99 b) 100 c) 101 d) 102 e) 108 2. Assinale a alternativa CORRETA. Num determinado país a população feminina representa 51% da população total. Sabendo-se que a idade média (média aritmética das idades) da população feminina é de 38 anos e a da masculina é de 36 anos. Qual a idade média da população? a) 37,02 b) 37,0 c) 37,2 d) 36,6 e) 37,05 3. Assinale a alternativa CORRETA. Em uma amostra com 50 notas a média é 7,5. Os valores 4,5 e 5,7 foram retirados. Então a nova média da amostra será, aproximadamente, a) 7,2 b) 7,3 c) 7,5 d) 7,6 e) 7,7
  • 48.
    48 4. Assinale aalternativa CORRETA. Em um estudo realizado com 100 pacientes portadores de asma foram registrados no mês de março os dados: Neste mês, o número médio de crises, por paciente, foi: b) 1,0 b) 1,2 c) 1,5 d) 2,0 e) 2,5 5. Assinale a alternativa CORRETA. A tabela ao lado é referente aos pesos de 105 crianças que frequentam uma creche pública. O peso médio das crianças da creche é: a) 8,0 kg b) 8,6 kg c) 9,4 kg d) 12,1 kg e) 13,0 kg 6. O histograma, a seguir, apresenta a altura média de 20 atletas de uma equipe de natação. Assinale a alternativa CORRETA. Com base nos dados do histograma a altura média é: a) 180 cm b) 182 cm c) 184 cm d) 185 cm 7. Assinale a alternativa CORRETA. Entre os funcionários de uma clínica, foi retirada uma amostra de dez indivíduos. Os números que representam as ausências ao trabalho registradas para cada um deles, no último ano, são: {0; 0; 0; 2; 2; 2; 4; 4; 6; 10}. Sendo assim, o valor do desvio padrão desta amostra é, aproximadamente: a) 2 b) 3 c) 9 d) 10 e) 30 8. De acordo com as sentenças 1, 2 e 3, responda a alternativa CORRETA: 1. O desvio padrão nunca poderá ser negativo. 2. O coeficiente de variação pode ser usado em análise comparativa de duas ou mais amostras de grandezas diferentes. 3. O desvio padrão e a variância são a mesma medida de variabilidade. a) As sentenças 1 e 2 são verdadeiras. b) As sentenças 2 e 3 são verdadeiras. c) As sentenças 1 e 3 são verdadeiras. d) Todas as sentenças são verdadeiras. e) Todas as sentenças são falsas. 9. A lombalgia é a dor que ocorre nas regiões lombares inferiores da coluna lombar. Ela pode ser acompanhada de dor que se irradia para uma ou ambas as nádegas ou para as pernas na distribuição do nervo ciático. Estudos revelam que, com o tratamento, os sinais de melhora aparecem de 1 semana a 8 semanas e os casos mais graves apresentam sintomas por mais de 6 meses. Exercícios aeróbicos leves durante as primeiras 2 semanas, seguido por exercícios musculares do tronco, auxiliam no tratamento. Tomando-se uma amostra de 5 indivíduos que sofrem com lombalgia e que foram acompanhados por um especialista verificou-se o número de semanas de tratamento até que apresentaram melhora. Obteve-se: 2 2 4 5 7 Verifica-se que o tratamento dura, em média, 4 semanas. Assinale a alternativa CORRETA. A variabilidade (desvio padrão) em torno dessa média é: a) 2 semanas b) 2,5 semanas c) 3 semanas d) 3,5 semanas e) 4,5 semanas 10. Marque a alternativa CORRETA. A homogeneidade de uma série de valores ou de uma distribuição de frequências é dada pela razão entre o desvio padrão e a média aritmética. Podemos afirmar que : a) Quanto maior o coeficiente de variação maior homogeneidade. b) Quanto menor o coeficiente de variação menor homogeneidade. c) Quanto menor o coeficiente de variação maior a homogeneidade. d) Quando o desvio padrão é igual a média menor a homogeneidade. e) As alternativa "a" e "b" estão corretas. Nº de crises Nº de pacientes 0 14 1 18 2 32 3 29 4 5 5 2 TOTAL 100 Pesos (kg) Nº de crianças 6 | 8 8 8 | 10 25 10 | 12 18 12 | 14 22 14 | 16 20 16 | 18 10 18 | 20 2 TOTAL 105 ALTURA DOS ATLETAS DA EQUIPE DE NATAÇÃO 0 1 2 3 4 5 6 7 8 9 ALTURA (cm) Nº de Atletas 160 170 180 190 200
  • 49.
    49 11. Em umestudo realizado com 100 pacientes portadores de asma foram registrados no mês de março os seguintes dados: Assinale a alternativa CORRETA. Sabendo-se que o número médio foi de duas crises por paciente, então a dispersão absoluta populacional foi de: a) 1,0 b) 1,2 c) 1,5 d) 2,0 e) 2,5 12. Na tabela abaixo são dadas as idades de um grupo de 54 pessoas. Assinale a alternativa que corresponde a variabilidade absoluta da idade desse grupo. a) 5,0 anos b) 6,2 anos c) 6,6 anos d) 8,7 anos e) 9,3anos 13. (ESAF – AFRFB – 2005) De posse dos resultados de produtividade alcançados por funcionários de determinada área da empresa em que trabalha, o Gerente de Recursos Humanos decidiu empregar a seguinte estratégia: aqueles funcionários com rendimento inferior a dois desvios padrões abaixo da média (Limite Inferior - LI) deverão passar por treinamento específico para melhorar seus desempenhos; aqueles funcionários com rendimento superior a dois desvios padrões acima da média (Limite Superior - LS) serão promovidos a líderes de equipe. Assinale a opção que apresenta os limites LI e LS a serem utilizados pelo Gerente de Recursos Humanos. a) LI = 4,0 e LS = 9,0 b) LI = 3,6 e LS = 9,4 c) LI = 3,0 e LS = 9,8 d) LI = 3,2 e LS = 9,4 e) LI = 3,4 e LS = 9,6 14. Numa reunião estavam presentes 5 professores de Educação Física de níveis de ensino diferentes (Infantil, Fundamental e Médio) e redes de ensino diferentes (Pública e Particular). Abaixo temos os valores dos salários destes professores, em reais: 950 1550 1850 2200 2450 Assinale a alternativa CORRETA. O desvio padrão desta amostra é: a) 342 reais b) 523 reais c) 585 reais d) 675 reais e) 1800 reais 15. Marque a alternativa CORRETA Os dados abaixo representam os pesos de crianças na enfermaria da clínica X: 15,0 18,6 20,5 21,2 22,3 25,6 28,6 29,4 35,2 Sabendo-se que a variância dos dados acima é 38,9, podemos afirmar que: a) 0%  CV < 10% b) 10%  CV < 20% c) 20%  CV < 30% d) 30%  CV < 40% e) CV  40% 16. A tabela a seguir contém algumas estatísticas associadas aos tempos de vida da população de certa comunidade (pessoas falecidas nos anos 2000-2007). Média Mediana Moda Desvio padrão Homens 69,2 73 80 16,4 Mulheres 78,7 80 83 13,7 Com base nestas informações, assinale a alternativa CORRETA. a) O tempo de vida dos homens apresenta maior CV e por isso apresenta maior homogeneidade. Nº de crises Nº de pacientes 0 14 1 18 2 32 3 29 4 5 5 2 TOTAL 100 Idades Nº de pessoas 10 | 15 6 15 | 20 11 20 | 25 16 25 | 30 13 30 | 35 5 35 | 40 3  54
  • 50.
    50 b) O tempode vida dos homens apresenta menor variabilidade. c) O tempo de vida das mulheres apresenta o menor CV e por isso apresenta maior homogeneidade. d) Como a média de tempo de vida das mulheres é menor então elas apresentam menor variabilidade e) O tempo de vida das mulheres possui maior dispersão porque tem a maior média. 17. Encontram-se a seguir alguns valores de Média e Desvio Padrão extraídos de uma pesquisa no hospital X. Marque a alternativa CORRETA. Para medir a variabilidade relativa das três variáveis mensuradas, e compará-las, a melhor medida é: a) a média b) o desvio padrão c) o qui-quadrado d) o intervalo de confiança e) o coeficiente de variação 18. Cinco grupos de alunos submeteram-se a um teste, obtendo os seguintes resultados: Grupo A Grupo B Grupo C Grupo D Grupo E 3 1 5 3 3 4 3 5 5 5 5 5 5 5 5 6 7 5 7 6 7 9 5 5 Podemos afirmar que o grupo mais heterogêneo é: a) O grupo D, pois o seu coeficiente de variação é maior. b) O grupo C, pois o seu coeficiente de variação é maior. c) O grupo A, pois o seu coeficiente de variação é maior. d) O grupo B, pois o seu coeficiente de variação é maior. e) O grupo E, pois o seu coeficiente de variação é maior. 19. Conhecidas as médias e os desvios-padrões da pressão sanguínea (mm/Hg) segundo o tipo de anestesia (halotano ou morfina), determine qual tipo apresenta os dados mais homogêneos. Informações sobre a amostra Anestesia Halotano Morfina Média 66,9 75 Desvio-Padrão 12,5 13,5 a) Halotano é mais homogêneo porque possui a menor dispersão absoluta. b) Halotano é mais homogêneo porque possui a maior dispersão relativa. c) Morfina é mais homogêneo porque possui a maior dispersão absoluta. d) Morfina é mais homogêneo porque possui a menor dispersão relativa. e) Ambas apresentam a mesma homogeneidade. 20. A distribuição das estaturas de um grupo de pessoas apresentou uma estatura média de 182 cm e um desvio padrão de 15 cm, enquanto que a distribuição dos pesos apresentou um peso médio de 78 kg, com um desvio padrão de 8 kg. Podemos afirmar que: a) A estatura apresenta menor variabilidade. b) O peso apresenta menor variabilidade. c) Nem a estatura nem o peso apresentam variabilidade. d) A estatura e o peso apresentam a mesma variabilidade. e) Não é possível determinar a variabilidade. 21. Perguntei a uma amostra de dez alunos de Estatística as notas que cada um deles precisava para passar na disciplina e obtive as seguintes respostas: 4,5 7,0 8,3 4,3 8,8 4,5 3,5 9,0 3,8 7,5 Determine e interprete a média e o desvio padrão. 22. Estamos estudando o impacto do estágio na obtenção de bons empregos. Dentre os recém-formados e com empregos considerados bons, foi sorteada uma amostra e observado o número de anos de estágio anteriores à formatura. Variável Média ± DP (mg/dL) Glicemia 85,86 ± 14,77 Triglicerídeos 174,36 ± 75,24 Colesterol HDL 46,43 ± 11,71
  • 51.
    51 Anos de estágio0 1 2 3 4 5 6 Total Frequência 25 58 147 105 72 45 10 462 a) Calcule a média e a desvio padrão; b) Para efeito de análise, decidiu-se desprezar os valores que se distanciassem da média amostral por mais de dois desvios padrão (outliers), isto é, só serão considerados os valores no intervalo MÉDIA – 2 DESVIOS PADRÃO até MÉDIA + 2 DESVIOS PADRÃO. Recalcule (a) e comente os resultados. 23. Em uma pesquisa de marketing, voltada para o comportamento do consumidor, um grupo de 128 jovens, entre 20 e 25 anos, foi questionado acerca do nível de satisfação em relação a um novo produto. Dentre as diversas investigações da pesquisa, deseja-se verificar se o nível de satisfação do indivíduo está associado com a sua idade. Obteve-se a seguinte distribuição de frequência simples para as idades. Calcule a média, o desvio padrão e o coeficiente de variação dessa amostra e interprete os resultados. 24. Dados dois grupos de pessoas, o grupo A com 10 elementos e o grupo B com 40 elementos. Se o peso médio do grupo A for de 80 kg e o do grupo B for de 70 kg então é verdade que o peso médio dos dois grupos considerados em conjunto é de 75 kg? Justifique. 25. Um Spa contrata pessoas de diversas área da saúde. No quadro de funcionários atual há 30 funcionários cujas remunerações (em salários mínimos) estão na distribuição abaixo: Calcule a variação relativa e interprete o resultado. 26. Em um exame final de Matemática Básica, o grau médio de um grupo de 150 alunos foi 6,8 e o desvio padrão 1,2. Em Estatística, entretanto, o grau médio final foi 6,9 e o desvio padrão, 1,3. Em que disciplina foi maior a dispersão? 27. Em uma pesquisa na qual indivíduos contaminados pelo veneno de um certo tipo de inseto foram submetidos a tratamento, foi observado o tempo (em horas) entre a administração do tratamento e a recuperação do indivíduo. O conjunto de dados foi separado em três grupos denominados cura rápida, cuja recuperação ocorreu em 12 horas ou menos, cura normal, se o tempo de recuperação foi maior do que 12 horas e menor ou igual a 45 horas, e cura lenta, se o tempo de recuperação foi acima de 45 horas. Tipo de recuperação Média D.Padrão Cura rápida 5,23 3,88 Cura normal 32,00 11,40 Cura lenta 57,00 16,56 Compare a variabilidade desses três grupos através de seus coeficientes de variação e identifique o tipo de recuperação com resultados mais homogêneos. 28. Com base no texto abaixo, calcule os coeficientes de variação das amostras e interprete-os. “O tipo de estudo foi o transversal de base populacional e a amostra escolhida aleatoriamente era composta por 100 idosas, com média de idade de 69,3 ± 4,7 anos, e 85 idosos, com média de idade de 72,4 8,3 anos.” Idade (anos) Nº de Consumidores 20 2 21 3 22 12 23 44 24 46 25 21 Total 128 Salários Mínimos Nº de funcionários 2 | 4 15 4 | 6 12 6 | 8 3  30
  • 52.
    52 4.2 MODA Denotada porMo é o valor mais frequente do conjunto de dados observados. Por ser obtido pela frequência é a única medida de posição de pode não ocorrer ou ocorrer mais de uma vez. Na representação gráfica dos dados, obtém-se imediatamente o valor que representa a moda ou a classe modal. Esta medida também é útil para reduzir a informação de um conjunto de dados qualitativos, apresentados sob a forma de nomes ou categorias, para os quais não se pode calcular a média e por vezes a mediana. Moda para dados não agrupados Para determinar a moda, basta identificar o(s) elemento(s) que mais se repete(m). Exemplo 1: Determinar a moda dos conjuntos de dados abaixo: a) 2; 8; 3; 5; 4; 5; 3; 5; 1 O elemento que mais se repete é o 5. Portanto: Mo = 5 (sequência unimodal). b) 6; 10; 5; 6; 10; 2 Neste conjunto de dados o elemento 6 e o elemento 10 se repetem mais vezes que os demais. Portanto: Mo1 = 6 e Mo2 = 10 (sequência bimodal). c) 2; 2; 8; 8; 5; 5; 6; 6 Não há nenhum elemento que se destaque por possuir maior frequência. Portanto, a série não possui moda e é dita amodal. Nota: A moda só é considerada medida de tendência central no caso unimodal. Nos demais casos é uma medida estatística de análise. Moda para dados agrupados sem intervalos de classes Neste caso, basta identificar o(s) elemento(s) de maior frequência. Moda para dados agrupados com intervalos de classes Neste caso há diversos processos para o cálculo da moda, entre eles: a moda bruta, a moda de Czuber e a moda de Pearson. A mais simples entre elas é a Moda Bruta. Fórmula da Moda Bruta  Identifica-se a classe modal (a que possui maior frequência);  Aplica-se a fórmula: 2 L Mo MoMo    = xi da classe modal onde: ℓMo = limite inferior da classe modal. L Mo = limite superior da classe modal.
  • 53.
    53 Exemplo: Para a distribuiçãoabaixo calcule a Moda Bruta i classes fi 1 0 | 1 3 2 1 | 2 10 3 2 | 3 17  Classe Modal 4 3 | 4 8 5 4 | 5 5 TOTAL 43 Identifica-se a classe modal: 3ª classe (maior frequência = 17) ℓMo = limite inferior da classe modal = 2 L Mo = limite superior da classe modal = 3 5,2 2 5 2 32 2 L Mo MoMo       EXERCÍCIOS - 6ª Lista - Moda 1. Assinale a alternativa CORRETA: a) A moda é a melhor medida de posição para dados discretos com poucas observações repetidas. b) Para encontrar a moda de uma variável devemos somar todos os seus valores e dividir pela sua quantidade. c) A moda é a única medida de localização central que pode ser utilizada para dados qualitativos. d) A moda é denotada por Md. e) A moda é o valor que divide a série em duas partes iguais. 2. Os valores de glicemia em jejum em mg medidos fotocolorimetricamente no sangue de 10 adultos do sexo masculino, clinicamente normais e sem história familial de diabetes mellitus, foram: 79 86 91 96 100 102 108 108 110 120 Para a glicemia em jejum, a moda é: a) 99 b) 100 c) 101 d) 102 e) 108 3. Em um estudo realizado com 100 pacientes portadores de asma foram registrados no mês de março os seguintes dados: Assinale a alternativa CORRETA. Neste mês, o número modal de crises, por paciente, foi de: a)1,0 b) 1,2 c) 1,5 d) 2,0 e) 2,5 4. A academia Boa Forma fez uma pesquisa sobre o peso dos seus clientes. A tabela abaixo mostra o resultado obtido: Assinale a alternativa CORRETA. Com base nos dados acima, podemos concluir que o peso modal (moda bruta), é de: a) 62,5 kg b) 62,9 kg c) 63,2 kg d) 63,4 kg e) 64,0 kg Nº de crises Nº de pacientes 0 14 1 18 2 32 3 29 4 5 5 2 TOTAL 100 Peso (kg) Nº de pessoas 50 | 55 9 55 | 60 10 60 | 65 25 65 | 70 18 70 | 75 8 Total 70
  • 54.
    54 5. Em umaamostra de 9 pacientes, os valores do nível de triglicérides (mg/dL) foram: 160 - 158 - 202 - 135 - 160 - 182 - 150 - 186 - 160 Considerando os dados da amostra, avalie as afirmações a seguir: “160 mg/dL é o valor da moda do nível de triglicérides das 9 pessoas da amostra”, PORQUE “160 mg/dL é o valor mais frequente entre os valores do nível de triglicérides da amostra”. Acerca dessas afirmações, assinale a opção CORRETA: a) As duas afirmações são verdadeiras, e a segunda é uma justificativa correta da primeira. b) As duas afirmações são verdadeiras, mas a segunda não é uma justificativa correta da primeira. c) A primeira afirmação é verdadeira e a segunda é falsa. d) A primeira afirmação é falsa e a segunda é verdadeira. e) As duas afirmações são falsas. 6. Os dados abaixo se referem à idade de 32 alunos de uma turma de Fisioterapia. Assinale a alternativa CORRETA. Com base nestes dados, podemos afirmar que a distribuição é: a) amodal b) modal, e a moda é 8 c) modal, e a moda é 10 d) modal, e a moda é 22 e) bimodal, e as modas são 21 e 23 7. Por um lado, a fisioterapia procura a manutenção saudável dos movimentos humanos, através das condutas fisioterapêuticas e por outro a educação física quer desenvolver e melhorar estes mesmos movimentos humanos, através de um processo educacional. Ambos querem melhorar a qualidade de vida das pessoas, um preservando a integridade e o outro, buscando a melhoria das competências físicas. Em uma academia com equipe multidisciplinar, um fisioterapeuta e uma profissional da educação física se uniram para prestar uma assistência mais completa aos alunos e, devido a soma dos conhecimentos dos dois grandes profissionais, tanto quando o assunto é condicionamento físico, quanto quando falamos em tratamento, verificou-se que os alunos estão recebendo atendimento vip. Visando conhecer melhor e atender às necessidades dos alunos foi realizado um levantamento de diversas informações, entre elas, a idade, em anos: 25 32 18 38 35 27 29 30 32 19 17 45 36 65 48 52 29 25 38 32 44 58 25 23 42 38 42 60 21 25 18 25 22 38 37 25 57 35 24 38 38 65 41 30 59 63 38 25 44 17 Com base nestes dados, qual a idade modal dos alunos atendidos? 8. Na tabela ao lado são dadas as idades de 54 pessoas. Calcule a moda bruta e interprete. Idades (anos) Nº de Alunos 20 4 21 8 22 10 23 8 24 2  32 Idades Nº de pessoas 10 | 15 6 15 | 20 11 20 | 25 16 25 | 30 13 30 | 35 5 35 | 40 3  54
  • 55.
    55 4.3 MEDIANA, QUARTISE DESVIO INTER-QUARTIL A média e o desvio padrão são as medidas mais usadas para avaliar a posição central e a dispersão de um conjunto de valores, porém são fortemente influenciadas por valores discrepantes (outliers). Nestes casos, a mediana é uma medida de localização que pode ser usada como valor típico do conjunto de dados. Exemplo: Se considerarmos 15 pessoas em uma academia e, destas, 14 pesam entre 45 e 70 kg enquanto uma pesa 160 kg: 45 50 50 52 55 55 55 56 58 58 60 64 68 70 160 Se utilizarmos a média nesta amostra observaremos um valor de 64 kg, enquanto que a mediana resultaria em 56 kg. A mediana é uma função de estatística robusta, por que consegue desconsiderar os pontos fora da curva que enviesam a amostra (160 kg), enquanto que a média não. MEDIANA (Md) A mediana, denotada por Md, é o valor que divide o rol em duas partes contendo, cada uma, a mesma quantidade de elementos. Assim, a mediana é o valor que ocupa a posição central de uma série de dados. 50% 50% Md Mediana é uma medida de posição que é simultaneamente, medida de tendência central e medida separatriz. Sendo a mediana menos afetada por valores discrepantes ela é mais recomendada para a análise de dados que possam conter valores discrepantes. Mediana para dados não agrupados Dado um conjunto de 𝑛 valores, definimos mediana como o valor, Md, que ocupa a posição do conjunto de dados ordenados crescente ou decrescentemente. Se for decimal, toma-se como mediana a média dos dois valores de posições mais próximas a . Exemplo 1: Determinar a mediana da série: 20; 12; 23; 20; 8; 12; 2. Ordenando os dados em Rol: 2; 8; 12; 12; 20; 20; 23. Determinando a Posição da Mediana: = = 4ª Identificando o elemento da 4ª posição do rol: Md=12 Exemplo 2: Determinar a mediana da série: 7; 21; 13; 15; 10; 8; 9; 18. Ordenando os dados em Rol: 7; 8; 9; 10; 13; 15; 18; 21 Determinando a Posição da Mediana: = = 4,5ª (entre a 4ª e a 5ª posições) Identificando o elemento mediano dos dados: Md= = 11,5
  • 56.
    56 Assim,  Quando orol possui uma quantidade ímpar de elementos a Mediana é o elemento que ocupa posição central.  Quando a quantidade de elementos é par a Mediana é a média aritmética dos dois elementos que ocupam as posições centrais. A mediana separa a série em duas partes iguais, onde cada parte contém o mesmo número de elementos, a mesma série pode ser dividida em mais partes que contenham a mesma quantidade de elementos. O nome da medida de posição separatriz será de acordo com a quantidade de partes em que é dividida a série.  Mediana: divide a série em duas partes iguais (Md);  Quartis: divide a série em quatro partes iguais (Q1, Q2, Q3);  Decis: divide a série em 10 partes iguais (D1, D2, D3, D4, D5, D6, D7, D8, D9);  Percentis: divide a série em 100 partes iguais (P1, P2, P3, ..., P99). Observação: Mediana = 2º Quartil = 5º Decil = 50º Percentil QUARTIS (QK) O primeiro quartil: Q1 : é o elemento do conjunto de dados onde abaixo dele se situam 25% dos casos e acima se situam 75%. O segundo quartil: Q2 = Md, pois abaixo ou acima dele se situam 50% dos casos. O terceiro quartil: Q3 : 75% dos casos se situam abaixo e 25% se situam acima. 25% 25% 25% 25% Q1 Q3 Q2=Md Para calcular os quartis: Q1 e Q3 de dados não agrupados, o método mais prático é o de utilizar o princípio do cálculo da mediana. Na realidade serão calculadas "três medianas" em uma mesma série ordenada. Roteiro:  Ordenar os dados por ordem crescente e calcular a mediana;  O 1.º quartil, Q1, é a mediana dos dados que ficam para a esquerda da mediana;  O 3.º quartil, Q3, é a mediana dos dados que ficam para a direita da mediana. Dado um conjunto de valores ordenados, podemos obter o quartil inferior ou primeiro quartil, Q1, como a mediana dos valores de posições menores ou iguais à posição da Md. E a mediana dos valores de posições maiores ou iguais à Md corresponde ao quartil superior, ou terceiro quartil, Q3. Se a mediana coincidir com um valor do conjunto de valores, vamos convencionar em considerá-la tanto no cômputo de Q1 como no de Q3. Exemplo 1: Dados: 12, 10, 15, 17, 19, 11, 13, 14, 16, 18. Ordenando: Logo: Md = 14,5, Q1 = 12 e Q3 = 17. 10 11 12 13 14 15 16 17 18 19 Q1 Md Q3
  • 57.
    57 Exemplo 2: Dados:2, 3, 4, 4, 5, 5, 5, 7, 8, 9, 10 2 3 4 4 5 5 5 7 8 9 10 Q1 Md Q3 Então: Md = 5, Q1 = 4 e Q3 = 7,5. Para um estudo mais aprofundado a respeito das posições dos quartis Q1 e Q3 leia http://wikiciencias.casadasciencias.org/wiki/index.php/Quartis DESVIO INTER-QUARTIL e INTERVALO INTERQUARTÍLICO Ou desvio interquartílico é o desvio entre quartis 𝑑 = 𝑄 − 𝑄 É muitas vezes usado como uma medida de dispersão. Uma regra muitas vezes usada para detectar valores discrepantes é verificar se existe algum valor do conjunto de dados que se afasta mais do que 1,5 ∙ 𝑑 do quartil superior (ou inferior). Assim definimos o Intervalo Inter-Quartílico IIQ = 𝑄 − 1,5 ∙ 𝑑 ; 𝑄 + 1,5 ∙ 𝑑 Os valores do conjunto de dados que ficarem fora do intervalo acima são considerados valores discrepantes. DIAGRAMA EM CAIXAS ou BOXPLOT Um gráfico box–plot é uma ferramenta de análise de dados exploratória que enfatiza as características mais importantes de um conjunto de dados. Ele apresenta os aspectos mais relevantes de uma distribuição de frequência e é chamado de diagrama em caixas, desenho esquemático, caixa-e-bigodes ou boxplot. Embora as três medidas Q1, Md e Q3 mostrem a forma da distribuição de 50% dos valores ao redor da mediana, a adição dos valores Mínimo e Máximo a estas três medidas permite obter um conjunto mais completo de informações sobre a forma da distribuição. O BoxPlot é a forma gráfica de representar estas cinco medidas estatísticas (Five Number Summary) num único conjunto de resultados conforme ilustrado abaixo. Traçamos dois retângulos: um representando o espaço entre o quartil inferior (Q1) e a mediana (Md), e o outro entre a mediana (Md) e quartil superior (Q3). O gráfico pode ser construído na horizontal, ou na vertical. Entre os quartis e os extremos traçamos uma linha.
  • 58.
    58 IMPORTANTE: Caso existamvalores discrepantes (valores inferiores a 𝑄 − 1,5 ∙ 𝑑 ou superiores a 𝑄 + 1,5 ∙ 𝑑 ), a linha é traçada até o último valor não discrepante, e os valores discrepantes são indicados por pontos. Finalizando: o gráfico BoxPlot nos fornece informações sobre a posição central, dispersão e assimetria da respectiva distribuição de frequências dos dados. Mediana e Quartis para dados agrupados sem intervalos de classes O procedimento para o cálculo da mediana e dos quartis para dados agrupados sem intervalos de classes é o mesmo utilizado para dados não agrupados. Para auxiliar na localização das separatrizes calcula-se as frequências acumuladas. EXERCÍCIOS - 7ª Lista – Mediana e Quartis 1. Assinale a alternativa CORRETA. São fornecidos valores de nível de triglicérides (mg/dL) de 9 pessoas 166 158 202 162 135 82 150 86 121 Com o cálculo da mediana podemos afirmar que 50% dessas pessoas possuem nível de triglicérides menor que: a) 135 b) 140 c) 150 d) 166 e) 202 2. Assinale a alternativa CORRETA. Uma dieta hipocalórica foi prescrita a 16 jovens com tendências a obesidade. Após período determinado, os pesos dos jovens foram verificados e registradas suas reduções de peso no quadro abaixo em kg: 0 1 1 2 3 4 4 8 0 1 2 2 4 4 5 10 Com base nestes dados, determine a mediana para verificar que 50% destes jovens perderam, no máximo: a) 2,0 kg b) 2,5 kg c) 3,0 kg d) 3,5 kg e) 4,0 kg 3. Os tempos, em segundos, que 8 atletas levam para percorrer uma distância de 100 metros na prova de atletismo, são: 90 85 100 92 92 87 84 98 Assinale a alternativa CORRETA. Neste caso, o valor 91 representa: a) a média b) a média e a mediana c) a média e a moda d) a mediana e a moda e) a média, a mediana e a moda 4. Estudos mostram que pelo menos 70% dos idosos têm problema de saúde e a atividade física pode ser uma grande aliada do tratamento. A prática da atividade física pode controlar a manifestação e os sintomas de várias doenças,
  • 59.
    59 como a hipertensão,por exemplo. Uma pressão arterial abaixo de 120/80 é considerada normal; já a pressão alta é aquela de 140/90 mmHg ou superior. O primeiro número é a pressão sistólica e o último a diastólica. Uma amostra de 25 idosos do sexo feminino, com idade média de 65 anos foi selecionada em um centro de gerontologia para verificar os níveis de pressão arterial sistólica. Obteve-se: 90 90 90 100 100 100 100 100 110 110 110 110 120 120 120 120 120 130 130 130 140 140 140 140 150 Assinale a alternativa CORRETA. Podemos afirmar que 50% das senhoras têm pressão arterial sistólica abaixo de: a) 100 b) 110 c) 120 d) 130 e) 140 5. Considerando os dados da amostra, avalie as afirmações a seguir: Dados de pesquisas mostram que o peso das mochilas de muitas crianças está bem acima do recomendado por especialistas, que é de até 10% do peso do aluno. Em certa turma do 6º ano, na qual os alunos têm 10 ou 11 anos, selecionou-se uma amostra de onze alunos com peso corporal de 40 quilos e foram medidos os pesos das mochilas, também em quilos, e obteve-se: 5,7 3.5 3,3 4,2 4,8 5,2 5,5 3,5 3,6 3,8 4,2 “Nesta amostra confirma-se que o peso mediano das mochilas está acima do recomentado”, PORQUE “Metade das mochilas pesam mais do que 4,0 quilos” Acerca dessas afirmações, assinale a opção CORRETA: a) As duas afirmações são verdadeiras, e a segunda é uma justificativa correta da primeira. b) As duas afirmações são verdadeiras, mas a segunda não é uma justificativa correta da primeira. c) A primeira afirmação é verdadeira e a segunda é falsa. d) A primeira afirmação é falsa e a segunda é verdadeira. e) As duas afirmações são falsas. 6. Durante uma epidemia de cólera, recolheu-se certo número de mortos em 35 cidades de um país, obtendo-se a seguinte tabela: Assinale a alternativa CORRETA. Pode-se afirmar que o número mediano de mortos foi: a) 1,0 b) 1,5 c) 1,7 d) 2,0 e) 2,4 7. (CESPE – ABIN – 2010) Considerando que o diagrama de ramos-e-folhas acima mostra a distribuição das idades (em anos) dos servidores de determinada repartição pública, julgue Verdadeiro ou Falso os próximos itens. ( ) O primeiro quartil e o terceiro quartil são, respectivamente, 34 e 46 anos de idade. ( ) A mediana das idades dos servidores é igual a 39,5 anos. 8. Com o objetivo de verificar o comportamento do consumidor, um órgão de defesa do consumidor registrou o seguinte número de queixas ao longo de 11 dias: 58 39 63 88 95 48 56 72 75 83 60 Com base nos dados calcule a mediana e os quartis do número de queixas por dia desta amostra. 9. Os tempos despendidos por 12 alunos, em segundos, para percorrer certo trajeto, sem barreira, foram: 16 17 16 20 18 16 17 19 21 22 16 23 Com base nos dados, calcule nesta amostra a mediana e os quartis do tempo despendido para percorrer o trajeto. (nº) Mortos (nº) Cidades 0 9 1 9 2 11 3 3 4 2 5 1 Total 35
  • 60.
    60 10. Considere ográfico ramo-e-folhas seguinte referentes à renda familiar (em salários mínimos) de 33 alunos cadastrados em um curso de línguas. Obtenha a partir dele o gráfico "box-plot" correspondente. A barra separa a unidade da decimal, utiliza-se apenas uma casa decimal. Isto é, 3 | 1 significa 3,1. Interprete os resultados. 3 4 5 6 7 8 9 10 1 3 2 0 0 0 0 1 4 5 2 1 2 1 5 4 2 4 4 7 7 3 5 4 7 9 3 6 7 5 8 6 8 11. Um levantamento foi realizado com relação ao tempo com que os serviços de atendimento ao consumidor (SACs) de fabricantes de computadores solucionam chamados técnicos. Foram obtidos os seguintes resultados sobre o número de dias que os SACs de 14 fabricantes de computadores necessitaram para resolver certo problema. Fabricante Dias para resolver o problema Fabricante Dias para resolver o problema 1 13 8 21 2 27 9 27 3 11 10 12 4 14 11 14 5 14 12 20 6 17 13 40 7 16 14 17 a) Determine e classifique a variável que está sendo estudada. b) Qual fabricante resolveu o problema mais rapidamente? Em quantos dias o problema foi resolvido? c) Qual fabricante demorou mais para resolver o problema? Em quantos dias o problema foi resolvido? d) Obtenha o número mediano de dias necessários para que o problema fosse resolvido. e) Calcule os quartis Q1 e Q3 para o número de dias em questão. f) Com base nos cinco valores calculados construa o gráfico boxplot para o número de dias necessários para que o problema fosse resolvido. 12. Abaixo é dado o rol do número de atendimentos/dia realizados em certo consulado durante um período de 20 dias: 5 8 10 10 10 15 15 18 18 20 22 25 25 26 27 30 35 40 55 58 (A) Construa um ramo-e-folhas. (B) Determine as medidas separatrizes Md, Q1, e Q3. (C) Obtenha o intervalo interquartílico. (D) Confeccione o boxplot para os dados amostrados. Comente. 13. Os tempos, em segundos, que 96 atletas mirins levam para percorrer uma distância de 100 metros na prova de atletismo, estão indicados na distribuição de frequencias ao lado. De acordo com a tabela calcule o tempo mediano e interprete. Tempos (s) Nº de atletas 85 1 86 5 87 10 88 15 89 16 90 18 91 23 95 5 99 2 110 1 TOTAL 96
  • 61.
    61 14. Considere asnotas de Pesquisa de Hábitos de Estudos e Atitudes – PHEA. para 18 alunas do primeiro ano de uma faculdade: 154 109 137 115 152 140 154 178 101 103 126 126 137 165 165 129 200 148 e para 20 alunos do primeiro ano 108 140 114 91 180 115 126 92 169 146 109 132 75 88 113 151 70 115 187 104 A figura ao lado apresenta os Box-plots das notas dos conjuntos de dados referentes às alunas (Feminino) e aos alunos (Masculino) e a todos os estudantes (Todos). a) Para cada um dos conjuntos de dados, estime graficamente a mediana, o primeiro e o terceiros quartis e uma medida de dispersão; b) Faça uma breve comparação dos grupos de alunos e alunas. As mulheres, como grupo, têm maiores notas do que os homens? Que grupo de notas se apresenta mais disperso? 15. Um levantamento da qualidade de vida das pessoas que pertencem ao grupo da terceira idade constatou que, com o passar dos anos, as comunidades apresentam um percentual cada vez maior de pessoas que fazem parte do grupo da maturidade. Abaixo encontram-se os rols de 4 amostras de idades de pessoas das comunidades A, B, C e D. Para facilitar a escolha da comunidade que apresenta a maior concentração de pessoas mais idosas, realize os cálculos dos coeficientes de variação. Também confeccione e analise os Box plots para selecionar a comunidade mais idosa e justifique sua escolha. 16. A figura ao lado apresenta os Box-plots das notas de Pesquisa de Hábitos de Estudos e Atitudes – PHEA de uma amostra de 18 alunas e de 20 alunos do primeiro ano de uma faculdade. Comparando os grupos pode-se dizer que a alternativa correta é: a) As notas das mulheres apresentam maior dispersão do que as notas dos homens. b) Ambos os conjuntos apresentam valores discrepantes. c) As notas dos homens apresentam menor desvio interquartílico. d) A nota mediana das mulheres é maior do que a nota mediana dos homens. 17. Considerando os gráficos (Box-plots) ao lado assinale a alternativa correta: a) A mediana da classe B é superior à mediana da classe A. b) A categoria A apresenta maior desvio interquartílico quando comparado à demais categorias. c) A categoria C não apresenta valores discrepantes. d) A categoria B apresenta maior dispersão de dados. A B C D 49 50 45 57 51 51 69 61 55 56 73 66 59 67 76 72 63 74 82 79 64 86 85 84 77 87 90 85 78 92 92 88 89 104 95 102 112 104 97 105 TodosMasculinoFeminino 200 180 160 140 120 100 80 60 Conjuntos Notas
  • 62.
    62 CONSIDERAÇÕES GERAIS ACERCADAS MEDIDAS DE POSIÇÃO Quando a distribuição é simétrica, a média, a mediana e a moda coincidem. A média ao contrário da mediana, é uma medida muito influenciada por valores "muito grandes" ou "muito pequenos", mesmo que estes valores surjam em pequeno número na amostra. Estes valores são os responsáveis pela má utilização da média em muitas situações em que teria mais significado utilizar a mediana, ou a moda. A mediana e a moda não são tão sensíveis, como a média, às observações que são muito maiores ou muito menores (discrepantes) do que as restantes (outliers). Por outro lado a média reflete o valor de todas as observações. A partir do exposto, deduzimos que se a distribuição dos dados:  for enviesada para a esquerda (alguns valores pequenos como "outliers"), a média tende a ser inferior à mediana.  for aproximadamente simétrica, a média aproxima-se da mediana .  for enviesada para a direita (alguns valores grandes como "outliers"), a média tende a ser maior que a mediana.
  • 63.
    63 5 CORRELAÇÃO EREGRESSÃO Ao se estudar uma variável o interesse eram as medidas de tendência central, dispersão, assimetria, etc. Com duas ou mais variáveis além destas medidas individuais também é de interesse conhecer se elas têm algum relacionamento entre si, isto é, se valores altos (baixos) de uma das variáveis implicam em valores altos (ou baixos) da outra variável. Por exemplo, pode-se verificar se existe associação entre a taxa de desemprego e a taxa de criminalidade em uma grande cidade, entre verba investida em propaganda e retorno nas vendas, etc. A associação entre duas variáveis poder ser de dois tipos: correlacional e experimental. Numa relação experimental os valores de uma das variáveis são controlados pela atribuição ao acaso do objeto sendo estudado e observando o que acontece com os valores da outra variável. Por exemplo, pode- se atribuir dosagens casuais de uma certa droga e observar a resposta do organismo; pode-se atribuir níveis de fertilizante ao acaso e observar as diferenças na produção de uma determinada cultura. No relacionamento correlacional, por outro lado, não se tem nenhum controle sobre as variáveis sendo estudadas. Elas são observadas como ocorrem no ambiente natural, sem nenhuma interferência, isto é, as duas variáveis são aleatórias. Assim a diferença entre as duas situações é que na experimental nós atribuímos valores ao acaso de uma forma não tendenciosa e na outra a atribuição é feita pela natureza. Ao estudo do relacionamento entre duas ou mais variáveis denominamos de correlação e regressão. Se o estudo tratar apenas de duas variáveis tem-se a correlação e a regressão simples, se envolver mais do que duas variáveis, tem-se a correlação e a regressão múltiplas. A regressão e a correlação tratam apenas do relacionamento do tipo linear entre duas variáveis A correlação e a regressão são duas técnicas estreitamente relacionadas que envolvem uma forma de estimação. As técnicas agora apresentadas se referem à estimação de uma relação que possa existir na população. Mais especificamente, a análise de correlação e regressão compreende a análise de dados amostrais para saber se e como duas ou mais variáveis estão relacionadas uma com a outra numa população. A análise de correlação dá um número que resume o grau de relacionamento entre duas variáveis. A análise de regressão tem como resultado uma equação matemática que descreve o relacionamento. A equação pode ser usada para estimar, ou predizer, valores futuros de uma variável quando se conhecem ou se supõem conhecidos valores da outra variável. 5.1 CORRELAÇÃO Quando duas variáveis estão ligadas por uma relação estatística, dizemos que existe correlação entre elas. A confusão entre a correlação e causalidade é fator base de muitas confusões e concepções equivocadas. A correlação, isto é, a ligação entre dois eventos, não implica necessariamente uma relação de causalidade, ou seja, que um dos eventos tenha causado a ocorrência do outro. Em poucas palavras, o que descreve esta advertência é que se dois fatos se produzem ao mesmo tempo ou parecem estar relacionados entre si, isso não significa necessariamente que um dos fatos seja a causa do outro.
  • 64.
    64 DIAGRAMA DE DISPERSÃO Representandoos pares ordenados (xi, yi) em um sistema cartesiano, obtemos uma nuvem de pontos denominada diagrama de dispersão, que fornece uma ideia da correlação existente. O diagrama de dispersão indica se existem dados discrepantes e se o padrão geral dos dados é linear. Isso é importante para o uso do coeficiente de correlação. CORRELAÇÃO LINEAR A correlação de forma elíptica tem como "imagem" uma reta, sendo por isso, denominada correlação linear. Assim, uma correlação é: a) linear positiva se os pontos do diagrama têm como "imagem" uma reta ascendente; b) linear negativa se os pontos têm como "imagem" uma reta descendente; c) não-linear se os pontos têm como "imagem" uma curva. Observação: Não haver relação linear não significa que as variáveis não possuam nenhuma ligação.              Correlação linear positiva                Correlação linear negativa               Correlação não-linear                  Não há correlação 2 2 4 4 6 6 8 8 10 10 . . . . . . . . . . .
  • 65.
    65 Observe que:  Se,quando uma das variáveis “cresce”, a outra, em média, também “cresce”, dizemos que entre as duas variáveis existe uma correlação positiva, tanto mais forte quanto mais perto de uma reta imaginária os pontos estiverem;  Se, quando uma das variáveis “cresce”, a outra, em média, “decresce”, dizemos que entre as duas variáveis existe uma correlação negativa, tanto mais forte quanto mais perto de uma reta imaginária os pontos estiverem;  Se os pontos estiverem dispersos, sem definição, dizemos que a correlação é muito baixa, ou mesmo nula. As variáveis nesse caso são ditas não relacionadas. Coeficiente de correlação linear (𝒓) Dado um problema, primeiro precisamos dizer, em teoria, porque achamos que a associação existe. Devemos examinar a qualidade dos dados e as escalas de medida e construir um diagrama de dispersão, para saber se a relação é linear e se existem valores discrepantes. Apesar do diagrama de dispersão nos fornecer uma ideia do tipo e extensão do relacionamento entre duas variáveis X e Y, seria altamente desejável ter um número que medisse esta relação. Esta medida existe e é denominada de coeficiente de correlação. Quando se está trabalhando com amostras o coeficiente de correlação é indicado pela letra 𝑟 que é, por sua vez, uma estimativa do coeficiente de correlação populacional: ρ (rho). Calculamos o coeficiente de correlação (indicado por 𝑟) e analisamos o resultado que possui dois componentes: o sinal e o valor numérico. O sinal informa se a associação é positiva ou negativa, e o valor numérico indica o grau de correlação, que varia entre 0 (nenhuma associação linear) e 1 (associação linear perfeita). Por isso dizemos que este coeficiente indica o grau de intensidade da correlação entre duas variáveis e, ainda, o sentido dessa correlação (ou ). Coeficiente de Pearson: O coeficiente de correlação do momento produto, também conhecido como coeficiente de correlação de Pearson é a maneira de descobrir a natureza e a extensão da associação linear entre duas variáveis. A fórmula é:                                  2 2 2 2 .. . iiii iiii yynxxn yxyxn r ,  1 ≤ 𝑟 ≤ 1 onde 𝑛 é o número de observações. Com respeito ao sinal do relacionamento entre as variáveis X e Y observa-se: Se r > 0, há uma correlação linear positiva entre as variáveis; Se r < 0, há uma correlação linear negativa entre as variáveis; Se r = 0, ou não há correlação entre as variáveis ou a relação que por ventura exista não é linear. Se r = 1, há uma correlação perfeita e positiva entre as variáveis; Se r = 1, há uma correlação perfeita e negativa entre as variáveis;
  • 66.
    66 Com respeito àintensidade do relacionamento entre as variáveis X e Y podemos adotar o seguinte critério: −1 < 𝑟 < −0,7  correlação linear negativa forte −0,7 ≤ 𝑟 ≤ −0,3  correlação linear negativa moderada −0,3 < 𝑟 < 0  correlação linear negativa fraca 0 < 𝑟 < 0,3  correlação linear positiva fraca 0,3 ≤ 𝑟 ≤ 0,7  correlação linear positiva moderada 0,7 < 𝑟 < 1  correlação linear positiva forte | | | | | | | −1 −0,7 −0,3 0 0,3 0,7 1 Coeficiente de determinação (𝒓 𝟐 ) O coeficiente de determinação ou simplesmente 𝒓 𝟐 é o quadrado do coeficiente de correlação de Pearson. O coeficiente de determinação é uma medida de ajustamento de um modelo estatístico linear generalizado (como a Regressão Linear) em relação aos valores observados. O 𝒓 𝟐 varia entre 0 e 1, indicando, em percentagem, o quanto o modelo consegue explicar os valores observados. Vale ressaltar que é importante identificar a variável independente X e a variável dependente Y para uma adequada interpretação do coeficiente de determinação. Em outras palavras, o coeficiente de determinação é uma medida da proporção da variabilidade de Y que é explicada pela variabilidade de X. É pouco comum que tenhamos uma correlação perfeita (𝑟 = 1) na prática, porque existem muitos fatores que determinam as relações entre variáveis na vida real. Por exemplo, dadas as variáveis X e Y, se tivermos 𝑟 =0,79, teremos 𝑟 =0,62 ou 62%. Então cerca de 38% da variabilidade de Y não pode ser descrito (ou explicado) pela variabilidade de X e vice-versa, ou seja, existem outros fatores que poderiam ser importantes, para as variabilidades de X e Y. FRACA MODERADA FORTE
  • 67.
    67 5.2 REGRESSÃO LINEARSIMPLES A análise de regressão tem por objetivo descrever, através de uma equação matemática, o relacionamento entre duas variáveis, partindo de n observações das mesmas. A variável sobre a qual desejamos fazer uma estimativa recebe o nome de variável dependente (Y) e a outra recebe o nome de variável independente (X). Equação da Reta: 𝑌 = 𝑎 + 𝑏𝑋, onde 𝑎 e 𝑏 são os parâmetros. Fórmulas para o cálculo dos valores dos parâmetros a e b:          22 ii iiii xxn yxyxn b e xbya  onde: n é o número de observações x é a média dos valores xi             n x x i e y é a média dos valores yi             n y y i Interpretação do coeficiente de regressão (𝒃) Obtida uma reta de regressão, o primeiro passo na sua interpretação é verificar o sinal de 𝑏 que indica a inclinação da reta. Se 𝑏 for positivo, indica que, quanto maior o valor de X, maior o valor de Y; se 𝑏 for negativo, indica que quanto maior o valor de X, menor o valor de Y. Uma interpretação mais informativa para o coeficiente de regressão (𝑏) é que ele representa em quanto varia a média de Y para o aumento de uma unidade da variável X. Esta variação pode ser negativa, situação em que para um acréscimo de X corresponde um decréscimo de Y. Assim, quando X aumenta em média 1 unidade tem-se em média um acréscimo (se 𝑏>0) ou decréscimo (se 𝑏<0), de b unidades em Y. 2 2 4 4 6 6 8 8 10 10 . . . . . . . . . . reta imagem
  • 68.
    68 O coeficiente 𝒂é dito intercepto e determina o ponto em que a reta corta o eixo de Y, isto indica qual o valor da variável Y quando X=0, o que muitas vezes não tem significado no contexto das variáveis. OBSERVAÇÕES:  Como estamos utilizando uma amostra para obtermos os valores dos parâmetros, o resultado é uma estimativa da verdadeira equação de regressão. Sendo assim, escrevemos: bXaY ˆ , onde Yˆ é o Y estimado.  A reta de regressão que se obtém através do método dos mínimos quadrados é apenas uma aproximação da realidade, ela é um modo útil para indicar a tendência dos dados. O coeficiente de determinação pode indicar o quanto útil ou aproximado da realidade é a reta.  Uma norma importante no uso de equações de regressão é a usá-la para interpolações, e não extrapolações, exceto quando considerações teóricas ou experimentais demonstrarem a possibilidade de extrapolação. Observe ainda que o coeficiente de determinação indica quantos por cento a variação explicada pela regressão representa sobre a variação total. Como 0 ≤ 𝑟 ≤ 1:  Se 𝑟 for igual a 1, isto significa que todos os pontos observados (no diagrama de dispersão) se situam “exatamente” sobre a reta de regressão. Tendo-se, neste caso, um ajuste perfeito. As variações da variável Y são 100% explicadas pelas variações da variável X, não ocorrendo desvios em torno da função estimada.  Por outro lado, se 𝑟 = 0, isto quer dizer que as variações de Y são exclusivamente aleatórias e explicadas pelas variações de outros fatores que não X. EXERCÍCIOS - 8ª Lista - Correlação e Regressão 1. Observe a figura onde: X: Cobertura por Sistemas de Esgoto Sanitário (em %) Y: Taxa de Mortalidade Infantil (<1ano-por 1000nv.) Neste caso, as variáveis têm correlação linear: a) nula. b) variável. c) perfeita. d) positiva. e) negativa. 2. Observe a figura e marque a alternativa correspondente. As variáveis: X: Idade de crianças (em anos). Y: Peso dessas crianças (em Kg). têm correlação linear: a) perfeita e negativa. b) perfeita e positiva. c) positiva forte. d) negativa forte. e) nula. 0 5 10 15 20 25 30 0 1 2 3 4 5 6 7 8 9 10 X Y 0 10 20 30 40 50 60 70 80 90 30 40 50 60 70 80 90 100
  • 69.
    69 3. É esperadoque a massa muscular de uma pessoa diminua com a idade. Para estudar esta suposição em mulheres, uma nutricionista aleatoriamente selecionou 2 mulheres de cada grupo com faixa de idade de 10 anos, iniciando com 40 anos e terminando com 79 anos. Os resultados são dados abaixo; X é a idade e Y é uma medida da massa muscular. Analisando a tabela, assinale a afirmação CORRETA. a) Existe uma correlação linear perfeita entre as variáveis idade e medida da massa muscular. b) Existe uma correlação linear positiva entre as variáveis idade e medida da massa muscular. c) Existe uma correlação linear negativa entre as variáveis idade e medida da massa muscular. d) Não existe correlação entre as variáveis idade e medida da massa muscular. e) Apenas com os dados da tabela não é possível tirar conclusões. 4. Um estudo acerca da obesidade infantil deseja verificar a relação entre a medida do índice de massa corporal (X) e a porcentagem de gordura corporal (Y) em escolares, na faixa etária de 6 a 10 anos. Uma amostra piloto composta por 8 escolares apresentou a seguinte equação de reta de regressão ajustada para os dados coletados: Y=3,41,2X. Para um índice de massa corporal X=25, a porcentagem de gordura corporal Y esperada é de aproximadamente: a) 23 % b) 25 % c) 27 % d) 29 % e) 31 % 5. Foram selecionadas aleatoriamente 14 pacientes que estão sendo pesquisados sobre a síndrome metabólica. Alguns dados foram registrados para pesquisa, desde os dados socioeconômicos até os dados bioquímicos. Considere os seguintes dados: a) Identifique as variáveis X e Y. b) A equação de regressão referente aos dados da tabela é Y=0,0531X84,623, interprete o coeficiente b. c) Determine a medida estimada da circunferência de cintura para uma glicose de 99 mg/dl. 6. Um estudo acerca da obesidade infantil deseja verificar a relação entre a medida do índice de massa corporal (X) e a porcentagem de gordura corporal (Y) em escolares, na faixa etária de 6 a 10 anos. Uma amostra piloto composta por 8 escolares apresentou os seguintes resultados: a) O coeficiente de correlação linear de Pearson é r=0,8075. Interprete-o. b) Calcule o coeficiente de determinação e Interprete-o. c) Sabendo que a reta de regressão ajustada para os dados coletados é dada por 𝑌=3,41,2X, para um índice de massa corporal X=25, determine a porcentagem de gordura corporal Y esperada. Interprete o coeficiente b. 7. Para realizar uma investigação sobre a ocorrência de anemia e infecção em uma comunidade estimamos a concentração de hemoglobina (X), em g/dL, e a contagem de eritrócitos e leucócitos no sangue pela medida do hematócrito (Y), em %. Conduzindo um estudo-piloto a partir dos resultados da rotina de um laboratório de hematologia coletados de 10 pacientes obtemos: X 11 11 12 12 14 15 15 17 18 18 Y 38 38 40 40 42 45 46 48 48 48 a) Interprete o coeficiente de correlação linear de Pearson que é r=0,98. Calcule o coeficiente de determinação e interprete. n X Y X2 Y2 XY 1 43 100 1.849 10.000 4.300 2 49 105 2.401 11.025 5.145 3 53 98 2.809 9.604 5.194 4 56 80 3.136 6.400 4.480 5 65 84 4.225 7.056 5.460 6 68 78 4.624 6.084 5.304 7 71 82 5.041 6.724 5.822 8 76 65 5.776 4.225 4.940  481 692 29.861 61.118 40.645 Circunferência da cintura (cm) Glicose (mg/dl) 83 92 95 92 101 92 99 93 64 95 94 105 84,5 107 102 110 75 129 94 144 107 147 90 170 100 172 88,5 189 1277 1737 X 18 13 20 15 17 23 19 21 Y 20 10 25 14 15 20 17 20
  • 70.
    70 b) Com basenos dados, a equação da reta de regressão é dada por 𝑌=221,5X. Para uma concentração de hemoglobina X=13 g/dL, qual é a estimativa da medida do hematócrito (Y)? Interprete o coeficiente b. 8. Uma cadeia de supermercados financiou um estudo dos gastos realizados por família de quatro pessoas com renda mensal líquida entre oito e vinte salários mínimos. A pesquisa levou a equação de regressão 𝑌= 1,2 + 0,4 X, onde Y representa a despesa mensal estimada (através do modelo) e X a renda mensal líquida expressa em número de salários mínimos. a) Estime a despesa mensal de uma família com renda líquida mensal de 15 salários mínimos. b) Interprete o coeficiente angular da equação da reta de regressão. c) A equação em questão serve para estimar a despesa mensal de uma família de 5 pessoas com renda líquida de 12 salários mínimos? Justifique. 9. Tendo em vista o grande interesse do uso da urina nos programas de controle e prevenção do uso de álcool e drogas no ambiente de trabalho e nas clínicas de reabilitação, surge a necessidade de estudos mais detalhados sobre o fator de conversão utilizado para transformar os valores de concentração de etanol na urina (Y) em valores de concentração de etanol no sangue (X) e sua validade (os valores de concentração sanguínea são calculados a partir de concentrações urinárias e comparados com os resultados das análises cromatográficas do sangue). Com base no gráfico de dispersão de certa amostra (ao lado), e sabendo que o coeficiente de correlação linear de Pearson é r = 0,85: a) interprete o coeficiente de correlação entre as variáveis: X: Valores de Concentração de Etanol no Sangue e Y: Valores de Concentração de Etanol na Urina. b) calcule e interprete o coeficiente de determinação r2 . 10. Procurando quantificar os efeitos da escassez de sono sobre a capacidade de resolução de problemas simples, um pesquisador tomou ao acaso 10 sujeitos e os submeteu a experimentação. Deixou-os sem dormir por diferentes números de horas, após o que solicitou que os mesmos resolvessem os itens “contas de adicionar” de um teste. Obteve, assim, os seguintes dados a) Identifique a variável independente X e a variável dependente Y. b) Com base nos dados, obteve-se o coeficiente de correlação linear de Pearson r=0,7824. Interprete-o. c) O coeficiente de determinação é r2 =0,6122, o que significa? d) A equação da reta de regressão que modela o experimento é dada por y=3,2371+0,4631x. Interprete o coeficiente de regressão b. e) Qual é o número de erros esperado para uma pessoa que ficou sem dormir 22 horas? E se ela ficou 36 horas sem dormir? 11. Um pesquisador deseja estudar o relacionamento entre o Índice de Massa Corporal (X), em kg/m2 , e as medidas (somatório) das dobras cutâneas (Y), em milímetros, em alunos de certa escola pública. Um estudo piloto observou 9 alunos e obteve os seguintes dados: Sabendo que a equação da reta de regressão ajustada é dada por 𝒀 = −𝟐𝟏 + 𝟑, 𝟖𝑿, pede-se: a) Interpretar o coeficiente de regressão. b) Estimar a medida das dobras cutâneas para um índice de massa corporal igual a 23. 12. Foram selecionados aleatoriamente 14 pacientes que estão sendo pesquisados sobre a síndrome metabólica. Dentre os dados registrados na pesquisa foram obtidos os valores das variáveis Y: circunferência da cintura (cm) e X: glicose (mg/dL). a) Dado que a equação de regressão obtida foi Y = 0,5 X44,6, interprete o coeficiente b; b) Determine a medida estimada da circunferência da cintura para uma glicose de 80 mg/dL. 13. Um estudo realizado com pacientes idosos admitidos na clínica médica do Hospital Universitário de Brasília utilizou uma amostra composta por 49 pacientes idosos, de ambos os sexos. O objetivo do estudo foi identificar a associação entre os valores do risco de disfasia (X) e o risco nutricional dos pacientes (Y). A amostra resultou em um coeficiente de correlação linear (r) igual a –0,61. Número de erros Horas sem dormir 8 8 6 8 6 12 10 12 8 16 14 16 14 20 12 20 16 24 12 24
  • 71.
    71 a) Interprete otipo de correlação existente entre as variáveis X e Y; b) Calcule o coeficiente de determinação e interprete o resultado.
  • 72.
    72 REFERÊNCIAS BIBLIOGRÁFICAS Foram utilizadosfragmentos de textos e listas de exercícios de diversos livros e endereços da internet. Dentre outros: CRESPO, Antonio Arnot, Estatística fácil  São Paulo : Editora Saraiva, 1997. SILVER, Mick, Estatística para Administração  São Paulo : Atlas, 2000. STEVENSON, William J., Estatística aplicada à Administração  São Paulo : Harper & Row do Brasil, 1981. RESPOSTAS DE ALGUNS EXERCÍCIOS 1ª Lista – Conceitos Básicos – PÁGINA 4 1. b 2. c 3. a 4. c 5. a 6. b 7. e 8. c 9. d 10. e 11. c 12. C-N-N-D-O 2ª Lista  Amostragem - PÁGINA 11 1. d 2. c 3. b 4. a 5. e 6. c 7. c 8. d 9. b 10. b 11. d 12. b 13. e 14. e 15. a 16. b 17. d 18. a 19. a 3ª Lista – Séries e Gráficos Estatísticos - PÁGINA 21 1. d 2. a 3. d 4. b 5. d 6. c 7. c 8. e 9. c 10. a 11. b 12. c 13. d 14. c 15.c 16.geográfica/descritiva/inferencial/população/censo/temporal 17. e 4ª Lista – Distribuição de Frequências - PÁGINA 36 1. d 2. b 3. e 4. c 5. d 6. c 7. d 8. c 9. b 10. e 11. a 5ª Lista – Média, Desvio Padrão e Coeficiente de Variação - PÁGINA 47 1. b 2. a 3. d 4. d 5. d 6. d 7. b 8. a 9. a 10. c 11. b 12. c 13. e 14. c 15. c 16. c 17. e 18. d 19. d 20. a 6ª Lista – Moda - PÁGINA 53 1. c 2. e 3. d 4. a 5. a 6. d 7ª Lista – Mediana e Quartis - PÁGINA 58 1. c 2. b 3. b 4. c 5. a 6. a 7. FV 8ª Lista - Correlação e Regressão - PÁGINA 68 1. e 2. c 3. c 4. c 5. c
  • 73.
    73 QUESTÕES DO ENADE ENADE2004 (GERAL) ENADE 2004 (ED. FÍSICA)
  • 74.
  • 75.
  • 76.
  • 77.
  • 78.
  • 79.
    79 ENADE 2010 (ED.FÍSICA) ENADE 2010 (ENFERMAGEM)
  • 80.
    80 ENADE 2010 (ENFERMAGEM)ENADE 2010 (ENFERMAGEM)
  • 81.
  • 82.
  • 83.
  • 84.
  • 85.