Aula 7 - VARIÁVEIS, POPULAÇÕES E AMOSTRAS VI.pdf

• Aspectos históricos;
• Distinção entre os conceitos de população,
amostras e processos;
• Métodos para tabulação de dados e gráficos;
• Medidas de dispersão e variabilidade.

MÉTODOS ADHOC (OU AMOSTRAGEM NÃO
PROBABILÍSTICA)

Os Trapalhões:
Pesquisa nas
ruas

Amostragem
Acidental, casual
ou conveniente
Objetiva
Modal
Especialistas
Por Quotas
Heterogênea ou
de diversidade
Propagação
geométrica

Amostragem acidental,
casual ou conveniente
Neste tipo de amostra os
elementos são
selecionados pela sua
conveniência, por
voluntariado, ou ainda,
acidentalmente.
Amostragem objetiva
Este tipo de amostra é
constituído com um
determinado objetivo em
mente. Ou seja, é um
acesso rápido a subgrupos
restritos que são mais
receptivos aos objetivos do
estudo.
Amostragem modal
Este tipo de amostragem
procura concentrar a
amostra na moda da
população, isto é no tipo
mais frequente. O
problema com este tipo de
amostragem reside na
dificuldade em saber qual
é a média de população.

Amostragem de especialistas
Neste tipo de amostragem, o objetivo é
constituir amostras cujos elementos sejam
especialistas ou possuam conhecimentos de
uma determinada área.
Amostragem por quotas
Neste tipo de amostragem, as amostras são
constituídas respeitando as quotas
(proporcionalidade ou não) de uma
determinada característica da população
em estudo de uma forma aleatória.

Amostragem de propagação
geométrica (snowball)
Este tipo de amostragem faz-se quando
se pretende incluir na amostra sujeitos
pouco acessíveis ou com determinado
atributo difícil de encontrar.
Amostragem Heterogênea ou de
diversidade
Neste tipo de amostragem, as amostras são
constituídas de modo a que todas as
características, opiniões, atributos, etc.,
estejam presentes na amostra
independentemente das proporções com
que estas se encontram na população.

Estatística
descritiva
Medidas de
tendência
central
Média
Mediana
Moda
Percentis e
Quartis
Medidas de
dispersão
Medidas de
associação
Representação
gráfica

Estatística
descritiva
Medidas de
tendência
central
Medidas de
dispersão
Variância e
Desvio-padrão
Coeficiente de
variação
Amplitude inter-
quartis
Medidas de
associação
Representação
gráfica

Estatística
descritiva
Medidas de
tendência central
Medidas de
dispersão
Medidas de
associação
Covariância
Correlação de
Pearson
Correlação de
Spearman
Correção V de
Cramer e Phi
Representação
gráfica

Estatística
descritiva
Medidas de
tendência central
Medidas de
dispersão
Medidas de
associação
Representação
gráfica
Gráficos

•
média mediana moda
Média
Mediana
Média

• Onde n é a dimensão da amostra (número de observações
da amostra) e Xi (i = 1, ..., n) representa cada um dos
valores da variável X na amostra de dimensão n.
• Esta estatística só tem significado para variáveis do tipo
quantitativo.
ത
x =
1
𝑛
෍
𝑖=1
𝑛
𝑋𝑖 =
1
𝑛
× 𝑋1 + 𝑋2 + ⋯ + 𝑋𝑛

𝜇
• Onde N é a dimensão da população e Xi (i = 1, ..., n)
representa cada um dos valores da variável X na amostra
de dimensão N.
𝜇 =
1
𝑁
෍
𝑖=1
𝑁
𝑋𝑖

• Onde n é a dimensão da amostra.
• Essa estatística exige que as variáveis sejam medidas numa
escala pelo menos ordinal.
෤
x =
𝑋𝑛
2
+ 𝑋𝑛+2
2
2
, 𝑠𝑒 𝑛 𝑝𝑎𝑟
𝑋𝑛+1
2
,𝑠𝑒 𝑛 í𝑚𝑝𝑎𝑟

• A moda é o valor mais frequente da variável X na amostra.
Esta estatística só tem significado para variáveis discretas
ou tornadas discretas por um modo mais ou menos artificial
(por exemplo, através de arredondamentos matemáticos).

Variáveis quantitativas
• são as características
que podem ser
medidas em uma
escala quantitativa, ou
seja, apresentam
valores numéricos que
fazem sentido. Podem
ser contínuas ou
discretas.
Variáveis nominais
• não existe ordenação
dentre as categorias.
Exemplos: sexo, cor dos
olhos, fumante/não
fumante, doente/sadio.
Variáveis ordinárias
• existe uma ordenação
entre as categorias.
Exemplos: escolaridade
(1o, 2o, 3o graus),
estágio da doença
(inicial, intermediário,
terminal), mês de
observação (janeiro,
fevereiro,..., dezembro).
PARA SABER MAIS: VARIÁVEIS

Variáveis qualitativas
• são as características
que não possuem
valores quantitativos,
mas, ao contrário, são
definidas por várias
categorias, ou seja,
representam uma
classificação dos
indivíduos. Podem ser
nominais ou ordinais.
Variáveis discretas
• características
mensuráveis que
podem assumir apenas
um número finito ou
infinito contável de
valores e, assim,
somente fazem sentido
valores inteiros.
Geralmente são o
resultado de
contagens. Exemplos:
número de filhos,
número de bactérias
por litro de leite,
número de cigarros
fumados por dia.
Variáveis contínuas
• características
mensuráveis que
assumem valores em
uma escala contínua
(na reta real), para as
quais valores fracionais
fazem sentido.
Usualmente devem ser
medidas através de
algum instrumento.
Exemplos: peso
(balança), altura
(régua), tempo
(relógio), pressão
arterial, idade.
PARA SABER MAIS: VARIÁVEIS

• Onde n é dimensão da amostra e int (k + 1) representa a
parte inteira de K + 1.
𝑃𝑘 =
𝑋𝑖𝑛𝑡 (𝑘+1) 𝑠𝑒 𝐾 =
𝑛𝑝
100
𝑛ã𝑜 é 𝑖𝑛𝑡𝑒𝑖𝑟𝑜
𝑋𝑘 + 𝑋𝑘+1
2
𝑠𝑒 𝐾 =
𝑛𝑝
100
é 𝑖𝑛𝑡𝑒𝑖𝑟𝑜
• Os percentis dividem a amostra ordenada por ordem
crescente em múltiplos na ordem de 100%. Assim, o
percentil de ordem p calcula-se, depois de ordenados os
elementos da amostra por ordem crescente.

•
Desvio-
padrão
Variância
amostral
Coeficiente
de
variação
Intervalo
de
variação

• O desvio-padrão é uma medida de dispersão mais fácil de
interpretar uma vez que a sua unidade de medida é a
mesma da variável sob estudo.
• O desvio padrão é uma medida que expressa o grau de
dispersão de um conjunto de dados. Ou seja, o desvio
padrão indica o quanto um conjunto de dados é uniforme.
Quanto mais próximo de 0 for o desvio padrão, mais
homogêneo são os dados.

DP =
σ𝑖=1
𝑛
×𝑖−𝑀𝐴
2
𝑛
Sendo,
• ∑: símbolo de somatório. Indica que temos que somar
todos os termos, desde a primeira posição (i=1) até a
posição n
• xi: valor na posição i no conjunto de dados
• MA: média aritmética dos dados
• n: quantidade de dados

• Esta estatística é uma medida relativa da dispersão dos
valores em torno da média, ou seja, quanto o conjunto de
dados se distancia da média.
• O desvio padrão (DP) é definido como a raiz quadrada da
variância (V).
𝑆² =
σ𝑖=1
𝑛
×𝑖 −𝑀𝐴
2
𝑛

Coeficiente de
correlação de
Bravais-Pearson
Coeficiente de
correlação de
Spearman
Coeficiente de
V de Cramer
Phi

• Cohen (1992) sugere os seguintes tamanhos de efeito:
• r = |0,10| -> correlação fraca.
• r = |0,30| -> correlação moderada.
• r = |0,50| -> correlação forte.
• O artigo “How to Interpret a Correlation Coefficient r –
dummies” (2019) sugere que:
• r = |0,30| -> correlação fraca
• r = |0,50| -> correlação moderada
• r = |0,70| -> correlação forte

• O Coeficiente de Correlação por Postos de Spearman, é
uma medida não paramétrica da dependência dos postos
das variáveis.
• Este coeficiente também pode ser chamado de ρ (rho) de
Spearman, rs de Spearman ou Correlação de Spearman.
Como o nome já dá a entender, a correlação de
Spearman descreve a relação entre as variáveis através de
uma função monotética.

• Isso significa, de maneira simplificada, que ele está
analisando se, quando o valor de uma variável aumenta
ou diminui, o valor da outra variável aumenta ou diminui.
• Para interpretarmos esta relação, o coeficiente da
correlação de Spearman gera um número que varia de -1
a +1. Quanto mais próximo dos extremos (-1 ou 1), maior é
a força da correlação. Já os valores próximos de 0
implicam em correlações mais fracas ou inexistentes.
• O quão próximo do zero indica o poder da relação, mas
também precisamos interpretar o sinal, se é positivo ou
negativo, que indica a direção desta relação. Se positiva, o
aumento em uma variável implica no aumento na outra
variável. Os valores negativos indicam que o aumento de
uma variável implica no decréscimo de outra.

• Não existe consenso sobre o a interpretação do poder da
correlação, mas existem algumas recomendações. Cohen
(1992) sugere os seguintes tamanhos de efeito:
r = 0,10 -> correlação fraca.
r = 0,30 -> correlação moderada.
r = 0,50 -> correlação forte.
• “How to Interpret a Correlation Coefficient r – dummies,”
(2019) sugere que:
r = 0,30 -> correlação fraca
r = 0,50 -> correlação moderada
r = 0,70 -> correlação forte

𝑅𝑠 = 1 −
6 σ𝑖−1
𝑛
𝑑𝑖
2
𝑛3 − 𝑛
Onde
𝑑𝑖
2
= 𝑟1𝑖
− 𝑟2𝑖
2

• A correlação de Pearson, apesar de muito útil,
não pode ser utilizada em qualquer contexto.
Você deve procurar alternativas à correlação de
Pearson quando:
▪ A relação entre as variáveis não é linear;
▪ As variáveis não são contínuas.
• A correlação de Spearman segue uma lógica
monotética, e não tem pressupostos lineares
como na correlação de Pearson, é possível
utilizar o rs para relações não lineares.

• A representação gráfica de resultados tem como objetivo
principal a visualização de características de variável em
estudo na amostra, ou seja, de estatísticas amostrais, de
forma mais simples e de fácil aquisição mental.
• Eles nada mais são do que uma outra forma de
representação dos dados estatísticos.
• Diagrama de extremos e quartis (box plot);
• Histograma de frequência;
• Gráfico em barras;
• Gráfico de colunas;
• Gráfico de setores (pie-charts ou radial);
• Gráfico de linhas.

• O Box-plot, também conhecido como gráfico de caixa,
é um gráfico estatístico que possibilita representar a
distribuição de um conjunto de dados com base em
alguns parâmetros descritivos. Existem algumas
variações quanto à quantidade de estatísticas
representadas nesse tipo de gráfico, mas de uma forma
geral todos incluem a mediana, o 1o e o 3o quartil, os
valores mínimos e máximos e eventuais outliers e
extremos

• O Box-plot permite avaliar a simetria dos dados, sua
dispersão e a existência ou não de outliers, sendo
especialmente adequado para a comparação de dois ou
mais conjunto de dados correspondentes às categorias de
uma variável.
• A linha central da caixa marca a mediana do conjunto de
dados e a amplitude interquartílica (AIQ) que é igual ao
(3o quartil)-(1o quartil).
• A parte inferior da caixa é delimitada pelo 1o quartil (quartil
inferior) e a parte superior pelo 3o quartil (quartil superior).

• As hastes inferiores e superiores se estendem,
respectivamente, do quartil inferior até o menor valor não
inferior a (1o quartil) – (1.5AIQ) e do quartil superior até o
maior valor não superior a (3o quartil) + (1.5AIQ). As
quantidades (1o quartil) – (1.5AIQ) e (3o quartil) + (1.5AIQ)
delimitam, respectivamente, as cercas inferior e superior e
constituem limites para além dos quais os dados passam a
ser considerados outliers.
• A existência de outliers, valores extremamente altos ou
extremamente baixos, pode indicar tanto dados incorretos
como dados válidos que carecem de uma atenção
especial. Dependendo do objetivo pode ser que
justamente os outliers sejam os pontos de interesse da
análise.

Variável
X
0
10
20
30
Valores superiores ao 3º Q + 1,5 XAIQ (ou valores inferiores ao 1º Q -1,5 X AIQ)
“Outliers”
Valor maior que não é um outlier
3º quartil (percentil 75)
2º quartil ou Mediana
1º quartil (percentil 25)
Menor valor que não é um outlier
* “Extremos” Valores superiores ao 3º Q + 3 XAIQ (ou valores inferiores ao 1º Q -3 X AIQ)

• Neste tipo de representação gráfica, as observações de
variável contínua em estudo são organizadas em classes
(amplitudes variáveis ou fixas) no eixo das abcissas e a
frequência (relativa ou absoluta) de cada uma dessas
classes na amostra é representada no eixo das ordenadas).

• É a representação gráfica de uma série estatística por meio
de retângulos dispostos horizontalmente. Os retângulos
possuem a mesma altura e os seus comprimentos são
proporcionais aos respectivos dados.
• É normalmente utilizado em séries geográficas ou na
representação de séries específicas.

0 1 2 3 4 5 6
Categoria 1
Categoria 2
Categoria 3
Categoria 4
Título do Gráfico
Série 3 Série 2 Série 1

• É a representação de uma série estatística por meio de
retângulos não contíguos, dispostos verticalmente. Os
retângulos possuem a mesma base e as suas alturas são
proporcionais aos respectivos dados.

0
1
2
3
4
5
6
Categoria 1 Categoria 2 Categoria 3 Categoria 4
Título do Gráfico
Série 1 Série 2 Série 3

• É designado por meio de um círculo, onde cada classe é
representada por setor circular, cujo ângulo é proporcional
ao tamanho da amostra.

58%
23%
10%
9%
Vendas
1º Tri 2º Tri 3º Tri 4º Tri

58%
23%
10%
9%
VENDAS
1º Tri 2º Tri 3º Tri 4º Tri

• É utilizado, sobretudo, na apresentação de séries
temporais.

• São gráficos que ilustram a relação entre duas variáveis
(Correlações de Pearson e Correlação de Spearman, por
exemplo).

0
1
2
3
4
5
6
7
8
0 1 2 3 4 5 6
Título
do
Eixo
Título do Eixo
Valores Y
Valores Y
Linear (Valores Y)

0
5
10
15
20
25
30
35
05/01/2002
06/01/2002
07/01/2002
08/01/2002
09/01/2002
Título do Gráfico
Série 1 Série 2

• Trata-se de um coeficiente paramétrico apropriado para
medir a intensidade de associação entre duas variáveis
nominais. Estas variáveis comumente são organizadas em
tabelas dita de contingência com L linhas e C colunas.
Variável X1
Variável
X
2
1 2 ... C
1 O11 O12 ... OC1
2 O21 O22 ... OC2
... ... ... ... ...
L OL1 OL2 ... OLC

• Os valores de cada célula na tabela (Oij) correspondem
ao número máximo de elementos que pertencem
simultaneamente à classe i variável X2 e à classe j da
variável X1. O coeficiente V de Cramer (0 ≤ V ≤ 1) é um
coeficiente assimétrico, que pode ser calculado por meio
das seguintes equações:
𝑉 =
𝑋2
𝑁 [min 𝐿, 𝐶 − 1]
Onde:
𝑋2 = ෍
𝑖=1
𝑙
෍
𝑗=1
𝐾
𝑂𝑖𝑗 − 𝐸𝑖𝑗
2
𝐸𝑖𝑗
(qui-quadrado)

• A correlação de Φ é calculada quando ocorrerem duas
variáveis dicotômicas (e.g. Possui casa própria? Sim/não).
Θ =
𝑋2
𝑁

Aula 7 - VARIÁVEIS, POPULAÇÕES E AMOSTRAS VI.pdf

Aula 7 - VARIÁVEIS, POPULAÇÕES E AMOSTRAS VI.pdf

Recomendados

Recomendados

Mais conteúdo relacionado

Semelhante a Aula 7 - VARIÁVEIS, POPULAÇÕES E AMOSTRAS VI.pdf

Semelhante a Aula 7 - VARIÁVEIS, POPULAÇÕES E AMOSTRAS VI.pdf (20)

Mais de MaraLuizaGonalvesFre

Mais de MaraLuizaGonalvesFre (19)

Último

Último (20)

Aula 7 - VARIÁVEIS, POPULAÇÕES E AMOSTRAS VI.pdf