O documento discute conceitos estatísticos básicos como variáveis qualitativas, quantitativas, distribuição de frequências, medidas descritivas e moda. Ele fornece exemplos e definições de cada um destes conceitos.
VARIÁVEIS QUALITATIVAS
Quando oresultado da observação é
apresentado na forma de qualidade ou
atributo,
dividem-se em:
Variáveis nominais: quando podem ser
separadas por categorias chamadas de não
mensuráveis
Variáveis ordinais: quando os números
podem agir como categorias ou ordenações.
Por: Marden
Rodrigues
5.
EXEMPLOS DE VARIÁVEISQUALITATIVAS
Variáveis nominais: a cor dos olhos, tipo de
acomodação, marcas de carro, sexo, etc.
Variáveis ordinais: como sugere o nome,
elas envolvem variáveis que representam
algum elemento em ordem. Uma
classificação em anos pode ser um exemplo
clássico
Por: Marden
Rodrigues
6.
VARIÁVEIS QUANTITATIVAS
Quando oresultado da observação é um
número,
decorrente de um processo de mensuração ou
contagem.
Variáveis contínuas: são aquelas que podem
assumir qualquer valor num certo intervalo
da reta real.
Variáveis discretas: são aquelas que podem
assumir apenas valores inteiros em pontos
da reta real. Por: Marden
Rodrigues
7.
EXEMPLOS DE VARIÁVEISQUANTITATIVAS
Variáveis contínuas: não é possível
enumerar todos os possíveis valores, essas
variáveis geralmente provém de medições,
como de altura, peso, etc.
Variáveis discretas: é possível enumerar
todos os possíveis valores da variável, como
o número de alunos em uma escola ou o
número de mensagens de uma secretária
eletrônica.
Por: Marden
Rodrigues
Um conjunto deobservações de certo
fenômeno,
não estando adequadamente organizado,
fornece pouca informação de interesse ao
pesquisador e ao leitor. Para uma visão rápida
e
global do fenômeno deve-se fazer a
organização
dos dados coletados em uma pesquisa através
Por: Marden
das distribuições de freqüência.
Rodrigues
10.
REPRESENTAÇÃO DOS DADOS
Dadosbrutos: são aqueles que não foram
numericamente organizados, ou seja, estão
na forma com que foram coletados.
Rol: é a organização dos dados brutos em
ORDEM de grandeza crescente ou
decrescente
Por: Marden
Rodrigues
11.
Distribuição da freqüênciasem
intervalos de classe: é a simples
condensação dos dados
conforme as repetições de seus
valores. Para um rol de tamanho
razoável, esta distribuição de
freqüência é inconveniente, já
que exige muito espaço.
Distribuição de freqüência com
intervalos de classe: quando o
tamanho da amostra é elevada e
o número de variáveis é muito
grande, é mais racional efetuar o
agrupamento dos valores em
vários intervalos de classe.
REPRESENTAÇÃO DE DADOS
Por: Marden
Rodrigues
As imagens
respectivas
às
classificações
estão nas
páginas 39 e
40 da
apostila
DEFINIÇÃO
São intervalos devariação da variável.
As classes são representadas
simbolicamente
por i, sendo i = 1,2,3...
(ou seja, i = 1ª classe, 2ª classe...)
Por: Marden
Rodrigues
14.
LIMITES DE CLASSE
Sãoos extremos de cada classe. O menor
número é o limite inferior da classe (li) e o
maior número é o limite superior da classe
(ls).
Por exemplo: se em uma classe temos que :
26|--- 36 (onde “ |--- “ indica: fechado em 26
e aberto em 36), dizemos que li = 26 e ls =
36
Por: Marden
Rodrigues
15.
AMPLITUDE DE UMINTERVALO DE CLASSE
É a medida de intervalo que define a classe.
Ela é obtida pela diferença entre os limites
superior e inferior. A nomeando de “h”, temos
que:
h = ls – li
Por exemplo, no exemplo anterior, podemos
afirmar que a amplitude é de 10. (36-26)
Por: Marden
Rodrigues
16.
AMPLITUDE TOTAL (H)
Éa diferença entre o valor máximo e o valor
mínimo da amostra:
H = Li – Ls
Se no total de uma amostra, temos que o
maior valor é de 96 e o menor é de 6, temos
que H= 96 – 6 = 90
Por: Marden
Rodrigues
17.
PONTO MÉDIO DEUMA CLASSE
O ponto médio de uma classe (xi) é o ponto que
divide o intervalo de classe em duas partes
iguais.
xi = (li + ls)/2
No exemplo anterior do intervalo 26|--- 36,
temos
que:
xi = (36+26)/2 = 62/2 = 31
Por: Marden
Rodrigues
18.
EM SÍNTESE...
Dados
brutos sãoaqueles que não foram
organizados.
Rol é a organização dos dados brutos em ordem de
grandeza crescente ou decrescente.
Distribuição de freqüências pode ser com ou sem
intervalos de classe.
Os elementos da distribuição de frequencias são:
Classe:
são intervalos de variação da variável.
Limites de classe: são extremos de cada classe.
Amplitude de classe e total: é a diferença entre o
maior e o menor limite.
Ponto médio: é a média aritmética dos limites de
Por: Marden
classe.
Rodrigues
DETERMINAÇÃO DO NÚMERODE CLASSES (K)
É importante que a distribuição conte com
um número adequado de classes. Se o
número de classes for excessivamente
pequeno acarretará perda de detalhe e
pouca informação se poderá extrair da
tabela. Por outro lado, se for utilizado um
número excessivo de classes, haverá
alguma classe com freqüência nula ou muito
pequena, não atingindo o objetivo de
classificação que é tornar o conjunto de
Por: Marden
dados supervisionáveis.
Rodrigues
21.
TRÊS SOLUÇÕES PARADETERMINAR “K”
1) Para n ≤ 25 , K = 5. E para n > 25, K =
√n
Por exemplo: se a amostra tiver 23
elementos analisados, o número de classes
é 5, pois n< 25. Por outro lado, supondo que
a amostra tenha 83 elementos analisados
(n>25), o número de classes é dado por √83
= 9,1104335, que aproximando-se = 9
Por: Marden
classes.
Rodrigues
22.
TRÊS SOLUÇÕES PARADETERMINAR “K”
2) Pode-se utilizar a regra de Sturges, que
fornece o número de classes em função do
total de observações:
K = 1 + 3,3 x log n
Por: Marden
Rodrigues
23.
TRÊS SOLUÇÕES PARADETERMINAR “K”
3) Truman L. Kelley, sugere os seguintes
números de classes, com base no número
total de observações, para efeito de
representação gráfica:
n
5
10
25
50
100
200
500
K
2
4
6
8
10
12
15
Por: Marden
Rodrigues
24.
RELEMBRANDO...
Qualquer regra paradeterminação do número
de classes da tabela não nos leva a uma
decisão final, esta vai DEPENDER, na
realidade, de um julgamento pessoal, que
deve estar ligado á natureza dos dados.
Por: Marden
Rodrigues
25.
AMPLITUDE DO INTERVALODE CLASSE
Amplitude do intervalo de classe nada mais
é que o comprimento da mesma, dado por:
Ai = H/K
Onde H = Limite superior – Limite inferior
K = número de classes
Por: Marden
Rodrigues
FREQÜÊNCIA SIMPLES OUABSOLUTA
Representada por “fi”, é o número de
repetições de um valor individual ou de uma
classe de valores da variável. A soma das
freqüências simples é igual ao número total
dos dados da distribuição.
∑fi = n
Por: Marden
Rodrigues
28.
FREQÜÊNCIAS RELATIVAS
Representadas por“fri”, são os valores das
razões (divisões) entre as freqüências
absolutas de cada classe e a freqüência
total da distribuição. A soma das freqüências
relativas é igual a 1 ou 100%.
Fri = (fi/n) x 100
Por: Marden
Rodrigues
29.
FREQUENCIA SIMPLES ACUMULADA
Representadaspor “faci”, é o total das
freqüências de todos os valores inferiores do
limite superior do intervalo de uma
determinada classe.
Bilhete meu: se você não entendeu aqui, no
exemplo entenderá.
Por: Marden
Rodrigues
30.
FREQÜÊNCIA RELATIVA ACUMULADA
Representadapor “fraci”, é a freqüência
acumulada da classe, dividida pela
freqüência total da distribuição.
fraci = faci/n
Por: Marden
Rodrigues
EM SÍNTESE...
Para
determinar onúmero de classes,
temos
três casos:
1º caso:
Para n ≤ 25 número de classes é K = 5
Para n > 25 número de classes é K = √n
2º caso:
Pela regra de Sturges K = 1 + 3,3 x log n
3º caso:
Por: Marden
Pela regra de Truman. Conforme a tabela
Rodrigues
33.
EM SÍNTESE...
Amplitude
dointervalo de classe: é o comprimento
da classe, calculado por Ai = H/K.
Freqüência simples ou absoluta (fi) é o número de
repetições de um valor individual.
Freqüências relativas (fri) são os valores das
divisões entre “fi” e “n”
Freqüência simples acumulada (faci) é o total das
freqüências de todos os valores inferiores ao limite
superior do intervalo de uma determinada classe.
Freqüência
relativa acumulada (fraci) é a
freqüência acumulada da classe (faci) dividida pela
Por: Marden
freqüência total da distribuição.
Rodrigues
MÉDIA ARITMÉTICA SIMPLES
Parase obter a média aritmética simples de um conjunto
de dados, devemos dividir a soma dos valores de todos
os dados do conjunto pela quantidade deles. Coisa que
todos nós já sabíamos.
∂ = ∑xi/n
Onde:
∑ indica “soma de”
xi = valores que a variável x assume
n = número de valores
∂ = a média aritmética da amostra/população
Por: Marden
Rodrigues
37.
MÉDIA ARITMÉTICA PONDERADA
Médiaponderada é uma média arítmética na
qual será atribuído um peso a cada valor da
série.
∂p = (xi . Pi)/∑Pi
onde o acréscimo da letra “i” na variável,
indica o fator de “todos os valores de”, por
exemplo: Pi = todos os valores de P
Por: Marden
Rodrigues
38.
MÉDIA ARITMÉTICA PARADADOS AGRUPADOS
SEM INTERVALOS DE CLASSES
As frequencias são as quantidades de vezes
que a variável ocorre na oleta de dados, elas
funcionam como fatores de ponderação, o
que nos leva a calcular uma média
ponderada.
∂ = (xi . fi)/n
Por: Marden
Rodrigues
39.
MÉDIA ARITMÉTICA PARADADOS
AGRUPADOS COM INTERVALO DE CLASSES
Neste caso, convencionamos que todos os
valores incluídos em um determinado intervalo
de classe coincidem com seu ponto médio, e
determinamos a média aritmética ponderada
por meio da seguinte fórmula:
∂ = (xi . fi)/n
Onde :
xi = (li + ls)/2 = ponto médio
40.
EXEMPLOS...
Sem intervalo declasses:
Após ter sido realizado trabalho bimestral numa turma de
Estatística, o professor efetuou levantamento das notas obtidas
pelos alunos, observou a seguinte distribuição e calculou a
média de sua turma:
Notas dos alunos Números de alunos - xifi
fi
1
2
3
4
Total ∑
1
3
5
1
Por: N = 10
Marden
Rodrigues
1
6
15
4
26
∂ =(∑xi . fi)/n
∂ = 26/10
∂ = 2,6
41.
EXEMPLOS...
Com intervalo declasses:
Determine a renda familiar, de acordo com os dados da tabela:
Classes – Renda
familiar
Xi
Fi – numero de
famílias
xifi
2 |--- 4
3
5
15
4 |--- 6
5
10
50
6 |--- 8
7
14
98
8 |--- 10
9
8
72
10 |--- 12
11
3
33
N = 40
268
Total ∑
∂ =(∑xi . fi)/n
∂ = 268/40
∂ = 6,7
DEFINIÇÃO E LEMBRETE
Define-sea moda como o valor que ocorre com
maior freqüência em um conjunto de dados.
Primeiramente os dados devem ser ordenados
para, em seguida, observar o valor que tem
maior freqüência.
É possível que haja mais de uma moda dentro
de uma mesma amostra/população,
dependendo da freqüência de determinado
Por: Marden
dado.
Rodrigues
44.
EXEMPLOS...
Calcular a modanos seguintes conjuntos de dados:
X = (4, 5, 5, 6, 6, 6, 7, 7, 8, 8)
Mo = 6 (o valor mais freqüente)
Y = (1, 2, 2, 2, 2, 3, 3, 3, 4, 4, 4, 4, 5, 5, 6)
Mo = 2 e Mo = 4 (valores mais freqüentes)
Conjunto BImodal
Z = (1, 2, 2, 2, 3, 3, 3, 4, 4, 4, 5)
Mo = 2, Mo = 3 e Mo = 4 (valores mais freqüentes)
Conjunto POLImodal, ou seja, tem mais de 2 modas
Por: Marden
Rodrigues
DEFINIÇÃO E OBTENÇÃO
Éuma medida de posição cujo número divide um
conjunto de dados em duas partes iguais. Portanto, a
mediana se localiza no centro de um conjunto de
números ordenados segundo uma ordem de grandeza.
Para se obter o elemento mediano de uma série
deveremos seguir os seguintes passos:
- Se N for ímpar, a mediana é o termo de ordem:
P = (N+1)/2
- Se N for par, a mediana é a média aritmética dos
termos de ordem:
P1 = N/2 e P2 = N/2 + 1
Por: Marden
Rodrigues
47.
EXEMPLOS...
1)
Determine o valorda mediana da série que é composta
dos seguintes elementos: 56, 58, 62, 65 e 90.
N = 5 (ímpar) P = (N + 1)/2 = 6/2 = 3
3 indica o 3º elemento Md = 62
2)
Em um pesquisa realizada a respeito de erros por folha,
cometidos por digitadores, revelaram-se as seguintes
quantidades: 12, 12, 13, 13, 15, 16, 18 e 20. Determinar
a quantidade mediana de falhas.
N = 8 (par) P1 = N/2 = 8/2 = 4 4º elemento Md = 13
P2 = N/2 + 1 = 8/2 + 1 = 5 5º elemento Md = 15
Logo, a mediana será (13 + 15)/2 = 28/2 = 14
Por: Marden
48.
DICA IMPORTANTE
Para analisara fundo a
diferença entre Média, Mediana
e Moda, estude a tabela da
página 60 da apostila.
Por: Marden
Rodrigues
DEFINIÇÃO E DIFERENCIAÇÃO
Asmedidas de posição denominadas quartis, decis
e percentis têm o mesmo princípio da mediana.
Enquanto a mediana separa a distribuição em duas
partes iguais, a característica principal de cada
uma dessas medidas é que:
Quartis: dividem a distribuição em quatro partes.
Decis: dividem em dez partes iguais.
Percentis: dividem em cem partem iguais.
Por: Marden
Rodrigues
51.
QUARTIS PARA DADOSNÃO AGRUPADOS
0%
25%
Q1
50%
Q2
Para o cálculo das posições usaremos:
Q1 P1 = (n+1)/4
Q2 P2 = 2(n+1)/4
Q3 P3 = 3(n+1)/4
Onde n número de dados (valores).
Por: Marden
Rodrigues
75%
Q3
100%
52.
DECIS PARA DADOSNÃO AGRUPADOS
Para o cálculo das posições usaremos:
D1 P1 = (n+1)/10
D2 P2 = 2(n+1)10
D5 P5 = 5(n+1)/10
D9 P9 = 9(n+1)/10
Onde n número de dados (valores).
Por: Marden
Rodrigues
53.
PERCENTIS PARA DADOSNÃO AGRUPADOS
Para o cálculo das posições usaremos:
P1 P1 = (n+1)/100
P2 P2 = 2(n+1)/100
P50 P50 = 50(n+1)/100
P99 P99 = 99(n+1)/100
Onde número de dados (valores).
Por: Marden
Rodrigues
54.
LEMBRANDO QUE...
Utilizando medianasquartis, decis
ou percentis, se calcula uma
POSIÇÃO, ou seja, o valor obtido
do cálculo não será
necessariamente o dado em si, e
sim sua posição dentro do rol.
Por: Marden
Rodrigues
DEFINIÇÃO
São medidas utilizadaspara medir o grau de
variabilidade ou dispersão dos valores
observados em torno da média aritmética.
Servem para medir a representatividade da
média e proporcionam o conhecimento do
nível de homogeneidade ou
heterogeneidade dentro de cada grupo
analisado. Para compreender esse conceito,
considere o exemplo a seguir.
Por: Marden
Rodrigues
57.
EXEMPLO (HOMO/HETEROGENEIDADE)
Um empresáriodeseja comparar a performance de dois
empregados, com base na produção diária de
determinada peça, durante cinco dias:
Empregado A: 70, 71, 69, 70, 70 ∆ = 70
Empregado B: 60, 80, 70, 62, 83 ∆ = 71
A performance média do empregado A é de 70 peças
produzidas diariamente enquanto que a do empregado B
é de 71 peças. Com base na média aritmética, verifica-se
que a performance B é melhor do que a de A. Porém,
observando-se bem os dados, percebe-se que a
produção de A varia apenas de 69 a 71 peças, ao passo
que a de B varia de 60 a 83 peças, o que revela que a
performance de A é bem mais uniforme do que a de B.
58.
TIPOS DE MEDIDASDE DISPERSÃO ABSOLUTA
Amplitude total (Ai): é a diferença entre o maior
e o menor valor observado.
Exemplo: Pela situação sugerida na introdução,
temos para a amplitude total os seguintes
cálculos para os empregados:
Empregado A Ai = 71 – 69 = 2
Empregado B Ai = 83 – 60 = 23
Por: Marden
Rodrigues
59.
LEMBRANDO QUE...
Utilizando comomedida de dispersão a amplitude
total de um grupo, se obtém algumas
desvantagens, que são:
-
-
- Leva em conta apenas os valores mínimo e
máximo do conjunto. Se ocorrer qualquer
variação no interior do conjunto de dados, a
amplitude total não nos dá qualquer indicação
dessa mudança.
- A amplitude total também sofre a influencia de
um valor “atípico” (extremo) na distribuição, ( um
valor muito elevado ou muito baixo em relação ao
Por: Marden
conjunto)
Rodrigues
DEFINIÇÃO
São as medidasde dispersão mais
empregadas, pois levam em consideração a
totalidade dos valores da variável em estudo.
Ambos estão ligados como meios de se
analisar a dispersão dos dados dentro de uma
amostra. Vocês vão ver.
Definiremos como: a variância é dada através
da média aritmética dos quadrados dos
desvios. Analisaremos na prática a seguir.
Por: Marden
Rodrigues
62.
FÓRMULAS: AMOSTRA XPOPULAÇÃO
Ficará assim:
Dados não
agrupados
S² = ∑(xi- )
População
--------N
Amostra
S² = ∑ (xi- )
--------n-1
Dados agrupados
S² = ∑(xi- ) . fi
-----------N
S² = ∑(xi- ) . fi
-----------n-1
A legenda das fórmulas está no slide
63.
LEGENDA DAS FÓRMULASE DESVIO PADRÃO
S = Desvio padrão, no entanto, o calcularemos elevado ao
quadrado, sendo assim:
Desvio Padrão = √variância = √S² = S
= média (homenagem ao falecido Steve Jobs) rs
Xi = no caso não agrupado, são todos os valores que os
dados podem assumir e no caso agrupado, é o ponto médio
de determinado intervalo de classe.
Sobre a legenda de ∑ e “n”(ou N), vocês já conhecem, que
é, respectivamente: somatório e total de valores.
Por: Marden
Rodrigues
64.
CONTINUAÇÃO DO EXEMPLO
Retomando-seo exemplo de homo/heterogeneidade
para fins de aplicar as fórmulas dadas anteriormente,
efetuaremos os seguintes cálculos:
Empregado A (média = 70)
S² = ∑(xi- )/N =
= (70-70)²+(71-70)²+(69-70)²+(70-70)²+(70-70)²/5 =
2/5 = 0,4
portanto, temos que Desvio Padrão = √S² = √0,4 = aproximadamente
0,64
Empregado B (média = 71)
S² = ∑(xi- )/N =
= (60-71)²+(80-71)²+(70-71)²+(62-71)²+(83-71)²/5 =
428/5 = 85,6 .:. Desvio Padrão = √85.6 = aproximadamente 9,25
65.
LEMBRANDO QUE...
O enunciadoda questão deverá
informar se os dados estão sendo
demonstrados através de uma amostra
ou de uma população, para que assim
possa haver a mudança necessária
nas fórmulas (e sua interpretação).
Por: Marden
Rodrigues
USO E CÁLCULO
OCoeficiente de variação de Pearson (CV) é
calculado através da divisão entre o desvio
padrão e a média multiplicado por cem. No
caso, é expressado em porcentagem e
facilita a visualização do quão dispersos
estão os valores da amostra ou da
população.
Por: (S x 100)/
CV = Marden
Rodrigues
68.
COMO QUALIFICAR ADISPERSÃO
Se CV ≤ 15% , está sendo indicada uma baixa
dispersão.
Se 15% < CV < 30%, há uma média dispersão.
E por fim, se CV ≥ 30%, está sendo representada
uma alta dispersão entre os valores.
Por: Marden
Rodrigues
DEFINIÇÃO
Modo de analisara distribuição de
freqüência em uma amostra/população
através da organização de seus dados em
forma de gráfico. Simples?
Por: Marden
Rodrigues
71.
CASOS
Caso 1: quandoMÉDIA = MEDIANA = MODA,
temos uma distribuição de freqüências:
SIMÉTRICA
MODA
MEDIANA E MÉDIA
72.
CASOS
Caso 2: quandoMÉDIA < MEDIANA < MODA,
temos uma distribuição de freqüências:
ASSIMÉTRICA À ESQUERDA OU NEGATIVA
MEDIANA
MÉDIA
MODA
73.
CASOS
Caso 3: quandoMÉDIA > MEDIANA > MODA,
temos uma distribuição de freqüências:
ASSIMÉTRICA À DIREITA OU POSITIVA
MODA
MEDIANA
MÉDIA
74.
LEMBRANDO QUE...
A médiaé afetada pelos EXTREMOS, e por isso,
em gráficos assimétricos, é apresentada sempre
tendendo ao lado onde se encontram os mesmos.
Outro fator por simples observação é que
representei a média dos gráficos assimétricos
através de uma linha circular pois nos casos não
estamos aplicando valores, portanto não
podemos dar com exatidão a média de cada um.
Por: Marden
Rodrigues