O documento apresenta slides sobre estatística básica. Discute conceitos como estatística descritiva, amostragem, distribuições de frequência, medidas de posição e dispersão, gráficos e ramo-e-folhas. Inclui exemplos de construção de distribuições de frequência e representações gráficas de dados reais sobre alturas de atletas e número de filhos em famílias.
3. Festa
Slide nº 3
Análise Exploratória de
Dados
Capítulo 1 - Resumo de Dados
Introdução
Tipos de Variáveis
Distribuição de Freqüências
Representação Gráfica das
Variáveis Quantitativas
Ramo-e-folhas
4. Festa
Slide nº 4
INTRODUÇÃO
O que é ESTATÍSTICA ?
– É fundamental na análise de dados provenientes
de quaisquer processos onde exista
VARIABILIDADE.
– Uso de informações na: coleção, apresentação,
análise e tomada de decisões, para solucionar
problemas.
Y X
5. Festa
Slide nº 5
Estatística
Uma estatística é uma quantidade que é
calculada dos dados amostrados. Ela é
usada para dar informações a respeito de
valores desconhecidos da correspondente
população. Por exemplo, a média dos dados
amostrados é utilizada para dar
informações sobre toda a média da
população da qual a amostra foi retirada.
6. Festa
Slide nº 6
GRANDES ÁREAS DA
ESTATÍSTICA
Amostragem e planejamento de experimentos
coleção ou coleta de dados
Estatística descritiva
organização, apresentação e
sintetização de dados
Estatística inferencial
métodos para tomada de decisões, nas
situações onde existem incertezas e
VARIAÇÕES.
7. Festa
Slide nº 7
AMOSTRAGEM
É o processo de escolha da amostra. É a
parte inicial de qualquer estudo estatístico.
Consiste na escolha criteriosa dos elementos
a serem submetidos ao estudo.
– Ex. Pesquisas sobre tendências de votação.
escolha da amostra, redação do questionário,
a entrevista, a codificação dos dados, a
apuração dos resultados são ETAPAS
FUNDAMENTAIS deste tipo de pesquisa.
8. Festa
Slide nº 8
ESTATÍSTICA DESCRITIVA
É a parte mais conhecida. Quem vê o noticiário,
na televisão ou nos jornais, sabe quão freqüente é
o uso de média, índices e gráficos nas notícias.
– Exemplo:
O INPC, Índice Nacional de Preços ao
Consumidor
– Aumento dos produtos da cesta básica.
Anuário Estatístico Brasileiro
– educação, saúde, transporte, economia,
cultura etc.
9. Festa
Slide nº 9
Estatística Inferencial
A estatística Inferencial faz
uso das informações
retiradas da amostra para
conclusões (inferências), a
respeito da população da
qual a amostra foi retirada.
10. Festa
Slide nº 10
POPULAÇÃO E AMOSTRA
O estudo de qualquer fenômeno, seja ele natural,
social, econômico ou biológico, exige a coleta e
análise de dados estatísticos.
– População é a coleção de todas as observações
sobre determinado fenômeno.
– Amostra é o conjunto de dados efetivamente
observados, ou extraídos da população.
Exemplo: Determinação do consumo de óleo
diesel em ônibus, avaliação de um programa de
ensino, renda média per capita em diversas
regiões do país etc.
11. Festa
Slide nº 11
INFERÊNCIA
A tomada de decisões sobre a população, com base
nos dados da amostra, constitui o problema central
da INFERÊNCIA ESTATÍSTICA.
A tais decisões estão sempre associados um grau
de incerteza e, conseqüentemente, uma
probabilidade de erro.
– Exemplo: Teste sobre medicamentos,
experimentos agrícolas, análise financeira,
consumo de energia etc.
12. Festa
Slide nº 12
APRESENTAÇÃO DE
DADOS
Técnicas que permitem detectar e corrigir
erros e inconsistências ocorridos durante um
processo de coleta de dados e determinar
as principais características destes dados.
– Grupamento de dados;
– Construção de distribuições de freqüência;
– Gráficos.
13. Festa
Slide nº 13
Tipos de Variáveis
Qualitativa
– Nominal
Região de Procedência
– Ordinal
Educação, Classe Social
Quantitativa
– Discreta
Número de Filhos
– Contínua
Peso de Indivíduos, Salários em R$
23. Festa
Slide nº 23
Análise Exploratória de
Dados
Capítulo 2 - Algumas medidas associadas
a variáveis Quantitativas
Medidas de Posição
Medidas de Dispersão
Outra Estratégia de Análise
Desenho Esquemático
24. Festa
Slide nº 24
Estatísticas Descritivas
Tamanho da Amostra
Média
Mediana
Moda
Média Geométrica
Variância
Desvio-padrão
Erro-padrão
Mínimo
Máximo
Amplitude
Quartil Inferior
Quartil Superior
Intervalo Inter-quartil
Assimetria “Skewnwss”
Assimetria Padronizada
Curtose “Kurtosis”
Curtose Padronizada
Coeficiente de Variação
Somatório
25. Festa
Slide nº 25
Estatística Clássica
Suposições Probabilísticas das Variáveis Envolvidas
Declarações sobre os Parâmetros ou Modelo
Utilizado
Noções Assintóticas de
– Consistência
– Variância “Grandes Amostras”
– Eficiência
“USE A ESTATÍSTICA COMO O BÊBADO USA OS
POSTES - MAIS PELO APOIO QUE PELA
ILUMINAÇÃO”
Andew Lang
26. Festa
Slide nº 26
Análise Exploratória de
Dados
Tukey J. W. (1977)
– Técnicas Visuais
Dados = Modelo + Resíduos
Modelo = parte Suave
Resíduos = parte Grosseira
Y X
27. Festa
Slide nº 27
Análise Exploratória de
Dados
Ferramentas Principais
– Ramo-e-folhas - “Stem-and-
Leaf”
– Esquema de cinco números - “5-
number summary”
– Desenho Esquemático - “Box-Plot”
28. Festa
Slide nº 28
Ramo-e-folhas
Apresentação
RAMO - à esquerda da linha vertical
FOLHAS - à direita da linha vertical
Vantagem sobre a Tabela de Freqüência:
– Não perdemos informação
– Número de linhas é equivalente ao
número de classes
29. Festa
Slide nº 29
CONSTRUÇÃO DE
DISTRIBUIÇÕES DE FREQÜÊNCIA
Tabulação de Freqüências
--------------------------------------------------------------------------------
Limite Limite Ponto Freqüência Freqüência Freqüência
Classe Inferior Superior Médio Freqüência Relativa Acumulada Rel. Acum
--------------------------------------------------------------------------------
1 162.000 167.000 164.500 4 0.133 4 0.133
2 167.000 172.000 169.500 9 0.300 13 0.433
3 172.000 177.000 174.500 8 0.267 21 0.700
4 177.000 182.000 179.500 6 0.200 27 0.900
5 182.000 187.000 184.500 3 0.100 30 1.000
--------------------------------------------------------------------------------
Média = 173.367 Desvio Padrão = 5.89847 Mediana = 172.5
Alturas em cm. de 30 atletas
33. Festa
Slide nº 33
Esquema ou Resumo de 5
Números
Sugestão (Tukey) - 1977
(i) a mediana
(ii) os extremos (mínimo e máximo)
(iii) os quartis ou juntas (inferior e superior)
A Mediana é uma Medida Resistente,
não é afetada por valores extremos.
a Média amostral e o Desvio-padrão são afetados por
valores extremos
não temos idéia quanto a simetria da distribuição dos dados
34. Festa
Slide nº 34
Desenho Esquemático
“UM DESENHO ESQUEMÁTICO OU
GRÁFICO DO ESQUEMA DE 5
NÚMEROS VALE MAIS QUE 1000
PALAVRAS”
OUTLIERS
valores abaixo da J1 - 3/2 dJ
valores acima da J3 + 3/2 dJ, onde
J1 = 1º quartil, J3 = 3º quartil e dJ = J3 - J1
35. Festa
Slide nº 35
Exemplo
150 155 160 165 170 175 180 185 190 195 200
altura de alunos em cm
0
1
2
3
4
5
6
frequencia
Histograma de Frequencias
e a Normal Ajustada
37. Festa
Slide nº 37
Análise Exploratória de
Dados
Capítulo 3 - Análise Bidimensional
Variáveis Multidimensionais
Independência de Variáveis
Medidas de Dependência entre
Duas Variáveis
Diagrama de Dispersão
Coeficiente de Correlação
38. Festa
Slide nº 38
Variáveis Multidimensionais
Em muitas situações observamos duas
ou mais características
simultaneamente, para analisar o seu
comportamento.
A DISTRIBUIÇÃO CONJUNTA das
freqüências será um poderoso
instrumento na compreensão dos dados.
39. Festa
Slide nº 39
Distribuição Conjunta
Y|X 1º Grau 2º Grau Superior Total
Capital 4 5 2 11
Interior 3 7 2 12
Outra 5 6 2 13
Total 12 18 6 36
Distribuição Conjunta do Grau de Instrução e Região
40. Festa
Slide nº 40
Independência de Variáveis
Um dos principais objetivos de uma
distribuição conjunta é descrever a
ASSOCIABILIDADE existente ENTRE
DUAS VARIÁVEIS, isto é, queremos
conhecer o GRAU DE DEPENDÊNCIA entre
elas, de modo que possamos prever melhor o
resultado de uma delas quando conhecemos
a realização da outra.
41. Festa
Slide nº 41
Independência de Variáveis
Y|X Masculino Feminino Total
Economia 85 (61%) 35 (58%) 120 (60%)
Administração 55 (39%) 25 (42%) 80 (40%)
Total 140 (100%) 60 (100%) 200 (100%)
Distribuição conjunta das freqüências e porcentagens segundo sexo e curso
42. Festa
Slide nº 42
Medidas de Dependência
entre Duas Variáveis
coeficientes de associação ou
correlação
– coeficiente de contingência de Karl Pearson
2
2
1
2
2 1
2
1
o e
e
C
n
e C C
t
t
i i
i
i
n
*
( )
43. Festa
Slide nº 43
Diagramas de Dispersão
150 160 170 180 190 200
Amostra Ordenada
-2.1
-1.1
-0.1
0.9
1.9
2.9
Escores
Padronizados
Diagrama de Dispersoes
44. Festa
Slide nº 44
Coeficiente de Correlação
y A Bx
B
n xy x y
n x x
A
y B x
n
r
n xy x y
n x x n y y
2 2
2 2 2 2
( )
45. Festa
Slide nº 45
Origem do Termo “Regressão”
160 164 168 172 176 180 184
altura dos pais
160
164
168
172
176
180
184
Media de alturas de filhos contra
alturas composta dos pais
Observado
estimado
valor y=x
46. Festa
Slide nº 46
Probabilidades
Capítulo 4 - Probabilidades
Introdução
Algumas Propriedades
Probabilidade Condicional e
Independência
Teorema de Bayes
47. Festa
Slide nº 47
Probabilidades
Uma das principais ferramentas da
estatística é a probabilidade, que
teve seu início formal com a escolha
de jogos no início do século XVII.
Para seu entendimento necessitamos
de alguns conhecimentos BÁSICOS
que seguem:
48. Festa
Slide nº 48
Experimento
É qualquer processo ou estudo de
coletar dados revelantes, os quais
exibem variações em seus resultados,
resultados estes desconhecidos de ante
mão.
– Ex. Lançamento de um dado honesto e
observar a cada arremesso a face
voltada para cima.
49. Festa
Slide nº 49
Espaço Amostral “W”
O espaço amostral “W”, é o conjunto
de todos os resultados possíveis,
elementares e indivisíveis do
experimento, onde cada resultado é
um evento simples.
– Ex. Lançamento de um dado honesto
W = { f1, f2, f3, f4, f5, f6 }
50. Festa
Slide nº 50
Evento
Um evento, indicado pelas letras A, B, ..., é
qualquer subconjunto do espaço amostral “W”.
– Exemplo 1: A ocorrência de face impar, no
lançamento de um dado honesto.
evento A = { f1, f3, f5 }
– Exemplo 2: A ocorrência de face par, no
lançamento de um dado honesto.
evento B = { f2, f4, f6 }
51. Festa
Slide nº 51
s-álgebra
Uma s-álgebra é uma classe de
subconjuntos do espaço amostral, W,
satisfazendo os seguintes axiomas:
i
ii Se A então A
iii Se A e B então A B
)
) ,
) ,
W
52. Festa
Slide nº 52
Definição de Probabilidade
Definição Clássica
Definição Freqüentista
Definição Geométrica
Definição Axiomática
53. Festa
Slide nº 53
Definição Axiomática
( ) ( )
( ) ( )
( ) , , . . .,
, ( , , ; , , , , . . .) ,
[ ] [ ]
i P A
ii P
iii Se A A é uma sequencia de eventos mutuamente exclusivos em
isto é A A i j i j e se A então
P A P A
i j i
i
i
i
i
i
0
1
1 2
1 2
1
1 1
W
54. Festa
Slide nº 54
Algumas Propriedades
. [ ]
. , , . . ., ,
[ ] [ ]
. , [ ] [ ]
. [ ] [ ] [ ]
[ ] [ ] [ ] [ ]
. [
P
Se A A A são eventos mutuamente exclusivos em então
P A P A
Se A é um evento em então P A P A
Se A e A então P A P A A P A A e
P A A P A A P A P A A
Se A e A então P A A
n
i i
i
n
i
n
0
1
1 2
1
1
1 2 1 1 2 1 2
1 2 1 2 1 1 2
1 2 1
2 1 2 1 2
1 2 1 2 1 2
1 2
1
1
] [ ] [ ] [ ]
, [ ] [ ]
. , , . . ., , [ ] [ ]
P A P A P A A
Se A e A e A A então P A P A
Se A A A então P A P A
n i i
i
n
i
n
55. Festa
Slide nº 55
Probabilidade Condicional
P A B
P AB
P B
se P B desta forma
P AB P B P A B P A P B A
[ | ]
[ ]
[ ]
[ ] ,
[ ] [ ]. [ | ] [ ]. [ | ].
0
57. Festa
Slide nº 57
Teorema de Bayes
P B A
P A B P B
P A B P B
k
k k
j j
j
n
[ | ]
[ | ]. [ ]
[ | ]. [ ]
1
58. Festa
Slide nº 58
Regra da Multiplicação
P A B C P A
P B A
P C A B
( ) ( )
( | )
( | )
P A A A P A P A A P A A A P A A A A
n n n
[ . ..... ] [ ]. [ | ]. [ | ]. . . . . [ | . ... ]
1 2 1 2 1 3 1 2 1 2 1
59. Festa
Slide nº 59
Independência
( ) [ ] [ ]. [ ]
( ) [ | ] [ ] [ ]
( ) [ | ] [ ] [ ]
i P AB P A P B
ii P A B P A se P B
iii P B A P B se P A
0
0
60. Festa
Slide nº 60
Variável Aleatória
Uma variável aleatória, indicada
por X, é uma função com domínio
o espaço amostral e contradomínio
o conjunto dos números Reais, tal
que, o evento [ X x ] pertence a
s-álgebra para todos os valores
de x que pertencem aos no.s
reais.
61. Festa
Slide nº 61
Função Distribuição
Uma Função Distribuição, indicada por
F(x), é uma função, com domínio os
Reais e contradomínio o intervalo [0,1],
satisfazendo as seguintes
propriedades:
– F(x) é não decrescente;
– F(x) é contínua à direita;
– F(-) = 0 e F() = 1
62. Festa
Slide nº 62
Função Distribuição
Acumulada
Dada a variável aleatória X,
chamaremos de função
distribuição acumulada a função
F x P X x x
( ) ( ),
63. Festa
Slide nº 63
O Conceito de Variável
Aleatória Discreta
Uma variável aleatória X, é dita
discreta, se ela assume um número
finito ou infinito enumerável.
A função, indicada por p(x), nós
chamamos função de probabilidade
da variável aleatória discreta X.
65. Festa
Slide nº 65
O Conceito de Variável
Aleatória Contínua
Uma variável aleatória, indicada
por X, é dita contínua, se existe
uma função f(x), chamada função
densidade de probabilidade, tal
que:
f x dx
( )
z
67. Festa
Slide nº 67
Valor Esperado de uma
Variável Aleatória
Dada uma variável aleatória X, chamamos
valor médio ou esperança matemática de X
ao valor
E x
x p x discreta
x f x dx continua
( )
( ),
( ) ,
68. Festa
Slide nº 68
Valor Esperado de Uma
Função de uma Variável
Aleatória X “g(X)”
Dada a variável aleatória X,
chamamos esperança ou valor
esperado da função g(x) ao valor:
E g x
g x p x
g x f x dx
[ ( )]
( ) ( )
( ) ( )
R
S
|
T
|
z
72. Festa
Slide nº 72
Variáveis Aleatórias
Multidimensionais
Capítulo 7 - Variáveis Aleatórias
Multidimensionais
– Distribuição Conjunta
– Distribuições Marginais e Condicionais
– Funções de Variáveis Aleatórias
– Covarância de Duas Variáveis Aleatórias
– Variáveis Contínuas
73. Festa
Slide nº 73
Distribuição Conjunta
Em muitos experimentos, a um mesmo ponto
amostral w,atribuímos valores de duas ou mais
variáveis aleatórias.
– Ex. Suponha que queremos estudar a
composição de famílias com 3 crianças, quanto
ao sexo.
X = número de meninos
Y = 1 (se for homem) e 0 (se for mulher)
Z = no. de vezes que houve variação do sexo
W = número de meninas
74. Festa
Slide nº 74
Função Densidade Conjunta
i f x
ii f x y dx dy
) ( )
) ( , )
zz
0
1
79. Festa
Slide nº 79
Covariância de duas
variáveis aleatórias
Cov XY E X E X Y E Y
( ) [( ( )( ( )]
s
XY XY X Y
80. Festa
Slide nº 80
Coeficiente de Correlação
de X e Y
( , )
( , )
( ) ( )
X Y
Cov X Y
Var X Var Y
1 1
s
s s
XY
XY
X y
81. Festa
Slide nº 81
Referências
Bibliográficas
Montgomery, Douglas C. & Runger, George C. Applied
statistics and probability for engineers. New York,
Wiley, 1994.
Montgomery, Douglas C., Introduction to statistical
quality control. New York, Wiley, 1991.
Bussab, Wilton O., Estatística Básica. 4.ed. São Paulo,
1987