O documento apresenta conceitos introdutórios sobre estatística, incluindo a diferença entre dados e informações, tipos de dados, séries estatísticas e gráficos. Explica como os dados podem ser organizados, resumidos e transformados em informações por meio de técnicas estatísticas para apoiar a tomada de decisão.
PROJETO DE EXTENSÃO I - SERVIÇOS JURÍDICOS, CARTORÁRIOS E NOTARIAIS.pdf
Estatística básica aplicada à logística
1. Rafael José Rorato
Aula 1: Estatística Básica
(a) Aspectos Introdutórios
(b) Estatística Descritiva
Instituto de Ensino Superior de Brasília – IESB
Programa de pós-graduação em Logística Empresarial
Estatística e modelos de otimização aplicados à logística
3. Dados:
são elementos identificados em forma bruta
que, por si só, não conduz a compreensão de um
determinado fato ou situação (Oliveira, 2005)
elemento que representa eventos ocorridos na
empresa ou circunstâncias físicas, antes que
tenham sido organizados ou arranjados de
maneira que as pessoas possam entender e usar
(Rosini & Palmisano, 2003)
Dados x Informações
4. Informações:
é o dado trabalhado que permite ao executivo tomar
decisões (Oliveira, 2005)
dado configurado de forma adequada ao entendimento
e à utilização pelo ser humano (Rosini & Palmisano, 2003)
resultado dos dados devidamente tratados,
comparados, classificados, relacionáveis entre outros
dados servindo para tomada de deciões e para melhor
compreensão do objeto estudado
Dados x Informações
5. No dia a dia nos deparamos com inúmeros
DADOS
Nosso mecanismo de pensamento tenta
gerar alguma ATITUDE baseado neles
Então, como organizamos esse mecanismo?
Dados x Informações
6. A lógica que devemos seguir para filtrar o
relevante do não relevante:
Dados x Informações
DADOS
Processo
Operações
PreparaçãoPreparação
Decisão
PROCESSO DE TRANSFORMAÇÃO
INFORMAÇÃO
CONHECIMENTO
TOMADA DE
DECISÃO
TOMADA DE
DECISÃO
7. Dados x Informações
Exemplo: Valor de Demurrage para
contêineres
Valores de Demurrage de um armador são:
20”: R$170
40”: R$200
20” reefer: R$250
…
Cada valor desses é um PARÂMETRO!
8. Dados x Informações
Pergunta: Qual é o valor que corresponde ao
padrão de multas sobre contêineres
cobrados por esse armador?
Precisamos resumir esse universo gigantesco de
parâmetros para uma avaliação sucinta
Para isso escolhemos alguns parâmetros
DERIVADOS que representem o todo e assumimos
um FORMA para esses dados.
9. Como os dados se comportam?
Se entendermos como eles se distribuem podemos
prever seu comportamento futuro!
Veja as notas dadas na avaliação de uma
transportadora de carga fracionada:
Nota: 3,5,7,3,5,7,6,3,6,5,4,6,4,6,7,4,5,6,4,5,…
333333
444444444444444444444444
555555555555555555555555555555555555555
666666666666666666666666
777777
Ordenando essas notas já podemos ver “alguma coisa”
10. O que é relevante?
Os dados em si têm um comportamento
ALEATÓRIO mas que pode ser determinado.
Esse comportamento pode ser ENCAIXADO
em um modelo matemático previamente
conhecido para termos uma visão geral de
sua DISTRIBUIÇÃO (FORMA).
11. Movimento!
Os dados podem estar mais aqui do que lá! Ou seja, eles
se DISTRIBUEM de uma forma geralmente conhecida
Apesar de eles se distruibuirem de forma aleatória eles
têm uma “preferência” de estar mais em um lugar do que
em outro
Essa VARIABILIDADE dos dados é muito importante para
a estatística pois é com base nela que se podem medir e
quantificar as incertezas sobre os dados.
12. Armazenamento de dados
Estatística necessita de qualidade de dados
Garbage in / Gargabe out
Dados contábeis x Realidade
Consulta a dados via:
Data marts
Data warehouse
Arquivos: .txt; .csv; .dbf; .xls
Dados transacionais: informações operacionais da
empresa
Cargas semanais Análise Estatística / Análise
Previsiva
Processo inserido no PDCA (Plan Do Check Act)
13. Armazenamento de dados
Importância da área de TI
Cultura e rotina de “armazenamento” de
dados nas empresas
Sistemas Gerenciadores de Bancos de Dados
e ERP (Enterprise Resourse Planning)
Oracle MySQL
DB2 (IBM) MS-Access
SQL Sever (MS) Microsiga
SAP Datasul
Corporativo
Grande porte Pequeno e Médio
porte
BD
ERP
BD
ERP
14. Dados Qualitativos e
Quantitativos
Qualitativos
Nominal (Sexo, Cor,…)
Ordinal (Ruim, Bom, Excelente,
…)
Quantitativos
Discreto (-1,0,1,2,5,…)
Contínuo (1.25 ,1.55 , 5.1515…)
Dados qualitativos são
traduzidos em
números para
serem modelados
matematicamente
a) Binários (0,1)
b) Categóricos
(1,2,3,4, etc.)
15. Dados Quantitativos: Discretos
e Contínuos
Discretos: surgem quando o número de
valores possíveis é ou um número finito ou
uma quantidade “enumerável”
Ex: “Os números de ovos que as galinhas botam são
dados discretos porque representam contagens”
16. Dados Quantitativos: Discretos
e Contínuos
Contínuo: resultam de infinitos valores
possíveis que correspondem a alguma
escala contínua que cobre um intervalo de
valores sem vazios, interrupções ou saltos
Ex: “As quantidades de leite das vacas são dados
contínuos porque são medidas que podem assumir
qualquer valor em um intervalo contínuo. Durante um
dado intervalo de tempo, uma vaca pode produzir uma
quantidade de leite entre 0 a 5 galões. Seria possível
obter-se 2,34 galões, porque a vaca não é restrita a
quantidades discretas de 0, 1, 2, 3, 4 ou 5 galões”
17. Parâmetro e Estatística
Parâmetro: medida numérica que descreve
alguma característica da população
Ex: “A Câmara dos Deputados é constituída por 513
membros, sendo que 13,6% são do Estado de São
Paulo”
Estatística: medida numérica que descreve
alguma característica da amostra
Ex: “Pesquisa IBOPE constata que 51% dos cidadãos
de Belo Horizonte lêem jornal, sendo esta bem acima
dos 36% da população brasileira”
18. Exemplo de estrutura de dados
Os dados para análise estatística em geral se
organizam da seguinte forma:
Cada linha representa uma unidade amostral
Cada coluna é uma variável medida
19. Tomada de decisão através da
análise numérica
O uso da estatística e pesquisa
operacional em logística:
Definir “padrões” de receita de operações
de transporte
Realizar projeções futuras de previsão de
vendas
Realizar simulações de estoque
20. Tomada de decisão através da
análise numérica
O uso da estatística e pesquisa
operacional em logística:
Realizar modelos de previsão para budget
anual: orçamento financeiro ou recursos
Trabalhar com “roterização” de veículos
21. Tomada de decisão através da
análise numérica
O uso da estatística e pesquisa
operacional em logística:
Estudos de “facility location”: definição de
localização de terminais, fábricas, lojas, etc
Modelos matemáticos de custo de veículos
22. População
É um conjunto completo “objetos” que
estão sendo “investigados e apresentam
um determinado conjunto de
características ou parâmetros
(agrupamento de dados)
23. Amostra
É um subconjunto da população
Características da amostra:
Representativas da população
Atender a critérios de inclusão e exclusão
Resultados obtidos possam ser
extrapolados para população alvo
Diferenças entre amostras da mesma
população são devido a variação amostral
26. Séries estatísticas
É toda tabela que apresenta a
distribuição de um conjunto de dados
estatísticos em função da época, do
local ou da espécie
Séries históricas, cronológicas, temporais
Séries geográficas, espaciais, localização
Séries específicas ou categóricas
27. Séries estatísticas
Séries históricas, cronológicas,
temporais
Análise de uma variável em relação ao
tempo (y: var versus x: ano, mês, dia do
mês, hora)
Aplicação em avaliações para projeções e
previsões (forecast)
Áreas: Econometria e Séries Temporais
28.
29. Séries estatísticas
Séries geográficas, espaciais,
localização
Análise de uma variável em relação ao
espaço (y: var versus x: país, cidade,
estado, coordenadas geográficas)
Análise descritiva; ciências políticas e
sociais; análise mercadológica
31. Séries estatísticas
Séries específicas ou categóricas
Análise de uma variável em relação a uma
categoria da variável
Análise descritiva da distribuição das
categorias dos dados
Áreas: análise numérica em geral
38. Box-plot
É baseado em distribuições SIMÉTRICAS
Q3-Q1=IQ
(Aqui estão 50% das observações)
Q1
Q3
Mediana
MIN(Q3 + 1,5 x IQ, MAX)
MAX(Q1 – 1,5 x IQ, MIN)
O que estiver fora deste
intervalo é representado
por um PONTO
Gráficos estatísticos
40. Gráficos estatísticos - outliers
São pontos que fogem da distribuição
estatística assumida para os dados
Cuidado ao interpretar Outliers em
gráficos Box-plot
Box-plot são úteis para detecção
quando a distrubuição é simétrica.
42. Sintetizando dados Qualitativos
Distribuição de freqüência
Sumário tabular de dados que mostra a freqüência (ou
o número) de observações em cada uma das classes
não sobrepostas
Gráfico de Barras e de Pizza
Retrata os dados sintetizados em dispositivo gráfico,
podendo ser apresentadas as freqüência absoluta,
freqüência relativa ou freqüencia percentual
Como fazer?
No Excel utilize a opção de Tabela Dinâmica e Gráfico
de Barras
43. Cultura Agricola Nome Produto Segmento
Horti-Fruticultura Cascade 100 A
Algodão Cascade 100 A
Citrus Cascade 100 A
Café Cascade 100 A
Feijão Cascade 100 A
Soja Kumulus DF A
Horti-Fruticultura Kumulus DF A
Algodão Kumulus DF A
Milho Kumulus DF A
Arroz Kumulus DF A
Citrus Kumulus DF A
Trigo Kumulus DF A
Café Kumulus DF A
Feijão Kumulus DF A
Outras Kumulus DF A
Horti-Fruticultura Torque 500 SC A
Citrus Torque 500 SC A
Café Torque 500 SC A
Horti-Fruticultura Acrobat MZ F
Horti-Fruticultura Cabrio Top F
Algodão Cabrio Top F
Feijão Cabrio Top F
Horti-Fruticultura Cantus F
Café Cantus F
Soja Caramba 90 F
Horti-Fruticultura Caramba 90 F
Trigo Caramba 90 F
Feijão Caramba 90 F
Amendoim Caramba 90 F
Cultura Agrícola Freqüência
Freqüência
Relativa
Freqüência
Percentual (%)
Algodão 3 0.1034 10.34
Amendoim 1 0.0345 3.45
Arroz 1 0.0345 3.45
Café 4 0.1379 13.79
Citrus 3 0.1034 10.34
Feijão 4 0.1379 13.79
Horti-Fruticultura 7 0.2414 24.14
Milho 1 0.0345 3.45
Outras 1 0.0345 3.45
Soja 2 0.0690 6.90
Trigo 2 0.0690 6.90
Total 29 1 100
Freqüência
3
1 1
4
3
4
7
1 1
2 2
0
1
2
3
4
5
6
7
8
AlgodãoAm
endoim
Arroz
C
afé
C
itrus
Feijão
H
orti-Fruticultura
M
ilho
O
utras
Soja
Trigo
Freqüência Percentual (%)
10.34
3.45 3.45
13.79
10.34
13.79
24.14
3.45 3.45
6.90 6.90
0.00
5.00
10.00
15.00
20.00
25.00
30.00
AlgodãoAm
endoim
Arroz
C
afé
C
itrus
Feijão
H
orti-Fruticultura
M
ilho
O
utras
Soja
Trigo
44. Determinação de classes
Distribuição de freqüência
Sumário tabular, de um dado quantitativo, organizado
sobre classes numéricas não sobrepostas. Também
pode ser apresentada com as freqüências absoluta,
relativa e percentual
Determina-se:
a) Número de classes
n < 30 5 ou 6 classes
b) Largura de classes
- tamanho igual (largura)
- n. classes largura
- largura = (maior valor – menor valor) / número de
classe
45. Determinação de classes
Distribuição de freqüência
c) Limite de classes
Dica: Evitar grandes amostras e grande
variabilidade!!
Gráfico de barras
46. Determinação de classes
Cultura
Agricola Nome Produto Volume
Soja Poast 882,390
Soja Pivot 756,114
Soja Basagran 600 742,807
Soja Volt 451,984
Soja Alteza 327,790
Soja Cell-Tech 321,639
Soja Aramo 282,684
Soja Protreat 277,901
Soja Talcord 250 CE 270,694
Soja Standak 250 FS 235,507
Soja Nomolt 150 230,538
Soja Triona 199,490
Soja Vexter 153,273
Soja Dash HC 140,304
Soja Dimilin 110,187
Soja Fastac 100 CE 107,521
Classe de
Volume Freq. Abs
Freqüência
Relativa
Freqüência
Percentual (%)
775-910 1 0,0625 6,25
640-775 2 0,1250 12,50
505-640 0 0,0000 0,00
370-505 1 0,0625 6,25
235-370 6 0,3750 37,50
100-235 6 0,3750 37,50
Total 16 1 100
Freqüência Percentual (%)
6.25
12.50
0.00
6.25
37.50 37.50
0.00
5.00
10.00
15.00
20.00
25.00
30.00
35.00
40.00
775-910
640-775
505-640
370-505
235-370
100-235
49. Estatística Descritiva
Para cada tipo de dado existe uma
abordagem diferente para analisá-lo.
Basicamente existem 2 grupos de medidas:
Medidas de Posição:
Freqüências, Médias, Medianas, Moda,…
Medidas de Variabilidade:
Desvio Padrão, Desvio Absoluto, Range,…
Outras medidas são assimetria e kurtose.
51. Medidas de Posição
Agora que conhecemos os principais parâmetros de
análise vamos entender melhor suas
interpretações:
Medida de posição central
Média: μ (população) ou (amostra)
Sendo N o tamanho da população e n o tamanho da amostra
Mediana: “valor que fica no meio da seqüência quando os dados
são arranjados na ordem ascendente”
Dica: quando a amplitude da amostra e a variabilidade da
amostra/população for grande, a Mediana fornece uma
melhor medida de posição central
Moda: valor de dados que ocorre com maior
freqüência
_
x
52. Medidas de Posição: Média
É o CENTRO DE MASSA dos dados
Muito sensível a valores extremos
1 2 3 4 5 6 7 8 9 10
1 2 3 4 5 6 7 8 9 10
1 2 3 4 5 6 7 8 9 10
Média = 5.5
Média = 4
Média = 3.25
n = 2
n = 3
n = 4
54. Relação entre Média e
Mediana
Quanto mais assimétrica a distribuição
mas distantes estão a Média e a Mediana
1 2 3 4 5 6 7 8 9 10
Média = 4.4
Mediana = 4
Moda = 3
55. Medidas de Posição: Quartil
Quartil
Quartis dividem o conjunto de dados em 4 partes
(25%)
Q1: primeiro quartil
Q2: segundo quartil = mediana
Q3: terceiro quartil
25% 25% 25% 25%
Q1 Q2 Q3
56. Medidas de Posição: outros
Decis
Decis dividem o conjunto de dados em 10 partes
(10%)
Percentis
Dividem o conjunto de dados em 100 subcojuntos com
a mesma quantidade de dados (1%)
58. Box-plot
• Pelo Box-plot podemos notar uma pequena assimetria
• Ela pode ser vista também pela pequena diferença entre a Média e Mediana
Q3-Q1=IQ
(Aqui estão 50% das observações)
Q1
Q3
Mediana
MIN(Q3 + 1,5 x IQ, MAX)
MAX(Q1 – 1,5 x IQ, MIN)
O que estiver fora deste
intervalo é representado
por um PONTO
Q3-Q1=IQ
(Aqui estão 50% das observações)
Q1
Q3
Mediana
MIN(Q3 + 1,5 x IQ, MAX)
MAX(Q1 – 1,5 x IQ, MIN)
O que estiver fora deste
intervalo é representado
por um PONTO
Exemplo
Mediana = 4 (Q2 | 50%)
Primeiro Quartil = 3 (25%)
Terceiro Quartil = 6 (75%)
Média = 4,43
59. Medidas de Variabilidade
O Range ou Amplitude:
é uma medida para fornecer a diferença entre os
valores máximo e mínimo
A Variância (σ2) é definida por:
Medida de variabilidade que utiliza todos os dados
É o “erro” médio da diferença ao quadrado do
afastamento de todos os pontos em relação a média
amostral ou populacional
n
xxx
n
x n
n
i
i
22
2
2
1
2
1
2 )(...)()(
xi é cada valor observado e μ é a média
60. Medidas de Variabilidade:
Desvio padrão
Desvio-padrão (σ: população ou s: amostra)
É a raiz quadrada da variância populacional ou
amostral
Desvio médio em relação à média
O Desvio Padrão é pouco intuitivo de se analisar mas
tem propriedades estatísticas importantes para
outros cálculos (inferência estatística)
61. Medidas de Variabilidade:
Desvio padrão
Desvio-padrão (σ: população ou s: amostra)
Note que a unidade de medida do Desvio padrão
é o mesmo dos dados originais (essa é a razão de
tirar a Raiz quadrada da variância)
Se estamos falando em tempo médio em horas o
desvio padrão também será medidos em horas e
não “horas ao quadrado”
62. Entendendo a Variabilidade
Entender a variabilidade é importante para
entender muito mais do que como está centrado
o processo (média, mediana, …)
Imagine-se na situação onde dois bancos
garantem que o tempo médio de
atendimento é de 20 minutos. É o bastante
para avaliar?
63. Entendendo a Variabilidade
Não! Entender como esse tempo se distribui
é importante por exemplo para entender metas
de atendimento, por exemplo, 95% dos
atendimentos em até 23 minutos.
65. medida que se serve para comparar
diferentes distribuições
como a média de duas distribuições podem
ser diferentes, a utilização comparativa entre
o desvio padrão de ambas não é viável
útil para a comparação em termos relativos
do grau de concentração em torno da média
Medidas de Variabilidade:
Coeficiente de Variação
66. Para Controle Estatístico de Processo:
CV ≤ 15%: Baixa dispersão, homogênea, estável
15 < CV < 30%: Média dispersão
CV ≥ 30%: Alta dispersão, heterogênea
100
x
s
CV
Medidas de Variabilidade:
Coeficiente de Variação
s: desvio padrão amostral
x: média amostral
67. Medidas de associação entre
duas variáveis
Coeficiente de correlação:
Momento do Produto de Pearson
yx
xy
xy
ss
s
r
rxy = coeficiente de correlação (dados amostrais)
sxy = covariância da amostra
sx = desvio-padrão da amostra de x
sy = desvio-padrão da amostra de y
68. Medidas de associação entre
duas variáveis
Coeficiente de correlação:
Interpretação:
Valores rxy variam de -1 a +1
rxy < 0: relação linear negativa
rxy > 0: relação linear positiva
rxy = 0: fraca relação entre as variáveis
69. Medidas de associação entre
duas variáveis
Coeficiente de correlação:
Aplicação: investigação perante o
relacionamento entre variáveis
Depreciação da Frota x Quilometragem Média Mensal
da Frota
Assentos Vazios em Aeronaves x Passageiros
Transportados Mês
Escolaridade de Estivadores x Número de Acidentes de
Trabalho nos Portos