O documento apresenta um resumo sobre estatística aplicada à logística. Aborda conceitos como população, amostra, variáveis, estatística descritiva e seus métodos de síntese de dados qualitativos e quantitativos. Tem como objetivo fornecer uma revisão sobre esses tópicos para aplicação em modelos de otimização logística.
IESB Logística Empresarial - Métodos Quantitativos - Volume I
1. INSTITUTO DE EDUCAÇÃO SUPERIOR DE BRASÍLIA
PROGRAMA DE PÓS-GRADUAÇÃO LATO SENSU EM LOGÍSTICA
EMPRESARIAL
Apostila 01: Revisão de tópicos sobre
Estatística
Disciplina: Estatística e modelos de otimização
aplicados à logística
Prof. Rafael José Rorato
Brasília, abril de 08
2. INSTITUTO DE EDUCAÇÃO DE BRASÍLIA
Pós-graduação Lato Sensu em Logística Empresarial
Módulo: Estatística e modelos de otimização aplicados à logística
2
c2008
INSTITUTO DE EDUCAÇÃO DE BRASÍLIA
Campus Jovanina Rimoli
SGAN Quadra 609 – Módulo D – Avenida L2 Norte
Brasília – DF CEP:70850-090
Este exemplar é de propriedade do Instituto de Educação de Brasília, que poderá incluí-lo em
base de dados, armazenar em computador, microfilmar ou adotar qualquer forma de
arquivamento.
É permitida a menção, reprodução parcial ou integral e a transmissão entre bibliotecas deste
trabalho, sem modificação de seu texto, em qualquer meio que esteja ou venha a ser fixado,
para ensino, comentários e citações, desde que sem finalidade comercial e que seja feita a
referência bibliográfica completa.
Os conceitos expressos neste trabalho são de responsabilidade do autor.
3. INSTITUTO DE EDUCAÇÃO DE BRASÍLIA
Pós-graduação Lato Sensu em Logística Empresarial
Módulo: Estatística e modelos de otimização aplicados à logística
3
4
5
6
Inferência Estatística
População
Amostra
Parâmetros
Estimativas
Atributo
Variável Qualitativa
Variável Quantitativa
8
8
Gráficos de Barras ou Colunas
Gráficos de Pizza
9
Tabelas de Freqüências
Histograma
Ogivas
Dispersão
11
Média simples ou média aritimética
Média geométrica
Média harmônica
Média ponderada
Mediana
Moda
Percentil
Quartis
Amplitude
Amplitude interquartil
Variância
Desvio-padrão
Coeficiente de Variação
Box-plot
16
Covariância
Correlação
18
Variáveis Aleatórias
Probabilidade
Distribuição de Probabilidades
Distribuição Normal
Teorema do Limite Central
Parâmetros da Distribuição Normal
1.3.5) Distribuição de Probabilidade.............
1.3.1) Sintetização de dados qualitativos......
1.3.2) Sintetização de dados quantitativos....
1.3.3) Métodos Numéricos..........................
1.3.4) Medidas Associativas..........................
1) Estatística........................................................
1.1) Dados x Informação................................
1.2) População, Amostra e Variáveis..............
1.3) Estatística Descritiva.................................
ÍNDICE
4. INSTITUTO DE EDUCAÇÃO DE BRASÍLIA
Pós-graduação Lato Sensu em Logística Empresarial
Módulo: Estatística e modelos de otimização aplicados à logística
4
1) Estatística
Vamos considerar algumas definições:
a) Método: consiste no conjunto de meios e rotinas dispostos
convenientemente e logicamente para chegar a uma finalidade desejada.
b) Método experimental: no método experimental mantêm-se todas as
causas e fatores, menos uma, e variar esta causa de modo que se possa
descobrir seus efeitos (ex.: princípio da análise de sensibilidade de um
modelo).
c) Método estatístico: adimite que todas as causas presentes, variando-as,
dada a impossibilidade de mantê-las constantes, registrando estas
variações e procurando determinr as influências de cada uma delas.
Assim, a Estatística é a arte e a ciência de coletar, analizar, apresentar,
caracterizar e interpretar os dados para a utilização dos mesmos na tomada de
decisões. Podemos considerar que a estatística torna-se um conjunto de técnicas
fundamentadas na matemática com que torna-se possível transformar dados em
informação.
Constitui-se do conjunto de técnicas e métodos de pesquisa que entre outros
tópicos, envolve o planejamento do experimento a ser realizado, a coleta
qualificada dos dados, a inferência, o processamento, a análise e a disseminação
das informações. O conjunto de algumas técnicas fundamentadas integralmente
ou parcialmente constituem da área de conhecimento tais como: Estatística
Básica (Descritiva, ANOVA: Análise de variância, Teste de Hipótese, Regressão),
Séries Temporais (Aplicação à Economia: Econometria), Data Mining, Redes
Neurais, Controle de Qualidade (CEP: Controle Estatístico de Processos, Seis-
Sigma), Planejamento de Experimentos (DOE: Design of Experiments), Simulação
e Pesquisa Operacional (Otimização)
O desenvolvimento das técnicas estatísticas de obtenção e análise de
informações permite o controle e o estudo adequado de fenômenos, fatos,
eventos e ocorrências em diversas áreas do conhecimento, sejam com ambiente
experimental controlado, tal como um laboratório de Análises Clínicas, ou em
ambientes não controlados, tais como, vendas de um determinado produto em um
supermercado, ou o risco de inadimplência na liberação de crédito a um possível
cliente de instituição financeira, ou análise de passageiros transportados por
empresa de transporte aéreo. A Estatísitca apresenta como objetivo fornecer
métodos numéricos capazes de lidarmos racionalmente na análise de dados,
gerando informações para tomada de decisão segundo situações sujeitas a
incertezas quantificadas.
O porquê de estudar Estatística justifica-se na compreenção da leitura numérica e
de dados estatísticos encontrados em jornais, relatórios analíticos de instituições
públicas ou privadas, sites na internet, biddings de transportes e demais licitações
5. INSTITUTO DE EDUCAÇÃO DE BRASÍLIA
Pós-graduação Lato Sensu em Logística Empresarial
Módulo: Estatística e modelos de otimização aplicados à logística
5
que necessitem de uma interpretação numérica e/ou histórica de dados. Através
dela, minimizam-se os riscos de sermos iludidos por estatísticos ou pseudo-
estatísticos, constituindo-se assim de um poderoso instrumento para a tomada de
decisões. De nada adianta apresentarmos ou possuirmos “ferramental”
computacional e algumas informações se não formos capazes de interpretarmos
as informações, gráficos ou tabelas.
Por quê Estatística e Logística? Revisaremos uma das definições da Logística:
“Logística é a parte do processo da cadeia de suprimentos que
planeja, implementa e controla, de forma eficiente e eficaz, a
expedição, o fluxo reverso e a armazenagem de bens e serviços,
assim como do fluxo de informações relacionadas, entre o ponto de
origem e o ponto de consumo, com o propósito de atender às
necessidades dos clientes.” (Fonte: Concil of Supply Chain Management
Professional)
Observamos que a eficiência e a eficácia nos processos logísticos vão além da
infra-estrutura física de terminais, tecnologias de transporte, especialização da
mão-de-obra. Para a busca da otimização nos processos logísticos de
movimentação e armazenagem, necessita-se saber responder:
Aonde? Onde? Quando? Quantos? A que custo?
A qual prazo? Como mensurar o serviço?
Como mensurar o risco?
1.1) Dados x Informação
Os dados são definidos como os fatos, classes e números observados e
sintetizados para apresentação e interpretação, úteis para uma determinada
finalidade. Apresentam significado implicito sobre os fenômenos do mundo real ou
de experimentações controladas. Porém, um dado por si só, não é fortemente
representativo!
(a) (b)
Figura 1: Representatividade visual do agrupamento de dados:
(a) isolado, baixa geração de informação (b) conjunto de dados, significativa
(b) geração de informação
6. INSTITUTO DE EDUCAÇÃO DE BRASÍLIA
Pós-graduação Lato Sensu em Logística Empresarial
Módulo: Estatística e modelos de otimização aplicados à logística
6
Informação constitui-se de um agrupamento de dados, devidamente armazenados
e possíveis serem classificadas, verificadas as correlações, as dependências, as
associações e deduções, cujos resultados geram uma ação.
1.2) População, Amostra e Variáveis
Quando buscamos obter informações para a tomada de decisão, necessitamos
coletar dados, sejam eles através de pesquisa de campo, entrevistas e
preenchimento de formulários ou acessar os sistemas de banco de dados das
empresas. Porém nem sempre, ao investigar um determinado comportamento ou
ação, não obtemos recursos financeiros para realizar a pesquisa. Por exemplo: ao
investigarmos o número de acessos (chegadas e partidas) de veículos de passeio
ao terminal do Aeroporto Estadual Dr. Leite Lopes em Riberião Preto (SP) em um
ano, damandaria um alto custo em manter uma equipe de pesquisadores
relizando contagens de pessoas em 24h, por 7 dias na semana, ao longo de 365
dias do ano. Para minimizarmos esses custos é realizado um processo chamado
de Inferência Estatística. Através do planejamento de experimentos da pesquisa
realiza-se a coleta de dados em um período inferior a 365 dias e com dias
específicos ao longo da semana e concentrando os esforços em horários
significativos.
Com a Inferência Estatística busca-se justificar o comportamento de uma
população através do estudo de uma amostra. Os dados de uma amostra podem
ser usados para fazer estimativas e para testar hipóteses sobre a característica
Planejamento Tático, Estratégico e Operacional
Relacionamento com Fornecedores
Relacionamento com Clientes
Marketing analítico
CRM analítico
Budget
Localização de Instalações: fábricas, centros de distribuição e varejo
Etc...
Dados
Processo de
Transformação
Informação
Atitude
Conhecimento
1. Modelagem de Processos
2. Tecnologia da Informação: BI, DW, Banco
Dados, ERP...
3. Data Quality
4. Áreas da Estatística: Descritiva, ANOVA,
Regressão, CEP, Econometria...
7. INSTITUTO DE EDUCAÇÃO DE BRASÍLIA
Pós-graduação Lato Sensu em Logística Empresarial
Módulo: Estatística e modelos de otimização aplicados à logística
7
de uma população. Ex.: No Controle Estatístico de Processo da produção e
envaze de garrafas com óleo de soja, seria irrealistico validar a calibração da
máquina de envase medindo todas as garrafas produzidas em um dia. Faz-se a
segmentação em lotes de produção e desse lote são extraídas amostras e delas
feito a medição volumétrica, a quantificação da variabilidade do envase e a
inferência sobre o lote.
Em outro caso, um analísta de risco de uma instituição financeira ao acessar o
sistema de banco de dados apresenta condições em consultar todos os registros
desde a criação do sistema até a carga mais recente extraída da base
transacional. Nestas condições o analista trabalha com a população de dados.
População e amostra referem-se ao conjunto de variáveis qualitativas ou
quantitatvas cujas propriedades desejamos averiguar. A população é o conjunto
de todos os elementos de interesse de um determinado estudo. A amostra é um
subconjunto da população.
A notação encontrada nas fórmulas de estatística para o tamanho de população e
amostra é dado por:
N: Tamanho da População
n: Tamanho da Amostra
Parâmetros são os valores singulares que existem na população e que servem
para caracterizá-la. O parâmetro somente defini-se ao examinar toda a
população. Ex.: o analista risco mensura que para os registros de liberações de
crédito a inadimplência atingiu 18,7% da carteira, sendo o valor médio de
emprestimo de R$25.679,00.
Estimativas são valores aproximados do parâmetro e são calculados com o uso
dos dados amostrais. Ex.:Pesquisa realizada em 21 de junho de 2000 levantou
que a média diária de veículos de passeio que chegam ao terminal aéreo de
Ribeirão Preto (SP) são de 175,1 veículos, para o período compreendido das 9:00
às 19:00.
Atributo: quando os dados estatísticos apresentam um caráter qualitativo, o
levantamento e os estudos necessários ao tratamento desses dados são
designados genericamente de estatística de atributo.
Variável: é o conjunto de resultados possíveis de um fenômeno ou os valores que
identificam características para cada registro.
As variáveis são classificadas em:
Qualitativa: quando os valores são expressos por atributos, de forma não
numérica. As variáveis qualitativas são sub-classificadas em:
8. INSTITUTO DE EDUCAÇÃO DE BRASÍLIA
Pós-graduação Lato Sensu em Logística Empresarial
Módulo: Estatística e modelos de otimização aplicados à logística
8
Sexo Freq Freq Relativa Freq %
F 15 0.75 75
M 5 0.25 25
Total 20
o Qualitativa Nominal: Sexo (M ou F), Cor da pele (branca, preta,
amarela);
o Qualitativo Ordinal: Classificado em Ruim, Bom e Excelente;
Extremamente Fácil, Fácil, Difícil, Muito Difícil;
Quantitativa: quando os valores são expressos por números. As variáveis
quantitativas são sub-classificadas em:
o Quantitativa Discreta: expresso por números inteiros tais como
idade (12, 17, 23, 42), pesos de uma categoria (-10, 0, 12, -22, 47);
o Quantitativa Contínua: espresso por números reais decimais. (Ex.:
notas dos alunos na disciplina de Estatística: 5,5; 7,4; 9; 0; 2,4);
1.3) Estatística Descritiva
A Estatística Descritiva tem como objetivo descrever dados de uma amostra ou de
uma população via uso de métodos tabulares, métodos gráficos e métodos
numéricos. Os métodos tabulares e gráficos apresentam-se como uma forma de
sintetizar as informações em tabelas e gráficos através da frequência de
ocorrência de categorias de uma variável quantitativa ou qualitativa. Já os
métodos numéricos são diretamente aplicados a variáveis quantitativas e
fornecem informações de posição e de dispersão da amostra ou população.
1.3.1) Sintetização de dados qualitativos
Uma simples forma para sintetizar dados qualitadivos é realizada através da
Distribuição de Freqüência. Defini-se como um sumário tabular de dados que
mostra a freqüência (ou o número) de observações em cada uma das diversas
classes não sobrepostas. Outras formas de tabulação são as Freqüências
Relativas e Percentuais. Basicamente a Freqüência Relativa é determinado pela
divisão da freqüência da classe pelo total das variáveis.
Como exemplo para os dados da Figura 1(b) temos para a variável Sexo:
Tabela 1: Freqüência, Freqüência Relativa e Freqüência Percentual da variável Sexo
Os gráficos descritivos são conhecidos como:
Gráficos de Barras ou Colunas
9. INSTITUTO DE EDUCAÇÃO DE BRASÍLIA
Pós-graduação Lato Sensu em Logística Empresarial
Módulo: Estatística e modelos de otimização aplicados à logística
9
NC
VV
L menormaior −
=
Gráficos de Pizza
Nessas representações gráficas, cada categoria de uma variável qualitativa são
agrupadas e em barras ou fatias e dimensionadas conforme as Freqüencias a
elas atribuidas. A maioria dos programas computacionais estatísticos são
habilitados à tabular dados qualitativos em forma gráfica.
1.3.2) Sintetização de dados quantitativos
Os dados quatitativos também apresentam formas sintéticas de apresentação.
Podemos utilizar-se de Tabelas de Freqüências em relação a classes, definida
pelos número e largura de classes.
Indica-se o uso de tabelas de frequências para amostras ou populações
pequenas (n<30; N<30). Para dimensioná-las saiba que:
Largura entre as classes devem ser iguais;
Quanto maior o número de classes, menor será a largura;
A largura é definida por:
Sendo,
Vmaior: maior valor registrado na variável em estudo
Vmenor: menor valor registrado na variável em estudo
NC: Número de Classes (recomenda-se o uso de 5 ou 6 classes)
Tabela 2: Distribuição de Freqüências por Classe para uma variável quantitativa
Outras formas de representação de dados quantitativos:
Histograma: é uma apresentação de uma distribuição de freqüência,
distribuição de freqüência relativa ou distribuição de freqüência percentual
10. INSTITUTO DE EDUCAÇÃO DE BRASÍLIA
Pós-graduação Lato Sensu em Logística Empresarial
Módulo: Estatística e modelos de otimização aplicados à logística
10
Histograma Peso
Peso
Freqüência
50 60 70 80 90
012345
1000 2000 3000 4000 5000 6000
200040006000800010000
Fator de Estiva
Número de TEUs Embarcados
Atrasos
para dados quantitativos construídos colocando-se os intervalos de classe
no eixo horizontal e as freqüencias no eixo vertical
Figura 2: Histograma para a variável Peso apresentada na Figura 1
Ogivas: defini-se como um gráfico de linha que apresenta a distribuição
cumulativa. Os valores dos dados são mostrados no eixo horizontal e as
freqüências no eixo vertical.
Figura 3: Exemplo de uma ogiva
Dispersão: o gráfico de dispersão consiste na plotagem registros entre
duas variáveis quantitativas, aplicadas nos eixos x e y. Serve como um
diagnóstico para verificação visual de correlação entre as variáveis, sendo
uma primeira etapa para refutação ou aprovação de uma análise de
regressão.
Figura 3: Gráfico de disperção
11. INSTITUTO DE EDUCAÇÃO DE BRASÍLIA
Pós-graduação Lato Sensu em Logística Empresarial
Módulo: Estatística e modelos de otimização aplicados à logística
11
1.3.3) Métodos Numéricos
Os métodos numéricos em Estatística Descritiva para variáveis quantitativas nos
fornecem medidas de posição e medidas de variabilidade. Com elas podemos
fazer a caracterização númérica da distribuição amostral ou da população.
São com as medidas de posição e de variabilidade que geralmente um analista de
logística embasa as decisões para um problema.
As medidas de posição são:
]
Média: é a medida de posição mais importande de uma variável quantitativa. A
média fornece uma medida de posição central. Os principais tipos de média são:
Média simples ou média aritimética:
n
x
x
i∑= x = Média da amostra
N
xi∑=µ µ= Média da população
Média geométrica
n
n
n
i
i xxxxxx ×××=
= ∏=
...321
1
x = Média da amostra
N
N
N
i
i xxxxx ×××=
= ∏=
...321
1
µ µ= Média da população
A média geométrica deverá apenas ser usada quando os registros da variável
quantitativa em estudo forem positivos, evitando assim raízes de ordem n ou N
com números negativos. Freqüentemente utiliza-se para números cujos valores
apresentam um significado em serem multiplicados entre si (progreção
geométrica – PG) ou serem uma série de comportamento exponencial por
natureza, tal como dados de crescimento da população humana ou taxas de
investimento financeiro.
Média harmônica
nxxxx
n
x
1
...
111
321
++++
=
12. INSTITUTO DE EDUCAÇÃO DE BRASÍLIA
Pós-graduação Lato Sensu em Logística Empresarial
Módulo: Estatística e modelos de otimização aplicados à logística
12
A média harmônica consiste na inversão dos números da variável quantitativa,
tirar a media dos inversos e inverter novamente, devendo ser aplicados quanto
esses números apresentam uma relação onde numerador é uma constante e o
denominador varia, isto é, apresentam uma relação;
b
a
Sendo, a um valor fixo e b variável. Exemplificando, tomamos que a variável a
represente a distâncias entre cidades (são fixas e não se alteram ao longo do
tempo – fator constante) e b representa o tempo de viagem entre essas cidades
(pode variar pois o veículo poderá alterar a velocidade). Supomos que em uma
viagem cíclica em uma operação logística de transportes, cujo caminhão semi-
reboque coleta carga em uma Unidade Fabril (UF) e transporta a um Centro de
Distribuição (CD), viajando na ida a 70km/h e realiza na volta uma velocidade de
90km/h. Utilizando a média harmônica temos:
hkmxharmônica /75,78
160
63002
9070
9070
2
90
1
70
1
2
=
×
=
×
+
=
+
=
Se utilizarmos a média aritimética temos:
hkmx aaritimétic /80
2
160
2
9070
==
+
=
Para visualizar a diferença da aplicação desse exemplo, a média harmônica
considera que existe na determinação da velocidade média do caminha a relação
espaço/tempo. Consideramos que a distância entre a UF e o CD é de 35km. O
tempo de viagem de ida seria de 35 km / 70km/h = 0,5 horas = 30 min, enquanto
que a volta do veículo seria 35 km / 90km/h = 0,389 h = 23,3 min. Logo, o tempo
total do ciclo será igual a 0,889h = 53,3 min para percorrer 2 x 35 km = 70km.
Conseqüentemente, a velocidade média será 70 km / 0,889 h = 78,75km/h (igual
a média harmônica).
Média ponderada
n
nn
n
i
i
n
i
ii
www
xwxwxw
w
xw
x
...
...
21
2211
1
1
++
+++
=
×
=
∑
∑
=
=
Sendo wi os pesos ao qual queira-se vincular as variáveis xi.
A média ponderada faz com que os elementos de maior peso wi contribuam mais
do que os elementos de menor valor de wi no cálculo da média. A média
ponderada deverá ser utilizada sendo que os pesos não sejam negativos. Alguns
elementos do peso poderão ser nulos, porém nem todos devido a divisão por
13. INSTITUTO DE EDUCAÇÃO DE BRASÍLIA
Pós-graduação Lato Sensu em Logística Empresarial
Módulo: Estatística e modelos de otimização aplicados à logística
13
zero. Se todos os pesos forem de mesmo valor, a média ponderada a apresentará
o mesmo valor da média aritimética.
**********
Como as médias reportam a tendência central da amostra ou população, a média
aritimética não é apropiada para descrever distribuições enviesadas, porque essa
mediada não tem intepretação do fenêmeno. A média aritimética é facilemente
influenciada pelos outliers. As distorções ocorridas pelos outliers são percebidas
pelo quanto a média difere-se da mediana. Para casos de amostras ou
populações com ocorrência de outliers indica-se o uso da mediana.
Figura 4: Média x Mediana
**********
Mediana: é outra medida de posição central de uma variável. A mediana é o valor
que fica no meio da seqüência quando os dados são arranjados na ordem
ascendente (classificação do menor valor para o maior). Com um número ímpar
de observações, a mediana é o valor do meio. Um número par de observações
não tem um valor único no meio. Neste caso, seguimos a convenção de definir a
mediana como sendo a média dos valores das duas observações do meio. Assim,
defini-se:
Mediana com os valores dados arranjados na ordem ascendente:
1. para um número ímpar de observações, a mediana é o valor do
meio.
2. para um número par de observações, a mediana é a média dos dois
valores do meio.
Moda: é o valor de dados que ocorre com maior freqüência.
Conforme o tipo de variável estudada e o processo de obtenção da informação
(pesquisa de campo, formulários, contagens, etc) a utilização prática da moda
pode ser na identificação de possíveis dados fake (“chutado” pelo entrevistador)
1 2 3 4 5 6 7 8 9 10
Média = 4.4
Mediana = 4
Moda = 3
14. INSTITUTO DE EDUCAÇÃO DE BRASÍLIA
Pós-graduação Lato Sensu em Logística Empresarial
Módulo: Estatística e modelos de otimização aplicados à logística
14
no processo de pesquisa, podendo ou não utilizaram-se do processo de “limpeza”
ou exclusão dos dados.
Percentil: o percentil fornece a informação sobre como os valores de dados estão
distribuídos sobre o intervalo, do maior para o menor. O p-ésimo percentil é um
valor tal que pelo menos p por cento das observações assumem esse valor ou
menos e pelo menos (100 – p) por cento das observações assumem esse valor
ou mais.
Quartis: defini-se como a divisão dos dados em quatro partes, cada parte
contendo aproximadamente um quarto, ou 25% das observações. Esses pontos
são definidos como quartis e estão nomeados como:
Q1: primeiro quartil, ou 25º percentil
Q2: segundo quartil, ou 50º percentil (igual a mediana)
Q3: terceiro quartil, ou 75º percentil
As medidas de variabilidade são:
Amplitude (range): a amplitude consiste na diferença entre o maior e o menor
valor das categorias da variável. A amplitude é fácil de calcular, mas é sensível
aos dois valores de dados: o maior e o menor.
Amplitude interquartil (IQ): defini-se como a diferença entre o terceiro e o
primeiro quartil (Q3 – Q1).
Variância: a variância é uma medida de dispersão que indica quão longe em
geral os valores da variável se encontram do valor esperado. Segundo a teoria
das probabilidades o valor esperado de uma variável aleatória é a soma das
probabilidades de cada possibilidade de um registro possa ser igual a média
aritimética. Assim baseia-se na diferença entre o valor de cada observação e a
média. O valor da variância nunca é negativa e a unidade da variância é o
quadrado da unidade da observação.
( )
N
xi∑ −
=
2
2
µ
σ 2
σ = Variância da população
( )
1
2
2
−
−
=
∑
n
xx
s
i 2
s = Variância da amostra
Nas aplicações estatísticas, os dados analisados são para uma amostra. Assim
quando calculada a variância da amostra, estamos interessados na busca da
variância da população. Podemos mostrar que, se a soma dos desvios elevados
ao quadrado ao redor da média for dividida por n-1 e não por n, a variância da
amostra resultante fornece uma estimativa não enviesada ou não-induzida da
variância da população.
15. INSTITUTO DE EDUCAÇÃO DE BRASÍLIA
Pós-graduação Lato Sensu em Logística Empresarial
Módulo: Estatística e modelos de otimização aplicados à logística
15
Desvio-padrão: é a raiz quadrada positiva da variância. Esta medida de
variabilidade é um número positivo e utiliza-se das mesma unidade da variável
quantitativa, facilitando assim a interpretação real da informação.
Nota importante:
Maiores detalhes sobre curvas de distribuição veremos em item a seguir. Mas
como propriedade do desvio-padrão temos que, em uma distribuição normal
simétrica, mesocúrtica e unimodal podemos afirmar que:
68% dos valores encontram-se a uma distância da média inferior a um
desvio padrão.
95% dos valores encontram-se a uma distância da média inferior a duas
vezes o desvio padrão.
99,7% dos valores encontram-se a uma distância da média inferior a três
vezes o desvio padrão.
Figura 5: Distribuição normal de probabilidade e o desvio-padrão
Coeficiente de Variação: é uma medida de variabilidade que mensura a desvio-
padrão relativo à média.
100×
−
=
Média
padrãoDesvio
CV
**********
Box-plot: é um sumário gráfico dos dados baseado em uma regra que contém
cinco medidas de posição: o menor valor, o primeiro quartil (Q1), a mediana (Q2),
o terceiro quartil (Q3) e o maior valor.
16. INSTITUTO DE EDUCAÇÃO DE BRASÍLIA
Pós-graduação Lato Sensu em Logística Empresarial
Módulo: Estatística e modelos de otimização aplicados à logística
16
100020003000400050006000
Box-plot
Distâncias
Outliers
Q1
Q3
Mediana
Usando a amplitude interquartil, IQ = Q3 – Q1 os limites de 50% da amostra são
assinalados. Os limites do gráfico de box-plot são definidos por 1,5QI abaixo de
Q1 e 1,5QI acima de Q3. Os pontos fora desses limites são classificados como
outliers. Os outliers são pontos que fogem da distribuição estatística assumida
para os dados. Nos gráficos de box-plot deve haver cautela na intepretação dos
outliers.
Os gráficos de box-plot são úteis para detecção quando a distrubuição é
simétrica.
‘
**********
1.3.4) Medidas Associativas
Usualmente, na geração de informações para a tomada de decisão faz-se
necessário investigar o comportamento de uma variável em relação a outra. Neste
contexto utilizamos de medidas descritivas de relação entre duas variáveis: a
correlação e a covariância.
A covariância é por vezes chamada de medida de dependência/associação
linear entre as duas variáveis quantitativas aleatórias. Valores positivos indicam
uma relação positiva entre duas distintas variáveis x e y. Valores negativos
indicam uma relação negativa entre as variáveis x e y. Valores nulos representam
nenhuma relação entre x e y.
17. INSTITUTO DE EDUCAÇÃO DE BRASÍLIA
Pós-graduação Lato Sensu em Logística Empresarial
Módulo: Estatística e modelos de otimização aplicados à logística
17
( )( )
1−
−−
=
∑
n
yyxx
s
ii
xy
xys : Covariância das amostras das variáveis x e y de um conjunto de dados;
xi: Valores de x variando de i=1 até i=n;
x : Média amostral da variável x;
yi: Valores de x variando de i=1 até i=n;
y : Média amostral da variável y;
n: tamanho da amostra
( )( )
N
yx yixi
xy
∑ −−
=
µµ
σ
xyσ = Covariância da população das variáveis x e y de um conjunto de dados
xi: Valores de x variando de i=1 até i=n;
µx: Média da população da variável x;
yi: Valores de x variando de i=1 até i=n;
µy: Média da população da variável y;
N: tamanho da população
A correlação é um conceito relacionado usado para medir o grau de dependência
linear entre duas variáveis. É conhecida como correlação de Pearson ou
Momento de Pearson. Os valores compreendem entre -1 a +1. Valores próximos
a +1 indicam uma forte relação linear positiva; valores próximos a -1 indicam uma
forte relação linear negativa. Valores nulos ou próximos de zero indicam a falta de
relação linear.
yx
xy
xy
ss
s
r =
xyr : correlação das amostras das variáveis x e y de um conjunto de dados;
sxy: covariância da amostra;
sx: desvio-padrão amostral da variável x;
sy: desvio-padrão amostral da variável y.
yx
xy
xy
ρρ
ρ
ρ =
xyρ : correlação das populações das variáveis x e y de um conjunto de dados;
ρxy: covariância da população;
ρx: desvio-padrão da população da variável x;
ρy: desvio-padrão da população da variável y.
18. INSTITUTO DE EDUCAÇÃO DE BRASÍLIA
Pós-graduação Lato Sensu em Logística Empresarial
Módulo: Estatística e modelos de otimização aplicados à logística
18
-6
-4
-2
0
2
4
6
8
1 0
1 2
1 4
0 1 2 3 4 5 6 7 8
-1 0
-8
-6
-4
-2
0
2
4
6
0 1 2 3 4 5 6 7 8
0
1
2
3
4
5
6
7
8
-6 -4 -2 0 2 4 6 8 1 0 1 2 1 4
Covariância positiva: x e y são
relacionados positiva e linearmente
Covariância aproximadamente nula: x e y
não são relacionados linearmente
Covariância negativa: x e y são
relacionados negativa e linearmente
1.3.5) Distribuição de Probabilidade
Antes de definirmos a distribuição de probabilidade iremos revisar algumas
definições.
19. INSTITUTO DE EDUCAÇÃO DE BRASÍLIA
Pós-graduação Lato Sensu em Logística Empresarial
Módulo: Estatística e modelos de otimização aplicados à logística
19
Variáveis Aleatórias: A variável aleatória é uma descrição numérica do resultado
de um experimento, mecanismo ou sistema não-determinístico. Matematicamente
é definida como uma função mensurável de um espaço probabilístico. No
experimento a variável xi aleatória apresenta um valor único.
A palavra não-determinística, aleatória ou estocástica apresentam o mesmo
significado. Representa que a variável obtida somente será conhecida após o
experimento ser realizado. Ex.: Em uma fila de pedágio em uma rodovia, o
processo de chegada de veículos é aleatório, isto é, não conseguimos determinar
com precisão qual será o comprimento da fila ou quantos veículos passarão em
um dia de operação.
Diferentemente, um processo determinístico poder-se-á calcular o valor da
variável a ser calculada. Ex.: Na física, sabemos que o deslocamento de um
veículo é dado por:
tvx ×=
Onde,
x: deslocamento (km ou m);
v: velocidade (km/h ou m/s);
t: tempo (h ou s);
Outro exemplo vem dos fenômenos de hidráulica e mecânicas dos fluidos. A
vazão de água passando por um tubo de diâmetro conhecido e constante é dado
por:
vAQ ×=
Onde,
Q: vazão do fluído (m3
/s ou m3
/h);
A: área do tudo de diâmetro D (m2
), definido por
4
2
D
A
×
=
π
;
v: velocidade do fluído no tubo (m/s ou m/h)
Nesses dois exemplos de comportamento determinísticos, caso sejam fornecido
duas variávis poder-se-á calcular a terceira incógnita. Assim, se tivermos
deslocamento e tempo, determinamos a velocidade. Se tivermos a vazão e o
diâmetro de um tubo poder-se-á determinar qual é a velocidade de fluxo.
Já em fenõmenos aleatórios ou não-determinísticos não se pode encontrar essa
relação.
Exemplos de variáveis aleatórias:
20. INSTITUTO DE EDUCAÇÃO DE BRASÍLIA
Pós-graduação Lato Sensu em Logística Empresarial
Módulo: Estatística e modelos de otimização aplicados à logística
20
a. número de alunos que não compareceram a aula de estatística num
determinado dia;
b. altura de um adulto do sexo masculino selecionado aleatoriamente.
c. processo de chegada de caminhões em um terminal portuário (apesar dos
sistemas de transportes apresentarem a possibilidade de itens deterministicos,
tais como velocidade média operacional, distância e a possibilidade de estimativa
de tempos e, conseqüentemente, ter a freqüência de viagens, esses processos
estão sujeitos e eventos aleatórios e não programados, tais como, problemas
mecâncios de veículos devido a condições de infra-estrutura viária,
congestionamentos, acidentes ou intempéries.
As variáveis aleatórias podem ser classificadas como:
Variável aleatória discreta: é aquela que assume valores inteiros e finitos (Ex.:
0, 1, 2, 3, ...).
Variável aleatória contínua: é aquela que pode assumir inúmeros valores num
intervalo de números reais e é medida numa escala contínua (1.23, 4.56, 7,3333).
Probabilidade: medida numérica da plausividade de que um evento ocorrerá. As
probabilidades medem o grau de incerteza associada aos eventos. Se as
probabilidades estiverem disponíveis, poder-se-á determinar a plausividade de
ocorrência de cada evento.
Além de identificar os valores de uma variável aleatória, freqüentemente podemos
atribuir uma probabilidade a cada um desses valores. Quando conhecemos todos
os valores de uma variável aleatória juntamente com suas respectivas
probabilidades, temos uma distribuição de probabilidades.
A Distribuição de Probabilidades associa uma probabilidade a cada resultado
numérico de um experimento, ou seja, dá a probabilidade de cada valor de uma
variável aleatória. Por exemplo, no lançamento de um dado cada face tem a
mesma probabilidade de ocorrência que é 1/6.
Como os valores das distribuições de probabilidades são probabilidades, e como
as variáveis aleatórias devem tomar um de seus valores, temos as duas regras a
seguir que se aplicam a qualquer distribuição de probabilidades:
1. A soma de todos os valores de uma distribuição de probabilidades deve ser
igual a 1
∑∑∑∑P(x) = 1, onde x toma todos os valores possíveis
2. A probabilidade de ocorrência de um evento deve ser maior do que zero e
menor do que 1
0 ≤≤≤≤P (x) ≤≤≤≤ 1 para todo x
21. INSTITUTO DE EDUCAÇÃO DE BRASÍLIA
Pós-graduação Lato Sensu em Logística Empresarial
Módulo: Estatística e modelos de otimização aplicados à logística
21
No exemplo do lançamento de um dado, como todas as faces têm a mesma
probabilidade de ocorrência que é 1/6 ao somá-las obtemos o valor 1, que
corresponde a primeira regra citada acima. O valor 1/6 é maior do que zero e
menor do que 1, assim satisfaz a segunda regra acima.
A distribuição de probabilidades pode ser representada por um histograma de
probabilidades. Este se assemelha ao histograma de freqüências apresentado na
anteriormente, entretanto a escala vertical representa probabilidades, em lugar
das freqüências relativas.
O histograma de probabilidades nos permite visualizar a forma da distribuição. A
média, a variância e o desvio-padrão traduzem outras características. Para uma
distribuição de probabilidades, essas medidas podem ser determinadas usando
as expressões mostradas na tabela 1.
Tabela 3. Expressões para cálculo da média, variância e desvio-padrão das distribuições de probabilidades.
Média µ=∑x P(x)
Variância σ2
=∑[(x-µ)2
P(x)]
Variância σ2
=[∑x2
P(x)] - µ2
Desvio-Padrão σ=([∑x2
P(x)] - µ2
)1/2
Ao calcularmos a média de uma distribuição de probabilidades, obtemos o valor
médio que esperaríamos ter se pudéssemos repetir as provas indefinitivamente.
Não obtemos o valor que esperamos ocorrer com maior freqüência. Já o desvio-
padrão nos dá uma medida de quanto a distribuição de probabilidades se
dispersa em torna da média. Um grande desvio-padrão reflete dispersão
considerável, enquanto que um desvio-padrão menor traduz menor variabilidade,
com valores relativamente mais próximos da média. Estas fórmulas podem ser
utilizadas para qualquer distribuição de probabilidades, entretanto, veremos mais
adiante que elas podem ser simplificadas dependendo do tipo de distribuição.
A média de uma variável aleatória discreta é o resultado médio teórico de um
número infinito de provas. Podemos encarar essa média como o valor esperado
no sentido de que é o valor médio que esperaríamos obter se as provas se
prolongassem indefinitivamente. As aplicações do valor esperado (também
chamado esperança ou esperança matemática) são extensas e variadas e o
mesmo desempenha um papel de extrema importância em uma área de aplicação
chamada teoria da decisão.
O valor esperado de uma variável aleatória discreta é denotado por E e
representa o valor médio dos resultados:
E = ∑x P(x) (1)
Observamos que E=µ. Isto é, a média de uma variável aleatória discreta coincide
com seu valor esperado.
22. INSTITUTO DE EDUCAÇÃO DE BRASÍLIA
Pós-graduação Lato Sensu em Logística Empresarial
Módulo: Estatística e modelos de otimização aplicados à logística
22
Exemplo: Na tabela abaixo são fornecidas as probabilidades de ocorrências de
um determinado evento. Entretanto, o objetivo da mesma é enfatizar o cálculo da
média, da variância e do desvio-padrão. Juntamente com a tabela será mostrado
o histograma de probabilidades.
Tabela 4. Cálculo da média, variância e desvio-padrão para uma distribuição de probabilidades.
X P(x) x P(x) x2
x2
P(x)
0 0,210 0,000 0 0,000
1 0,367 0,367 1 0,367
2 0,275 0,550 4 1,100
3 0,115 0,345 9 1,035
4 0,029 0,116 16 0,464
5 0,004 0,020 25 0,100
6 0 0,000 36 0,000
7 0 0,000 49 0,000
Total 1,000 1,398 - 3,066
µ=∑x P(x) = 1,398 = 1,4
σ2=[∑x2 P(x)] - µ2 = 3,066-1,3982 =1,111596 = 1,1
σ=(1,111596)1/2 = 1,054323 = 1,1
Figura 6. Histograma de probabilidades.
As distribuições de freqüências construídas a partir de observações podem ser
representadas através de formas matemáticas. Então, as formas matemáticas
23. INSTITUTO DE EDUCAÇÃO DE BRASÍLIA
Pós-graduação Lato Sensu em Logística Empresarial
Módulo: Estatística e modelos de otimização aplicados à logística
23
utilizadas para a idealização dos dados reais são referidas como distribuições
teóricas.
As distribuições teóricas representam os dados aproximadamente, embora em
muitos casos a aproximação pode ser muito boa. Basicamente, há três aspectos
em que o emprego das distribuições de probabilidade teóricas podem ser útil:
Compacidade: é trabalhoso lidar com grandes conjuntos de dados brutos, sendo
que às vezes, também pode haver limitações para a análise. Uma distribuição
teórica bem ajustada à série de dados reduz o número de trabalho exigido para a
caracterizar as propriedades da mesma.
Alisamento e interpolação: os dados reais estão sujeitos a variações na
amostragem que podem levar a falha de dados ou a dados errôneos nas
distribuições empíricas. Por exemplo, numa amostra de dados de temperatura
máxima de uma cidade, localizada na região tropical, não foram observadas
temperaturas máximas entre 30 e 35ºC no verão, embora certamente
temperaturas máximas nesta faixa podem ocorrer. A imposição de uma
distribuição teórica sobre estes dados representaria a possibilidade dessas
temperaturas ocorrerem, tanto quanto permitiria estimar a suas probabilidades de
ocorrência.
Extrapolação: estimar a probabilidade de eventos extremos a variação de um
conjunto de dados particular exige a suposição de eventos ainda não observados.
Isso pode ser realizado com a imposição de um modelo de probabilidade (isto é,
uma distribuição teórica) ajustado a série de dados.
Distribuição Normal: A distribuição de probabilidade contínua mais importante e
mais utilizada é a distribuição normal, geralmente citada como curva normal ou
curva de Gauss. Sua importância em análise matemática resulta do fato de que
muitas técnicas estatísticas, como análise de variância, de regressão e alguns
testes de hipótese, assumem e exigem a normalidade dos dados. Além disso, a
ampla aplicação dessa distribuição vem em parte devido ao teorema do limite
central. Este teorema declara que na medida em que o tamanho da amostra
aumenta, a distribuição amostral das médias amostrais tende para uma
distribuição normal. Esta explicação parece um pouco complicada, portanto segue
uma abordagem mais detalhada sobre a mesma.
Teorema do Limite Central: A capacidade de usar amostras para fazer
inferências sobre parâmetros populacionais depende do conhecimento da
distribuição amostral. Para obtermos uma distribuição amostral é necessário
repetir n vezes um experimento e após calcular a média das amostras. Este
procedimento fornece um novo conjunto de dados que é denominado de
distribuição amostral. Na verdade o que o teorema do limite central quer dizer é
que se uma população tem distribuição normal, a distribuição das médias
amostrais extraídas da população também terá distribuição normal, para qualquer
tamanho de amostra. Além disso, mesmo no caso de uma distribuição não-
normal, a distribuição das médias amostrais será aproximadamente normal,
24. INSTITUTO DE EDUCAÇÃO DE BRASÍLIA
Pós-graduação Lato Sensu em Logística Empresarial
Módulo: Estatística e modelos de otimização aplicados à logística
24
desde que a amostra seja grande. Este é um resultado notável, na verdade, pois
nos diz que não é necessário conhecer a distribuição de uma população para
podermos fazer inferência sobre ela a partir de dados amostrais. A única restrição
é que o tamanho da amostra seja grande. Uma regra prática muito usada é que a
amostra deve consistir de 30 ou mais observações. Estes resultados são
conhecidos como o Teorema do Limite Central e representam talvez o conceito
mais importante na inferência estatística.
Em geral, a distribuição amostral das médias amostrais é a distribuição das
médias amostrais quando extraímos repetidas amostras de mesmo tamanho, da
mesma população. Em outras palavras, se extrairmos amostras de mesmo
tamanho da mesma população, calculamos suas médias e construímos um
histograma destas médias, esse histograma tende para a forma de um sino de
uma distribuição normal. Isto é verdade independentemente da forma da
distribuição da população original.
Suponhamos que a variável x represente notas que podem ter, ou não,
distribuição normal, e que a média dos valores x seja µ e o desvio-padrão seja σ.
Suponha que coletemos amostras de tamanho n e calculemos as médias
amostrais. O que sabemos sobre a coleção de todas as médias amostrais que
obtemos repetindo esse experimento? O Teorema do Limite Central nos diz que,
na medida em que o tamanho n da amostra aumenta, a distribuição amostral das
médias amostrais tente para uma distribuição normal com média µ e desvio-
padrão n/σ . A distribuição das médias amostrais tende para uma distribuição
normal no sentido de que, quando n aumenta, a distribuição das médias
amostrais se aproxima de uma distribuição normal. Essa conclusão não é obvia
intuitivamente; foi obtida após extensa pesquisa de análise.
Parâmetros da Distribuição Normal: A distribuição normal é uma distribuição de
dois parâmetros µ (média) e σ (desvio-padrão) . A densidade de probabilidade
desta distribuição tem a seguinte forma:
( )
( )
2
2
2
X
e
2
1
Xf σ
µ−
−
πσ
=
onde µ e σ são a média e o desvio-padrão da população, respectivamente. µ é
estimado por x e σ por s, que são obtidos através das relações:
Uma notação bastante empregada para designar que uma variável tem
distribuição normal com média x e variância s2
(s é a representação de σ e x de
µ de uma amostra) é ( )2
s,XN . Se uma amostra de dados tem realmente
distribuição normal a seguinte relação é válida: A = (K-3) = 0. A curtose da
distribuição normal é igual a 3 e a assimetria é nula.
25. INSTITUTO DE EDUCAÇÃO DE BRASÍLIA
Pós-graduação Lato Sensu em Logística Empresarial
Módulo: Estatística e modelos de otimização aplicados à logística
25
0.000000
0.000100
0.000200
0.000300
0.000400
0.000500
0.000600
0 1000 2000 3000 4000 5000 6000 7000
Densidade Normal da Probabilidade
O histograma de freqüências da distribuição normal tem a forma de sino ou
parecida. Com a média constante e a variância variável, o gráfico da curva normal
assume diferentes formas de sino: de alongada a achatada.
A probabilidade de que X assuma valores menores ou iguais a um dado x quando
X é N(x ,s2) é estimada por:
( )
( )
dXe
2
1
XF
X
2
X
2
2
∫∞−
σ
µ−
−
πσ
=
Mas essa equação não pode ser resolvida analiticamente sem o uso de métodos
de integração aproximada. Por essa razão usa-se a transformação
( )
s
XX
Z
−
=
e
com isso a variável Z tem N(0,1).
A variável Z é chamada variável reduzida e a curva
( ) dZe
2
1
ZF
Z
2
Z2
∫∞−
−
π
=
é a curva normal reduzida.
F(Z) na forma da equação é tabulada e criada as tabelas de probabilidades da
curva normal.
Figura 7 Gráfico da dansidade normal da provabilidade de uma variável aleatória quantitativa
26. INSTITUTO DE EDUCAÇÃO DE BRASÍLIA
Pós-graduação Lato Sensu em Logística Empresarial
Módulo: Estatística e modelos de otimização aplicados à logística
26
Existem outras curvas de distribuição de probabilidade que somente serão citadas
a seguir:
Distribuição beta
Distribuição chi
Distribuição gama
Distribuição uniforme
Distribuição log-normal
Distribuição de Pareto
Distribuição de Weibull