Projeto de Extensão - ENGENHARIA DE SOFTWARE - BACHARELADO.pdf
Análise de regressão em logística empresarial
1. INSTITUTO DE EDUCAÇÃO SUPERIOR DE BRASÍLIA
PROGRAMA DE PÓS-GRADUAÇÃO LATO SENSU EM LOGÍSTICA
EMPRESARIAL
Apostila 03: Análise de Regressão
Disciplina: Estatística e modelos de otimização
aplicados à logística
Prof. Rafael José Rorato
VERSÃO PRELIMINAR - INCOMPLETA
Brasília, abril de 08
2. INSTITUTO DE EDUCAÇÃO DE BRASÍLIA
Pós-graduação Lato Sensu em Logística Empresarial
Módulo: Estatística e modelos de otimização aplicados à logística
2
c2008
INSTITUTO DE EDUCAÇÃO DE BRASÍLIA
Campus Jovanina Rimoli
SGAN Quadra 609 – Módulo D – Avenida L2 Norte
Brasília – DF CEP:70850-090
Este exemplar é de propriedade do Instituto de Educação de Brasília, que poderá incluí-lo em
base de dados, armazenar em computador, microfilmar ou adotar qualquer forma de
arquivamento.
É permitida a menção, reprodução parcial ou integral e a transmissão entre bibliotecas deste
trabalho, sem modificação de seu texto, em qualquer meio que esteja ou venha a ser fixado,
para ensino, comentários e citações, desde que sem finalidade comercial e que seja feita a
referência bibliográfica completa.
Os conceitos expressos neste trabalho são de responsabilidade do autor.
3. INSTITUTO DE EDUCAÇÃO DE BRASÍLIA
Pós-graduação Lato Sensu em Logística Empresarial
Módulo: Estatística e modelos de otimização aplicados à logística
3
ÍNDICE
4. INSTITUTO DE EDUCAÇÃO DE BRASÍLIA
Pós-graduação Lato Sensu em Logística Empresarial
Módulo: Estatística e modelos de otimização aplicados à logística
4
1) Análise de Regressão
Origem histórica: o termo regressão foi introduzido por Francis Galton (1886).
Em um ensaio, Galton verificou que embora houvesse tendência de pais altos
terem filhos altos e de pais baixos terem filhos baixoa a altura média dos filhos de
pais de uma dada altura tendia a se deslocar ou “regredir” até a altura média da
população como um todo. Assim, a altura de filhos de pais muito altos ou baixos
tende a se mover para a altura mpedia da população.
A lei de regressão universal de Galton foi confirmada por Karl Pearson (1903) em
experimentação que envolveu a coleta de mas de mil registros das alturas dos
menbros de famílias. A conclusão obtida por Pearson foi que a altura média dos
filhos de um grupo de pais altos era inferior à altura de seus pais, e que a altura
média dos filhos de um grupo de pais baixos era superior à altura de seus pais.
Inferia-se a conclusão que filhos altos como baixo “regrediam” em direção à altura
média de todos os homens.
Interpretação moderna (definição): A Análise de Regressão ocupa-se do estudo
da dependência de uma variável, a variável dependente, em relação a uma ou
mais variáveis, as variáveis explicativas, com o objetivo de estimar e/ou prever a
média (da população) ou o valor médio da dependente em termos dos valores
conhecidos ou fixos (em amostragem repetida) das explicativas.
Relações estatísticas versus deterministicas: em Análise de Regressão o
objetivo concentra-se no conhecimento da dependência estatística entre as
variáveis investigadas (e não funcional ou determinista), tais como na física
clássica. Nas relações estatísticas focam-se em variáveis aleatórias ou
estocásticas, que têm distribuições de probabilidade.
Regressão versus causação: embora a Análise de Regressão lide com a
dependência de uma variável em relação a outras, ela não implica em causação.
Uma relação estatística, por mais forte e sugestiva que seja, jamais pode
estabelecer uma relação causal: as idéias sobre causação devem vir de fora da
estatística, enfim, de outra teoria.
Regressão versus correlação: intimamente relacionada, porém conceitualmente
diferente da Análise de Regressão, a Análise de Correlação apresenta com o
objetivo em medir a intensidade ou o grau de associação linear entre duas
variáveis. Menciona-se algumas diferenças fundamentais entre regressão e
correlação. Na Análise de Regressão há uma assimetria na forma como as
variáveis dependente e explicativa são tratadas. Supõe-se que a variável
dependente seja estatística, aleatória, com distribuição de probabilidade. E as
variáveis explicativas tenham valores fixados (o valor de Xi é assumido
igualmente para várias amostras de Yi). Na Análise de Correlação tratam-se duas
variáveis simetricamente, sendo que não há distinção entre as variáveis
dependente e explicativas (a correlação entre X e Y é igual a correlação de Y e
X). Também é suposto na Análise de Correlação que tanto as variáveis X e Y são
aleatórias.
5. INSTITUTO DE EDUCAÇÃO DE BRASÍLIA
Pós-graduação Lato Sensu em Logística Empresarial
Módulo: Estatística e modelos de otimização aplicados à logística
5
80 100 120 140 160 180 200 220 240 260
55 65 79 80 102 110 120 135 137 150
60 70 84 93 107 115 136 137 145 152
65 74 90 95 110 120 140 140 155 175
70 80 94 103 116 130 144 152 165 178
75 85 98 108 118 135 145 157 175 180
88 113 125 140 160 189 185
115 162 191
Total 325 462 445 707 678 750 685 1043 966 1211
Renda
Consumo
Y X
80 100 120 140 160 180 200 220 240 260
0.20 0.17 0.20 0.14 0.17 0.17 0.20 0.14 0.17 0.14
0.20 0.17 0.20 0.14 0.17 0.17 0.20 0.14 0.17 0.14
0.20 0.17 0.20 0.14 0.17 0.17 0.20 0.14 0.17 0.14
0.20 0.17 0.20 0.14 0.17 0.17 0.20 0.14 0.17 0.14
0.20 0.17 0.20 0.14 0.17 0.17 0.20 0.14 0.17 0.14
0.17 0.14 0.17 0.17 0.14 0.17 0.14
0.14 0.14 0.14
Média
Condicional Y 65 77 89 101 113 125 137 149 161 173
Consumo
P(Y|Xi) X
Renda
Função de Regressão Populacional: Vamos considerar o exemplo de um bairro
hipotético de Brasília que apresente uma população de 60 famílias (N=60).
Estamos intressados em entender a relação de despesa de consumo familiar
semanal (variável depentende Y) e renda familiar semanal (variável explicativa X).
Segentou-se as famílias em 10 grupos com valores identicos de renda, conforme
mostrado na Tabela 1.
Tabela 1: Tabela de agrupamento de Renda e Consumo de 60 famílias em Brasília
A Tabela 1 corresponde a distribuição condicional de Y, consumo, sobre os
valores de consumo X. Dessa tabela pode-se calcular as probabilidades
condicionais de Y, p(Y|X), isto é, a probabilidade de Y para um dado valor de X.
Assim para o cada valor de consumo X para o perfil de renda Y = 80 existe uma
probabilidade condicional de 1/5. A Tabela 2 representa as probabilidades
condiconais para o exemplo dado.
Tabela 2: Tabela probabilidade condicional da Renda e Consumo
Para cada uma das distribuições de probabilidade condicional Y pode ser
calculado o valor médio, determinado como média condicional ou a expectativa
condicional, conhecido como o valor esperado de Y dado que X assuma o valor
específico de X: E(Y|X = Xi). A última linha da Tabela 2 representa as médias
condicionais de Y.
Uma reta de regressão é ajustada geometricamente por uma reta passando pelas
médias ou expectativas condicionais das variáveis dependentes para os valores
fixados da variável explicativas. Isso pode ser verficado na Figura 1 nos pontos no
círculo vermelho.
6. INSTITUTO DE EDUCAÇÃO DE BRASÍLIA
Pós-graduação Lato Sensu em Logística Empresarial
Módulo: Estatística e modelos de otimização aplicados à logística
6
Figura 1: Reta de regressão linear para as variáveis Renda e Consumo
Neste contexto a Função de Regressão Populacional (FRP) é determinada como
a expecitativa condicional E(Y|Xi), definida como:
)()|( xfXYE i = Equação 1
Sendo,
ii XXYE 21)|( ββ += Equação 2
Os termos β1 e β2 são chamados de coeficientes de regressão. β1 é conhecido
como intercepto e β2 conhecido como coeficiente de inclinação. A Equação 2
como função de regressão linear da população.
A linearidade de uma equação de regressão é atingida quando ocorre a
linearidade das variáveis Xi e pelos parâmetos β1 e β2 .Isto significa que as
variáveis e parâmetros não podem ser elevados a função potência, raiz ou fração
(ex.: ii XXYE 21)|( ββ += , 3
21)|( ii XXYE ββ += )
Perturbação estocástica (ui): também conhecida como termo de erro
estocástico é uma variável aleatória não-observável que consiste no erro entre o
valor assumido por Yi e a estimativa de cada categoria Xi verificado em E(Y|Xi).
Assim temos que a perturbação estocástica, com terminologia conhecida como ui,
7. INSTITUTO DE EDUCAÇÃO DE BRASÍLIA
Pós-graduação Lato Sensu em Logística Empresarial
Módulo: Estatística e modelos de otimização aplicados à logística
7
é um substituto de todas as variáveis omitidas do modelo mas que coletivamente
afetam Y. A não introdução de todas essas variáveis no modelo dá-se por:
Imprecisão da Teoria: a teoria que determina o comportamento de Y em
função de X geralmente é incompleta. (ex.: pode-se concluir que a renda
semanal X influencie o consumo Y, mas podemos ignorar ou não estarmos
seguros sobre outras variáveis que afetam Y.
Indisponibilidade de Dados: mesmo se soubermos quais são algumas
variáveis das variáveis excluidas ou não consideradas, e admitirmos uma
regressão múltipla em vez de uma regressão simples, podemos não
termos informações quantitativas suficientes sobre os Xs que afetam o Y.
Variáveis Essenciais versus Variáveis Periféricas: É possível que a
influência conjunta de variáveis periféricas seja tão pequena que por
questão prática e de custos não vale a pena introduzi-las no modelo. (ex.:
para o exemplo de Renda e Consumo, talvez itens como, número de
crianças na família, gênero, religião, grau de escolaridade, endereço de
residência, etc sejam aderentes ou não ao modelo preditivo).
Casualidade Intrínseca no Comportamento Humano: mesmo que se
consiga introduzir no modelo todas as variáveis relevantes, há uma certa
natureza aleatória intrínseca em cada Y que não podemos explicar. As
perturbações us podem muito bem refletir a aleatroriedade intrínseca.
Variáveis proxy fracas: a perturbação u pode representar erros de medida
entre as variáveis Y e X (não ocorrer relação entre elas), o que implica em
estimativas imprecisas dos coeficientes de regressão β.
Princípio da Parcimônia: deseja-se que o modelo seja o mais simples
possível. Assim, como o termo u pode-se mensurar a não necessidade de
introduzir mais variáveis Xs ao modelo.
Forma Funcional Errada: a relação entre :Y e X não se comporta com uma
função linear e sim por alguma outra função matemática.
Função de Regressão: Dizemos então, que as equações de Função de
Regressão Populacional e Amostral são escritas com as seguintes equações:
FRP: iii uXY ++= 21 ββ Equação 3
FRA: iii uXY ˆˆˆ
21 ++= ββ Equação 4
A geometria e componentes de uma Função de Regressão Linear simples
configura-se conforme a Figura 2 apresentada a seguir:
8. INSTITUTO DE EDUCAÇÃO DE BRASÍLIA
Pós-graduação Lato Sensu em Logística Empresarial
Módulo: Estatística e modelos de otimização aplicados à logística
8
( )( )
( ) ∑
∑
∑
∑ =
−
−−
= 222
ˆ
i
ii
i
ii
x
yx
XX
YYXX
β
XY 21
ˆˆ ββ −=
Figura 2: Geometria e componentes de uma reta de regressão linear
Método dos Mínimos Quadrados: é o método utilizado para calcular a equação
de Regressão Linear, tendo como objetivo minimizar a perturbação estocástica
através do critério:
∑∑ −= 22
)ˆmin()ˆmin( iii YYu Equação 5
Os coeficientes de regressão β1 e β2, para uma equação de regressão linear, são
estimados através das seguintes equações:
Equação 6
Equação 7
A Figura 3 ilustra os erros minimizados ui para cada estimativa da variável y em
relação a variável x.
9. INSTITUTO DE EDUCAÇÃO DE BRASÍLIA
Pós-graduação Lato Sensu em Logística Empresarial
Módulo: Estatística e modelos de otimização aplicados à logística
9
∑
= 2
2
2 )ˆvar(
ix
σ
β
2
2
2
1)ˆvar( σβ
∑
∑=
i
i
xn
X
Figura 3: Mínimos Quadrados Ordinários – estimativas de ui
Precisão e ajuste do modelo: para verificar o quão bom ou ruim encontra-se o
modelo estimado são realizados testes para verificar a precisão da estimativa dos
coeficientes de regressão β1 e β2 e o “nível” de ajuste da reta de regressão.
Para mensurar a precisão dos coeficientes de regressão β1 e β2 temos:
Variância:
Equação 8
Equação 9
Erro-padrão: desvio-padrão da distribuição da amostragem do estimador, e a
distribuição da amostragem de um estimador é simplesmente a disbribuição da
probabilidade ou freqüência do estimador. Isto é, a distribuição do conjunto de
valores do estimador obtida de todas as possíveis amostras de mesmo tamanho
de uma dada população. As distribuições da amostragem são usadas para fazer
inferências sobre os valores dos parâmetros da população, com base nos valores
dos estimadores calculados a partir de uma ou mais amostras.
10. INSTITUTO DE EDUCAÇÃO DE BRASÍLIA
Pós-graduação Lato Sensu em Logística Empresarial
Módulo: Estatística e modelos de otimização aplicados à logística
10
∑
=
22 )ˆ(
ix
ep
σ
β
σβ
∑
∑= 2
2
1)ˆ(
i
i
xn
X
ep
Equação 10
Equação 11
Teste F
Qui-quadrado