SlideShare uma empresa Scribd logo
1 de 31
Baixar para ler offline
Universidade Presbiteriana Mackenzie - II Jornada de Iniciação Científica
1
ESTUDO E APLICAÇÕES DA TÉCNICA BOOTSTRAP
Ana Lucia Tucci Rizzo (analurizzo@uol.com.br), Raquel Cymrot
Orientadora: Raquel Cymrot (raquelc@mackenzie.com.br)
Resumo
A técnica de reamostragem Bootstrap é muito útil por não necessitar de muitas
suposições para estimação de parâmetros das distribuições de interesse. Este
artigo apresenta os diferentes métodos de cálculo de intervalos de confiança
utilizando a técnica de reamostragem Bootstrap na forma paramétrica e não
paramétrica. Tais métodos são o Intervalo de Confiança Bootstrap Percentil, o
Intervalo de Confiança Bootstrap Percentil das Diferenças, o Intervalo de
Confiança Bootstrap t, o Intervalo de Confiança Percentil Corrigido em Relação ao
Viés (BCPB) e o Intervalo de Confiança de Correção de Vício Acelerado (BCa) ,
além da técnica de Bootstrap para a regressão e realização de testes de
hipóteses utilizando intervalos de confiança Bootstrap. Foram apresentadas as
situações onde cada método de obtenção dos intervalos de confiança Bootstrap é
mais adequado, dependendo do tipo de distribuição, vício e assimetria da
estatística do parâmetro estudado. Para aplicação destas técnicas foram
realizados seis estudos de caso que possibilitaram a aplicação dos métodos de
estimação Bootstrap mais recomendados na estimação dos parâmetros média,
variância, proporção e desvio padrão de processos. Estes casos incluíram
distribuições simétricas e assimétricas. Quando a distribuição de probabilidades
da estatística do parâmetro a ser estimado era conhecida foi também calculado o
intervalo de confiança baseado na distribuição de probabilidades do estimador.
Palavras chave: Reamostragem ; Método Bootstrap; Intervalo de confiança
Abstract
The Bootstrap resampling technique is very useful because it does not need many
assumptions to estimate parameters of the distributions of interest. This article
presents the different methods to calculate confidence intervals by using Bootstrap
Universidade Presbiteriana Mackenzie - II Jornada de Iniciação Científica
2
resampling technique in parametric and nonparametric form. Such methods are
the Percentile Bootstrap Confidence Interval, the Differences Percentile Bootstrap
Confidence Interval, the Bootstrap t Confidence Interval, the Biased-Corrected
Percentile Bootstrap Confidence Interval (BCPB) and the Biased-Corrected
Accelerated Confidence Interval (BCa), besides Bootstrap technique for
regression and hypothesis tests accomplishment by using Bootstrap confidence
intervals. Situations were presented wherein each method used to obtain the
Bootstrap confidence intervals is more proper, depending on the kind of
distribution, bias and skewness of the studied parameter. Aiming at applying these
techniques, six studies of case were carried out, enabling the application of the
most recommended Bootstrap estimation methods to estimate the parameter
mean, variance, proportion and standard deviation of processes. These cases
included symmetrical and skewed distributions. When the distribution of
probabilities of the parameter to be estimated was known, the confidence interval
based on the probability distribution of the estimator was also computed.
Key terms: Resampling, Bootstrap technique, Confidence Interval
Universidade Presbiteriana Mackenzie - II Jornada de Iniciação Científica
3
INTRODUÇÃO
A utilização de técnicas estatísticas no mundo dos negócios vem
crescendo cada vez mais, devido principalmente a sua utilidade na comparação
de serviços, verificação de qualidade, análise para desenvolvimento de produtos e
outros. A técnica de Bootstrap é uma das possíveis técnicas de reamoostragem a
serem utilizadas.
A reamostragem consiste em sortear com reposição dados pertencentes a
uma amostra retirada anteriormente, de modo a formar uma nova amostra.
Técnicas de reamostragem são úteis em especial quando o cálculo de
estimadores por métodos analíticos for complicado. Reamostrar permite
diferentes alternativas para se encontrar desvios padrões e intervalos de
confiança através da análise de um conjunto de dados.
Existem diversas técnicas de reamostragem que visam estimar parâmetros
de uma distribuição de interesse. Uma vantagem em utilizar a técnica de
reamostragem Bootstrap é a generalidade com que pode ser aplicada, pois requer
que menos suposições sejam feitas. Outras vantagens são que geralmente
fornece respostas mais precisas, além de favorecer o entendimento.
Muitas vezes a distribuição de probabilidade da estatística de interesse é
desconhecida. Nesse caso o Bootstrap é muito útil, pois é uma técnica que não
exige diferentes fórmulas para cada problema e pode ser utilizada em casos
gerais, não dependendo da distribuição original da estatística do parâmetro
estudado.
Segundo Davison e Hinkley (1997), repetir um procedimento de análise
original com muitas réplicas de dados pode ser denominado método intensivo
computadorizado. Para realizar uma estimação através da utilização de Bootstrap
é necessária a realização de um número muito grande de reamostragens e o
cálculo de diversas estatísticas para cada uma destas reamostragens. Isto exige o
auxílio de programas computacionais para realizar as reamostras e os cálculos de
forma mais rápida e eficaz.
Universidade Presbiteriana Mackenzie - II Jornada de Iniciação Científica
4
Esse é um dos motivos pelo qual essa técnica vem se desenvolvendo mais
nos últimos tempos, pois com o avanço tecnológico os softwares estão ficando
mais práticos, rápidos e acessíveis.
A utilização da técnica de Bootstrap não implica que as outras devam ser
ignoradas, podendo ser usada como um complemento na argumentação das
conclusões obtidas.
Devido a sua generalidade, a técnica Bootstrap se encaixa na solução de
problemas complexos. Através do uso da técnica de Bootstrap os parâmetros
como a média, a variância, a proporção e até mesmo parâmetros menos
utilizados como o máximo, mínimo, etc. de uma população podem ser estimados
pontualmente e por intervalo.
A reamostragem baseada nos dados da amostra mestre é utilizada pela
técnica de Bootstrap denominada não paramétrica uma vez que a distribuição de
probabilidades da estatística do parâmetro a ser estimado é desconhecida.
Através desta técnica é possível obter a distribuição amostral de um parâmetro a
partir da amostra original.
A forma não paramétrica é a mais utilizada. Entretanto, quando a
distribuição de probabilidades das estimativas dos parâmetros de interesse da
população da qual a amostra mestre foi extraída for conhecida, outra forma de
Bootstrap pode ser aplicada. Esta forma denominada paramétrica consiste em
gerar reamostras baseadas na distribuição de probabilidades conhecida utilizando
como parâmetros desta distribuição a estimativa dos mesmos obtida através da
amostra mestre. Neste caso o interesse será estimar o vício das estimativas dos
parâmetros e assim efetuar as correções necessárias (NAVIDI, 2006).
Outra utilidade relatada por Hall (1988) é que, ao se comparar o intervalo
de confiança obtido através da utilização da técnica Bootstrap com o intervalo de
confiança baseado na distribuição de probabilidades conhecida do estimador, se
este último tiver sido calculado usando suposições inadequadas, a diferença entre
estes dois resultados será gritante, chamando assim atenção em relação ao erro
cometido.
Universidade Presbiteriana Mackenzie - II Jornada de Iniciação Científica
5
Neste artigo serão apresentadas as diversas técnicas de Bootstrap para
estimação. Seis estudos de caso também serão realizados.
BOOTSTRAP
Para realizar o teste utilizando a técnica Bootstrap é preciso colher uma
amostra de tamanho n que será denominada amostra mestre. Essa amostra deve
ser coletada de maneira planejada, uma vez que se essa amostra for mal tirada e
não representar bem a população, a técnica de Bootstrap não levará à resultados
confiáveis.
Hesterberg et al. (2003) afirmam que a amostra mestre representa a
população da qual foi retirada. As reamostras desta amostra mestre representam
o que se deve obter quando são retiradas muitas amostras da população original.
A distribuição Bootstrap da estatística, baseada em muitas reamostras,
representa uma distribuição amostral desta estatística. Esta característica faz com
que uma das utilidades da técnica Bootstrap seja checar a normalidade da
distribuição original da estatística em foco.
Para que a aplicação da técnica resulte em valores confiáveis devem ser
feitas, a partir da amostra mestre, centenas ou até milhares de reamostras do
mesmo tamanho n. A maioria dos autores recomenda a utilização de 1000
reamostras. Segundo Montgomery (2001) o número de reamostragens pode ser
estipulado verificando a variação do desvio padrão para a estimativa do
parâmetro em questão calculado para as reamostras à medida que estas são
realizadas. No momento em que esse valor se estabilizar o tamanho da reamostra
Bootstrap estará adequado.
É importante que a reamostragem seja realizada com reposição sempre
selecionando os valores de forma aleatória. Para a geração destas reamostras as
técnicas computacionais são de grande utilidade, pois sem estas, o tempo para
que fossem feitas todas as reamostras desejadas de forma manual seria
excessivamente grande.
Universidade Presbiteriana Mackenzie - II Jornada de Iniciação Científica
6
Uma vez geradas as reamostras, deve-se calcular para cada uma delas a
estatística solicitada no problema. Essa técnica não altera nenhum valor da
amostra mestre, ela apenas trabalha na análise da combinação dos valores
iniciais com a finalidade de se obter as conclusões desejadas.
A variabilidade presente no Bootstrap é dada pela escolha da amostra
mestre e pelas reamostras, sendo a variabilidade devido à escolha da amostra
mestre a mais significativa.
O desvio padrão da distribuição Bootstrap para a média (também chamado
de erro padrão) é uma medida de variabilidade e é calculado da seguinte forma:
∑ ∑ 





−
−
=
2
** ˆ1ˆ
1
1
iibootstrap
BB
SE θθ (1)
com
*ˆ
iθ igual ao valor da estatística para cada reamostra e B igual ao
número de reamostragens realizadas. O asterisco é usado para diferenciar a
estatística das reamostras da estatística da amostra original, a qual é
representada por θˆ . Algumas literaturas utilizam no primeiro valor do
denominador, apenas B ao invés de (B – 1), pois como o número de
reamostragens é um valor muito alto, essa alteração acaba ficando praticamente
insignificante.
A distribuição Bootstrap geralmente tem aproximadamente a mesma forma
e amplitude que a distribuição amostral da estatística, porém está centrada na
estatística dos dados originais (amostra mestre), enquanto a distribuição amostral
está centrada no parâmetro da população.
Segundo Montgomery e Runger (2003), uma estatística utilizada para
estimar um parâmetro é viciada quando a distribuição amostral não estiver
centrada no verdadeiro valor do parâmetro. A técnica Boostrap nos permite
verificar o vício olhando se a distribuição Bootstrap da estatística está centrada na
estatística da amostra mestre.
O estimador do vício da distribuição Bootstrap é:
θθ ˆˆ
*
−=bootstrapvício (2)
Universidade Presbiteriana Mackenzie - II Jornada de Iniciação Científica
7
Segundo González Manteiga, Prada Sánchez e Romo Urroz (1994) uma
das aplicações da metodologia Bootstrap é obter intervalos de confiança
confiáveis. Há diversas técnicas distintas para o cálculo de intervalos de confiança
Bootstrap. Entre as diferentes maneiras de calcular o Intervalo de Confiança pelo
método Bootstrap destacam-se o método Bootstrap t, o método Percentil, que
pode ser obtido de duas formas diferentes, o Método do Percentil Corrigido em
Relação ao Viés, Biased-Corrected Percentile Bootstrap (BCPB) e o Método de
Correção de Vício Acelerado, Biased-Corrected Accelerated (BCa). Estas técnicas
serão apresentadas a seguir:
a) O Intervalo de Confiança Bootstrap t
Calcula-se o intervalo de confiança Bootstrap t para uma determinada
estatística da seguinte maneira:
[ ]bootstraptbootstrap SEtaestatísticIC ×±=
(3)
, sendo n o tamanho da amostra mestre, t encontrado utilizando-se (n-1)
graus de liberdade, e bootstrapSE , o desvio padrão bootstrap, calculado utilizando a
Equação (1) para a estatística em estudo.
A flexibilidade e quase automaticidade do cálculo de intervalo de confiança
por esse método é muito boa, porém existe um problema que pode afetar sua
eficácia. O intervalo de confiança Bootstrap t realmente só funciona bem quando
sabemos que a distribuição da estatística na distribuição Bootstrap é
aproximadamente normal e a estatística é pouco viciada. Respeitadas estas
condições o intervalo de confiança Bootstrap t pode ser calculado na estimação
de diversos parâmetros além da média populacional, como por exemplo, a
proporção e o coeficiente de correlação.
b) O Intervalo de Confiança Bootstrap Percentil
O intervalo de confiança percentil pode ser calculado de duas maneiras:
Universidade Presbiteriana Mackenzie - II Jornada de Iniciação Científica
8
Segundo Efron (1986), para uma confiança (1 – α)100%, a primeira forma é
encontrar o percentil (1 – α/2)100% e o percentil (α/2)100% da média das
reamostras da estatística do parâmetro que se deseja estimar.
A segunda maneira de se obter o intervalo de confiança percentil utilizando
a técnica em estudo é através dos percentis das diferenças dos valores das
estatísticas das reamostras em relação ao valor médio desta mesma estatística
nas reamostras (MONTGOMERY e RUNGER, 2003).
Para estimar um intervalo de confiança para uma estimativa θˆ, calcula-se o
valor destas estatísticas para cada uma das “i” reamostras Bootstrap (
*ˆ
iθ ) e a
média dessas estimativas
*
ˆθ . Encontra-se então, para cada reamostra “i”, a
diferença entre esses valores, isto é:
*
* ˆˆ θθ −= idiferença (4)
Para uma confiança de 95%, encontram-se os percentils 97,5% e 2,5%
destas diferenças e calcula-se o intervalo de confiança Bootstrap Percentil da
seguinte forma:
[ ]diferençasPdiferençasPIC percentilbootstrap %5,2%5,97
ˆ;ˆ −−= θθ
(5)
Para verificar se o intervalo de confiança t calculado é confiável podemos
compará-lo com o intervalo de confiança percentil. Se o vício for pequeno e a
distribuição Bootstrap for aproximadamente normal, os dois intervalos irão
apresentar valores muito próximos. Segundo Hesterberg et al. (2003), caso os
intervalos de confiança Bootstrap calculados pela t e pelo percentil não tiverem
valores próximos nenhum destes métodos deve ser utilizado. Entretanto Efron
(1986) afirma que se a distribuição Bootstrap não for aproximadamente normal,
mas existir uma transformação monotônica possível que a torne normal, pode-se
calcular o intervalo de confiança Bootstrap Percentil para os dados transformados
e posteriormente desfazer a transformação para os limites do intervalo
encontrado. Isto é possível uma vez que a transformação utilizada foi uma
transformação monotônica, portanto o intervalo de confiança Bootstrap pelo
Universidade Presbiteriana Mackenzie - II Jornada de Iniciação Científica
9
método Percentil assim calculado coincidirá com o intervalo de confiança
Bootstrap pelo método Percentil para os dados não transformados.
Se o vício e a assimetria estão presentes de forma muito forte é
mais recomendável que se utilize métodos de Bootstrap de correção como o
Método BCPB e o método BCa.
c) O Intervalo de Confiança Bootstrap BCPB
No cálculo do intervalo de confiança BCPB os extremos do intervalo são os
percentis da distribuição Bootstrap ajustados para corrigir o vício e assimetria
desta distribuição.
Por exemplo, para encontrar um intervalo de confiança BCPB com 95% de
confiança, é preciso ajustar os percentis que para um cálculo de intervalo de
confiança Percentil tradicional seriam 2,5% e 97,5% para outros valores, a fim de
corrigir o vício e assimetria. Se a estatística for viciada para cima o BCPB move
os extremos para a esquerda e se a estatística for viciada para baixo o BCPB
move os extremos para a direita.
Para realizar o cálculo do intervalo de confiança BCPB deve-se
primeiramente ordenar as B estimativas *ˆ
iθ em forma crescente e calcular a
probabilidade denominada p0 de uma estimativa ser inferior à estimativa da
amostra mestre (θˆ). Esse passo pode ser representado da seguinte forma:
[ ]θθ ˆˆ*
0 ≤= iPp (6)
A partir do valor encontrado p0 é obtido o parâmetro correção do vício z0
que representa a inversa da normal no ponto p0.
( )0
1
0 pz −
Φ=
(7)
O próximo passo é selecionar um nível (1– α)100% de confiança para a
estimativa do parâmetro e determinar 2
αz
. É então possível obter os percentis PI e
PS:
Universidade Presbiteriana Mackenzie - II Jornada de Iniciação Científica
10








−Φ=
2
02 αzzPI
(8)








+Φ=
2
02 αzzPS
(9)
O Intervalo de Confiança BCPB é calculado da seguinte maneira:
[ ])ˆ(;)ˆ(
**
iPiPBCPB SI
PPIC θθ= (10)
d) O Intervalo de Confiança Bootstrap BCa
O método de Correção de Vício Acelerado permite encontrar o intervalo de
confiança quando assimetria estiver presente de maneira muito forte. Esse
método não difere muito do BCPB sendo esta diferença o fato de o BCa possuir
uma constante de aceleração “a” que ajusta o intervalo de confiança em relação à
assimetria. Segundo Efron (1986) nesta situação este método é mais indicado
que o método BCPB.
O intervalo de Confiança BCa é obtido realizando os mesmo passos do
cálculo do intervalo de confiança BCPB com os limites PI e PS , porém utilizando
um ajuste por meio da constante de aceleração “a”. A obtenção da constante “a”
envolve cálculos não triviais, o que leva o Intervalo de Confiança BCa ser mais
utilizado quando há algum software estatístico disponível. O programa S-PLUS é
citado em vários artigos como, por exemplo, em Pereira et al. (2000). É possível
encontrar também alguns programas livres que calculam esta constante.
O cálculo do intervalo de confiança BCa é feito através da mesma Equação
(10), porém com PI e PS respectivamente iguais a:






















+−








+
−Φ=
2
0
2
0
0
1 α
α
zza
zz
zPI
(11)
Universidade Presbiteriana Mackenzie - II Jornada de Iniciação Científica
11






















+−








+
+Φ=
2
0
2
0
0
1 α
α
zza
zz
zPI
(12)
De acordo com Andrews e Buchinsky (2002) é possível determinar a
constante “a” de maneira mais simples quando as variáveis aleatórias observadas
na amostra mestre forem independentes e identicamente distribuídas. Neste caso:
( ) ( )( )
( ) ( )( )( )2
3
1
2
.
1
3
.
ˆˆ6
ˆˆ
∑
∑
=
=
−
−
=
n
i i
n
i i
a
θθ
θθ
(13)
, com ( )iθˆ representando o valor das estimativas do parâmetro estudado
para cada amostra “i” que consiste na amostra mestre sem a observação “i” da
mesma, com 1 ≤ i ≤ n e ( ).
ˆθ o valor da média das estimativas ( )iθˆ .
e) A técnica Bootstrap na Regressão
Existem dois procedimentos para se estimar os coeficientes do modelo de
regressão utilizando a técnica de Bootstrap: o método Bootstrap dos Resíduos e o
método Bootstrap dos Casos ou Pares (MONTGOMERY, 2001).
O procedimento de Bootstrap paramétrico denominado Bootstrap dos
Resíduos consiste em estimar os coeficientes de regressão para os dados
originais e assim gerar os respectivos resíduos para as n observações realizadas.
Estes resíduos formarão a amostra mestre. Deve-se então gerar as reamostras a
partir destes resíduos. O valor do vetor resposta para uma reamostragem (y*)
será obtido somando-se o vetor de resíduos desta reamostra ao vetor resposta
estimado nos dados originais ( yˆ ). Para cada reamostra são então calculadas as
estimativas dos coeficientes de regressão. As médias das estimativas dos
coeficientes de regressão para as reamostras serão as estimativas Bootstrap
pontuais dos mesmos. Intervalos de confiança para os coeficientes da regressão
podem ser obtidos pelo método percentil. A coincidência dos intervalos
Universidade Presbiteriana Mackenzie - II Jornada de Iniciação Científica
12
tradicionais e Bootstrap confirmará as suposições feitas para a realização da
análise de regressão.
O procedimento de Bootstrap não paramétrico denominado Bootstrap dos
Casos ou Pares deve ser usado quando existe uma transformação nos dados
originais de modo que para estes dados transformados possa ser realizada uma
regressão linear. Neste caso as estimativas dos erros padrão dos coeficientes
serão aproximadas e estas aproximações serão válidas apenas para grandes
amostras. O método Bootstrap fornecerá uma estimativa dos intervalos de
confiança para os coeficientes da regressão e será útil para checar a validade da
aplicação assintótica para os resultados obtidos.
Na forma Bootstrap dos Casos ou Pares os próprios dados originais devem
compor a amostra mestre. Estes dados originais (que são vetores) devem ser
reamostrados. Para cada reamostra são estimados os coeficientes da regressão
linear para os dados da reamostra transformados. Intervalos de confiança para os
coeficientes da regressão podem ser obtidos pelo método percentil.
f) Teste de Hipótese com Intervalos de Confiança Bootstrap
Dado um intervalo de confiança calculado por qualquer método
Bootstrap com 100(1–α )%, deve-se rejeitar com 100α % as hipóteses nulas de
que o parâmetro estimado seja igual a qualquer valor fora desse intervalo e deve-
se aceitar com 100α % as hipótese nulas de que este mesmo parâmetro seja
igual a qualquer valor dentro do intervalo de confiança Bootstrap (NAVIDI, 2006)
g) Outras considerações sobre os estimadores Bootstrap
O Bootstrap é muito genérico e, devido a esta generalidade, há mais de um
método Bootstrap como solução para um determinado problema.
Na maioria das publicações não técnicas em estatística, a forma de cálculo
dos intervalos de confiança Bootstrap não costuma ser apresentada. Segundo
Universidade Presbiteriana Mackenzie - II Jornada de Iniciação Científica
13
enquête realizada por Hall (1988), o método Percentil é utilizado em mais da
metade destas publicações.
A maioria dos procedimentos de intervalo de confiança se torna mais
precisa quando o tamanho da amostra aumenta. Hesterberg et al. (2003) afirma
que um problema que existe nos intervalos de confiança Bootstrap t e Percentil é
que esta melhora ocorre de forma mais lenta necessitando de um grande
aumento no tamanho da amostra para refletir uma melhora na precisão (na base
de 10 para 1).
METODOLOGIA
Alguns estudos de caso foram realizados para colocar em prática à técnica
de reamostragem Bootstrap. Para cada estudo foi coletada uma amostra mestre
diferente, seguindo as técnicas de amostragem apropriadas.
Foram realizadas 1000 reamostras e calculados os intervalos de confiança
Bootstrap segundo as diversas formas convenientes para cada situação. Quando
existia uma fórmula de cálculo do intervalo de confiança para a estimativa do
parâmetro baseada na sua distribuição de probabilidades (denominado neste
trabalho intervalo de confiança padrão), este foi calculado. Os resultados foram
então comparados.
Para o cálculo dos diversos intervalos de confiança foi utilizada uma
confiança de 95%. Apenas no estudo de caso envolvendo o desvio padrão de um
controle estatístico de processos a confiança utilizada para os cálculos foi de
99,73%, de acordo com as cartas de controle de Shewhart.
Para a realização das reamostras e análises foi utilizado o programa
MINITAB.
Universidade Presbiteriana Mackenzie - II Jornada de Iniciação Científica
14
Estudo de caso 1 - Número de alunos reunidos diariamente em determinado
local durante um intervalo de tempo estabelecido
Neste caso foi analisada a quantidade de alunos reunidos durante 25 dias
no corredor do 2º andar do prédio da Escola de Engenharia da Universidade
Presbiteriana Mackenzie em algum horário pertencente ao intervalo das 16:30 h
às 16:40 h.
O número de alunos foi observado diariamente em um horário sorteado
aleatoriamente dentro do intervalo estipulado.
A partir desta amostra de tamanho 25, foram realizadas mil reamostragens.
Através da ferramenta Bootstrap foi estimado o número médio de alunos
presentes naquele determinado local do corredor no horário entre 16:30 h e 16:40
h.
Estudo de caso 2 - Transporte utilizado pelos alunos no seu deslocamento
diário para a Universidade
Foi realizada, no segundo semestre de 2005, uma pesquisa para se
estimar a probabilidade de um aluno do curso Engenharia de Produção da Escola
de Engenharia da Universidade Presbiteriana Mackenzie utilizar transporte
público no seu deslocamento de ida e/ou volta para a universidade.
Foi realizada uma amostragem por conglomerado no qual foi sorteado o
sexto semestre. Foi perguntado para seus 33 alunos matriculados se eles
utilizavam, na maior parte dos dias, transporte público como meio de locomoção
para a universidade. Quando a resposta foi positiva a variável foi codificada como
1 e quando negativa a variável foi codificada como 0. Foi então calculada a
probabilidade p de o aluno utilizar transporte público.
Os 33 dados coletados formaram a amostra mestre. Com base nesta
amostra, foram realizadas 1000 reamostras de mesmo tamanho e aplicada à
técnica Bootstrap a fim de calcular os intervalos de confiança Bootstrap para a
proporção de respostas afirmativas. Estes resultados foram comparados com o
Universidade Presbiteriana Mackenzie - II Jornada de Iniciação Científica
15
intervalo de confiança padrão. Foi também calculado o intervalo de confiança
Bootstrap para a variância desta proporção.
Estudo de Caso 3 - Medição de parafusos
Foi selecionada uma amostra casual simples de cinqüenta parafusos
pertencentes a uma caixa fechada contendo 200 parafusos de um mesmo lote.
Foi realizada a medição destes cinqüenta parafusos no laboratório de física da
Universidade Presbiteriana Mackenzie utilizando como dispositivo de medição
dimensional um paquímetro digital ajustado em milímetros, devidamente
calibrado.
Para realizar a amostragem os 200 parafusos pertencentes a uma caixa
foram numerados. Destes, foram sorteados cinqüenta parafusos para compor a
amostra mestre. A caixa de parafusos representa a população de onde foi retirada
a amostra mestre.
A partir desta amostra de cinqüenta comprimentos de parafusos, foram
geradas mil reamostras de mesmo tamanho.
Estudo de caso 4 - Tempo de espera na fila do Benjamim Abrahão
Neste caso o objetivo era analisar o tempo de espera desde o momento em
que um indivíduo entra na fila da Padaria Benjamim Abrahão situada na praça de
alimentação da Universidade Presbiteriana Mackenzie até o momento em que
este mesmo indivíduo recebe seu pedido. Os dados foram coletados entre os
horários de 19:30 h e 20:20 h de um dia letivo.
A coleta dos dados foi feita de forma sistemática, observando-se o intervalo
de tempo de espera e atendimento da primeira pessoa de cada três que entravam
na fila. O objetivo desse estudo de caso foi obter um intervalo de confiança para
média do tempo total de espera e atendimento ao cliente utilizando a técnica de
Bootstrap.
Universidade Presbiteriana Mackenzie - II Jornada de Iniciação Científica
16
Utilizou-se para medição relógios digitais ajustados no mesmo horário e
duas pessoas, uma situada na entrada da fila e a outra na saída. A pessoa da
entrada distribuía a ficha com o horário em que o indivíduo participante da
pesquisa entrava na fila e a pessoa da saída recolhia a ficha e anotava o horário
de saída.
Foi coletada uma amostra mestre de tamanho 60. A partir desses dados,
foram realizadas 1000 reamostras.
Estudo de caso 5 – Tempo de processamento de um digestor de vísceras de
aves
Segundo Ferroli et al. (2002) as fábricas de farinhas e óleos de
subprodutos de origem animal estão em processo de evolução e mudanças. Para
que estas consigam acompanhar as constantes modificações que ocorrem no
mercado, uma de suas principais preocupações é reduzir a emissão de poluentes
ao meio ambiente.
O digestor é a principal máquina em uma graxaria e está envolvido
diretamente no aproveitamento de resíduos de indústrias de transformação de
produtos animais.
Foi analisado o funcionamento de um digestor existente em uma fábrica
onde funcionam seis digestores de vísceras de aves. Os dados para este caso
foram retirados do artigo “Fábrica de subprodutos de origem animal: a importância
do balanceamento das cargas dos digestores de vísceras” de Ferroli et al. (2002).
A variável medida foi o tempo de processamento de um digestor de
vísceras de aves. Para cada um dos 43 conjuntos de valores medidos contendo 6
observações cada, foi calculada a amplitude R. Essas 43 amplitudes
representaram amostra mestre e a partir destas foram geradas 1000 reamostras.
Neste caso a estatística será a estimativa do desvio padrão do processo igual a
2d
R
onde d2 é um valor tabelado.
Universidade Presbiteriana Mackenzie - II Jornada de Iniciação Científica
17
Este caso é um exemplo de aplicação da técnica de Bootstrap na área de
Engenharia de Produção.
Estudo de caso 6 - Verificação da adesão dos alunos a um programa de uso
racional de água
Considerando que a água potável é um recurso raro no planeta, sua
economia torna-se absolutamente necessária.
A Universidade Presbiteriana Mackenzie, consciente deste problema, vem,
desde 2002, implantando um programa de Uso Racional de Água dentro do
Campus Itambé. (CYMROT et al.)
Várias medidas foram tomadas desde então, dentre elas, destacam-se as
seguintes medidas:
• Foram registrados, em todos os prédios, todos os pontos de água, como
torneiras, bacias, mictórios, chuveiros, etc.
• A partir de 2002, foram trocadas torneiras de lavatório por modelos mais
econômicos, com fechamento automático de água. Em 2004, cerca de 60% das
torneiras já haviam sido trocadas. Segundo a SABESP (Companhia de
Saneamento Básico do Estado de São Paulo), esta tal medida resulta em uma
economia de consumo em torno de 20%.
• No começo de 2003, foi oferecido um curso na SABESP de “caça
vazamentos” a todos os funcionários da manutenção, inclusive encarregados.
Este curso propiciou a localização de inúmeros vazamentos, sendo então
trocadas às tubulações necessárias. Estas mudanças acabaram provocando
algumas modificações nas configurações da rede hidráulica do Campus Itambé.
• Foram colocados adesivos para conscientização da necessidade de se
economizar água através do uso adequado de torneiras e bacias na maioria dos
sanitários existentes no Campus Itambé.
Universidade Presbiteriana Mackenzie - II Jornada de Iniciação Científica
18
Este estudo foi realizado com o objetivo de verificar a adesão dos alunos
do curso de Engenharia de Produção da Universidade Presbiteriana Mackenzie
em relação ao programa.
Foi realizada uma amostragem casual simples e coletados os dados
relativos aos cinqüenta alunos sorteados.
Três perguntas foram feitas a estes alunos, a saber:
- O aluno tinha notado os adesivos com avisos alertando quanto à necessidade
do uso racional de água?
- O aluno tinha reparado na alteração dos dispositivos de funcionamento das
torneiras de modo que estas permanecessem abertas somente o tempo
necessário?
- O aluno colabora com a campanha procurando economizar a água quando de
sua utilização dentro do Campus Itambé da Universidade Presbiteriana
Mackenzie?
Para cada variável estudada foram realizadas 1000 reamostras a partir das
respostas obtidas.
RESULTADOS E DISCUSSÃO
Estudo de caso 1: Número de alunos reunidos diariamente em
determinado local durante um intervalo de tempo estabelecido
Ao realizar a análise descritiva para a amostra mestre, verificou-se a
existência de alguns possíveis outliers que foram mantidos na amostra. O
histograma e o gráfico de probabilidade normal utilizando o método de Anderson
Darling para os dados da amostra mestre apresentados nos Gráficos 1 e 2
confirmam a aderência à distribuição Normal (p = 0,362).
Universidade Presbiteriana Mackenzie - II Jornada de Iniciação Científica
19
GRÁFICO 1 - Histograma da amostra mestre GRÁFICO 2 - Gráfico de probabilidade normal
para a amostra mestre
A Tabela 1 apresenta a amostra mestre, algumas reamostras, a média e a
variância para a amostra mestre e para as reamostras. Cada reamostra foi gerada
atribuindo probabilidade igual a 1/25 para cada observação da amostra mestre e
realizando a amostragem com reposição.
TABELA 1 - Amostra mestre, reamostras, média e variância para a amostra mestre e reamostras.
Pode-se afirmar que a média da população tem distribuição Normal.
Realizadas as 1000 reamostragens com reposição, plotado o histograma (Gráfico
3) e realizado o teste de aderência de Anderson Darling (p = 0,082) para as
C1
Percent
282624222018161412
99
95
90
80
70
60
50
40
30
20
10
5
1
Mean
0,362
19,52
StDev 3,070
N 25
AD 0,387
P-Value
Probability Plot of C1
Normal
C1
Frequency
2725232119171513
7
6
5
4
3
2
1
0
Mean 19,52
StDev 3,070
N 25
Histogramof C1
Normal
observação amostra mestre reamostra 1 reamostra 2 reamostra 3 ... reamostra 1000
1 24 25 18 21 22
2 17 20 17 25 17
3 19 18 17 20 18
4 20 19 18 26 22
5 22 20 23 21 18
6 26 17 17 19 22
7 18 19 22 18 20
8 20 17 14 14 23
9 17 17 26 14 17
10 19 19 22 20 17
11 14 25 17 22 22
12 18 17 21 25 19
13 25 22 23 14 18
14 17 25 22 18 17
15 14 23 19 26 19
16 23 17 24 23 17
17 18 25 22 17 21
18 17 17 22 20 17
19 22 19 26 17 19
20 19 24 17 21 17
21 20 20 17 22 22
22 21 17 19 22 25
23 19 17 20 20 14
24 17 22 18 19 18
25 22 14 17 22 18
média 19,5200 19,8000 19,9200 20,2400 19,1600
variância 9,4267 3,2146 3,1612 3,4434 2,5768
Universidade Presbiteriana Mackenzie - II Jornada de Iniciação Científica
20
médias das reamostras é possível verificar que a distribuição da estatística média
das reamostras Bootstrap se aproxima da distribuição desta mesma estatística na
população.
GRÁFICO 3 - Histograma das 1000 reamostras das médias
Os valores da média e variância da amostra mestre foram respectivamente
iguais a 19,52 e 9,4267. O vício calculado para a média foi igual a – 0,0211,
considerado pequeno (0,11% do valor da média da amostra mestre).
Nestas condições foram calculados os intervalos de confiança para as
médias utilizando a técnica de reamostragem Boostrap pelos métodos Percentil =
[18,3200 ; 20,6800] e pelo método Bootstrap t = [18,2804 ; 20,7596] que
resultaram bem próximos.
O histograma das variâncias (Gráfico 4) apresenta uma forma diferente do
esperado caso a distribuição fosse Normal e o teste de Anderson Darling (Gráfico
5) forneceu valor de p menor que 0,005.
GRÁFICO 4 - Histograma para variância das
1000 reamostras
GRÁFICO 5 - Gráfico de probabilidade normal
para a variância das 1000 reamostras
reamostras
Frequency
22,221,621,020,419,819,218,618,0
140
120
100
80
60
40
20
0
Mean 19,50
StDev 0,6006
N 1000
Histogram of reamostras
Normal
variancias
Frequency
17,515,012,510,07,55,02,5
100
80
60
40
20
0
Mean 9,109
StDev 2,337
N 1000
Histogram of variancias
Normal
variancias
Percent
20151050
99,99
99
95
80
50
20
5
1
0,01
Mean
<0,005
9,109
StDev 2,337
N 1000
AD 1,196
P-Value
Probability Plot of variancias
Normal
Universidade Presbiteriana Mackenzie - II Jornada de Iniciação Científica
21
Desta forma os intervalos de confiança Bootstrap pelo método t e Percentil
não são muito confiáveis uma vez que a suposição de normalidade não se
verificou. Neste caso é aconselhável o cálculo por métodos como BCPB e BCa.
O cálculo de intervalos de confiança para a variância através dos métodos
BCPB = [5,6034 ; 14,9469] e BCa = [4,1667 ; 15,3657] resultam em valores mais
precisos devido a adequação desses à presença de um viés igual a – 0,3173,
considerado grande (3,37 % do valor da variância da amostra mestre). O valor da
constante de aceleração “a” para a variância é 0,05119.
O intervalo de confiança Bootstrap Percentil é [4,7599 ; 13,7515]. Como o
vício foi negativo, isto é, a estimativa Bootstrap está subestimando o valor da
estatística, pode-se observar que o intervalo de confiança BCPB corrige o
intervalo de confiança para a direita. O Intervalo de confiança Bootstrap BCa
corrige o intervalo para a direita porém, neste caso, amplia seu tamanho devido
ao valor da constante “a”.
Os intervalos de confiança padrão para a média [18,2526 ; 20,7874] e para
a variância [5,7474 ; 18,2435] apresentaram valores próximos aos dos intervalos
Bootstrap.
Estudo de caso 2: Transporte utilizado pelos alunos no seu deslocamento
diário para a Universidade
No Gráfico 6 é apresentado o histograma das proporções obtidas nas 1000
reamostras. O teste de aderência de Kolmogorov Smirnov confirma a aderência à
distribuição Normal das proporções estimadas nas 1000 reamostras (p > 0,150).
O Gráfico 7 apresenta o Box Plot para as proporções nas 1000 reamostras onde é
notada a simetria da distribuição. Foram encontrados quatro possíveis outliers, a
saber: 0,8182; 0,7879; 0,3030; 0,2727 mantidos na amostra.
Universidade Presbiteriana Mackenzie - II Jornada de Iniciação Científica
22
Proporção
Freqüência
0,800,720,640,560,480,400,32
160
140
120
100
80
60
40
20
0
Mean 0,5451
StDev 0,08433
N 1000
Histograma da proporção de alunos usuários de transporte público
Proporção
0,8
0,7
0,6
0,5
0,4
0,3
0,2
Boxplot da proporção de alunos usuários de transporte público
GRÁFICO 6 - Histograma das proporções nas
1000 reamostras
GRÁFICO 7 - Boxplot da proporção de alunos
usuários de transporte público nas 1000
reamostras
Como a distribuição é Normal, o intervalo de Confiança Bootstrap t pode
ser utilizado e deve coincidir com os intervalos de Confiança Bootstrap Percentil.
A amostra mestre apresentou uma proporção estimada de alunos que
utilizavam na maior parte dos dias transporte público como meio de locomoção
para a universidade igual a 0,5455 com variância da proporção igual a 0,0075. As
reamostras apresentaram uma média das proporções igual a 0,5451 com
variância da proporção igual a 0,0073.
Os intervalos de confiança para a proporção dos alunos que utilizavam na
maior parte dos dias transporte público como meio de locomoção para a
universidade foram calculados através dos métodos Percentil e Bootstrap t.
Os intervalos de confiança para a proporção, calculados através dos três
métodos revelaram-se muito próximos, a saber: intervalo de confiança Bootstrap
Percentil = [0,3932 ; 0,7273], intervalo de confiança Bootstrap Percentil das
Diferenças = [0,3632 ; 0,6973] e intervalo de confiança Bootstrap t = [0,3737 ;
0,7172].
Foi também calculado o intervalo de confiança padrão para a proporção.
Para este cálculo foram utilizados os dados da amostra mestre, tendo sido obtido
o intervalo [0,3756 ; 0,7153], também bem próximo aos demais intervalos de
confiança calculados.
O vício encontrado foi de – 0,0004 (0,07% do valor da estatística na
amostra mestre).
Universidade Presbiteriana Mackenzie - II Jornada de Iniciação Científica
23
O Gráfico 8 apresenta o teste de aderência de Kolmogorov Smirnov no
qual não foi confirmada a normalidade da distribuição das variâncias das
proporções estimadas nas 1000 reamostras (p < 0,010).
variância da proporção
Porcentagem
0,0090,0080,0070,0060,0050,004
99,99
99
95
80
50
20
5
1
0,01
Mean 0,007299
StDev 0,0003851
N 1000
KS 0,165
P-Value <0,010
gráfico de probabilidade normal da variância da proporção
GRÁFICO 8 - Gráfico de probabilidade normal para as variâncias das proporções de alunos
usuários de transporte público nas 1000 reamostras.
Devido à falta de normalidade não é indicado o uso do intervalo de
confiança Bootstrap t.
O intervalo de confiança para a variância da proporção calculado através
do método de Percentil foi igual a [0,0060 ; 0,0076]. Como a distribuição de
probabilidades da variância é assimétrica e o vício encontrado foi de – 0,0002
(2,67% do valor da estatística na amostra mestre), sendo o estimador
tendencioso, a melhor opção é o cálculo dos intervalos de confiança para a
variância através dos métodos BCPB e BCa, os quais apresentaram
respectivamente os seguintes valores [0,0064 ; 0,0076] e [0,0060 ; 0,0076]. Para
obtenção do intervalo de confiança pelo método BCa o valor encontrado para a
constante “a” foi igual a 0,005297. Neste caso a correção realizada foi
desprezível.
Estudo de Caso 3: Medição de parafusos
O Gráfico 9 apresenta o histograma das 1000 médias das reamostras
Bootstrap.
Pode-se notar a forma muito próxima à Normal. O teste de aderência à
distribuição Normal realizado pelo método de Anderson Darling confirma esta
hipótese (p = 0,156).
Universidade Presbiteriana Mackenzie - II Jornada de Iniciação Científica
24
parafusos
Frequency
27,1827,1227,0627,0026,9426,8826,82
140
120
100
80
60
40
20
0
Mean 26,99
StDev 0,06374
N 1000
Histogram of parafusos
Normal
GRÁFICO 9 - Histograma das médias das mil reamostras dos comprimentos dos parafusos
A média da amostra mestre encontrada foi 26,9908, sua mediana 27,0050
e sua variância apresentada por 0,2043. É possível verificar a simetria dos dados
que compõe a amostra mestre pela proximidade do valor da mediana e o valor da
média.
Utilizando a técnica Bootstrap, calculou-se os intervalos de confiança para
a média e para a variância de forma paramétrica e não paramétrica através do
método Percentil.
No cálculo do intervalo de confiança Bootstrap Percentil não paramétrico
para as médias, os valores obtidos foram [26,8770 ; 27,1178] e o intervalo de
confiança Bootstrap Percentil das Diferenças foi igual a [26,8657 ; 27,1066]. O
Intervalo de Confiança Bootstrap Percentil paramétrico apresentou os seguintes
valores [26,8645 ; 27,1035]. Também foi calculado o intervalo de confiança
Bootstrap t igual a [26,8627 ; 27,1189].
Como a distribuição das médias dos comprimentos dos parafusos é
conhecida, foi possível realizar o cálculo do intervalo de confiança padrão. O
intervalo obtido foi [26,8610 ; 27,1206].
A média das médias nas reamostras foi igual a 26,9928. O valor do viés na
forma não paramétrica calculado com os dados das reamostras foi igual a 0,0020,
considerado pequeno (0,0007% do valor da estatística na amostra mestre). Neste
caso os métodos Bootstrap t e Bootstrap Percentil de cálculo de intervalo de
confiança são adequados e resultaram em valores próximos.
Os intervalos de confiança para variância utilizando a técnica Bootstrap
forneceram valores próximos, a saber: intervalo de confiança Bootstrap Percentil
Universidade Presbiteriana Mackenzie - II Jornada de Iniciação Científica
25
não paramétrico = [0,1313; 0,2740] e Percentil das Diferenças não paramétrico =
[0,1296; 0,2723]. Através da aplicação da técnica paramétrica obteve-se o
intervalo de confiança Bootstrap Percentil paramétrico = [0,1363 ; 0,2914].
Supondo a distribuição Quiquadrado para a variância dos comprimentos
dos parafusos, foi possível calcular o intervalo de confiança igual a [0,1425 ;
0,3172].
A média das variâncias nas reamostras foi igual a 0,1993. O valor do viés
para a estimativa da variância foi igual a – 0,0050 considerado grande (2,45%
valor da estatística na amostra mestre).
Neste caso é aconselhável o cálculo dos intervalos de confiança para a
variância através dos métodos BCPB e BCa, os quais apresentaram
respectivamente os seguintes valores [0,1425 ; 0,2887] e [0,1230 ; 0,3022]. Para
obtenção do intervalo de confiança pelo método BCa o valor encontrado para a
constante “a” foi igual a 0,043243.
Estudo de caso 4: Tempo de espera na fila do Benjamim Abrahão
Através da construção do Box Plot, foram encontrados os possíveis outliers
235,283 ; 232,850 ; 189,0167 ; 188,017 ; 187,650, os quais foram mantidos na
amostra mestre uma vez que tais dados extremos realmente ocorreram.
Segundo Prado (1999), o tempo de espera em uma fila tem em geral
distribuição exponencial, porém, neste caso como foi computado o tempo de
espera, tempo de atendimento e tempo de pagamento, a distribuição resultante
não se comportou como exponencial. Deve-se salientar que a forma de
pagamento determinou, de maneira marcante, a diferença nos tempos totais
computados. Se o comprador utilizava dinheiro a operação era bem rápida,
porém, se ele usava algum cartão eletrônico poderia ser consumido um tempo
muito maior.
O histograma (Gráfico 10) indicou a forma da distribuição do tempo total
próxima da Normal. O teste de aderência pelo método de Anderson Darling
confirmou a aderência à distribuição Normal (p = 0,809).
Universidade Presbiteriana Mackenzie - II Jornada de Iniciação Científica
26
Os dados da amostra mestre apresentaram uma média igual a 209,0333.
As mil reamostragens foram feitas com reposição e calculadas as estatísticas
necessárias para a aplicação da técnica Bootstrap.
Os intervalos de confiança para a média foram obtidos pelo método
Percentil das Diferenças = [193,9140 ; 223,8027], método Percentil = [194,1488 ;
224,0375] e, sendo a distribuição aproximadamente normal, o cálculo foi realizado
pelo método Bootstrap t = [193,9850 ; 224,0817]. Os três intervalos de confiança
apresentaram valores próximos.
Tempo de atendimento
Freqüência
232224216208200192
120
100
80
60
40
20
0
Mean 208,9
StDev 7,520
N 1000
Histograma do tempo de atendimento
GRÁFICO 10 - Histograma das 1000 médias das reamostras do tempo de espera e atendimento
na fila
Foi calculado o intervalo de confiança para a média do modo padrão para
que os resultados fossem comparados, a saber: [193,3806 ; 224,6861]. O vício
presente para o tempo médio de atendimento foi igual a – 0,1152 (0,055% do
valor da estatística na amostra mestre), considerado pequeno.
Estudo de caso 5: Tempo de processamento de um digestor de vísceras de
aves
As amplitudes foram reamostradas e calculado o desvio padrão do
processo para essas 1000 reamostras bootstrap. A partir dessas reamostras, foi
plotado o histograma que permite verificar a proximidade da distribuição dos
desvios padrões do processo com a distribuição Normal. O teste de probabilidade
de aderência pelo método de Anderson Darling confirmou esta hipótese (p =
0,537).
Universidade Presbiteriana Mackenzie - II Jornada de Iniciação Científica
27
Através da técnica Bootstrap, foram obtidos intervalos de confiança para o
desvio padrão do processo pelos métodos Percentil e t. Para o cálculo do
intervalo de confiança Bootstrap t foi estimado o desvio padrão do processo da
amostra mestre, a saber: 22,6226. Os resultados obtidos pelos intervalos foram
respectivamente iguais a [18,3447 ; 26,9005] e [19,0134 ; 26,6287 ] para os
métodos Bootstrap t e Percentil.
A proximidade dos intervalos ocorre devido à distribuição ser
aproximadamente Normal além do vício calculado pela diferença entre a média do
desvio padrão das reamostras do processo e o desvio padrão do processo da
amostra mestre ser relativamente pequeno, igual a 0,0154 (0,07% do valor da
estatística na amostra mestre).
Estudo de caso 6: Verificação da adesão dos alunos a um programa de uso
racional de água
As respostas para as perguntas foram codificadas como zero quando
negativas e um quando positivas. Através da técnica Bootstrap, foram calculados
os intervalos de confiança para a proporção de respostas afirmativas e seus
resultados comparados com o intervalo de confiança padrão.
Para cada resposta obtida para as três perguntas, foram geradas 1000
reamostras e obtidos os seguintes resultados:
Em relação à percepção de adesivos que estavam sendo colados, foi
realizado um teste de aderência à distribuição Normal pelo método de
Kolmogorov Smirnov (p > 0,150), o que possibilita o cálculo dos intervalos de
confiança Bootstrap pelo método Percentil = [0,5200 ; 0,8000] e pelo método
Bootstrap t= [0,5243 ; 0,7957]. Como a distribuição da proporção nas reamostras
é aproximadamente Normal, foi possível calcular o intervalo de confiança padrão
para proporção e o resultado obtido foi [0,5287 ; 0,6954]. Todos os intervalos
resultaram muito próximos.
Para as 1000 reamostras dos dados que representam o resultado da
pesquisa sobre o aluno que havia notado a alteração dos dispositivos de
Universidade Presbiteriana Mackenzie - II Jornada de Iniciação Científica
28
funcionamento das torneiras, foram calculadas as proporções cuja distribuição foi
considerada Normal através do teste de aderência pelo método de Kolmogorov
Smirnov (p > 0,150).
Os intervalos de confiança Bootstrap Percentil e t foram calculados e seus
resultados comparados com o cálculo do intervalo de confiança padrão para
proporção. Os resultados obtidos foram: intervalo de confiança Bootstrap t =
[0,2623 ; 0,5377], intervalo de confiança Bootstrap Percentil = [0,2800 ; 0,5400] e
intervalo de confiança padrão = [0,2642 ; 0,4183], todos muito próximos.
O teste de aderência realizado pelo método de Kolmogorov Smirnov para a
distribuição das proporções nas 1000 reamostras das respostas dos alunos
quanto à colaboração na diminuição do consumo de água confirma a aderência à
distribuição Normal (p >0,150).
Os valores encontrados nos cálculos dos intervalos de confiança Bootstrap
Percentil, t e padrão foram muito próximos, a saber: intervalo de confiança
Bootstrap t = [0,4228 ; 0,6972], intervalo de confiança Bootstrap Percentil =
[0,4200 ; 0,7000] e intervalo de confiança padrão = [0,4224 ; 0,5897].
CONCLUSÃO
Através da realização dos estudos de caso, foi possível verificar a
adequação da técnica Bootstrap em situações presentes no cotidiano.
Os intervalos de confiança e as estimativas encontradas em todos os
estudos de caso foram coerentes e confirmaram a confiabilidade do método para
estimação de parâmetros em situações onde as distribuições das estimativas dos
parâmetros eram conhecidas.
O método também tornou possível a estimação de intervalos de confiança
em situações onde as distribuições dos parâmetros são desconhecidas ou
complexas.
Verificou-se, pelos casos estudados, a generalidade de aplicação da
técnica de estimação através da reamostragem e que o método Bootstrap permite
que o cálculo do intervalo de confiança seja realizado de modo mais simples e
Universidade Presbiteriana Mackenzie - II Jornada de Iniciação Científica
29
abrangente para diversas estatísticas, mesmo quando as distribuições de
probabilidades das mesmas são desconhecidas.
Foi possível estabelecer o intervalo de confiança adequado para cada
situação diferente.
Quando a estatística do parâmetro estudado tinha distribuição Normal, os
intervalos de confiança Bootstrap pelos métodos t e Percentil coincidiram e foram
adequados.
Quando a distribuição da estatística do parâmetro estudado não era
Normal, porém existia uma transformação monotônica para a estatística do
parâmetro que tornasse sua distribuição Normal, o intervalo Bootstrap Percentil foi
adequado.
Nos casos em que a distribuição não era Normal com a estimativa pontual
Bootstrap muito viciada ou a assimetria presente de modo muito forte, foram
utilizados os métodos BCPB e BCa. Quando era conhecida a distribuição da
estatística do parâmetro, os intervalos BCPB e BCa resultaram mais próximos do
intervalo padrão que o intervalo Bootstrap Percentil, confirmando a melhora na
estimação com o uso dos intervalos corrigidos.
O valor pequeno do viés é uma indicação de que os valores estimados
devem estar próximos dos verdadeiros valores.
Para cada situação deve ser escolhida a técnica de cálculo de intervalo
Bootstrap mais adequada. Quando houve mais de uma técnica possível de ser
utilizada, verificou-se que os intervalos de confianças resultaram muito próximos.
Universidade Presbiteriana Mackenzie - II Jornada de Iniciação Científica
30
REFERÊNCIAS
[1] ANDREWS, D. W. K.; BUCHINSKY, M. On the number of bootstrap repetitions
for BCa confidence intervals. Econometric Theory, v. 18, n. 4, p. 962-984, Aug.
2002.
[2] CYMROT, R.; ROCHA, A. J. F.; MARTINS, A. J.; MOUETTE, D.; DURO, M. A.
S.; MONEZI JUNIOR, O.; ANTUNES, V. R. G. L.; ZIVIERI, J. N. Estudo do uso
racional da água implantado em um campus da Universidade Presbiteriana
Mackenzie. In: WORLD CONGRESS ON COMPUTER SCIENCE, ENGINEERING
AND TECHNOLOGY EDUCATION, 2006, Itanhaém. Anais … São Vicente:
COPEC, 2006. 1 CD-ROM.
[3] DAVISON, A. C.; HINKLEY, D. V. Bootstrap methods and their application.
Cambridge: Cambridge University Press, 1997.
[4] EFRON, B.; TIBSHIRANI, R. Bootstrap methods for standard errors,
confidence intervals, and other measures of statistical accuracy. Statistical
Science , v. 1, n. 1, p. 55–77, Feb. 1986.
[5] FERROLI, P. C. M.; FIOD NETO, M.; CASAROTTO, N.; CASTRO, J. E.
Fábrica de subprodutos de origem animal: a importância do balanceamento das
cargas dos digestores de vísceras. Revista Produção, v. 10, n. 2, p. 5-9, 2002.
[6] HALL, P. Theoretical comparison of bootstrap confidence intervals. Annals of
Statistics, v. 16, n. 3, p. 927–953, Sep. 1988.
[7] HESTERBERG, T.; MOORE, D. S.; MONAGHAN, S.; CLIPSON, A.; EPSTEIN,
R. Bootstrap methods and permutation tests. In: The practice of business
statistics: using data for decisions. New York: W.H. Freeman, 2003. cap. 18.
[8] GONZÁLEZ MANTEIGA, W.; PRADA SÁNCHEZ, J. M.; ROMO URROZ, J. J.
The Bootstrap: a review. Computational Statistics, v. 9, n. 1, p. 165-205, 1994.
[9] MONTGOMERY, D. C.; PECK, E. A.; VINING, G. G. Introduction to linear
regression analysis. 3rd ed. New York: Wiley, 2001.
[10] MONTGOMERY, D. C.; RUNGER, G. C. Estatística aplicada e probabilidade
para engenheiros. 2. ed. Rio de Janeiro: LTC, 2003.
Universidade Presbiteriana Mackenzie - II Jornada de Iniciação Científica
31
[11] NAVIDI, W. C. Statistics for engineers and scientists. Boston: McGraw-Hill,
c2006.
[12] PEREIRA, J. E.; SILVA, J. F. V.; DIAS, W. P.; SOUZA, G. S. Intervalo de
confiança “Bootstrap” como ferramenta para classificar raças do nematóide de
cisto de soja. Pesquisa Agropecuária Brasileira, Brasília, v. 35, n. 2, fev. 2000.
Disponível em: http://www.scielo.br/scielo.php?script=sci_arttext&pid=S0100-
204X2000000200005 Acesso em: 9 jun. 2006.
[13] PRADO, D. S. Teoria das filas e da simulação. Belo Horizonte:
Desenvolvimento Gerencial, 1999. (Pesquisa operacional, v. 2).

Mais conteúdo relacionado

Semelhante a Estimativas e intervalos de confiança Bootstrap

Inferência e testes de hipóteses
Inferência e testes de hipótesesInferência e testes de hipóteses
Inferência e testes de hipótesesFelipe Pontes
 
Dissertacao Capacidade Multivariada
Dissertacao Capacidade MultivariadaDissertacao Capacidade Multivariada
Dissertacao Capacidade Multivariadaaryas
 
Contagem automatizada de ovos de schistosoma mansoni para o método de kato-katz
Contagem automatizada de ovos de schistosoma mansoni para o método de kato-katzContagem automatizada de ovos de schistosoma mansoni para o método de kato-katz
Contagem automatizada de ovos de schistosoma mansoni para o método de kato-katzAndré Pontes Melo
 
Estimando a aversão ao risco, a taxa de desconto intertemporal
Estimando a aversão ao risco, a taxa de desconto intertemporalEstimando a aversão ao risco, a taxa de desconto intertemporal
Estimando a aversão ao risco, a taxa de desconto intertemporalUniversidade Federal Fluminense
 
Estimando a aversão ao risco, a taxa de desconto intertemporal
Estimando a aversão ao risco, a taxa de desconto intertemporalEstimando a aversão ao risco, a taxa de desconto intertemporal
Estimando a aversão ao risco, a taxa de desconto intertemporalUniversidade Federal Fluminense
 
M17 e39-comparacao dediferentesmetodosdeprevisaoe
M17 e39-comparacao dediferentesmetodosdeprevisaoeM17 e39-comparacao dediferentesmetodosdeprevisaoe
M17 e39-comparacao dediferentesmetodosdeprevisaoeGMBotbot
 
Resolvido Prova Tecnico da Marinha 2013
Resolvido Prova Tecnico da Marinha 2013 Resolvido Prova Tecnico da Marinha 2013
Resolvido Prova Tecnico da Marinha 2013 Déborah Luzia
 
Livro analise de dados amostrais complexos
Livro analise de dados amostrais complexosLivro analise de dados amostrais complexos
Livro analise de dados amostrais complexosDiogo Freire
 
Auxílio na Detecção de Câncer Usando Deep Learning em Redes Neurais e GPU
Auxílio na Detecção de Câncer Usando Deep Learning em Redes Neurais e GPUAuxílio na Detecção de Câncer Usando Deep Learning em Redes Neurais e GPU
Auxílio na Detecção de Câncer Usando Deep Learning em Redes Neurais e GPUIsrael Vieira
 
Material - Questionário Simulação
Material - Questionário SimulaçãoMaterial - Questionário Simulação
Material - Questionário SimulaçãoAlbino Szesz Junior
 
2018 Cleverson Tabajara - aspectos relevantes a serem descritos em modelos p...
2018 Cleverson Tabajara -  aspectos relevantes a serem descritos em modelos p...2018 Cleverson Tabajara -  aspectos relevantes a serem descritos em modelos p...
2018 Cleverson Tabajara - aspectos relevantes a serem descritos em modelos p...IFSC
 
Teste paramétricos e não paramétricos
Teste paramétricos e não paramétricosTeste paramétricos e não paramétricos
Teste paramétricos e não paramétricosCarolinaGouveia35
 
Avaliação das estratégias de busca com a ferramenta AMSTAR dos estudos de Rev...
Avaliação das estratégias de busca com a ferramenta AMSTAR dos estudos de Rev...Avaliação das estratégias de busca com a ferramenta AMSTAR dos estudos de Rev...
Avaliação das estratégias de busca com a ferramenta AMSTAR dos estudos de Rev...http://bvsalud.org/
 
Revisão sistemática e meta análise
Revisão sistemática e meta análiseRevisão sistemática e meta análise
Revisão sistemática e meta análisePaulo Tsuneta
 
WTDQS 2019 - Uma abordagem para localização de mutantes minimais e equivalent...
WTDQS 2019 - Uma abordagem para localização de mutantes minimais e equivalent...WTDQS 2019 - Uma abordagem para localização de mutantes minimais e equivalent...
WTDQS 2019 - Uma abordagem para localização de mutantes minimais e equivalent...Claudinei Brito Junior
 
Análise multivariada no statistica
Análise multivariada no statisticaAnálise multivariada no statistica
Análise multivariada no statisticaKeneson Gonçalves
 

Semelhante a Estimativas e intervalos de confiança Bootstrap (20)

Computacao
ComputacaoComputacao
Computacao
 
Inferência e testes de hipóteses
Inferência e testes de hipótesesInferência e testes de hipóteses
Inferência e testes de hipóteses
 
Dissertacao Capacidade Multivariada
Dissertacao Capacidade MultivariadaDissertacao Capacidade Multivariada
Dissertacao Capacidade Multivariada
 
Contagem automatizada de ovos de schistosoma mansoni para o método de kato-katz
Contagem automatizada de ovos de schistosoma mansoni para o método de kato-katzContagem automatizada de ovos de schistosoma mansoni para o método de kato-katz
Contagem automatizada de ovos de schistosoma mansoni para o método de kato-katz
 
Estimando a aversão ao risco, a taxa de desconto intertemporal
Estimando a aversão ao risco, a taxa de desconto intertemporalEstimando a aversão ao risco, a taxa de desconto intertemporal
Estimando a aversão ao risco, a taxa de desconto intertemporal
 
Estimando a aversão ao risco, a taxa de desconto intertemporal
Estimando a aversão ao risco, a taxa de desconto intertemporalEstimando a aversão ao risco, a taxa de desconto intertemporal
Estimando a aversão ao risco, a taxa de desconto intertemporal
 
M17 e39-comparacao dediferentesmetodosdeprevisaoe
M17 e39-comparacao dediferentesmetodosdeprevisaoeM17 e39-comparacao dediferentesmetodosdeprevisaoe
M17 e39-comparacao dediferentesmetodosdeprevisaoe
 
Resolvido Prova Tecnico da Marinha 2013
Resolvido Prova Tecnico da Marinha 2013 Resolvido Prova Tecnico da Marinha 2013
Resolvido Prova Tecnico da Marinha 2013
 
Livro analise de dados amostrais complexos
Livro analise de dados amostrais complexosLivro analise de dados amostrais complexos
Livro analise de dados amostrais complexos
 
Atps estatatistica
Atps estatatisticaAtps estatatistica
Atps estatatistica
 
Auxílio na Detecção de Câncer Usando Deep Learning em Redes Neurais e GPU
Auxílio na Detecção de Câncer Usando Deep Learning em Redes Neurais e GPUAuxílio na Detecção de Câncer Usando Deep Learning em Redes Neurais e GPU
Auxílio na Detecção de Câncer Usando Deep Learning em Redes Neurais e GPU
 
Material - Questionário Simulação
Material - Questionário SimulaçãoMaterial - Questionário Simulação
Material - Questionário Simulação
 
Braquiterapia
BraquiterapiaBraquiterapia
Braquiterapia
 
2018 Cleverson Tabajara - aspectos relevantes a serem descritos em modelos p...
2018 Cleverson Tabajara -  aspectos relevantes a serem descritos em modelos p...2018 Cleverson Tabajara -  aspectos relevantes a serem descritos em modelos p...
2018 Cleverson Tabajara - aspectos relevantes a serem descritos em modelos p...
 
Teste paramétricos e não paramétricos
Teste paramétricos e não paramétricosTeste paramétricos e não paramétricos
Teste paramétricos e não paramétricos
 
Avaliação das estratégias de busca com a ferramenta AMSTAR dos estudos de Rev...
Avaliação das estratégias de busca com a ferramenta AMSTAR dos estudos de Rev...Avaliação das estratégias de busca com a ferramenta AMSTAR dos estudos de Rev...
Avaliação das estratégias de busca com a ferramenta AMSTAR dos estudos de Rev...
 
Revisão sistemática e meta análise
Revisão sistemática e meta análiseRevisão sistemática e meta análise
Revisão sistemática e meta análise
 
WTDQS 2019 - Uma abordagem para localização de mutantes minimais e equivalent...
WTDQS 2019 - Uma abordagem para localização de mutantes minimais e equivalent...WTDQS 2019 - Uma abordagem para localização de mutantes minimais e equivalent...
WTDQS 2019 - Uma abordagem para localização de mutantes minimais e equivalent...
 
Análise multivariada no statistica
Análise multivariada no statisticaAnálise multivariada no statistica
Análise multivariada no statistica
 
Exercicios de estatistica resolvido.4
Exercicios de estatistica resolvido.4Exercicios de estatistica resolvido.4
Exercicios de estatistica resolvido.4
 

Estimativas e intervalos de confiança Bootstrap

  • 1. Universidade Presbiteriana Mackenzie - II Jornada de Iniciação Científica 1 ESTUDO E APLICAÇÕES DA TÉCNICA BOOTSTRAP Ana Lucia Tucci Rizzo (analurizzo@uol.com.br), Raquel Cymrot Orientadora: Raquel Cymrot (raquelc@mackenzie.com.br) Resumo A técnica de reamostragem Bootstrap é muito útil por não necessitar de muitas suposições para estimação de parâmetros das distribuições de interesse. Este artigo apresenta os diferentes métodos de cálculo de intervalos de confiança utilizando a técnica de reamostragem Bootstrap na forma paramétrica e não paramétrica. Tais métodos são o Intervalo de Confiança Bootstrap Percentil, o Intervalo de Confiança Bootstrap Percentil das Diferenças, o Intervalo de Confiança Bootstrap t, o Intervalo de Confiança Percentil Corrigido em Relação ao Viés (BCPB) e o Intervalo de Confiança de Correção de Vício Acelerado (BCa) , além da técnica de Bootstrap para a regressão e realização de testes de hipóteses utilizando intervalos de confiança Bootstrap. Foram apresentadas as situações onde cada método de obtenção dos intervalos de confiança Bootstrap é mais adequado, dependendo do tipo de distribuição, vício e assimetria da estatística do parâmetro estudado. Para aplicação destas técnicas foram realizados seis estudos de caso que possibilitaram a aplicação dos métodos de estimação Bootstrap mais recomendados na estimação dos parâmetros média, variância, proporção e desvio padrão de processos. Estes casos incluíram distribuições simétricas e assimétricas. Quando a distribuição de probabilidades da estatística do parâmetro a ser estimado era conhecida foi também calculado o intervalo de confiança baseado na distribuição de probabilidades do estimador. Palavras chave: Reamostragem ; Método Bootstrap; Intervalo de confiança Abstract The Bootstrap resampling technique is very useful because it does not need many assumptions to estimate parameters of the distributions of interest. This article presents the different methods to calculate confidence intervals by using Bootstrap
  • 2. Universidade Presbiteriana Mackenzie - II Jornada de Iniciação Científica 2 resampling technique in parametric and nonparametric form. Such methods are the Percentile Bootstrap Confidence Interval, the Differences Percentile Bootstrap Confidence Interval, the Bootstrap t Confidence Interval, the Biased-Corrected Percentile Bootstrap Confidence Interval (BCPB) and the Biased-Corrected Accelerated Confidence Interval (BCa), besides Bootstrap technique for regression and hypothesis tests accomplishment by using Bootstrap confidence intervals. Situations were presented wherein each method used to obtain the Bootstrap confidence intervals is more proper, depending on the kind of distribution, bias and skewness of the studied parameter. Aiming at applying these techniques, six studies of case were carried out, enabling the application of the most recommended Bootstrap estimation methods to estimate the parameter mean, variance, proportion and standard deviation of processes. These cases included symmetrical and skewed distributions. When the distribution of probabilities of the parameter to be estimated was known, the confidence interval based on the probability distribution of the estimator was also computed. Key terms: Resampling, Bootstrap technique, Confidence Interval
  • 3. Universidade Presbiteriana Mackenzie - II Jornada de Iniciação Científica 3 INTRODUÇÃO A utilização de técnicas estatísticas no mundo dos negócios vem crescendo cada vez mais, devido principalmente a sua utilidade na comparação de serviços, verificação de qualidade, análise para desenvolvimento de produtos e outros. A técnica de Bootstrap é uma das possíveis técnicas de reamoostragem a serem utilizadas. A reamostragem consiste em sortear com reposição dados pertencentes a uma amostra retirada anteriormente, de modo a formar uma nova amostra. Técnicas de reamostragem são úteis em especial quando o cálculo de estimadores por métodos analíticos for complicado. Reamostrar permite diferentes alternativas para se encontrar desvios padrões e intervalos de confiança através da análise de um conjunto de dados. Existem diversas técnicas de reamostragem que visam estimar parâmetros de uma distribuição de interesse. Uma vantagem em utilizar a técnica de reamostragem Bootstrap é a generalidade com que pode ser aplicada, pois requer que menos suposições sejam feitas. Outras vantagens são que geralmente fornece respostas mais precisas, além de favorecer o entendimento. Muitas vezes a distribuição de probabilidade da estatística de interesse é desconhecida. Nesse caso o Bootstrap é muito útil, pois é uma técnica que não exige diferentes fórmulas para cada problema e pode ser utilizada em casos gerais, não dependendo da distribuição original da estatística do parâmetro estudado. Segundo Davison e Hinkley (1997), repetir um procedimento de análise original com muitas réplicas de dados pode ser denominado método intensivo computadorizado. Para realizar uma estimação através da utilização de Bootstrap é necessária a realização de um número muito grande de reamostragens e o cálculo de diversas estatísticas para cada uma destas reamostragens. Isto exige o auxílio de programas computacionais para realizar as reamostras e os cálculos de forma mais rápida e eficaz.
  • 4. Universidade Presbiteriana Mackenzie - II Jornada de Iniciação Científica 4 Esse é um dos motivos pelo qual essa técnica vem se desenvolvendo mais nos últimos tempos, pois com o avanço tecnológico os softwares estão ficando mais práticos, rápidos e acessíveis. A utilização da técnica de Bootstrap não implica que as outras devam ser ignoradas, podendo ser usada como um complemento na argumentação das conclusões obtidas. Devido a sua generalidade, a técnica Bootstrap se encaixa na solução de problemas complexos. Através do uso da técnica de Bootstrap os parâmetros como a média, a variância, a proporção e até mesmo parâmetros menos utilizados como o máximo, mínimo, etc. de uma população podem ser estimados pontualmente e por intervalo. A reamostragem baseada nos dados da amostra mestre é utilizada pela técnica de Bootstrap denominada não paramétrica uma vez que a distribuição de probabilidades da estatística do parâmetro a ser estimado é desconhecida. Através desta técnica é possível obter a distribuição amostral de um parâmetro a partir da amostra original. A forma não paramétrica é a mais utilizada. Entretanto, quando a distribuição de probabilidades das estimativas dos parâmetros de interesse da população da qual a amostra mestre foi extraída for conhecida, outra forma de Bootstrap pode ser aplicada. Esta forma denominada paramétrica consiste em gerar reamostras baseadas na distribuição de probabilidades conhecida utilizando como parâmetros desta distribuição a estimativa dos mesmos obtida através da amostra mestre. Neste caso o interesse será estimar o vício das estimativas dos parâmetros e assim efetuar as correções necessárias (NAVIDI, 2006). Outra utilidade relatada por Hall (1988) é que, ao se comparar o intervalo de confiança obtido através da utilização da técnica Bootstrap com o intervalo de confiança baseado na distribuição de probabilidades conhecida do estimador, se este último tiver sido calculado usando suposições inadequadas, a diferença entre estes dois resultados será gritante, chamando assim atenção em relação ao erro cometido.
  • 5. Universidade Presbiteriana Mackenzie - II Jornada de Iniciação Científica 5 Neste artigo serão apresentadas as diversas técnicas de Bootstrap para estimação. Seis estudos de caso também serão realizados. BOOTSTRAP Para realizar o teste utilizando a técnica Bootstrap é preciso colher uma amostra de tamanho n que será denominada amostra mestre. Essa amostra deve ser coletada de maneira planejada, uma vez que se essa amostra for mal tirada e não representar bem a população, a técnica de Bootstrap não levará à resultados confiáveis. Hesterberg et al. (2003) afirmam que a amostra mestre representa a população da qual foi retirada. As reamostras desta amostra mestre representam o que se deve obter quando são retiradas muitas amostras da população original. A distribuição Bootstrap da estatística, baseada em muitas reamostras, representa uma distribuição amostral desta estatística. Esta característica faz com que uma das utilidades da técnica Bootstrap seja checar a normalidade da distribuição original da estatística em foco. Para que a aplicação da técnica resulte em valores confiáveis devem ser feitas, a partir da amostra mestre, centenas ou até milhares de reamostras do mesmo tamanho n. A maioria dos autores recomenda a utilização de 1000 reamostras. Segundo Montgomery (2001) o número de reamostragens pode ser estipulado verificando a variação do desvio padrão para a estimativa do parâmetro em questão calculado para as reamostras à medida que estas são realizadas. No momento em que esse valor se estabilizar o tamanho da reamostra Bootstrap estará adequado. É importante que a reamostragem seja realizada com reposição sempre selecionando os valores de forma aleatória. Para a geração destas reamostras as técnicas computacionais são de grande utilidade, pois sem estas, o tempo para que fossem feitas todas as reamostras desejadas de forma manual seria excessivamente grande.
  • 6. Universidade Presbiteriana Mackenzie - II Jornada de Iniciação Científica 6 Uma vez geradas as reamostras, deve-se calcular para cada uma delas a estatística solicitada no problema. Essa técnica não altera nenhum valor da amostra mestre, ela apenas trabalha na análise da combinação dos valores iniciais com a finalidade de se obter as conclusões desejadas. A variabilidade presente no Bootstrap é dada pela escolha da amostra mestre e pelas reamostras, sendo a variabilidade devido à escolha da amostra mestre a mais significativa. O desvio padrão da distribuição Bootstrap para a média (também chamado de erro padrão) é uma medida de variabilidade e é calculado da seguinte forma: ∑ ∑       − − = 2 ** ˆ1ˆ 1 1 iibootstrap BB SE θθ (1) com *ˆ iθ igual ao valor da estatística para cada reamostra e B igual ao número de reamostragens realizadas. O asterisco é usado para diferenciar a estatística das reamostras da estatística da amostra original, a qual é representada por θˆ . Algumas literaturas utilizam no primeiro valor do denominador, apenas B ao invés de (B – 1), pois como o número de reamostragens é um valor muito alto, essa alteração acaba ficando praticamente insignificante. A distribuição Bootstrap geralmente tem aproximadamente a mesma forma e amplitude que a distribuição amostral da estatística, porém está centrada na estatística dos dados originais (amostra mestre), enquanto a distribuição amostral está centrada no parâmetro da população. Segundo Montgomery e Runger (2003), uma estatística utilizada para estimar um parâmetro é viciada quando a distribuição amostral não estiver centrada no verdadeiro valor do parâmetro. A técnica Boostrap nos permite verificar o vício olhando se a distribuição Bootstrap da estatística está centrada na estatística da amostra mestre. O estimador do vício da distribuição Bootstrap é: θθ ˆˆ * −=bootstrapvício (2)
  • 7. Universidade Presbiteriana Mackenzie - II Jornada de Iniciação Científica 7 Segundo González Manteiga, Prada Sánchez e Romo Urroz (1994) uma das aplicações da metodologia Bootstrap é obter intervalos de confiança confiáveis. Há diversas técnicas distintas para o cálculo de intervalos de confiança Bootstrap. Entre as diferentes maneiras de calcular o Intervalo de Confiança pelo método Bootstrap destacam-se o método Bootstrap t, o método Percentil, que pode ser obtido de duas formas diferentes, o Método do Percentil Corrigido em Relação ao Viés, Biased-Corrected Percentile Bootstrap (BCPB) e o Método de Correção de Vício Acelerado, Biased-Corrected Accelerated (BCa). Estas técnicas serão apresentadas a seguir: a) O Intervalo de Confiança Bootstrap t Calcula-se o intervalo de confiança Bootstrap t para uma determinada estatística da seguinte maneira: [ ]bootstraptbootstrap SEtaestatísticIC ×±= (3) , sendo n o tamanho da amostra mestre, t encontrado utilizando-se (n-1) graus de liberdade, e bootstrapSE , o desvio padrão bootstrap, calculado utilizando a Equação (1) para a estatística em estudo. A flexibilidade e quase automaticidade do cálculo de intervalo de confiança por esse método é muito boa, porém existe um problema que pode afetar sua eficácia. O intervalo de confiança Bootstrap t realmente só funciona bem quando sabemos que a distribuição da estatística na distribuição Bootstrap é aproximadamente normal e a estatística é pouco viciada. Respeitadas estas condições o intervalo de confiança Bootstrap t pode ser calculado na estimação de diversos parâmetros além da média populacional, como por exemplo, a proporção e o coeficiente de correlação. b) O Intervalo de Confiança Bootstrap Percentil O intervalo de confiança percentil pode ser calculado de duas maneiras:
  • 8. Universidade Presbiteriana Mackenzie - II Jornada de Iniciação Científica 8 Segundo Efron (1986), para uma confiança (1 – α)100%, a primeira forma é encontrar o percentil (1 – α/2)100% e o percentil (α/2)100% da média das reamostras da estatística do parâmetro que se deseja estimar. A segunda maneira de se obter o intervalo de confiança percentil utilizando a técnica em estudo é através dos percentis das diferenças dos valores das estatísticas das reamostras em relação ao valor médio desta mesma estatística nas reamostras (MONTGOMERY e RUNGER, 2003). Para estimar um intervalo de confiança para uma estimativa θˆ, calcula-se o valor destas estatísticas para cada uma das “i” reamostras Bootstrap ( *ˆ iθ ) e a média dessas estimativas * ˆθ . Encontra-se então, para cada reamostra “i”, a diferença entre esses valores, isto é: * * ˆˆ θθ −= idiferença (4) Para uma confiança de 95%, encontram-se os percentils 97,5% e 2,5% destas diferenças e calcula-se o intervalo de confiança Bootstrap Percentil da seguinte forma: [ ]diferençasPdiferençasPIC percentilbootstrap %5,2%5,97 ˆ;ˆ −−= θθ (5) Para verificar se o intervalo de confiança t calculado é confiável podemos compará-lo com o intervalo de confiança percentil. Se o vício for pequeno e a distribuição Bootstrap for aproximadamente normal, os dois intervalos irão apresentar valores muito próximos. Segundo Hesterberg et al. (2003), caso os intervalos de confiança Bootstrap calculados pela t e pelo percentil não tiverem valores próximos nenhum destes métodos deve ser utilizado. Entretanto Efron (1986) afirma que se a distribuição Bootstrap não for aproximadamente normal, mas existir uma transformação monotônica possível que a torne normal, pode-se calcular o intervalo de confiança Bootstrap Percentil para os dados transformados e posteriormente desfazer a transformação para os limites do intervalo encontrado. Isto é possível uma vez que a transformação utilizada foi uma transformação monotônica, portanto o intervalo de confiança Bootstrap pelo
  • 9. Universidade Presbiteriana Mackenzie - II Jornada de Iniciação Científica 9 método Percentil assim calculado coincidirá com o intervalo de confiança Bootstrap pelo método Percentil para os dados não transformados. Se o vício e a assimetria estão presentes de forma muito forte é mais recomendável que se utilize métodos de Bootstrap de correção como o Método BCPB e o método BCa. c) O Intervalo de Confiança Bootstrap BCPB No cálculo do intervalo de confiança BCPB os extremos do intervalo são os percentis da distribuição Bootstrap ajustados para corrigir o vício e assimetria desta distribuição. Por exemplo, para encontrar um intervalo de confiança BCPB com 95% de confiança, é preciso ajustar os percentis que para um cálculo de intervalo de confiança Percentil tradicional seriam 2,5% e 97,5% para outros valores, a fim de corrigir o vício e assimetria. Se a estatística for viciada para cima o BCPB move os extremos para a esquerda e se a estatística for viciada para baixo o BCPB move os extremos para a direita. Para realizar o cálculo do intervalo de confiança BCPB deve-se primeiramente ordenar as B estimativas *ˆ iθ em forma crescente e calcular a probabilidade denominada p0 de uma estimativa ser inferior à estimativa da amostra mestre (θˆ). Esse passo pode ser representado da seguinte forma: [ ]θθ ˆˆ* 0 ≤= iPp (6) A partir do valor encontrado p0 é obtido o parâmetro correção do vício z0 que representa a inversa da normal no ponto p0. ( )0 1 0 pz − Φ= (7) O próximo passo é selecionar um nível (1– α)100% de confiança para a estimativa do parâmetro e determinar 2 αz . É então possível obter os percentis PI e PS:
  • 10. Universidade Presbiteriana Mackenzie - II Jornada de Iniciação Científica 10         −Φ= 2 02 αzzPI (8)         +Φ= 2 02 αzzPS (9) O Intervalo de Confiança BCPB é calculado da seguinte maneira: [ ])ˆ(;)ˆ( ** iPiPBCPB SI PPIC θθ= (10) d) O Intervalo de Confiança Bootstrap BCa O método de Correção de Vício Acelerado permite encontrar o intervalo de confiança quando assimetria estiver presente de maneira muito forte. Esse método não difere muito do BCPB sendo esta diferença o fato de o BCa possuir uma constante de aceleração “a” que ajusta o intervalo de confiança em relação à assimetria. Segundo Efron (1986) nesta situação este método é mais indicado que o método BCPB. O intervalo de Confiança BCa é obtido realizando os mesmo passos do cálculo do intervalo de confiança BCPB com os limites PI e PS , porém utilizando um ajuste por meio da constante de aceleração “a”. A obtenção da constante “a” envolve cálculos não triviais, o que leva o Intervalo de Confiança BCa ser mais utilizado quando há algum software estatístico disponível. O programa S-PLUS é citado em vários artigos como, por exemplo, em Pereira et al. (2000). É possível encontrar também alguns programas livres que calculam esta constante. O cálculo do intervalo de confiança BCa é feito através da mesma Equação (10), porém com PI e PS respectivamente iguais a:                       +−         + −Φ= 2 0 2 0 0 1 α α zza zz zPI (11)
  • 11. Universidade Presbiteriana Mackenzie - II Jornada de Iniciação Científica 11                       +−         + +Φ= 2 0 2 0 0 1 α α zza zz zPI (12) De acordo com Andrews e Buchinsky (2002) é possível determinar a constante “a” de maneira mais simples quando as variáveis aleatórias observadas na amostra mestre forem independentes e identicamente distribuídas. Neste caso: ( ) ( )( ) ( ) ( )( )( )2 3 1 2 . 1 3 . ˆˆ6 ˆˆ ∑ ∑ = = − − = n i i n i i a θθ θθ (13) , com ( )iθˆ representando o valor das estimativas do parâmetro estudado para cada amostra “i” que consiste na amostra mestre sem a observação “i” da mesma, com 1 ≤ i ≤ n e ( ). ˆθ o valor da média das estimativas ( )iθˆ . e) A técnica Bootstrap na Regressão Existem dois procedimentos para se estimar os coeficientes do modelo de regressão utilizando a técnica de Bootstrap: o método Bootstrap dos Resíduos e o método Bootstrap dos Casos ou Pares (MONTGOMERY, 2001). O procedimento de Bootstrap paramétrico denominado Bootstrap dos Resíduos consiste em estimar os coeficientes de regressão para os dados originais e assim gerar os respectivos resíduos para as n observações realizadas. Estes resíduos formarão a amostra mestre. Deve-se então gerar as reamostras a partir destes resíduos. O valor do vetor resposta para uma reamostragem (y*) será obtido somando-se o vetor de resíduos desta reamostra ao vetor resposta estimado nos dados originais ( yˆ ). Para cada reamostra são então calculadas as estimativas dos coeficientes de regressão. As médias das estimativas dos coeficientes de regressão para as reamostras serão as estimativas Bootstrap pontuais dos mesmos. Intervalos de confiança para os coeficientes da regressão podem ser obtidos pelo método percentil. A coincidência dos intervalos
  • 12. Universidade Presbiteriana Mackenzie - II Jornada de Iniciação Científica 12 tradicionais e Bootstrap confirmará as suposições feitas para a realização da análise de regressão. O procedimento de Bootstrap não paramétrico denominado Bootstrap dos Casos ou Pares deve ser usado quando existe uma transformação nos dados originais de modo que para estes dados transformados possa ser realizada uma regressão linear. Neste caso as estimativas dos erros padrão dos coeficientes serão aproximadas e estas aproximações serão válidas apenas para grandes amostras. O método Bootstrap fornecerá uma estimativa dos intervalos de confiança para os coeficientes da regressão e será útil para checar a validade da aplicação assintótica para os resultados obtidos. Na forma Bootstrap dos Casos ou Pares os próprios dados originais devem compor a amostra mestre. Estes dados originais (que são vetores) devem ser reamostrados. Para cada reamostra são estimados os coeficientes da regressão linear para os dados da reamostra transformados. Intervalos de confiança para os coeficientes da regressão podem ser obtidos pelo método percentil. f) Teste de Hipótese com Intervalos de Confiança Bootstrap Dado um intervalo de confiança calculado por qualquer método Bootstrap com 100(1–α )%, deve-se rejeitar com 100α % as hipóteses nulas de que o parâmetro estimado seja igual a qualquer valor fora desse intervalo e deve- se aceitar com 100α % as hipótese nulas de que este mesmo parâmetro seja igual a qualquer valor dentro do intervalo de confiança Bootstrap (NAVIDI, 2006) g) Outras considerações sobre os estimadores Bootstrap O Bootstrap é muito genérico e, devido a esta generalidade, há mais de um método Bootstrap como solução para um determinado problema. Na maioria das publicações não técnicas em estatística, a forma de cálculo dos intervalos de confiança Bootstrap não costuma ser apresentada. Segundo
  • 13. Universidade Presbiteriana Mackenzie - II Jornada de Iniciação Científica 13 enquête realizada por Hall (1988), o método Percentil é utilizado em mais da metade destas publicações. A maioria dos procedimentos de intervalo de confiança se torna mais precisa quando o tamanho da amostra aumenta. Hesterberg et al. (2003) afirma que um problema que existe nos intervalos de confiança Bootstrap t e Percentil é que esta melhora ocorre de forma mais lenta necessitando de um grande aumento no tamanho da amostra para refletir uma melhora na precisão (na base de 10 para 1). METODOLOGIA Alguns estudos de caso foram realizados para colocar em prática à técnica de reamostragem Bootstrap. Para cada estudo foi coletada uma amostra mestre diferente, seguindo as técnicas de amostragem apropriadas. Foram realizadas 1000 reamostras e calculados os intervalos de confiança Bootstrap segundo as diversas formas convenientes para cada situação. Quando existia uma fórmula de cálculo do intervalo de confiança para a estimativa do parâmetro baseada na sua distribuição de probabilidades (denominado neste trabalho intervalo de confiança padrão), este foi calculado. Os resultados foram então comparados. Para o cálculo dos diversos intervalos de confiança foi utilizada uma confiança de 95%. Apenas no estudo de caso envolvendo o desvio padrão de um controle estatístico de processos a confiança utilizada para os cálculos foi de 99,73%, de acordo com as cartas de controle de Shewhart. Para a realização das reamostras e análises foi utilizado o programa MINITAB.
  • 14. Universidade Presbiteriana Mackenzie - II Jornada de Iniciação Científica 14 Estudo de caso 1 - Número de alunos reunidos diariamente em determinado local durante um intervalo de tempo estabelecido Neste caso foi analisada a quantidade de alunos reunidos durante 25 dias no corredor do 2º andar do prédio da Escola de Engenharia da Universidade Presbiteriana Mackenzie em algum horário pertencente ao intervalo das 16:30 h às 16:40 h. O número de alunos foi observado diariamente em um horário sorteado aleatoriamente dentro do intervalo estipulado. A partir desta amostra de tamanho 25, foram realizadas mil reamostragens. Através da ferramenta Bootstrap foi estimado o número médio de alunos presentes naquele determinado local do corredor no horário entre 16:30 h e 16:40 h. Estudo de caso 2 - Transporte utilizado pelos alunos no seu deslocamento diário para a Universidade Foi realizada, no segundo semestre de 2005, uma pesquisa para se estimar a probabilidade de um aluno do curso Engenharia de Produção da Escola de Engenharia da Universidade Presbiteriana Mackenzie utilizar transporte público no seu deslocamento de ida e/ou volta para a universidade. Foi realizada uma amostragem por conglomerado no qual foi sorteado o sexto semestre. Foi perguntado para seus 33 alunos matriculados se eles utilizavam, na maior parte dos dias, transporte público como meio de locomoção para a universidade. Quando a resposta foi positiva a variável foi codificada como 1 e quando negativa a variável foi codificada como 0. Foi então calculada a probabilidade p de o aluno utilizar transporte público. Os 33 dados coletados formaram a amostra mestre. Com base nesta amostra, foram realizadas 1000 reamostras de mesmo tamanho e aplicada à técnica Bootstrap a fim de calcular os intervalos de confiança Bootstrap para a proporção de respostas afirmativas. Estes resultados foram comparados com o
  • 15. Universidade Presbiteriana Mackenzie - II Jornada de Iniciação Científica 15 intervalo de confiança padrão. Foi também calculado o intervalo de confiança Bootstrap para a variância desta proporção. Estudo de Caso 3 - Medição de parafusos Foi selecionada uma amostra casual simples de cinqüenta parafusos pertencentes a uma caixa fechada contendo 200 parafusos de um mesmo lote. Foi realizada a medição destes cinqüenta parafusos no laboratório de física da Universidade Presbiteriana Mackenzie utilizando como dispositivo de medição dimensional um paquímetro digital ajustado em milímetros, devidamente calibrado. Para realizar a amostragem os 200 parafusos pertencentes a uma caixa foram numerados. Destes, foram sorteados cinqüenta parafusos para compor a amostra mestre. A caixa de parafusos representa a população de onde foi retirada a amostra mestre. A partir desta amostra de cinqüenta comprimentos de parafusos, foram geradas mil reamostras de mesmo tamanho. Estudo de caso 4 - Tempo de espera na fila do Benjamim Abrahão Neste caso o objetivo era analisar o tempo de espera desde o momento em que um indivíduo entra na fila da Padaria Benjamim Abrahão situada na praça de alimentação da Universidade Presbiteriana Mackenzie até o momento em que este mesmo indivíduo recebe seu pedido. Os dados foram coletados entre os horários de 19:30 h e 20:20 h de um dia letivo. A coleta dos dados foi feita de forma sistemática, observando-se o intervalo de tempo de espera e atendimento da primeira pessoa de cada três que entravam na fila. O objetivo desse estudo de caso foi obter um intervalo de confiança para média do tempo total de espera e atendimento ao cliente utilizando a técnica de Bootstrap.
  • 16. Universidade Presbiteriana Mackenzie - II Jornada de Iniciação Científica 16 Utilizou-se para medição relógios digitais ajustados no mesmo horário e duas pessoas, uma situada na entrada da fila e a outra na saída. A pessoa da entrada distribuía a ficha com o horário em que o indivíduo participante da pesquisa entrava na fila e a pessoa da saída recolhia a ficha e anotava o horário de saída. Foi coletada uma amostra mestre de tamanho 60. A partir desses dados, foram realizadas 1000 reamostras. Estudo de caso 5 – Tempo de processamento de um digestor de vísceras de aves Segundo Ferroli et al. (2002) as fábricas de farinhas e óleos de subprodutos de origem animal estão em processo de evolução e mudanças. Para que estas consigam acompanhar as constantes modificações que ocorrem no mercado, uma de suas principais preocupações é reduzir a emissão de poluentes ao meio ambiente. O digestor é a principal máquina em uma graxaria e está envolvido diretamente no aproveitamento de resíduos de indústrias de transformação de produtos animais. Foi analisado o funcionamento de um digestor existente em uma fábrica onde funcionam seis digestores de vísceras de aves. Os dados para este caso foram retirados do artigo “Fábrica de subprodutos de origem animal: a importância do balanceamento das cargas dos digestores de vísceras” de Ferroli et al. (2002). A variável medida foi o tempo de processamento de um digestor de vísceras de aves. Para cada um dos 43 conjuntos de valores medidos contendo 6 observações cada, foi calculada a amplitude R. Essas 43 amplitudes representaram amostra mestre e a partir destas foram geradas 1000 reamostras. Neste caso a estatística será a estimativa do desvio padrão do processo igual a 2d R onde d2 é um valor tabelado.
  • 17. Universidade Presbiteriana Mackenzie - II Jornada de Iniciação Científica 17 Este caso é um exemplo de aplicação da técnica de Bootstrap na área de Engenharia de Produção. Estudo de caso 6 - Verificação da adesão dos alunos a um programa de uso racional de água Considerando que a água potável é um recurso raro no planeta, sua economia torna-se absolutamente necessária. A Universidade Presbiteriana Mackenzie, consciente deste problema, vem, desde 2002, implantando um programa de Uso Racional de Água dentro do Campus Itambé. (CYMROT et al.) Várias medidas foram tomadas desde então, dentre elas, destacam-se as seguintes medidas: • Foram registrados, em todos os prédios, todos os pontos de água, como torneiras, bacias, mictórios, chuveiros, etc. • A partir de 2002, foram trocadas torneiras de lavatório por modelos mais econômicos, com fechamento automático de água. Em 2004, cerca de 60% das torneiras já haviam sido trocadas. Segundo a SABESP (Companhia de Saneamento Básico do Estado de São Paulo), esta tal medida resulta em uma economia de consumo em torno de 20%. • No começo de 2003, foi oferecido um curso na SABESP de “caça vazamentos” a todos os funcionários da manutenção, inclusive encarregados. Este curso propiciou a localização de inúmeros vazamentos, sendo então trocadas às tubulações necessárias. Estas mudanças acabaram provocando algumas modificações nas configurações da rede hidráulica do Campus Itambé. • Foram colocados adesivos para conscientização da necessidade de se economizar água através do uso adequado de torneiras e bacias na maioria dos sanitários existentes no Campus Itambé.
  • 18. Universidade Presbiteriana Mackenzie - II Jornada de Iniciação Científica 18 Este estudo foi realizado com o objetivo de verificar a adesão dos alunos do curso de Engenharia de Produção da Universidade Presbiteriana Mackenzie em relação ao programa. Foi realizada uma amostragem casual simples e coletados os dados relativos aos cinqüenta alunos sorteados. Três perguntas foram feitas a estes alunos, a saber: - O aluno tinha notado os adesivos com avisos alertando quanto à necessidade do uso racional de água? - O aluno tinha reparado na alteração dos dispositivos de funcionamento das torneiras de modo que estas permanecessem abertas somente o tempo necessário? - O aluno colabora com a campanha procurando economizar a água quando de sua utilização dentro do Campus Itambé da Universidade Presbiteriana Mackenzie? Para cada variável estudada foram realizadas 1000 reamostras a partir das respostas obtidas. RESULTADOS E DISCUSSÃO Estudo de caso 1: Número de alunos reunidos diariamente em determinado local durante um intervalo de tempo estabelecido Ao realizar a análise descritiva para a amostra mestre, verificou-se a existência de alguns possíveis outliers que foram mantidos na amostra. O histograma e o gráfico de probabilidade normal utilizando o método de Anderson Darling para os dados da amostra mestre apresentados nos Gráficos 1 e 2 confirmam a aderência à distribuição Normal (p = 0,362).
  • 19. Universidade Presbiteriana Mackenzie - II Jornada de Iniciação Científica 19 GRÁFICO 1 - Histograma da amostra mestre GRÁFICO 2 - Gráfico de probabilidade normal para a amostra mestre A Tabela 1 apresenta a amostra mestre, algumas reamostras, a média e a variância para a amostra mestre e para as reamostras. Cada reamostra foi gerada atribuindo probabilidade igual a 1/25 para cada observação da amostra mestre e realizando a amostragem com reposição. TABELA 1 - Amostra mestre, reamostras, média e variância para a amostra mestre e reamostras. Pode-se afirmar que a média da população tem distribuição Normal. Realizadas as 1000 reamostragens com reposição, plotado o histograma (Gráfico 3) e realizado o teste de aderência de Anderson Darling (p = 0,082) para as C1 Percent 282624222018161412 99 95 90 80 70 60 50 40 30 20 10 5 1 Mean 0,362 19,52 StDev 3,070 N 25 AD 0,387 P-Value Probability Plot of C1 Normal C1 Frequency 2725232119171513 7 6 5 4 3 2 1 0 Mean 19,52 StDev 3,070 N 25 Histogramof C1 Normal observação amostra mestre reamostra 1 reamostra 2 reamostra 3 ... reamostra 1000 1 24 25 18 21 22 2 17 20 17 25 17 3 19 18 17 20 18 4 20 19 18 26 22 5 22 20 23 21 18 6 26 17 17 19 22 7 18 19 22 18 20 8 20 17 14 14 23 9 17 17 26 14 17 10 19 19 22 20 17 11 14 25 17 22 22 12 18 17 21 25 19 13 25 22 23 14 18 14 17 25 22 18 17 15 14 23 19 26 19 16 23 17 24 23 17 17 18 25 22 17 21 18 17 17 22 20 17 19 22 19 26 17 19 20 19 24 17 21 17 21 20 20 17 22 22 22 21 17 19 22 25 23 19 17 20 20 14 24 17 22 18 19 18 25 22 14 17 22 18 média 19,5200 19,8000 19,9200 20,2400 19,1600 variância 9,4267 3,2146 3,1612 3,4434 2,5768
  • 20. Universidade Presbiteriana Mackenzie - II Jornada de Iniciação Científica 20 médias das reamostras é possível verificar que a distribuição da estatística média das reamostras Bootstrap se aproxima da distribuição desta mesma estatística na população. GRÁFICO 3 - Histograma das 1000 reamostras das médias Os valores da média e variância da amostra mestre foram respectivamente iguais a 19,52 e 9,4267. O vício calculado para a média foi igual a – 0,0211, considerado pequeno (0,11% do valor da média da amostra mestre). Nestas condições foram calculados os intervalos de confiança para as médias utilizando a técnica de reamostragem Boostrap pelos métodos Percentil = [18,3200 ; 20,6800] e pelo método Bootstrap t = [18,2804 ; 20,7596] que resultaram bem próximos. O histograma das variâncias (Gráfico 4) apresenta uma forma diferente do esperado caso a distribuição fosse Normal e o teste de Anderson Darling (Gráfico 5) forneceu valor de p menor que 0,005. GRÁFICO 4 - Histograma para variância das 1000 reamostras GRÁFICO 5 - Gráfico de probabilidade normal para a variância das 1000 reamostras reamostras Frequency 22,221,621,020,419,819,218,618,0 140 120 100 80 60 40 20 0 Mean 19,50 StDev 0,6006 N 1000 Histogram of reamostras Normal variancias Frequency 17,515,012,510,07,55,02,5 100 80 60 40 20 0 Mean 9,109 StDev 2,337 N 1000 Histogram of variancias Normal variancias Percent 20151050 99,99 99 95 80 50 20 5 1 0,01 Mean <0,005 9,109 StDev 2,337 N 1000 AD 1,196 P-Value Probability Plot of variancias Normal
  • 21. Universidade Presbiteriana Mackenzie - II Jornada de Iniciação Científica 21 Desta forma os intervalos de confiança Bootstrap pelo método t e Percentil não são muito confiáveis uma vez que a suposição de normalidade não se verificou. Neste caso é aconselhável o cálculo por métodos como BCPB e BCa. O cálculo de intervalos de confiança para a variância através dos métodos BCPB = [5,6034 ; 14,9469] e BCa = [4,1667 ; 15,3657] resultam em valores mais precisos devido a adequação desses à presença de um viés igual a – 0,3173, considerado grande (3,37 % do valor da variância da amostra mestre). O valor da constante de aceleração “a” para a variância é 0,05119. O intervalo de confiança Bootstrap Percentil é [4,7599 ; 13,7515]. Como o vício foi negativo, isto é, a estimativa Bootstrap está subestimando o valor da estatística, pode-se observar que o intervalo de confiança BCPB corrige o intervalo de confiança para a direita. O Intervalo de confiança Bootstrap BCa corrige o intervalo para a direita porém, neste caso, amplia seu tamanho devido ao valor da constante “a”. Os intervalos de confiança padrão para a média [18,2526 ; 20,7874] e para a variância [5,7474 ; 18,2435] apresentaram valores próximos aos dos intervalos Bootstrap. Estudo de caso 2: Transporte utilizado pelos alunos no seu deslocamento diário para a Universidade No Gráfico 6 é apresentado o histograma das proporções obtidas nas 1000 reamostras. O teste de aderência de Kolmogorov Smirnov confirma a aderência à distribuição Normal das proporções estimadas nas 1000 reamostras (p > 0,150). O Gráfico 7 apresenta o Box Plot para as proporções nas 1000 reamostras onde é notada a simetria da distribuição. Foram encontrados quatro possíveis outliers, a saber: 0,8182; 0,7879; 0,3030; 0,2727 mantidos na amostra.
  • 22. Universidade Presbiteriana Mackenzie - II Jornada de Iniciação Científica 22 Proporção Freqüência 0,800,720,640,560,480,400,32 160 140 120 100 80 60 40 20 0 Mean 0,5451 StDev 0,08433 N 1000 Histograma da proporção de alunos usuários de transporte público Proporção 0,8 0,7 0,6 0,5 0,4 0,3 0,2 Boxplot da proporção de alunos usuários de transporte público GRÁFICO 6 - Histograma das proporções nas 1000 reamostras GRÁFICO 7 - Boxplot da proporção de alunos usuários de transporte público nas 1000 reamostras Como a distribuição é Normal, o intervalo de Confiança Bootstrap t pode ser utilizado e deve coincidir com os intervalos de Confiança Bootstrap Percentil. A amostra mestre apresentou uma proporção estimada de alunos que utilizavam na maior parte dos dias transporte público como meio de locomoção para a universidade igual a 0,5455 com variância da proporção igual a 0,0075. As reamostras apresentaram uma média das proporções igual a 0,5451 com variância da proporção igual a 0,0073. Os intervalos de confiança para a proporção dos alunos que utilizavam na maior parte dos dias transporte público como meio de locomoção para a universidade foram calculados através dos métodos Percentil e Bootstrap t. Os intervalos de confiança para a proporção, calculados através dos três métodos revelaram-se muito próximos, a saber: intervalo de confiança Bootstrap Percentil = [0,3932 ; 0,7273], intervalo de confiança Bootstrap Percentil das Diferenças = [0,3632 ; 0,6973] e intervalo de confiança Bootstrap t = [0,3737 ; 0,7172]. Foi também calculado o intervalo de confiança padrão para a proporção. Para este cálculo foram utilizados os dados da amostra mestre, tendo sido obtido o intervalo [0,3756 ; 0,7153], também bem próximo aos demais intervalos de confiança calculados. O vício encontrado foi de – 0,0004 (0,07% do valor da estatística na amostra mestre).
  • 23. Universidade Presbiteriana Mackenzie - II Jornada de Iniciação Científica 23 O Gráfico 8 apresenta o teste de aderência de Kolmogorov Smirnov no qual não foi confirmada a normalidade da distribuição das variâncias das proporções estimadas nas 1000 reamostras (p < 0,010). variância da proporção Porcentagem 0,0090,0080,0070,0060,0050,004 99,99 99 95 80 50 20 5 1 0,01 Mean 0,007299 StDev 0,0003851 N 1000 KS 0,165 P-Value <0,010 gráfico de probabilidade normal da variância da proporção GRÁFICO 8 - Gráfico de probabilidade normal para as variâncias das proporções de alunos usuários de transporte público nas 1000 reamostras. Devido à falta de normalidade não é indicado o uso do intervalo de confiança Bootstrap t. O intervalo de confiança para a variância da proporção calculado através do método de Percentil foi igual a [0,0060 ; 0,0076]. Como a distribuição de probabilidades da variância é assimétrica e o vício encontrado foi de – 0,0002 (2,67% do valor da estatística na amostra mestre), sendo o estimador tendencioso, a melhor opção é o cálculo dos intervalos de confiança para a variância através dos métodos BCPB e BCa, os quais apresentaram respectivamente os seguintes valores [0,0064 ; 0,0076] e [0,0060 ; 0,0076]. Para obtenção do intervalo de confiança pelo método BCa o valor encontrado para a constante “a” foi igual a 0,005297. Neste caso a correção realizada foi desprezível. Estudo de Caso 3: Medição de parafusos O Gráfico 9 apresenta o histograma das 1000 médias das reamostras Bootstrap. Pode-se notar a forma muito próxima à Normal. O teste de aderência à distribuição Normal realizado pelo método de Anderson Darling confirma esta hipótese (p = 0,156).
  • 24. Universidade Presbiteriana Mackenzie - II Jornada de Iniciação Científica 24 parafusos Frequency 27,1827,1227,0627,0026,9426,8826,82 140 120 100 80 60 40 20 0 Mean 26,99 StDev 0,06374 N 1000 Histogram of parafusos Normal GRÁFICO 9 - Histograma das médias das mil reamostras dos comprimentos dos parafusos A média da amostra mestre encontrada foi 26,9908, sua mediana 27,0050 e sua variância apresentada por 0,2043. É possível verificar a simetria dos dados que compõe a amostra mestre pela proximidade do valor da mediana e o valor da média. Utilizando a técnica Bootstrap, calculou-se os intervalos de confiança para a média e para a variância de forma paramétrica e não paramétrica através do método Percentil. No cálculo do intervalo de confiança Bootstrap Percentil não paramétrico para as médias, os valores obtidos foram [26,8770 ; 27,1178] e o intervalo de confiança Bootstrap Percentil das Diferenças foi igual a [26,8657 ; 27,1066]. O Intervalo de Confiança Bootstrap Percentil paramétrico apresentou os seguintes valores [26,8645 ; 27,1035]. Também foi calculado o intervalo de confiança Bootstrap t igual a [26,8627 ; 27,1189]. Como a distribuição das médias dos comprimentos dos parafusos é conhecida, foi possível realizar o cálculo do intervalo de confiança padrão. O intervalo obtido foi [26,8610 ; 27,1206]. A média das médias nas reamostras foi igual a 26,9928. O valor do viés na forma não paramétrica calculado com os dados das reamostras foi igual a 0,0020, considerado pequeno (0,0007% do valor da estatística na amostra mestre). Neste caso os métodos Bootstrap t e Bootstrap Percentil de cálculo de intervalo de confiança são adequados e resultaram em valores próximos. Os intervalos de confiança para variância utilizando a técnica Bootstrap forneceram valores próximos, a saber: intervalo de confiança Bootstrap Percentil
  • 25. Universidade Presbiteriana Mackenzie - II Jornada de Iniciação Científica 25 não paramétrico = [0,1313; 0,2740] e Percentil das Diferenças não paramétrico = [0,1296; 0,2723]. Através da aplicação da técnica paramétrica obteve-se o intervalo de confiança Bootstrap Percentil paramétrico = [0,1363 ; 0,2914]. Supondo a distribuição Quiquadrado para a variância dos comprimentos dos parafusos, foi possível calcular o intervalo de confiança igual a [0,1425 ; 0,3172]. A média das variâncias nas reamostras foi igual a 0,1993. O valor do viés para a estimativa da variância foi igual a – 0,0050 considerado grande (2,45% valor da estatística na amostra mestre). Neste caso é aconselhável o cálculo dos intervalos de confiança para a variância através dos métodos BCPB e BCa, os quais apresentaram respectivamente os seguintes valores [0,1425 ; 0,2887] e [0,1230 ; 0,3022]. Para obtenção do intervalo de confiança pelo método BCa o valor encontrado para a constante “a” foi igual a 0,043243. Estudo de caso 4: Tempo de espera na fila do Benjamim Abrahão Através da construção do Box Plot, foram encontrados os possíveis outliers 235,283 ; 232,850 ; 189,0167 ; 188,017 ; 187,650, os quais foram mantidos na amostra mestre uma vez que tais dados extremos realmente ocorreram. Segundo Prado (1999), o tempo de espera em uma fila tem em geral distribuição exponencial, porém, neste caso como foi computado o tempo de espera, tempo de atendimento e tempo de pagamento, a distribuição resultante não se comportou como exponencial. Deve-se salientar que a forma de pagamento determinou, de maneira marcante, a diferença nos tempos totais computados. Se o comprador utilizava dinheiro a operação era bem rápida, porém, se ele usava algum cartão eletrônico poderia ser consumido um tempo muito maior. O histograma (Gráfico 10) indicou a forma da distribuição do tempo total próxima da Normal. O teste de aderência pelo método de Anderson Darling confirmou a aderência à distribuição Normal (p = 0,809).
  • 26. Universidade Presbiteriana Mackenzie - II Jornada de Iniciação Científica 26 Os dados da amostra mestre apresentaram uma média igual a 209,0333. As mil reamostragens foram feitas com reposição e calculadas as estatísticas necessárias para a aplicação da técnica Bootstrap. Os intervalos de confiança para a média foram obtidos pelo método Percentil das Diferenças = [193,9140 ; 223,8027], método Percentil = [194,1488 ; 224,0375] e, sendo a distribuição aproximadamente normal, o cálculo foi realizado pelo método Bootstrap t = [193,9850 ; 224,0817]. Os três intervalos de confiança apresentaram valores próximos. Tempo de atendimento Freqüência 232224216208200192 120 100 80 60 40 20 0 Mean 208,9 StDev 7,520 N 1000 Histograma do tempo de atendimento GRÁFICO 10 - Histograma das 1000 médias das reamostras do tempo de espera e atendimento na fila Foi calculado o intervalo de confiança para a média do modo padrão para que os resultados fossem comparados, a saber: [193,3806 ; 224,6861]. O vício presente para o tempo médio de atendimento foi igual a – 0,1152 (0,055% do valor da estatística na amostra mestre), considerado pequeno. Estudo de caso 5: Tempo de processamento de um digestor de vísceras de aves As amplitudes foram reamostradas e calculado o desvio padrão do processo para essas 1000 reamostras bootstrap. A partir dessas reamostras, foi plotado o histograma que permite verificar a proximidade da distribuição dos desvios padrões do processo com a distribuição Normal. O teste de probabilidade de aderência pelo método de Anderson Darling confirmou esta hipótese (p = 0,537).
  • 27. Universidade Presbiteriana Mackenzie - II Jornada de Iniciação Científica 27 Através da técnica Bootstrap, foram obtidos intervalos de confiança para o desvio padrão do processo pelos métodos Percentil e t. Para o cálculo do intervalo de confiança Bootstrap t foi estimado o desvio padrão do processo da amostra mestre, a saber: 22,6226. Os resultados obtidos pelos intervalos foram respectivamente iguais a [18,3447 ; 26,9005] e [19,0134 ; 26,6287 ] para os métodos Bootstrap t e Percentil. A proximidade dos intervalos ocorre devido à distribuição ser aproximadamente Normal além do vício calculado pela diferença entre a média do desvio padrão das reamostras do processo e o desvio padrão do processo da amostra mestre ser relativamente pequeno, igual a 0,0154 (0,07% do valor da estatística na amostra mestre). Estudo de caso 6: Verificação da adesão dos alunos a um programa de uso racional de água As respostas para as perguntas foram codificadas como zero quando negativas e um quando positivas. Através da técnica Bootstrap, foram calculados os intervalos de confiança para a proporção de respostas afirmativas e seus resultados comparados com o intervalo de confiança padrão. Para cada resposta obtida para as três perguntas, foram geradas 1000 reamostras e obtidos os seguintes resultados: Em relação à percepção de adesivos que estavam sendo colados, foi realizado um teste de aderência à distribuição Normal pelo método de Kolmogorov Smirnov (p > 0,150), o que possibilita o cálculo dos intervalos de confiança Bootstrap pelo método Percentil = [0,5200 ; 0,8000] e pelo método Bootstrap t= [0,5243 ; 0,7957]. Como a distribuição da proporção nas reamostras é aproximadamente Normal, foi possível calcular o intervalo de confiança padrão para proporção e o resultado obtido foi [0,5287 ; 0,6954]. Todos os intervalos resultaram muito próximos. Para as 1000 reamostras dos dados que representam o resultado da pesquisa sobre o aluno que havia notado a alteração dos dispositivos de
  • 28. Universidade Presbiteriana Mackenzie - II Jornada de Iniciação Científica 28 funcionamento das torneiras, foram calculadas as proporções cuja distribuição foi considerada Normal através do teste de aderência pelo método de Kolmogorov Smirnov (p > 0,150). Os intervalos de confiança Bootstrap Percentil e t foram calculados e seus resultados comparados com o cálculo do intervalo de confiança padrão para proporção. Os resultados obtidos foram: intervalo de confiança Bootstrap t = [0,2623 ; 0,5377], intervalo de confiança Bootstrap Percentil = [0,2800 ; 0,5400] e intervalo de confiança padrão = [0,2642 ; 0,4183], todos muito próximos. O teste de aderência realizado pelo método de Kolmogorov Smirnov para a distribuição das proporções nas 1000 reamostras das respostas dos alunos quanto à colaboração na diminuição do consumo de água confirma a aderência à distribuição Normal (p >0,150). Os valores encontrados nos cálculos dos intervalos de confiança Bootstrap Percentil, t e padrão foram muito próximos, a saber: intervalo de confiança Bootstrap t = [0,4228 ; 0,6972], intervalo de confiança Bootstrap Percentil = [0,4200 ; 0,7000] e intervalo de confiança padrão = [0,4224 ; 0,5897]. CONCLUSÃO Através da realização dos estudos de caso, foi possível verificar a adequação da técnica Bootstrap em situações presentes no cotidiano. Os intervalos de confiança e as estimativas encontradas em todos os estudos de caso foram coerentes e confirmaram a confiabilidade do método para estimação de parâmetros em situações onde as distribuições das estimativas dos parâmetros eram conhecidas. O método também tornou possível a estimação de intervalos de confiança em situações onde as distribuições dos parâmetros são desconhecidas ou complexas. Verificou-se, pelos casos estudados, a generalidade de aplicação da técnica de estimação através da reamostragem e que o método Bootstrap permite que o cálculo do intervalo de confiança seja realizado de modo mais simples e
  • 29. Universidade Presbiteriana Mackenzie - II Jornada de Iniciação Científica 29 abrangente para diversas estatísticas, mesmo quando as distribuições de probabilidades das mesmas são desconhecidas. Foi possível estabelecer o intervalo de confiança adequado para cada situação diferente. Quando a estatística do parâmetro estudado tinha distribuição Normal, os intervalos de confiança Bootstrap pelos métodos t e Percentil coincidiram e foram adequados. Quando a distribuição da estatística do parâmetro estudado não era Normal, porém existia uma transformação monotônica para a estatística do parâmetro que tornasse sua distribuição Normal, o intervalo Bootstrap Percentil foi adequado. Nos casos em que a distribuição não era Normal com a estimativa pontual Bootstrap muito viciada ou a assimetria presente de modo muito forte, foram utilizados os métodos BCPB e BCa. Quando era conhecida a distribuição da estatística do parâmetro, os intervalos BCPB e BCa resultaram mais próximos do intervalo padrão que o intervalo Bootstrap Percentil, confirmando a melhora na estimação com o uso dos intervalos corrigidos. O valor pequeno do viés é uma indicação de que os valores estimados devem estar próximos dos verdadeiros valores. Para cada situação deve ser escolhida a técnica de cálculo de intervalo Bootstrap mais adequada. Quando houve mais de uma técnica possível de ser utilizada, verificou-se que os intervalos de confianças resultaram muito próximos.
  • 30. Universidade Presbiteriana Mackenzie - II Jornada de Iniciação Científica 30 REFERÊNCIAS [1] ANDREWS, D. W. K.; BUCHINSKY, M. On the number of bootstrap repetitions for BCa confidence intervals. Econometric Theory, v. 18, n. 4, p. 962-984, Aug. 2002. [2] CYMROT, R.; ROCHA, A. J. F.; MARTINS, A. J.; MOUETTE, D.; DURO, M. A. S.; MONEZI JUNIOR, O.; ANTUNES, V. R. G. L.; ZIVIERI, J. N. Estudo do uso racional da água implantado em um campus da Universidade Presbiteriana Mackenzie. In: WORLD CONGRESS ON COMPUTER SCIENCE, ENGINEERING AND TECHNOLOGY EDUCATION, 2006, Itanhaém. Anais … São Vicente: COPEC, 2006. 1 CD-ROM. [3] DAVISON, A. C.; HINKLEY, D. V. Bootstrap methods and their application. Cambridge: Cambridge University Press, 1997. [4] EFRON, B.; TIBSHIRANI, R. Bootstrap methods for standard errors, confidence intervals, and other measures of statistical accuracy. Statistical Science , v. 1, n. 1, p. 55–77, Feb. 1986. [5] FERROLI, P. C. M.; FIOD NETO, M.; CASAROTTO, N.; CASTRO, J. E. Fábrica de subprodutos de origem animal: a importância do balanceamento das cargas dos digestores de vísceras. Revista Produção, v. 10, n. 2, p. 5-9, 2002. [6] HALL, P. Theoretical comparison of bootstrap confidence intervals. Annals of Statistics, v. 16, n. 3, p. 927–953, Sep. 1988. [7] HESTERBERG, T.; MOORE, D. S.; MONAGHAN, S.; CLIPSON, A.; EPSTEIN, R. Bootstrap methods and permutation tests. In: The practice of business statistics: using data for decisions. New York: W.H. Freeman, 2003. cap. 18. [8] GONZÁLEZ MANTEIGA, W.; PRADA SÁNCHEZ, J. M.; ROMO URROZ, J. J. The Bootstrap: a review. Computational Statistics, v. 9, n. 1, p. 165-205, 1994. [9] MONTGOMERY, D. C.; PECK, E. A.; VINING, G. G. Introduction to linear regression analysis. 3rd ed. New York: Wiley, 2001. [10] MONTGOMERY, D. C.; RUNGER, G. C. Estatística aplicada e probabilidade para engenheiros. 2. ed. Rio de Janeiro: LTC, 2003.
  • 31. Universidade Presbiteriana Mackenzie - II Jornada de Iniciação Científica 31 [11] NAVIDI, W. C. Statistics for engineers and scientists. Boston: McGraw-Hill, c2006. [12] PEREIRA, J. E.; SILVA, J. F. V.; DIAS, W. P.; SOUZA, G. S. Intervalo de confiança “Bootstrap” como ferramenta para classificar raças do nematóide de cisto de soja. Pesquisa Agropecuária Brasileira, Brasília, v. 35, n. 2, fev. 2000. Disponível em: http://www.scielo.br/scielo.php?script=sci_arttext&pid=S0100- 204X2000000200005 Acesso em: 9 jun. 2006. [13] PRADO, D. S. Teoria das filas e da simulação. Belo Horizonte: Desenvolvimento Gerencial, 1999. (Pesquisa operacional, v. 2).