Lecciones 05 Esc. Sabática. Fe contra todo pronóstico.
Muestreo equilibrado eficiente, el método del cubo
1. NAZIOARTEKO ESTATISTIKA MINTEGIA
SEMINARIO INTERNACIONAL DE ESTADÍSTICA
2010
Muestreo Equilibrado Eficiente:
El Método del Cubo
Yves Tillé
EUSKAL ESTATISTIKA ERAKUNDEA
INSTITUTO VASCO DE ESTADÍSTICA
52
2. Muestreo Equilibrado Eficiente:
´
El Metodo del Cubo
Yves Till´
e
Institut de Statistique, Universit´ de Neuchˆtel
e a
Pierre ` Mazel 7, 2002 Neuchˆtel, Suiza
a a
email : yves.tille@unine.ch
29 de septiembre de 2010
3. Lanketa / Elaboración:
Euskal Estatistika Erakundea
Instituto Vasco de Estadística (EUSTAT)
Argitalpena / Edición:
Euskal Estatistika Erakundea
Instituto Vasco de Estadística
Donostia – San Sebastián, 1 – 01010 Vitoria – Gasteiz
Euskal AEko Administrazioa
Administración de la C.A. de Euskadi
Ale-kopurua / Tirada:
500 ale / ejemplares
XI-2010
Inprimaketa eta Koadernaketa:
Impresión y Encuadernacion:
Estudios Gráficos ZURE S.A.
Ctra. Lutxana-Asua, 24 A
Erandio-Goikoa (BIZKAIA)
I.S.B.N.: 978-84-7749-465-2
Lege-gordailua / Depósito Legal: BI-2699-10
4. AURKEZPENA
Nazioarteko Estatistika Mintegia antolatzean, hainbat helburu bete nahi ditu EUSTAT-Euskal
Estatistika Erakundeak:
– Unibertsitatearekiko eta, batez ere, Estatistika-Sailekiko lankidetza bultzatzea.
– Funtzionarioen, irakasleen, ikasleen eta estatistikaren alorrean interesatuta egon daitezkeen guz-
tien lanbide-hobekuntza erraztea.
– Estatistika alorrean mundu mailan abangoardian dauden irakasle eta ikertzaile ospetsuak Eus-
kadira ekartzea, horrek eragin ona izango baitu, zuzeneko harremanei eta esperientziak ezagu-
tzeari dagokienez.
Jarduera osagarri gisa, eta interesatuta egon litezkeen ahalik eta pertsona eta erakunde gehienetara
iristearren, ikastaro horietako txostenak argitaratzea erabaki dugu, beti ere txostengilearen jato-
rrizko hizkuntza errespetatuz; horrela, gai horri buruzko ezagutza gure herrian zabaltzen lagun-
tzeko.
Vitoria-Gasteiz, 2010eko Urria
JAVIER FORCADA SAINZ
EUSTATeko Zuzendari Nagusia
PRESENTATION
In promoting the International Statistical Seminars, EUSTAT-The Basque Statistics Institute
wishes to achieve several aims:
– Encourage the collaboration with the universities, especially with their statistical departments.
– Facilitate the professional recycling of civil servants, university teachers, students and whoever
else may be interested in the statistical field.
– Bring to the Basque Country illustrious professors and investigators in the vanguard of statis-
tical subjects, on a worldwide level, with the subsequent positive effect of encouraging direct
relationships and sharing knowledge of experiences.
As a complementary activity and in order to reach as many interested people and institutions as
possible, it has been decided to publish the papers of these courses, always respecting the original
language of the author, to contribute in this way towards the growth of knowledge concerning this
subject in our country.
Vitoria-Gasteiz, October 2010
JAVIER FORCADA SAINZ
General Director of EUSTAT
III
5. PRESENTACION
Al promover los Seminarios Internacionales de Estadística, el EUSTAT-Instituto Vasco de Esta-
dística pretende cubrir varios objetivos:
– Fomentar la colaboración con la Universidad y en especial con los Departamentos de Estadística.
– Facilitar el reciclaje profesional de funcionarios, profesores, alumnos y cuantos puedan estar
interesados en el campo estadístico.
– Traer a Euskadi a ilustres profesores e investigadores de vanguardia en materia estadística, a nivel
mundial, con el consiguiente efecto positivo en cuanto a la relación directa y conocimiento de
experiencias.
Como actuación complementaria y para llegar al mayor número posible de personas e Institucio-
nes interesadas, se ha decidido publicar las ponencias de estos cursos, respetando en todo caso la
lengua original del ponente, para contribuir así a acrecentar el conocimiento sobre esta materia
en nuestro País.
Vitoria-Gasteiz, Octubre 2010
JAVIER FORCADA SAINZ
Director General de EUSTAT
IV
6. BIOGRAFI OHARRAK
Yves Tillé doktorea da Bruselako Unibertsitate Librean, estatistikan. 2001 ezkeroztik irakasle
dihardu Suitzako Neuchâtel unibertsitatean. Inkesta-estatistika eta laginketaren teorian ari da
ikertzen.
BIOGRAPHICAL SKETCH
Yves Tillé was awarded his pHD in Statistics by the Free University of Brussels. He has been a
professor at Neuchâtel University in Switzerland since 2001. His fields of research are survey
statistics and sampling theory.
NOTAS BIOGRÁFICAS
Yves Tillé ha logrado un doctorado en estadística de la Universidad libre de Bruselas. Desde
2001, es profesor en la Universidad de Neuchâtel en Suiza. Sus campos de investigaciones son la
estadística de encuesta y la teoría del muestreo.
V
7. ´
Indice general
1. Introducci´n
o 3
2. Poblaci´n, dise˜ o muestral, y estimaci´n
o n o 4
2.1. Poblaci´n finita . . . . . . . . . . . . . . . . . . . . .
o . . . . . . . . . . 4
2.2. Dise˜o del Muestreo . . . . . . . . . . . . . . . . . .
n . . . . . . . . . . 5
2.3. El estimador de Horvitz-Thompson . . . . . . . . . . . . . . . . . . . . 6
2.4. Estimaci´n de N . . . . . . . . . . . . . . . . . . . .
o . . . . . . . . . . 7
2.5. Mala propiedad del estimador de Horvitz-Thompson . . . . . . . . . . 7
2.6. El problema de los elefantes de Basu (1971) . . . . . . . . . . . . . . . 7
3. Muestreo simple 9
3.1. Muestreo simple sin reemplazamiento (o muestro aleatorio simple m.a.s.) 9
3.2. La varianza del dise˜o simple sin reemplazamiento . . . . . . . . . . . .
n 10
3.3. Algoritmo de selecci´n-rechazo . . . . . . . . . . . . . . . . . . . . . . .
o 11
3.4. Dise˜os simples con reemplazamiento . . . . . . . . . . . . . . . . . . .
n 12
3.5. Comparaci´n de los dise˜os simples . . . . . . . . . . . . . . . . . . . .
o n 13
4. Estratificaci´no 14
4.1. Introducci´n . . . . . . . . . . . . . . . . . . .
o . . . . . . . . . . . . . . 14
4.2. Poblaci´n y estratos . . . . . . . . . . . . . .
o . . . . . . . . . . . . . . 14
4.3. Muestra, probabilidad de inclusi´n, estimaci´n
o o . . . . . . . . . . . . . 15
4.4. Probabilidad de inclusi´n . . . . . . . . . . . .
o . . . . . . . . . . . . . . 16
4.5. Plan estratificado con afijaci´n proporcional .
o . . . . . . . . . . . . . . 17
4.6. Dise˜o estratificado ´ptimo para el total . . .
n o . . . . . . . . . . . . . . 19
4.7. Nota sobre la optimalidad en estratificaci´n .
o . . . . . . . . . . . . . . 20
4.8. Optimalidad y coste . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
4.9. Tama˜o de muestra m´
n ınimo . . . . . . . . . . . . . . . . . . . . . . . . 20
5. Muestreo con probabilidades desiguales 22
5.1. Informaci´n auxiliar y probabilidades de inclusi´n . . . . . .
o o . . . . . . 22
5.2. C´lculo de las probabilidades de inclusi´n . . . . . . . . . .
a o . . . . . . 22
5.3. Muestreo con probabilidades desiguales con reemplazamiento . . . . . . 23
5.4. Dise˜o de Poisson . . . . . . . . . . . . . . . . . . . . . . . .
n . . . . . . 24
5.5. Muestreo de entrop´ m´xima con tama˜o fijo . . . . . . . .
ıa a n . . . . . . 25
5.6. El dise˜o muestral sistem´tico . . . . . . . . . . . . . . . . .
n a . . . . . . 25
1
8. 5.7. El m´todo de escisi´n . . . . . . . . . . . . . . . .
e o . . . . . . . . . . . . 26
5.7.1. Escisi´n en dos partes . . . . . . . . . . .
o . . . . . . . . . . . . 26
5.7.2. Escisi´n en M partes . . . . . . . . . . . .
o . . . . . . . . . . . . 28
5.7.3. Dise˜o con un soporte m´
n ınimo . . . . . . . . . . . . . . . . . . . 29
5.7.4. Escisi´n en dise˜os simples . . . . . . . . .
o n . . . . . . . . . . . . 29
5.7.5. El m´todo del pivote . . . . . . . . . . . .
e . . . . . . . . . . . . 30
5.7.6. M´todo de Brewer . . . . . . . . . . . . .
e . . . . . . . . . . . . 31
5.8. Varianza en dise˜os con probabilidades desiguales
n . . . . . . . . . . . . 32
6. Muestreo equilibrado 33
6.1. Introducci´n . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
o . . . 33
6.2. Representaci´n por un cubo . . . . . . . . . . . . . . . . . . . . .
o . . . 34
6.3. Muestras equilibradas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
6.4. Representaci´n gr´fica del problema de redondeado . . . . . . . .
o a . . . 35
6.5. La martingala equilibrada . . . . . . . . . . . . . . . . . . . . . . . . . 38
6.6. Implementaci´n de la fase de vuelo . . . . . . . . . . . . . . . . .
o . . . 38
6.7. Implementaci´n de la fase de aterrizaje . . . . . . . . . . . . . .
o . . . 39
6.7.1. El problema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
6.7.2. Soluci´n 1: programa linear . . . . . . . . . . . . . . . . .
o . . . 40
6.7.3. Soluci´n 2: supresi´n sucesiva de variables . . . . . . . . .
o o . . . 40
6.8. Varianza en un plan equilibrado . . . . . . . . . . . . . . . . . . . . . . 41
6.8.1. Una t´cnica de residuos . . . . . . . . . . . . . . . . . . .
e . . . 41
6.8.2. Aproximaci´n de la varianza . . . . . . . . . . . . . . . . .
o . . . 41
6.8.3. Estimaci´n de la varianza . . . . . . . . . . . . . . . . . .
o . . . 42
6.9. Muestreo equilibrado en pr´ctica . . . . . . . . . . . . . . . . . .
a . . . 42
6.9.1. Inter´s de muestreo equilibrado . . . . . . . . . . . . . . .
e . . . 42
6.9.2. Muestreo Equilibrado Contra Otras T´cnicas de Muestreo
e . . . 44
6.9.3. Elecci´n de las variables de equilibrio . . . . . . . . . . . .
o . . . 44
6.9.4. Equilibrio versus Calibraci´n . . . . . . . . . . . . . . . . .
o . . . 45
6.9.5. Precisi´n de las ecuaciones de equilibrio . . . . . . . . . .
o . . . 46
6.9.6. Principales Implementaciones de muestreo equilibrado . . . . . . 46
2
9. Cap´
ıtulo 1
Introducci´n
o
Este peque˜o libro ha sido escrito a ra´ de una invitaci´n al Instituto Vasco de
n ız o
Estad´ ıstica. El objetivo era presentar el m´todo del cubo para seleccionar muestras
e
equilibradas y de mostrar el inter´s del m´todo. Sin embargo, he empezado por una pre-
e e
sentaci´n general de la teor´ de muestreo, con las definiciones del dise˜o de muestreo,
o ıa n
del estimador de Horvitz-Thompson y su varianza. Tambi´n, he desarrollado dos cap´
e ıtu-
los sobre los dise˜os simples y estratificados ya que el muestreo equilibrado es una
n
generalizaci´n de estos dise˜os. El largo cap´
o n ıtulo sobre los dise˜os con probabilidades
n
desiguales y el m´todo de escisi´n es una introducci´n al m´todo del cubo. En efecto,
e o o e
el m´todo de escisi´n es el caso particular del algoritmo de cubo cuando solamente
e o
una variable auxiliar proporcional a las probabilidades de inclusi´n es disponible. El
o
m´todo de escisi´n es el que nos lleva a proponer el m´todo del cubo.
e o e
Despu´s de esta larga introducci´n, presentamos el m´todo del cubo: el principio
e o e
del algoritmo, su implementaci´n, el c´lculo de las varianzas y sus estimaciones. Tam-
o a
bi´n hemos a˜adido una larga discusi´n sobre el inter´s del m´todo, sus principales
e n o e e
aplicaciones, sus implementaciones y los limites.
3
10. Cap´
ıtulo 2
Poblaci´n, dise˜ o muestral
o n
y estimaci´n
o
2.1. Poblaci´n finita
o
El objetivo es estudiar una poblaci´n finita U = {1, . . . , N } de tama˜o N . La
o n
variable de inter´s y toma el valor yk , k ∈ U. Queremos estimar una funci´n de inter´s
e o e
de los yk ,
θ = f (y1 , . . . , yk , . . . , yN ).
Por ejemplo, el total o la media
1
Y = yk , e Y = yk .
k∈U
N k∈U
porque se puede escribir
N= 1.
k∈U
La varianza
2 1
σy = (yk − Y )2 .
N k∈U
La cuasivarianza
2 1
Sy = (yk − Y )2 .
N − 1 k∈U
Existen funciones no lineales de los yk como un ratio
Y
R= ,
X
donde
X= xk .
k∈U
Un ratio es una funci´n no lineal de los valores yk . Existen tambi´n funciones m´s
o e a
complejas como un coeficiente de correlaci´n, la mediana, o los coeficientes de
o
desigualdades.
4
11. 2.2. Dise˜ o del Muestreo
n
Una muestra s es un subconjunto de la poblaci´n s ⊂ U. Un dise˜o muestral p(s)
o n
es una distribuci´n de probabilidad sobre todas las muestras posibles
o
p(s) = 1.
s⊂U
La muestra aleatoria S toma el valor s con la probabilidad
Pr(S = s) = p(s).
Las variables indicadoras son definidas por :
1 si la unidad k ∈ S
Ik =
0 si la unidad k ∈ S.
/
La probabilidad de inclusi´n es la probabilidad que la unidad k sea seleccionada en la
o
muestra aleatoria :
πk = Pr(k ∈ S) = p(s) = E(Ik ) = .
s k
La probabilidad de inclusi´n de segundo orden es la probabilidad que dos unidades
o
distintas sean seleccionadas conjuntamente en la muestra :
πk = E(Ik I ) = Pr(k y ∈ S) = p(s).
s k,
Adem´s
a
πk (1 − πk ) si k =
∆k = Cov(Ik , I )
πk − πk π si k =
Si el dise˜o muestral es de tama˜o fijo, entonces
n n
πk = n.
k∈U
En effecto,
πk = E(Ik ) = E Ik = E(n) = n.
k∈U k∈U k∈U
Adem´s, es posible demostrar que, para un dise˜o muestral de tama˜o fijo,
a n n
πk = nπk con πkk = πk .
∈U
5
12. 2.3. El estimador de Horvitz-Thompson
El estimador de Horvitz-Thompson para el total viene dado por
yk
Yπ = ,
k∈S
πk
y para la media
1 yk
Yπ = .
N k∈S
πk
El estimador de Horvitz-Thompson es insesgado, si πk > 0, k ∈ U. En efecto
yk
E Yπ = E
k∈S
πk
yk
= E Ik
k∈U
πk
yk
= E (Ik )
k∈U
πk
yk
= πk
k∈U
πk
= yk
k∈U
= Y.
La varianza del estimador de Horvitz-Thompson es
ˆ yk
var Yπ = var Ik
k∈U
πk
2
yk yk y
= 2
var(Ik ) + Cov(Ik , I )
k∈U
πk k∈U ∈U
πk π
2
yk yk y
= πk (1 − πk ) + ∆k . (2.1)
π2
k∈U k k∈U ∈U
πk π
=k
Se puede demostrar que con una muestra de tama˜o fijo
n
2
ˆ −1 yk y
var Yπ = − ∆k . (2.2)
2 k∈U ∈U
πk π
=k
La varianza puede estimarse sin sesgo por
2
ˆ yk yk y ∆ k
var Yπ = 2
(1 − πk ) + . (2.3)
k∈S
πk k∈S ∈S
πk π πkl
=k
6
13. Si el dise˜o es de tama˜o fijo, se puede tambi´n estimar la varianza por
n n e
2
ˆ −1 yk y ∆k
var Yπ = − . (2.4)
2 k∈S ∈S
πk π πk
=k
2.4. Estimaci´n de N
o
Sabiendo que N es un total, se puede escribir:
N= 1,
k∈U
Podemos estimar N sin sesgo por el estimador de Horvitz-Thompson
1
Nπ = .
k∈S
πk
2.5. Mala propiedad del estimador de Horvitz-Thompson
El estimador de Horvitz-Thompson tiene una mala propiedad, cuando la variable
es constante, yk = C
1 yk 1 C 1 1 Nπ
Yπ = = =C =C
N k∈S
πk N k∈S
πk N k∈S
πk N
2.6. El problema de los elefantes de Basu (1971)
The circus owner is planning to ship his 50 adult elephants and so he needs a rough
estimate of the total weight of the elephants. As weighing an elephant is a cumbersome
process, the owner wants to estimate the total weight by weighing just one elephant.
Which elephant should he weigh ? So the owner looks back on his records and discovers
a list of the elephants’ weights taken 3 years ago. He finds that 3 years ago Sambo the
middle-sized elephant was the average (in weight) elephant in his herd. He checks with
the elephant trainer who reassures him (the owner) that Sambo may still be considered
to be the average elephant in the herd. Therefore, the owner plans to weigh Sambo
and take 50 y (where y is the present weight of Sambo) as an estimate of the total
weight Y = Y1 + Y2 + . . . + Y50 of the 50 elephants. But the circus statistician is
horrified when he learns of the owner’s purposive samplings plan. “How can you get
an unbiased estimate of Y this way ?” protests the statistician. So, together they work
out a compromise sampling plan. With the help of a table of random numbers they
devise a plan that allots a selection probability of 99/100 to Sambo and equal selection
probabilities 1/4900 to each of the other 49 elephants. Naturally, Sambo is selected
and the owner is happy. “How are you going to estimate Y?”, asks the statistician.
“Why ? The estimate ought to be 50y of course,” says the owner. Oh! No! That cannot
7
14. possibly be right,” says the statistician, “I recently read an article in the Annals of
Mathematical Statistics where it is proved that the Horvitz-Thompson estimator is the
unique hyperadmissible estimator in the class of all generalized polynomial unbiased
estimators.” “What is the Horvitz-Thompson estimate in this case?” asks the owner,
duly impressed. “Since the selection probability for Sambo in our plan was 99/100,”
says the statistician, “the proper estimate of Y is 100y/99 and not 50y.” “And, how
would you have estimated Y,” inquires the incredulous owner, “if our sampling plan
made us select, say, the big elephant Jumbo?” “According what I understand of the
Horvitz-Thompson estimation method,” says the unhappy statistician, “the proper
estimate of Y would then have been 4900y, where y is Jumbo’s weight.” That is how
the statistician lost his circus job (and perhaps became teacher of statistics!).
8
15. Cap´
ıtulo 3
Muestreo simple
3.1. Muestreo simple sin reemplazamiento
(o muestro aleatorio simple m.a.s.)
Los dise˜os simples son los m´s b´sicos en teor´ del muestreo. Sin embargo, sus
n a a ıa
implementaciones no son evidentes. Veremos que diferentes algoritmos permiten selec-
cionar dise˜os simples. No hay que confundir dise˜os simples y dise˜os con probabi-
n n n
lidades de inclusi´n iguales. Los dise˜os simples tienen probabilidades de inclusiones
o n
iguales pero todos los dise˜os con probabilidades de inclusi´n iguales no son simples.
n o
Nos referimos a la definici´n siguiente.
o
Definici´n 3.1 Un dise˜o muestral es aleatorio simple si todas las muestras de mismo
o n
tama˜o tienen la misma probabilidad de ser seleccionadas.
n
Existe solamente un dise˜o simple de tama˜o fijo.
n n
−1
N
si #s = n
p(s) =
n
0 en caso contrario ,
donde
N N!
= .
n n!(N − n)!
−1 −1
N N −1 N n
πk = p(s) = = = , para todo k ∈ U.
s k s k
n n−1 n N
Probabilidades de inclusi´n del segundo orden :
o
−1 −1
N N −2 N n(n − 1)
πk = p(s) = = = ,
s k, s k,
n n−2 n N (N − 1)
9
16. para todos k = ∈ U . Luego tenemos,
2
π − π π = n(n − 1) − n = − n(N − n)
k si k =
k
∆k = N (N − 1) N 2 N 2 (N − 1) (3.1)
π (1 − π ) = n 1 − n = n(N − n)
si k = .
k k
N N N2
1 yk 1 N 1
Yπ = = yk = yk .
N k∈S
πk N k∈S
n n k∈S
yk N N
Yπ = = yk = yk = N Y π .
k∈S
πk k∈S
n n k∈S
3.2. La varianza del dise˜ o simple sin reemplaza-
n
miento
2
−1 yk y
var Yπ = − ∆k (3.2)
2 k∈U ∈U
πk π
=k
2
1 yk N yN n(N − n)
= − (3.3)
2 k∈U ∈U
n n N 2 (N − 1)
=k
N (N − n) 1
= (yk − y )2 (3.4)
n 2N (N − 1) k∈U ∈U
=k
2
2N − n Sy
= N . (3.5)
N n
Teorema 1 En un m.a.s., la cuasivarianza de la poblaci´n es
o
2 1
Sy = (yk − Y )2 ,
N − 1 k∈U
y puede estimarse por
1
s2 =
y (yk − Y π )2
n−1 k∈S
10
17. Demostraci´n
o
1
E(s2 ) = E
y (yk − Y π )2
n−1 k∈S
1
= E (yk − y )2
2n(n − 1)
k∈S ∈S
=k
1
= (yk − y )2 E (Ik I )
2n(n − 1) k∈U ∈U
=k
1 n(n − 1)
= (yk − y )2
2n(n − 1) k∈U ∈U
N (N − 1)
=k
1
= (yk − y )2
2N (N − 1) k∈U ∈U
=k
2
= Sy .
2
3.3. Algoritmo de selecci´n-rechazo
o
Existen numerosas maneras de seleccionar un dise˜o simple. Por ejemplo se puede
n
sortear la poblaci´n aleatoriamente y seleccionar las n primeras unidades de la poblaci´n.
o o
Tambi´n, se puede seleccionar sucesivamente n unidades sin reemplazamiento con proba -
e
bilidades iguales. Sin embargo, la manera la m´s eficaz para seleccionar un muestra
a
seg´n un dise˜o simple fue propuesta por Fan et al. (1962) y Bebbington (1975) quienes
u n
propusieron un m´todo secuencial en el sentido de que el fichero de datos tiene que
e
ser le´ una sola vez. Es posible demostrar que este algoritmo genera une muestreo
ıdo
Algorithm 1 M´todo de selecci´n-rechazo
e o
Definici´n k, j : entero; u : real;
o
k = 0;
j = 0;
u = variable aleatoria uniforme a[0, 1[;
n−j seleccionar la unidad k + 1;
Si u <
Repetir mientras j < n N − k j = j + 1;
sino pasar la unidad k + 1;
k = k + 1.
simple (vease por ejemplo Till´, 2006).
e
11
18. 3.4. Dise˜ os simples con reemplazamiento
n
Selecci´n con reemplazamiento de manera independiente S las unidades de la mues-
o
tra son
y1 , . . . , yi , . . . , ym
Los yi son m variables aleatorias de varianza
2 1
σy = (yk − Y )2 .
N k∈U
Se puede estimar Y sin sesgo por
m
1 1
Y CR = yi = yk .
m i=1
m
k∈S
La varianza de Y CR es
m m 2
1 1 2
σy
var(Y CR ) = 2 var(yi ) = 2 σy = . (3.6)
m i=1
m i=1
m
y puede estimarse por
m
1
s2
y = (yi − Y CR )2 .
m−1 i=1
La varianza del estimador de la media puede estimarse por
s2
y
var(Y CR ) = .
m
12
19. 3.5. Comparaci´n de los dise˜ os simples
o n
Cuadro 3.1: Planes simples
Plan simple Sin reemplazamiento Con reemplazamiento
Tama˜o de la muestra
n n m
1 1
Estimador de la media Y SR = yk Y CR = yk
n k∈S
m
k∈S
2
(N − n) 2 σy
Varianza del estimador var Y SR = Sy var Y CR =
nN m
Esperanza de la varianza E s2 = S y
y
2
E s2 = σy
y
2
(N − n) 2 s2
y
Estimador de la varianza var Y SR = sy var Y CR =
nN m
Ejercicio
Ejercicio 3.1 Seleccione una muestra de tama˜o 4 en una poblaci´n de tama˜o 10
n o n
seg´n un dise˜o simple sin reemplazamiento con el m´todo de selecci´n-rechazo. Use
u n e o
las realizaciones siguientes de una variable aleatoria uniforme [0, 1]:
0,375489 0,624004 0,517951 0,0454450 0,632912
0,246090 0,927398 0,32595 0,645951 0,178048.
13
20. Cap´
ıtulo 4
Estratificaci´n
o
4.1. Introducci´n
o
Los dise˜os estratificados son la manera m´s simple de introducir informacion auxi-
n a ´
liar en un diseno de muestreo. Se necesita definir estratos o categor´ en la poblaci´n.
˜ ıas o
Adem´s, se necesita saber a qu´ estrato pertenece cada unidad de la poblaci´n.
a e o
4.2. Poblaci´n y estratos
o
Poblaci´n U = {1, . . . , k, . . . , N } dividida en H subconjuntos, Uh , h = 1, .., H, lla-
o
mados estratos
H
Uh = U y Uh Ui = ∅, h = i.
h=1
Siendo Nh el tama˜o del estrato Uh .
n
H
Nh = N.
h=1
El objetivo es estimar
H H
Y = yk = yk = Yh ,
k∈U h=1 k∈Uh h=1
donde
Yh = yk .
k∈Uh
H H
1 1 1
Y = yk = yk = Nh Y h ,
N k∈U
N h=1 k∈Uh
N h=1
donde Y h es la media calculada en el estrato h
1
Yh = yk .
Nh k∈Uh
14
21. 2
Adem´s, σyh representa la varianza del estrato h
a
2 1 2
σyh = yk − Y h
Nh k∈Uh
2
y Syh la cuasivarianza
2 Nh
Syh = σ2 .
Nh − 1 yh
2
La varianza total σy se logra por
H H
2 1 1 1
σy = (yk − Y )2 = 2
Nh σyh + Nh (Y h − Y )2 . (4.1)
N k∈U
N h=1
N h=1
Esta igualdad es la descomposici´n cl´sica de la varianza, que se escribe
o a
2 2 2
σy = σy(intra) + σy(inter)
2
donde σy(intra) es la varianza intra-estratos
H
2 1 2
σy(intra) = Nh σyh
N h=1
2
y σy(inter) es la varianza inter-estratos
H
2 1
σy(inter) = Nh (Y h − Y )2 .
N h=1
4.3. Muestra, probabilidad de inclusi´n, estimaci´n
o o
Un dise˜o muestral es estratificado si,
n
en cada estrato, se selecciona una muestra simple aleatoria de tama˜o fijo nh
n
la selecci´n de una muestra en un estrato es independiente de selecci´n de las
o o
muestras de los otros estratos.
Sh representa la muestra aleatoria seleccionada en el estrato h con el dise˜o ph (.),
n
donde ph (sh ) = Pr(Sh = sh ). La muestra aleatoria total es
H
S= Sh .
h=1
Adem´s, de manera general s representa un valor posible de S donde
a
H
s= sh .
h=1
15
22. S1 S2 Sh SH
U1 U2 Uj UJ
Figura 4.1: Plan estratificado
El dise˜o muestral global es p(.) donde
n
p(s) = Pr(S = s).
Debido a la independencia de las selecciones en cada estrato, tenemos
H H
p(s) = ph (sh ), s = sh .
h=1 h=1
Si nh representa el tama˜o de la muestra en el estrato h, tenemos
n
H
nh = n,
h=1
donde n es el tama˜o de la muestra.
n
4.4. Probabilidad de inclusi´n
o
Si la unidad k est´ en el estrato h,
a
nh
πk = , k ∈ Uh .
Nh
Para calcular las probabilidades de inclusi´n de segundo orden, tenemos que separar
o
dos casos :
En el caso donde las unidades k y est´n en el mismo estrato
a
nh (nh − 1)
πk = ,k y ∈ Uh .
Nh (Nh − 1)
Si dos individuos k y est´n en dos estratos distintos,
a
nh ni
πk = , k ∈ Uh y ∈ Ui .
Nh Ni
16
23. Se logra n N −n
h h
h
si = k, k ∈ Uh
Nh Nh
∆k = nh (Nh − nh ) (4.2)
− 2
Nh (Nh − 1) si k y ∈ Uh , k =
0 si k ∈ Uh y ∈ Ui , h = i.
El π-estimador
H H
yk Nh
Yestrat = = yk = Yh ,
k∈S
πk h=1
nh k∈Sh h=1
y
H H
1 yk 1 Nh 1
Y strat = = yk = Nh Y h .
N k∈S
πk N h=1
nh k∈Sh
N h=1
donde Yh es el estimador del total del estrato h
Nh
Yh = yk .
nh k∈Sh
e Y h es la media de la muestra en el estrato h
1
Yh = yk .
nh k∈Sh
Como las selecciones son independientes entre los estratos y que los dise˜os son
n
simples en los estratos :
H H H
Nh − n h 2
var Ystrat = var Yh = var Yh = Nh Syh . (4.3)
h=1 h=1 h=1
nh
La varianza de este estimador puede estimarse sin sesgo por
H
Nh − n h 2
var Ystrat = Nh syh , (4.4)
h=1
nh
donde
1
s2 =
yh (yk − Y h )2 , h = 1, . . . , H.
nh − 1 k∈S
h
4.5. Plan estratificado con afijaci´n proporcional
o
Un plan estratificado tiene una afijaci´n proporcional, si
o
nh n
= , h = 1, . . . , N.
Nh N
17
24. Suponemos que nh = nNh /N son enteros. El estimador del total es
H
N
Yprop = Yh = yk ,
h=1
n k∈S
y el estimador de la media
H
1 1
Y prop = Nh Y h = yk ,
N h=1
n k∈S
donde Y h es la media de la muestra en el estrato h e Yh es el estimador del total en el
estrato h
1
Yh = yk .
nh k∈S
h
La varianza del estimador del total se simplifica
H
N −n 2
var(Yprop ) = Nh Syh , (4.5)
n h=1
y la varianza del estimador de la media viene dada por :
H
N −n 2
var(Y prop ) = Nh Syh . (4.6)
nN 2 h=1
2 2
Si N es grande, Syh ≈ σyh .
H 2
N −n 2 N − n σy(intra)
var(Y prop ) ≈ Nh σyh = . (4.7)
nN 2 h=1
N n
Comparaci´n del dise˜o estratificado con el muestro aleatorio simple.
o n
2
N − n σy
var(Y srs ) ≈ . (4.8)
N n
La varianza del estimador de la media puede estimarse por :
H
N −n
var(Y prop ) = Nh s 2 ,
yh (4.9)
nN 2 h=1
donde
1
s2 =
yh (yk − Y h )2 , h = 1, . . . , H.
nh − 1 k∈S
h
18
25. 4.6. Dise˜ o estratificado ´ptimo para el total
n o
Neyman (1934) busc´ la afijaci´n para los tama˜os en la muestra n1 , . . . , nh , . . . , nH
o o n
que maximiza la varianza del estimador de Horvitz-Thompson para un muestreo de
tama˜o fijo. Tenemos que minimizar
n
H
Nh − n h 2
var(Ystrat ) = Nh Syh , (4.10)
h=1
nh
en n1 , . . . , nh , . . . , nH sujeta a que
H
nh = n. (4.11)
h=1
Podemos escribir la ecuaci´n de Lagrange
o
H H
Nh − n h 2
L(n1 , . . . , nH , λ) = Nh Syh + λ nh − n .
h=1
nh h=1
Anulando las derivadas parciales respecto a los nh y a λ, se logra
2
∂L Nh 2
= − 2 Syh + λ = 0, h = 1, . . . , H, (4.12)
∂nh nh
y
H
∂L
= nh − n = 0. (4.13)
∂λ h=1
Luego
Nh
nh = √ Syh , h = 1, . . . , H. (4.14)
λ
y
H H
h=1Nh Syh
nh = n = √ .
h=1
λ
Obtenemos
√ H
Nh Syh
h=1
λ= . (4.15)
n
y finalmente
nNh Syh
nh = H
, h = 1, . . . , H. (4.16)
h=1 Nh Syh
Notas
Hay un problema de redondeo,
Se puede obtener nh > Nh .
19
26. 4.7. Nota sobre la optimalidad en estratificaci´n
o
Sea una poblaci´n dividida en dos estratos H = 2 donde queremos estimar la
o
diferencia D = Y 1 − Y 2 . El estimador
D = Y 1 − Y 2.
Como las selecciones de las muestras son independientes entre los estratos
N1 − n1 2 N2 − n2 2
var D = var Y 1 + var Y 2 = Sy1 + S . (4.17)
n 1 N1 n2 N2 y2
Se minimiza (4.17) sujeta a que n1 + n2 = n y se logra
Syh
nh = √ , h = 1, 2,
λ
donde λ es el multiplicador de Lagrange. Como n1 + n2 = n, encontramos
nSyh
nh = , h = 1, 2.
Sy1 + Sy2
4.8. Optimalidad y coste
El objetivo es estimar un total Y para un coste fijado C. Minimizamos la expresi´n
o
(4.10) sujeta a que
H
nh Ch = C,
h=1
donde Ch es el coste de la entrevista en el estrato h. Obtenemos
n = Nh Syh , h = 1, . . . , H,
h √
λCh
H
nh Ch = C,
h=1
donde λ es el multiplicador de Lagrange, y
CNh Syh
nh = √ H √ .
Ch =1 N Sy C
4.9. Tama˜ o de muestra m´
n ınimo
Otra manera de tratar el problema es buscar la afijaci´n que da el tama˜o de
o n
muestra m´
ınimo para una varianza fijada. Sea
ah = nh /n, h = 1, . . . , H,
20
27. entonces
H
ah = 1.
h=1
De (4.10),
H
Nh − nah 2
var(Ystrat ) = Nh Syh . (4.18)
h=1
nah
Buscamos entonces un valor m´ ınimo de (4.18) en a1 , . . . , aH , para un valor fijado
var(Ystrat ) representado por V . Sustituyendo (4.18) en var(Ystrat ) por V , se logra
H 2 H
1 Nh 2 2
V = Sh − Nh S h ,
n h=1
ah h=1
lo que se puede escribir
2
Nh 2
H
h=1 ah Sh
n= H 2
. (4.19)
V + h=1 Nh S h
Entonces minimizamos 2
H Nh 2
h=1 ah Sh
n= H 2
. (4.20)
V + h=1 Nh S h
con a1 , . . . , aH , sujeta a que
H
ah = 1,
h=1
y despu´s de algunos c´lculos, tenemos
e a
Nh Syh
ah = H
. (4.21)
=1 N Sy
Se logra el mismo tipo de afijaci´n. Finalmente se puede fijar el tama˜o de la muestra
o n
2
H
h=1 Nh Syh
n∗ = H 2
.
V + h=1 Nh Syh
Ejercicio 4.1 Queremos estimar medias para las empresas de un departamento. Las
empresas son clasificadas seg´n el volumen de negocio y son clasificadas en tres clases.
u
Los datos de un censo son los siguientes:
Volumen de negocio N´mero de empresas
u
de 0 a 1 1000
de 1 a 10 100
de 10 a 100 10
Se quiere seleccionar una muestra de 111 empresas. Si se supone que la distribuci´n es
o
uniforme en cada estrato, calcule la varianza del estimador de la media del volumen de
negocios para un dise˜o con representaci´n proporcional y para un dise˜o estratificado
n o n
o
´ptimo.
21
28. Cap´
ıtulo 5
Muestreo con probabilidades
desiguales
Los dise˜os con probabilidades desiguales permiten reducir la varianza cuando hay
n
un efecto de tama˜o en los datos. Tambi´n son muy usados en los dise˜os multiet´picos
n e n a
autoponderados para seleccionar las unidades primarias. Tres libros tratan del tema:
Brewer and Hanif (1983); Gabler (1990); Till´ (2006). Aqu´ presentamos los planes
e ı,
m´s importantes. Un desarrollo m´s exhaustivo pude ser encontrado en Till´ (2006).
a a e
5.1. Informaci´n auxiliar y probabilidades de in-
o
clusi´n
o
Variable auxiliar x conocida sobre U . x es aproximadamente proporcional a y.
Selecci´n de las unidades con probabilidades de inclusi´n proporcionales a x. Varianza
o o
2
ˆ 1 yk y
var Yπ = − (πk π − πk ). (5.1)
2 k∈U ∈U
πk π
=k
5.2. C´lculo de las probabilidades de inclusi´n
a o
Calculamos
xk n
πk = , para todo k ∈ U.
x
∈U
Algunos de los πk pueden ser πk > 1. Estas unidades son incluidas en la muestra con
una probabilidad de 1. Se vuelve a empezar el c´lculo con las unidades que quedan. Al
a
final, tenemos dos grupos :
un primer grupo de unidades con probabilidades de inclusi´n iguales a 1
o
un segundo grupo con probabilidades de inclusi´n 0 < πk < 1 y proporcionales a
o
xk .
22
29. El problema es seleccionar n unidades con probabilidades de inclusi´n fijadas con
o
0 < πk < 1, para todo k ∈ U, tal que πk = n. (5.2)
k∈U
Ejemplo 5.1 Si N = 6, n = 3, x1 = 1, x2 = 9, x3 = 10, x4 = 70, x5 = 90, x6 = 120,
tenemos
X= xk = 300,
k∈U
y entonces
nx1 1 nx2 9 nx3 1 nx4 7 nx5 9 nx6 6
= , = , = , = , = , = > 1.
X 100 X 100 X 10 X 10 X 10 X 5
La unidad 6 es seleccionada (con una probabilidad de 1). Luego, volvemos a calcular
las probabilidades de inclusi´n
o
xk = 180,
k∈U {6}
y entonces
(n − 1)x1 1 (n − 1)x2 1 (n − 1)x3 1
= , = , = ,
∈U {6} x 90 ∈U {6} x 10 ∈U {6} x 9
(n − 1)x4 7 (n − 1)x5
= , = 1.
∈U {6} x 9 ∈U {6} x
Las probabilidades de inclusi´n son
o
1 1 1 7
π1 = , π2 = , π3 = , π4 = , π5 = 1, π6 = 1.
90 10 9 9
Dos unidades son seleccionadas con una probabilidad 1. El problema se reduce a la
selecci´n de una unidad en una subpoblaci´n de tama˜o 4.
o o n
5.3. Muestreo con probabilidades desiguales con
reemplazamiento
Hansen and Hurwitz (1943) han propuesto un m´todo de selecci´n de una muestra
e o
con probabilidades desiguales con reemplazamiento. Sea
xk
pk = , k ∈ U,
∈U x
y
k
vk = p , con v0 = 0.
=1
u es una variable continua, uniforme en [0, 1[,
23
30. se selecciona la unidad k tal que vk−1 ≤ u < vk .
Esta operaci´n es repetida m veces de manera independiente.
o
yi es la i´sima unidad seleccionada en la muestra. El total Y es estimado por el esti-
˜ e
mador de Hansen-Hurwitz m
1 yi
˜
YHH = .
m i=1 pi
Como
yi
˜ yk
E = pk = Y,
pi k∈U
pk
YHH es un estimador insesgado Y . En efecto,
m m
1 yi
˜ 1
E YHH = E = Y = Y.
m i=1
pi m i=1
Varianza :
2 2
1 yk 1 yk
var[YHH ] = − t2
y = pk −Y , (5.3)
m k∈U
pk m k∈U pk
y puede estimarse por
m 2
1 yi
˜
var[YHH ] = − YyHH .
m(m − 1) i=1
pi
5.4. Dise˜ o de Poisson
n
Cada unidad de U es seleccionada de manera independiente con una probabilidad
de inclusi´n πk .
o
πk = πk π ,
∆k = πk − πk π = 0, para todos k = . El dise˜o muestral viene dado por
n
p(s) = πk × (1 − πk ) , para todos s ⊂ U. (5.4)
k∈s k∈U s
En un dise˜o de Poisson, ∆k = 0 cuando k = , la varianza del estimador puede
n
ser calculada simplemente
2
πk (1 − πk )yk
var Yπ = 2
, (5.5)
k∈U
πk
y puede estimarse por
2
(1 − πk )yk
var Yπ = 2
. (5.6)
k∈Se
πk
24
31. 5.5. Muestreo de entrop´ m´xima con tama˜ o fijo
ıa a n
Buscamos un dise˜o muestral con la entrop´ m´xima sobre el conjunto de todas
n ıa a
las muestras de U de tama˜o fijo n.
n
Sn = {s|#s = n}.
El problema es maximizar
I(p) = − p(s) log p(s),
s∈Sn
sujeta a que
p(s) = πk , y p(s) = 1. (5.7)
s k s∈Sn
s∈Sn
Existe una soluci´n pero es complicada.
o
exp k∈s λk
p(s) =
s∈Sn exp k∈s λk
Un algoritmo (ver Chen et al., 1994; Deville, 2000; Till´, 2006) permite calcular los
e
πk a partir de los λk y los λk a partir de los πk . El conocimiento de los λk permite
numerosas implementaciones del dise˜o de muestreo (ver Till´, 2006).
n e
5.6. El dise˜ o muestral sistem´tico
n a
Madow (1949) propuso el primero m´todo con tama˜o fijo y probabilidades de
e n
inclusi´n desiguales. Tenemos 0 < πk < 1, k ∈ U con
o
πk = n.
k∈U
Sea
k
Vk = π , para todos k ∈ U, con Vo = 0. (5.8)
=1
Una variable uniforme es generada en [0, 1].
la primera unidad seleccionada k1 es tal que Vk1 −1 ≤ u < Vk1 ,
la segunda unidad seleccionada es tal que Vk2 −1 ≤ u + 1 < Vk2 y
la j´sima unidad seleccionada es tal que Vkj −1 ≤ u + j − 1 < Vkj .
e
25
32. 0,2 0,9 1,7 2,2 2,6
0 1 2 3
u u+1 u+2
Figura 5.1: Muestreo sistem´tico
a
Ejemplo 5.2 N = 6 y n = 3, π1 = 0,2, π2 = 0,7, π3 = 0,8, π4 = 0,5, π5 = π6 = 0,4,
V1 = 0,2, V2 = 0,9, V3 = 1, 7, V4 = 2,2, V5 = 2,6, V6 = 3, u = 0,3658. Las unidades 2,
3 y 5 son seleccionadas.
El algoritmo tambi´n puede ser presentado de la manera siguiente : Primero, se
e
selecciona la unidad k tal que los intervalos [Vk−1 − u, Vk − u[ contengan un n´mero
u
entero.
Algorithm 2 Algoritmo de muestreo sistem´tico
a
Definici´n a, b, u real; k entero;
o
u = un n´mero aleatorio uniforme en [0,1];
u
a = −u;
b = a;
Repetir para k = 1, .., N a = a + πk ;
si a = b seleccionar k.
El problema es que la mayor´ de las probabilidades de inclusi´n son iguales a cero.
ıa o
La matriz de probabilidades de inclusi´n viene dada por :
o
− 0 0,2 0,2 0 0
0 − 0,5 0,2 0,4 0,3
0,2 0,5 − 0,3 0,4 0,2
0,2 0,2 0,3 − 0 0,3
0 0,4 0,4 0 − 0
0 0,3 0,2 0,3 0 −
5.7. El m´todo de escisi´n
e o
5.7.1. Escisi´n en dos partes
o
El m´todo de escisi´n (ver Deville and Till´, 1998; Till´, 2006) es une t´cnica bas-
e o e e e
tante simple para seleccionar une muestra seg´n probabilidades de inclusi´n dadas. A
u o
partir del vector de probabilidades de inclusi´n, se vuelve a aplicar a cada etapa une
o
escisi´n en dos o varios nuevos vectores. Un vector es elegido aleatoriamente. A cada
o
etapa se intenta lograr un vector m´s simple, por ejemplo, introduciendo 0 o 1 en el
a
nuevo vector. En N etapas como m´ximo, la muestra es seccionada. El m´todo del cubo
a e
para seleccionar un dise˜o equilibrado es una generalizaci´n del m´todo de escisi´n.
n o e o
26
33. (1) (2)
La t´cnica b´sica es muy simple : cada πk se separa en dos partes πk y πk que
e a
verifican :
(1) (2)
πk = λπk + (1 − λ)πk ; (5.9)
(1) (2)
0 ≤ πk ≤ 1 y 0 ≤ πk ≤ 1, (5.10)
(1) (2)
πk = πk = n, (5.11)
k∈U k∈U
donde λ puede elegirse libremente dentro de 0 < λ < 1. El m´todo consiste en selec-
e
cionar n unidades con probabilidades desiguales
(1)
πk , k ∈ U, con una probabilidad λ
(2)
πk , k ∈ U, con una probabilidad 1 − λ.
π1
.
.
.
πk
.
.
.
πN
¨¨rr
λ¨ ¨ ¨ rr 1−λ
rr
¨ ¨¨ rr
%
¨ j
r
(1)
(2)
π1 π1
. .
. . . .
(1) (2)
π π
k k
. .
. . . .
(1) (2)
πN πN
Figura 5.2: Escisi´n en dos partes
o
El problema se reduce a otro problema de muestreo con probabilidades desiguales.
(1) (2)
Si la escisi´n es tal que uno o algunos de los πk y de los πk son iguales a 0 o 1,
o
el problema de muestreo ser´ m´s simple en la pr´xima etapa porque la escisi´n es
a a o o
aplicada a una poblaci´n m´s peque˜a.
o a n
27
34. 5.7.2. Escisi´n en M partes
o
El m´todo puede ser generalizado a una t´cnica de escisi´n en M vectores de pro-
e e o
(j)
babilidades de inclusi´n. Primero, construimos los πk y los λj de manera que
o
M
λj = 1,
j=1
0 ≤ λj ≤ 1 (j = 1, . . . , M ),
M
(j)
λj π k = π k ,
j=1
(j)
0 ≤ πk ≤ 1 (k ∈ U, j = 1, . . . , M ),
(j)
πk = n (j = 1, . . . , M ).
k∈U
π1
.
.
.
πk
.
.
.
πN
¨¨rr
λ1 ¨¨
¨
λ rr j rr
λM
¨ ¨¨ c rr
%
¨ j
r
(1)
(i)
(M )
π1 π1 π1
.
. .
. .
.
. . .
(1)
πk ... (i)
πk ... (M )
πk
.
. .
. .
.
. . .
(1) (i) (M )
πN πN πN
Figura 5.3: Escisi´n en M partes
o
(j)
El m´todo consiste en seleccionar uno de los vectores πk con probabilidades λj (j =
e
(j)
1, . . . , M ). De nuevo, los πk son tales que el problema de muestreo ser´ m´s simple
a a
en la pr´xima etapa.
o
28
35. 5.7.3. Dise˜ o con un soporte m´
n ınimo
(π(1) , . . . , π(k) , . . . , π(N ) ) representa el vector de probabilidades de inclusi´n. Luego,
o
definimos
ın{1 − π(N −n) , π(N −n+1) },
λ = m´
(1) 0 si k ≤ N − n
π(k) =
1 si k > N − n,
π(k)
if k ≤ N − n
(2) 1−λ
π(k) =
π(k) − λ
if k > N − n.
1−λ
Ejemplo 1. Suponemos que N = 6, n = 3, π1 = 0,07, π2 = 0,17, π3 = 0,41, π4 = 0,61,
π5 = 0,83, π6 = 0,91. En este caso, la soluci´n se encuentra en 4 etapas. El vector
o
de probabilidades de inclusi´n se separa en dos partes dadas en las columnas 2 y 3
o
de la Tabla 1. Con la probabilidad λ = 0,59, la muestra {4, 5, 6} es seleccionada y
con probabilidad 1 − λ = 0,41, otro dise˜o muestral se aplica con probabilidades de
n
inclusi´n dadas por (0.171, 0.415, 1, 0.049, 0.585, 0.780). En la etapa 2, la escisi´n
o o
se aplica al vector y, en 4 etapas la muestra es seleccionada. El dise˜o muestral es el
n
Cuadro 5.1: Plan con soporte m´
ınima
Etapa 1 Etapa 2 Etapa 3 Etapa 4
πk λ = 0,59 λ = 0,585 λ = 0,471 λ = 0,778
0,07 0 0,171 0 0,412 0 0,778 1 0
0,17 0 0,415 0 1 1 1 1 1
0,41 0 1 1 1 1 1 1 1
0,61 1 0,049 0 0,118 0 0,222 0 1
0,83 1 0,585 1 0 0 0 0 0
0,91 1 0,780 1 0,471 1 0 0 0
siguiente p({4, 5, 6}) = 0,59; p({3, 5, 6}) = (1 − 0,59) × 0,585 = 0,24; p({2, 3, 6}) =
(1 − 0,59 − 0,24) × 0,471 = 0,08; p({1, 2, 3}) = (1 − 0,59 − 0,24 − 0,08) × 0,778 = 0,07;
p({2, 3, 4}) = 1 − 0,59 − 0,24 − 0,08 − 0,7 = 0,02.
El dise˜o muestral viene dado por p({4, 5, 6}) = 0,59, p({3, 5, 6}) = (1 − 0,59) ×
n
0,585 = 0,24, p({2, 3, 6}) = (1 − 0,59 − 0,24) × 0,471 = 0,08, p({1, 2, 3}) = (1 − 0,59 −
0,24 − 0,08) × 0,778 = 0,07, p({2, 3, 4}) = (1 − 0,59 − 0,24 − 0,08 − 0,7) = 0,02.
5.7.4. Escisi´n en dise˜ os simples
o n
Este m´todo permite separar el vector de probabilidades de inclusi´n en dos partes.
e o
Definimos
N N
λ = m´ π(1) ,
ın , (5.12)
n N −n
29
36. y calculamos, para k ∈ U,
n
(1) n (2) πk − λ N
π(k) = , π(k) = .
N 1−λ
(2) (2)
Si λ = π(1) N/n, entonces π(1) = 0; si λ = (1 − π(N ) )N/(N − n), entonces π(N ) = 1. En
la pr´xima etapa, el problema se reduce a la selecci´n de una muestra de tama˜o n − 1
o o n
o n en una poblaci´n de tama˜o N − 1. En N − 1 etapas, el problema es reducido.
o n
Ejemplo 2 Con los mismos πk que en el ejemplo 1, el resultado del m´todo viene
e
dado en la Tabla 2. El problema consiste finalmente en seleccionar uno de los 6 dise˜os
n
Cuadro 5.2: Descomposici´n en planes simples
o
Etapa 1 Etapa 2 Etapa 3 Etapa 4 Etapa 5
πk λ = 0,14 λ = 0,058 λ = 0,173 λ = 0,045 λ = 0,688
0,07 0,5 0 0 0 0 0 0 0 0 0
0,17 0,5 0,116 0,600 0,086 0,5 0 0 0 0 0
0,41 0,5 0,395 0,600 0,383 0,5 0,358 0,667 0,344 0,5 0
0,61 0,5 0,628 0,600 0,630 0,5 0,657 0,667 0,656 0,5 1
0,83 0,5 0,884 0,600 0,901 0,5 0,985 0,667 1 1 1
0,91 0,5 0,977 0,600 1 1 1 1 1 1 1
simples definidos en las columnas de la Tabla 3. λ1 = 0,14, λ2 = (1 − 0,14) × 0,058 =
0,050, λ3 = (1 − 0,14) × (1 − 0,058) × 0,173 = 0,14, λ4 = (1 − 0,14) × (1 − 0,058) × (1 −
0,173)×0,045 = 0,03, λ5 = (1−0,14)×(1−0,058)×(1−0,173)×(1−0,045)×0,688 = 0,44,
λ6 = (1 − 0,14) × (1 − 0,058) × (1 − 0,173) × (1 − 0,045) × (1 − 0,688) = 0,200.
Cuadro 5.3: Escisi´n en N planes simples
o
k λ1 = 0,14 λ2 = 0,050 λ3 = 0,14 λ4 = 0,03 λ5 = 0,44 λ6 = 0,200
1 0,5 0 0 0 0 0
2 0,5 0,6 0,5 0 0 0
3 0,5 0,6 0,5 0,667 0,5 0
4 0,5 0,6 0,5 0,667 0,5 1
5 0,5 0,6 0,5 0,667 1 1
6 0,5 0,6 1 1 1 1
5.7.5. El m´todo del pivote
e
Solamente son modificadas dos probabilidades de inclusi´n: i y j.
o
Si πi + πj > 1, entonces
1 − πj
λ= ,
2 − πi − π j
30