SlideShare uma empresa Scribd logo
1 de 58
Baixar para ler offline
NAZIOARTEKO ESTATISTIKA MINTEGIA
           SEMINARIO INTERNACIONAL DE ESTADÍSTICA

                          2010


Muestreo Equilibrado Eficiente:
     El Método del Cubo
                 Yves Tillé




                      EUSKAL ESTATISTIKA ERAKUNDEA
                      INSTITUTO VASCO DE ESTADÍSTICA




                  52
Muestreo Equilibrado Eficiente:
          ´
     El Metodo del Cubo

                      Yves Till´
                               e
     Institut de Statistique, Universit´ de Neuchˆtel
                                       e         a
        Pierre ` Mazel 7, 2002 Neuchˆtel, Suiza
               a                    a
               email : yves.tille@unine.ch


            29 de septiembre de 2010
Lanketa / Elaboración:

Euskal Estatistika Erakundea
Instituto Vasco de Estadística (EUSTAT)


Argitalpena / Edición:

Euskal Estatistika Erakundea
Instituto Vasco de Estadística
Donostia – San Sebastián, 1 – 01010 Vitoria – Gasteiz

Euskal AEko Administrazioa
Administración de la C.A. de Euskadi

Ale-kopurua / Tirada:
500 ale / ejemplares

XI-2010

Inprimaketa eta Koadernaketa:
Impresión y Encuadernacion:
Estudios Gráficos ZURE S.A.
Ctra. Lutxana-Asua, 24 A
Erandio-Goikoa (BIZKAIA)

I.S.B.N.: 978-84-7749-465-2
Lege-gordailua / Depósito Legal: BI-2699-10
AURKEZPENA

Nazioarteko Estatistika Mintegia antolatzean, hainbat helburu bete nahi ditu EUSTAT-Euskal
Estatistika Erakundeak:
– Unibertsitatearekiko eta, batez ere, Estatistika-Sailekiko lankidetza bultzatzea.
– Funtzionarioen, irakasleen, ikasleen eta estatistikaren alorrean interesatuta egon daitezkeen guz-
  tien lanbide-hobekuntza erraztea.
– Estatistika alorrean mundu mailan abangoardian dauden irakasle eta ikertzaile ospetsuak Eus-
  kadira ekartzea, horrek eragin ona izango baitu, zuzeneko harremanei eta esperientziak ezagu-
  tzeari dagokienez.
Jarduera osagarri gisa, eta interesatuta egon litezkeen ahalik eta pertsona eta erakunde gehienetara
iristearren, ikastaro horietako txostenak argitaratzea erabaki dugu, beti ere txostengilearen jato-
rrizko hizkuntza errespetatuz; horrela, gai horri buruzko ezagutza gure herrian zabaltzen lagun-
tzeko.

                                                                   Vitoria-Gasteiz, 2010eko Urria

                                                                    JAVIER FORCADA SAINZ
                                                                  EUSTATeko Zuzendari Nagusia




                                       PRESENTATION

In promoting the International Statistical Seminars, EUSTAT-The Basque Statistics Institute
wishes to achieve several aims:
– Encourage the collaboration with the universities, especially with their statistical departments.
– Facilitate the professional recycling of civil servants, university teachers, students and whoever
  else may be interested in the statistical field.
– Bring to the Basque Country illustrious professors and investigators in the vanguard of statis-
  tical subjects, on a worldwide level, with the subsequent positive effect of encouraging direct
  relationships and sharing knowledge of experiences.
As a complementary activity and in order to reach as many interested people and institutions as
possible, it has been decided to publish the papers of these courses, always respecting the original
language of the author, to contribute in this way towards the growth of knowledge concerning this
subject in our country.

                                                                    Vitoria-Gasteiz, October 2010

                                                                     JAVIER FORCADA SAINZ
                                                                     General Director of EUSTAT




                                                III
PRESENTACION

Al promover los Seminarios Internacionales de Estadística, el EUSTAT-Instituto Vasco de Esta-
dística pretende cubrir varios objetivos:
– Fomentar la colaboración con la Universidad y en especial con los Departamentos de Estadística.
– Facilitar el reciclaje profesional de funcionarios, profesores, alumnos y cuantos puedan estar
  interesados en el campo estadístico.
– Traer a Euskadi a ilustres profesores e investigadores de vanguardia en materia estadística, a nivel
  mundial, con el consiguiente efecto positivo en cuanto a la relación directa y conocimiento de
  experiencias.
Como actuación complementaria y para llegar al mayor número posible de personas e Institucio-
nes interesadas, se ha decidido publicar las ponencias de estos cursos, respetando en todo caso la
lengua original del ponente, para contribuir así a acrecentar el conocimiento sobre esta materia
en nuestro País.

                                                                     Vitoria-Gasteiz, Octubre 2010

                                                                      JAVIER FORCADA SAINZ
                                                                      Director General de EUSTAT




                                                 IV
BIOGRAFI OHARRAK

Yves Tillé doktorea da Bruselako Unibertsitate Librean, estatistikan. 2001 ezkeroztik irakasle
dihardu Suitzako Neuchâtel unibertsitatean. Inkesta-estatistika eta laginketaren teorian ari da
ikertzen.




                                BIOGRAPHICAL SKETCH

Yves Tillé was awarded his pHD in Statistics by the Free University of Brussels. He has been a
professor at Neuchâtel University in Switzerland since 2001. His fields of research are survey
statistics and sampling theory.




                                  NOTAS BIOGRÁFICAS

Yves Tillé ha logrado un doctorado en estadística de la Universidad libre de Bruselas. Desde
2001, es profesor en la Universidad de Neuchâtel en Suiza. Sus campos de investigaciones son la
estadística de encuesta y la teoría del muestreo.




                                              V
´
Indice general

1. Introducci´n
             o                                                                                                   3

2. Poblaci´n, dise˜ o muestral, y estimaci´n
           o       n                            o                                                                4
   2.1. Poblaci´n finita . . . . . . . . . . . . . . . . . . . . .
               o                                                         .   .   .   .   .   .   .   .   .   .   4
   2.2. Dise˜o del Muestreo . . . . . . . . . . . . . . . . . .
            n                                                            .   .   .   .   .   .   .   .   .   .   5
   2.3. El estimador de Horvitz-Thompson . . . . . . . . . .             .   .   .   .   .   .   .   .   .   .   6
   2.4. Estimaci´n de N . . . . . . . . . . . . . . . . . . . .
                 o                                                       .   .   .   .   .   .   .   .   .   .   7
   2.5. Mala propiedad del estimador de Horvitz-Thompson                 .   .   .   .   .   .   .   .   .   .   7
   2.6. El problema de los elefantes de Basu (1971) . . . . .            .   .   .   .   .   .   .   .   .   .   7

3. Muestreo simple                                                                                                9
   3.1. Muestreo simple sin reemplazamiento (o muestro aleatorio simple m.a.s.)                                   9
   3.2. La varianza del dise˜o simple sin reemplazamiento . . . . . . . . . . . .
                            n                                                                                    10
   3.3. Algoritmo de selecci´n-rechazo . . . . . . . . . . . . . . . . . . . . . . .
                            o                                                                                    11
   3.4. Dise˜os simples con reemplazamiento . . . . . . . . . . . . . . . . . . .
            n                                                                                                    12
   3.5. Comparaci´n de los dise˜os simples . . . . . . . . . . . . . . . . . . . .
                  o             n                                                                                13

4. Estratificaci´no                                                                                               14
   4.1. Introducci´n . . . . . . . . . . . . . . . . . . .
                   o                                         . . .   .   .   .   .   .   .   .   .   .   .   .   14
   4.2. Poblaci´n y estratos . . . . . . . . . . . . . .
                o                                            . . .   .   .   .   .   .   .   .   .   .   .   .   14
   4.3. Muestra, probabilidad de inclusi´n, estimaci´n
                                          o            o       . .   .   .   .   .   .   .   .   .   .   .   .   15
   4.4. Probabilidad de inclusi´n . . . . . . . . . . . .
                                o                            . . .   .   .   .   .   .   .   .   .   .   .   .   16
   4.5. Plan estratificado con afijaci´n proporcional .
                                      o                      . . .   .   .   .   .   .   .   .   .   .   .   .   17
   4.6. Dise˜o estratificado ´ptimo para el total . . .
            n                o                               . . .   .   .   .   .   .   .   .   .   .   .   .   19
   4.7. Nota sobre la optimalidad en estratificaci´n .
                                                    o        . . .   .   .   .   .   .   .   .   .   .   .   .   20
   4.8. Optimalidad y coste . . . . . . . . . . . . . .      . . .   .   .   .   .   .   .   .   .   .   .   .   20
   4.9. Tama˜o de muestra m´
              n                ınimo . . . . . . . . . .     . . .   .   .   .   .   .   .   .   .   .   .   .   20

5. Muestreo con probabilidades desiguales                                                                        22
   5.1. Informaci´n auxiliar y probabilidades de inclusi´n . . . . . .
                 o                                        o                              .   .   .   .   .   .   22
   5.2. C´lculo de las probabilidades de inclusi´n . . . . . . . . . .
          a                                      o                                       .   .   .   .   .   .   22
   5.3. Muestreo con probabilidades desiguales con reemplazamiento                       .   .   .   .   .   .   23
   5.4. Dise˜o de Poisson . . . . . . . . . . . . . . . . . . . . . . . .
            n                                                                            .   .   .   .   .   .   24
   5.5. Muestreo de entrop´ m´xima con tama˜o fijo . . . . . . . .
                           ıa a                  n                                       .   .   .   .   .   .   25
   5.6. El dise˜o muestral sistem´tico . . . . . . . . . . . . . . . . .
               n                  a                                                      .   .   .   .   .   .   25




                                             1
5.7. El m´todo de escisi´n . . . . . . . . . . . . . . . .
             e             o                                    .   .   .   .   .   .   .   .   .   .   .   .   26
        5.7.1. Escisi´n en dos partes . . . . . . . . . . .
                     o                                          .   .   .   .   .   .   .   .   .   .   .   .   26
        5.7.2. Escisi´n en M partes . . . . . . . . . . . .
                     o                                          .   .   .   .   .   .   .   .   .   .   .   .   28
        5.7.3. Dise˜o con un soporte m´
                   n                     ınimo . . . . . . .    .   .   .   .   .   .   .   .   .   .   .   .   29
        5.7.4. Escisi´n en dise˜os simples . . . . . . . . .
                     o         n                                .   .   .   .   .   .   .   .   .   .   .   .   29
        5.7.5. El m´todo del pivote . . . . . . . . . . . .
                    e                                           .   .   .   .   .   .   .   .   .   .   .   .   30
        5.7.6. M´todo de Brewer . . . . . . . . . . . . .
                 e                                              .   .   .   .   .   .   .   .   .   .   .   .   31
   5.8. Varianza en dise˜os con probabilidades desiguales
                        n                                       .   .   .   .   .   .   .   .   .   .   .   .   32

6. Muestreo equilibrado                                                                                         33
   6.1. Introducci´n . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
                  o                                                                                 .   .   .   33
   6.2. Representaci´n por un cubo . . . . . . . . . . . . . . . . . . . . .
                     o                                                                              .   .   .   34
   6.3. Muestras equilibradas . . . . . . . . . . . . . . . . . . . . . . . . .                     .   .   .   34
   6.4. Representaci´n gr´fica del problema de redondeado . . . . . . . .
                     o     a                                                                        .   .   .   35
   6.5. La martingala equilibrada . . . . . . . . . . . . . . . . . . . . . .                       .   .   .   38
   6.6. Implementaci´n de la fase de vuelo . . . . . . . . . . . . . . . . .
                      o                                                                             .   .   .   38
   6.7. Implementaci´n de la fase de aterrizaje . . . . . . . . . . . . . .
                      o                                                                             .   .   .   39
        6.7.1. El problema . . . . . . . . . . . . . . . . . . . . . . . . . .                      .   .   .   39
        6.7.2. Soluci´n 1: programa linear . . . . . . . . . . . . . . . . .
                      o                                                                             .   .   .   40
        6.7.3. Soluci´n 2: supresi´n sucesiva de variables . . . . . . . . .
                      o            o                                                                .   .   .   40
   6.8. Varianza en un plan equilibrado . . . . . . . . . . . . . . . . . . .                       .   .   .   41
        6.8.1. Una t´cnica de residuos . . . . . . . . . . . . . . . . . . .
                     e                                                                              .   .   .   41
        6.8.2. Aproximaci´n de la varianza . . . . . . . . . . . . . . . . .
                            o                                                                       .   .   .   41
        6.8.3. Estimaci´n de la varianza . . . . . . . . . . . . . . . . . .
                         o                                                                          .   .   .   42
   6.9. Muestreo equilibrado en pr´ctica . . . . . . . . . . . . . . . . . .
                                     a                                                              .   .   .   42
        6.9.1. Inter´s de muestreo equilibrado . . . . . . . . . . . . . . .
                    e                                                                               .   .   .   42
        6.9.2. Muestreo Equilibrado Contra Otras T´cnicas de Muestreo
                                                         e                                          .   .   .   44
        6.9.3. Elecci´n de las variables de equilibrio . . . . . . . . . . . .
                      o                                                                             .   .   .   44
        6.9.4. Equilibrio versus Calibraci´n . . . . . . . . . . . . . . . . .
                                            o                                                       .   .   .   45
        6.9.5. Precisi´n de las ecuaciones de equilibrio . . . . . . . . . .
                       o                                                                            .   .   .   46
        6.9.6. Principales Implementaciones de muestreo equilibrado . . .                           .   .   .   46




                                              2
Cap´
   ıtulo 1

Introducci´n
          o

    Este peque˜o libro ha sido escrito a ra´ de una invitaci´n al Instituto Vasco de
                 n                           ız                   o
Estad´ ıstica. El objetivo era presentar el m´todo del cubo para seleccionar muestras
                                              e
equilibradas y de mostrar el inter´s del m´todo. Sin embargo, he empezado por una pre-
                                   e       e
sentaci´n general de la teor´ de muestreo, con las definiciones del dise˜o de muestreo,
        o                    ıa                                           n
del estimador de Horvitz-Thompson y su varianza. Tambi´n, he desarrollado dos cap´
                                                            e                         ıtu-
los sobre los dise˜os simples y estratificados ya que el muestreo equilibrado es una
                     n
generalizaci´n de estos dise˜os. El largo cap´
              o               n                ıtulo sobre los dise˜os con probabilidades
                                                                    n
desiguales y el m´todo de escisi´n es una introducci´n al m´todo del cubo. En efecto,
                    e             o                    o        e
el m´todo de escisi´n es el caso particular del algoritmo de cubo cuando solamente
     e                 o
una variable auxiliar proporcional a las probabilidades de inclusi´n es disponible. El
                                                                       o
m´todo de escisi´n es el que nos lleva a proponer el m´todo del cubo.
  e                o                                     e
    Despu´s de esta larga introducci´n, presentamos el m´todo del cubo: el principio
            e                         o                       e
del algoritmo, su implementaci´n, el c´lculo de las varianzas y sus estimaciones. Tam-
                                 o      a
bi´n hemos a˜adido una larga discusi´n sobre el inter´s del m´todo, sus principales
  e             n                        o                 e         e
aplicaciones, sus implementaciones y los limites.




                                             3
Cap´
   ıtulo 2

Poblaci´n, dise˜ o muestral
       o       n
y estimaci´n
          o

2.1.     Poblaci´n finita
                o
    El objetivo es estudiar una poblaci´n finita U = {1, . . . , N } de tama˜o N . La
                                           o                                 n
variable de inter´s y toma el valor yk , k ∈ U. Queremos estimar una funci´n de inter´s
                 e                                                        o          e
de los yk ,
                               θ = f (y1 , . . . , yk , . . . , yN ).
Por ejemplo, el total o la media
                                                          1
                            Y =           yk , e Y =                 yk .
                                    k∈U
                                                          N    k∈U

porque se puede escribir
                                          N=            1.
                                                k∈U

La varianza
                                    2     1
                                   σy =             (yk − Y )2 .
                                          N   k∈U

La cuasivarianza
                               2        1
                              Sy =              (yk − Y )2 .
                                      N − 1 k∈U
   Existen funciones no lineales de los yk como un ratio
                                                    Y
                                           R=         ,
                                                    X
donde
                                          X=            xk .
                                               k∈U

Un ratio es una funci´n no lineal de los valores yk . Existen tambi´n funciones m´s
                     o                                             e             a
complejas como un coeficiente de correlaci´n, la mediana, o los coeficientes de
                                            o
desigualdades.




                                                    4
2.2.     Dise˜ o del Muestreo
             n
    Una muestra s es un subconjunto de la poblaci´n s ⊂ U. Un dise˜o muestral p(s)
                                                   o                  n
es una distribuci´n de probabilidad sobre todas las muestras posibles
                 o

                                                  p(s) = 1.
                                            s⊂U

La muestra aleatoria S toma el valor s con la probabilidad

                                        Pr(S = s) = p(s).

   Las variables indicadoras son definidas por :

                                        1     si la unidad k ∈ S
                            Ik =
                                        0     si la unidad k ∈ S.
                                                             /

La probabilidad de inclusi´n es la probabilidad que la unidad k sea seleccionada en la
                          o
muestra aleatoria :
                       πk = Pr(k ∈ S) =       p(s) = E(Ik ) = .
                                                    s k

La probabilidad de inclusi´n de segundo orden es la probabilidad que dos unidades
                           o
distintas sean seleccionadas conjuntamente en la muestra :

                      πk = E(Ik I ) = Pr(k y               ∈ S) =            p(s).
                                                                      s k,


Adem´s
    a
                                                   πk (1 − πk )       si k =
                     ∆k = Cov(Ik , I )
                                                   πk − πk π          si k =
Si el dise˜o muestral es de tama˜o fijo, entonces
          n                     n

                                                  πk = n.
                                            k∈U

En effecto,

                          πk =         E(Ik ) = E               Ik   = E(n) = n.
                    k∈U          k∈U                      k∈U

Adem´s, es posible demostrar que, para un dise˜o muestral de tama˜o fijo,
    a                                         n                  n

                                  πk = nπk               con πkk = πk .
                             ∈U




                                                     5
2.3.     El estimador de Horvitz-Thompson
   El estimador de Horvitz-Thompson para el total viene dado por
                                                      yk
                                       Yπ =              ,
                                              k∈S
                                                      πk

y para la media
                                             1             yk
                                      Yπ =                    .
                                             N   k∈S
                                                           πk
El estimador de Horvitz-Thompson es insesgado, si πk > 0, k ∈ U. En efecto

                                                             yk
                               E Yπ      = E
                                                      k∈S
                                                             πk

                                                             yk
                                         = E                    Ik
                                                      k∈U
                                                             πk
                                                      yk
                                         =               E (Ik )
                                              k∈U
                                                      πk
                                                      yk
                                         =               πk
                                              k∈U
                                                      πk

                                         =            yk
                                              k∈U
                                         = Y.

   La varianza del estimador de Horvitz-Thompson es

                      ˆ                     yk
                  var Yπ   = var               Ik
                                      k∈U
                                            πk
                                      2
                                     yk                                yk y
                           =          2
                                        var(Ik ) +                          Cov(Ik , I )
                               k∈U
                                     πk            k∈U            ∈U
                                                                       πk π
                                   2
                                  yk                                         yk y
                           =         πk (1    − πk ) +                            ∆k .     (2.1)
                                  π2
                               k∈U k                          k∈U ∈U
                                                                             πk π
                                                                  =k

Se puede demostrar que con una muestra de tama˜o fijo
                                              n
                                                                            2
                           ˆ    −1                         yk   y
                       var Yπ =                               −                 ∆k .       (2.2)
                                 2 k∈U           ∈U
                                                           πk π
                                                 =k

La varianza puede estimarse sin sesgo por
                                       2
                         ˆ            yk                                    yk y ∆ k
                     var Yπ =          2
                                         (1 − πk ) +                                 .     (2.3)
                                k∈S
                                      πk             k∈S               ∈S
                                                                            πk π πkl
                                                                       =k




                                                 6
Si el dise˜o es de tama˜o fijo, se puede tambi´n estimar la varianza por
          n            n                     e
                                                                     2
                           ˆ    −1                       yk   y          ∆k
                       var Yπ =                             −               .      (2.4)
                                 2          k∈S ∈S
                                                         πk π            πk
                                                =k



2.4.     Estimaci´n de N
                 o
   Sabiendo que N es un total, se puede escribir:

                                        N=              1,
                                                  k∈U

Podemos estimar N sin sesgo por el estimador de Horvitz-Thompson
                                                        1
                                       Nπ =                .
                                                  k∈S
                                                        πk


2.5.     Mala propiedad del estimador de Horvitz-Thompson
    El estimador de Horvitz-Thompson tiene una mala propiedad, cuando la variable
es constante, yk = C

                         1         yk   1         C     1            1     Nπ
                  Yπ =                =              =C                 =C
                         N   k∈S
                                   πk   N   k∈S
                                                  πk    N      k∈S
                                                                     πk    N


2.6.     El problema de los elefantes de Basu (1971)
    The circus owner is planning to ship his 50 adult elephants and so he needs a rough
estimate of the total weight of the elephants. As weighing an elephant is a cumbersome
process, the owner wants to estimate the total weight by weighing just one elephant.
Which elephant should he weigh ? So the owner looks back on his records and discovers
a list of the elephants’ weights taken 3 years ago. He finds that 3 years ago Sambo the
middle-sized elephant was the average (in weight) elephant in his herd. He checks with
the elephant trainer who reassures him (the owner) that Sambo may still be considered
to be the average elephant in the herd. Therefore, the owner plans to weigh Sambo
and take 50 y (where y is the present weight of Sambo) as an estimate of the total
weight Y = Y1 + Y2 + . . . + Y50 of the 50 elephants. But the circus statistician is
horrified when he learns of the owner’s purposive samplings plan. “How can you get
an unbiased estimate of Y this way ?” protests the statistician. So, together they work
out a compromise sampling plan. With the help of a table of random numbers they
devise a plan that allots a selection probability of 99/100 to Sambo and equal selection
probabilities 1/4900 to each of the other 49 elephants. Naturally, Sambo is selected
and the owner is happy. “How are you going to estimate Y?”, asks the statistician.
“Why ? The estimate ought to be 50y of course,” says the owner. Oh! No! That cannot




                                                   7
possibly be right,” says the statistician, “I recently read an article in the Annals of
Mathematical Statistics where it is proved that the Horvitz-Thompson estimator is the
unique hyperadmissible estimator in the class of all generalized polynomial unbiased
estimators.” “What is the Horvitz-Thompson estimate in this case?” asks the owner,
duly impressed. “Since the selection probability for Sambo in our plan was 99/100,”
says the statistician, “the proper estimate of Y is 100y/99 and not 50y.” “And, how
would you have estimated Y,” inquires the incredulous owner, “if our sampling plan
made us select, say, the big elephant Jumbo?” “According what I understand of the
Horvitz-Thompson estimation method,” says the unhappy statistician, “the proper
estimate of Y would then have been 4900y, where y is Jumbo’s weight.” That is how
the statistician lost his circus job (and perhaps became teacher of statistics!).




                                            8
Cap´
   ıtulo 3

Muestreo simple

3.1.      Muestreo simple sin reemplazamiento
          (o muestro aleatorio simple m.a.s.)
    Los dise˜os simples son los m´s b´sicos en teor´ del muestreo. Sin embargo, sus
            n                      a a               ıa
implementaciones no son evidentes. Veremos que diferentes algoritmos permiten selec-
cionar dise˜os simples. No hay que confundir dise˜os simples y dise˜os con probabi-
           n                                       n                 n
lidades de inclusi´n iguales. Los dise˜os simples tienen probabilidades de inclusiones
                  o                   n
iguales pero todos los dise˜os con probabilidades de inclusi´n iguales no son simples.
                           n                                o
Nos referimos a la definici´n siguiente.
                           o

Definici´n 3.1 Un dise˜o muestral es aleatorio simple si todas las muestras de mismo
        o             n
tama˜o tienen la misma probabilidad de ser seleccionadas.
    n


   Existe solamente un dise˜o simple de tama˜o fijo.
                           n                 n
                                    −1
                              N
                                          si #s = n
                     p(s) =
                              n
                                0         en caso contrario ,

donde
                                              N            N!
                                                  =               .
                                              n        n!(N − n)!
                                         −1                           −1
                                   N              N −1        N                n
       πk =         p(s) =                    =                            =     , para todo k ∈ U.
              s k            s k
                                   n              n−1         n                N
Probabilidades de inclusi´n del segundo orden :
                         o
                                                  −1                            −1
                                              N             N −2           N             n(n − 1)
         πk     =            p(s) =                    =                             =             ,
                      s k,            s k,
                                              n             n−2            n             N (N − 1)




                                                        9
para todos k = ∈ U . Luego tenemos,
                                      2
              π − π π = n(n − 1) − n = − n(N − n)
              k                                                                           si k =
                      k
      ∆k =                  N (N − 1) N 2   N 2 (N − 1)                                               (3.1)
              π (1 − π ) = n 1 − n = n(N − n)
             
                                                                                           si k = .
                k       k
                            N       N     N2
                               1          yk   1                   N   1
                        Yπ =                 =                yk     =              yk .
                               N   k∈S
                                          πk   N       k∈S
                                                                   n   n      k∈S

                                   yk                 N   N
                    Yπ =              =          yk     =                yk = N Y π .
                           k∈S
                                   πk      k∈S
                                                      n   n        k∈S



3.2.     La varianza del dise˜ o simple sin reemplaza-
                             n
         miento

                                                                     2
                             −1                        yk   y
               var Yπ      =                              −              ∆k                           (3.2)
                             2 k∈U           ∈U
                                                       πk π
                                             =k
                                                                         2
                             1                    yk N   yN                  n(N − n)
                           =                           −                                              (3.3)
                             2 k∈U         ∈U
                                                   n      n                  N 2 (N − 1)
                                           =k
                                 N (N − n)     1
                           =                                                       (yk − y )2         (3.4)
                                     n     2N (N − 1) k∈U                     ∈U
                                                                              =k
                                               2
                                    2N    − n Sy
                           = N                   .                                                    (3.5)
                                          N n
Teorema 1 En un m.a.s., la cuasivarianza de la poblaci´n es
                                                      o

                                  2         1
                                 Sy =               (yk − Y )2 ,
                                          N − 1 k∈U

y puede estimarse por
                                           1
                                   s2 =
                                    y                       (yk − Y π )2
                                          n−1         k∈S




                                                       10
Demostraci´n
             o

                                      1
                    E(s2 ) = E
                       y                         (yk − Y π )2
                                     n−1   k∈S
                                                                         
                                 
                                                                         
                                                                          
                                       1
                           = E                               (yk − y )2
                                  2n(n − 1)
                                                                         
                                                                          
                                                  k∈S ∈S
                                                      =k
                                    1
                           =                            (yk − y )2 E (Ik I )
                                2n(n − 1) k∈U      ∈U
                                                   =k
                                    1                                n(n − 1)
                           =                            (yk − y )2
                                2n(n − 1) k∈U      ∈U
                                                                     N (N − 1)
                                                   =k
                                    1
                           =                               (yk − y )2
                                2N (N − 1) k∈U        ∈U
                                                      =k
                              2
                           = Sy .

                                                                                      2


3.3.      Algoritmo de selecci´n-rechazo
                              o
    Existen numerosas maneras de seleccionar un dise˜o simple. Por ejemplo se puede
                                                         n
sortear la poblaci´n aleatoriamente y seleccionar las n primeras unidades de la poblaci´n.
                  o                                                                    o
Tambi´n, se puede seleccionar sucesivamente n unidades sin reemplazamiento con proba -
       e
bilidades iguales. Sin embargo, la manera la m´s eficaz para seleccionar un muestra
                                                   a
seg´n un dise˜o simple fue propuesta por Fan et al. (1962) y Bebbington (1975) quienes
    u         n
propusieron un m´todo secuencial en el sentido de que el fichero de datos tiene que
                    e
ser le´ una sola vez. Es posible demostrar que este algoritmo genera une muestreo
      ıdo

Algorithm 1 M´todo de selecci´n-rechazo
             e               o

       Definici´n k, j : entero; u : real;
              o
       k = 0;
       j = 0;
                                 u = variable aleatoria uniforme a[0, 1[;
                                            n−j      seleccionar la unidad k + 1;
                                    Si u <
       Repetir mientras j < n              N − k j = j + 1;
                                    sino pasar la unidad k + 1;
                                 k = k + 1.


simple (vease por ejemplo Till´, 2006).
                              e




                                                 11
3.4.     Dise˜ os simples con reemplazamiento
             n
    Selecci´n con reemplazamiento de manera independiente S las unidades de la mues-
           o
tra son
                                  y1 , . . . , yi , . . . , ym
Los yi son m variables aleatorias de varianza

                                   2     1
                                  σy =               (yk − Y )2 .
                                         N   k∈U


Se puede estimar Y sin sesgo por
                                             m
                                     1                    1
                            Y CR =                 yi =                yk .
                                     m       i=1
                                                          m
                                                                 k∈S


La varianza de Y CR es
                                         m                             m              2
                                1                       1                      2
                                                                                     σy
                   var(Y CR ) = 2            var(yi ) = 2                     σy =      .   (3.6)
                               m     i=1
                                                       m           i=1
                                                                                     m

y puede estimarse por
                                                 m
                                     1
                             s2
                              y   =                  (yi − Y CR )2 .
                                    m−1        i=1

La varianza del estimador de la media puede estimarse por

                                                          s2
                                                           y
                                    var(Y CR ) =             .
                                                          m




                                                   12
3.5.     Comparaci´n de los dise˜ os simples
                  o             n

                            Cuadro 3.1: Planes simples
 Plan simple                  Sin reemplazamiento      Con reemplazamiento
 Tama˜o de la muestra
     n                                   n                        m
                                         1                        1
 Estimador de la media          Y SR =             yk    Y CR =             yk
                                         n   k∈S
                                                                  m
                                                                      k∈S
                                                                             2
                                             (N − n) 2                      σy
 Varianza del estimador     var Y SR =              Sy   var Y CR =
                                               nN                           m
 Esperanza de la varianza         E s2 = S y
                                     y
                                           2
                                                           E s2 = σy
                                                              y
                                                                   2



                                           (N − n) 2                    s2
                                                                         y
 Estimador de la varianza   var Y SR     =        sy     var Y CR     =
                                             nN                         m




Ejercicio
Ejercicio 3.1 Seleccione una muestra de tama˜o 4 en una poblaci´n de tama˜o 10
                                                  n                    o     n
seg´n un dise˜o simple sin reemplazamiento con el m´todo de selecci´n-rechazo. Use
   u           n                                        e                o
las realizaciones siguientes de una variable aleatoria uniforme [0, 1]:

               0,375489 0,624004 0,517951 0,0454450 0,632912
               0,246090 0,927398 0,32595 0,645951 0,178048.




                                             13
Cap´
   ıtulo 4

Estratificaci´n
            o

4.1.      Introducci´n
                    o
    Los dise˜os estratificados son la manera m´s simple de introducir informacion auxi-
            n                                 a                                ´
liar en un diseno de muestreo. Se necesita definir estratos o categor´ en la poblaci´n.
               ˜                                                    ıas            o
Adem´s, se necesita saber a qu´ estrato pertenece cada unidad de la poblaci´n.
      a                         e                                            o


4.2.      Poblaci´n y estratos
                 o
  Poblaci´n U = {1, . . . , k, . . . , N } dividida en H subconjuntos, Uh , h = 1, .., H, lla-
          o
mados estratos
                             H
                                  Uh = U y Uh              Ui = ∅, h = i.
                            h=1
Siendo Nh el tama˜o del estrato Uh .
                 n
                                          H
                                                Nh = N.
                                          h=1

   El objetivo es estimar
                                                H                    H
                            Y =         yk =                 yk =          Yh ,
                                  k∈U          h=1 k∈Uh              h=1

donde
                                         Yh =              yk .
                                                    k∈Uh
                                                H                          H
                         1             1                         1
                     Y =          yk =                      yk =               Nh Y h ,
                         N    k∈U
                                       N       h=1 k∈Uh
                                                                 N       h=1

donde Y h es la media calculada en el estrato h
                                                1
                                        Yh =                  yk .
                                                Nh    k∈Uh




                                                    14
2
Adem´s, σyh representa la varianza del estrato h
    a

                                     2       1                              2
                                    σyh =                   yk − Y h
                                             Nh    k∈Uh

   2
y Syh la cuasivarianza
                                          2         Nh
                                         Syh =           σ2 .
                                                   Nh − 1 yh
                   2
La varianza total σy se logra por
                                                   H                            H
              2     1                         1                        1
             σy =             (yk − Y )2 =                   2
                                                         Nh σyh +                     Nh (Y h − Y )2 .   (4.1)
                    N   k∈U
                                              N    h=1
                                                                       N        h=1

Esta igualdad es la descomposici´n cl´sica de la varianza, que se escribe
                                o    a
                                      2    2           2
                                     σy = σy(intra) + σy(inter)
       2
donde σy(intra) es la varianza intra-estratos
                                                            H
                                      2             1                  2
                                     σy(intra) =                   Nh σyh
                                                    N      h=1

   2
y σy(inter) es la varianza inter-estratos
                                                    H
                                  2            1
                                 σy(inter)   =             Nh (Y h − Y )2 .
                                               N   h=1



4.3.      Muestra, probabilidad de inclusi´n, estimaci´n
                                          o           o
   Un dise˜o muestral es estratificado si,
          n
      en cada estrato, se selecciona una muestra simple aleatoria de tama˜o fijo nh
                                                                         n

      la selecci´n de una muestra en un estrato es independiente de selecci´n de las
                o                                                          o
      muestras de los otros estratos.
   Sh representa la muestra aleatoria seleccionada en el estrato h con el dise˜o ph (.),
                                                                              n
donde ph (sh ) = Pr(Sh = sh ). La muestra aleatoria total es
                                                       H
                                              S=            Sh .
                                                    h=1

Adem´s, de manera general s representa un valor posible de S donde
    a
                                                       H
                                              s=            sh .
                                                    h=1




                                                       15
S1    S2                Sh               SH




                             U1    U2                Uj               UJ

                             Figura 4.1: Plan estratificado


   El dise˜o muestral global es p(.) donde
          n

                                    p(s) = Pr(S = s).

Debido a la independencia de las selecciones en cada estrato, tenemos
                                         H                       H
                             p(s) =           ph (sh ), s =          sh .
                                        h=1                   h=1

Si nh representa el tama˜o de la muestra en el estrato h, tenemos
                        n
                                             H
                                                  nh = n,
                                         h=1

donde n es el tama˜o de la muestra.
                  n


4.4.     Probabilidad de inclusi´n
                                o
   Si la unidad k est´ en el estrato h,
                     a
                                                 nh
                                    πk =            , k ∈ Uh .
                                                 Nh
   Para calcular las probabilidades de inclusi´n de segundo orden, tenemos que separar
                                              o
dos casos :
     En el caso donde las unidades k y             est´n en el mismo estrato
                                                      a
                                         nh (nh − 1)
                                  πk =               ,k y             ∈ Uh .
                                         Nh (Nh − 1)

     Si dos individuos k y    est´n en dos estratos distintos,
                                 a
                                         nh ni
                                  πk =         , k ∈ Uh y             ∈ Ui .
                                         Nh Ni




                                                    16
Se logra              n N −n
                      h h
                     
                                 h
                                                           si    = k, k ∈ Uh
                     
                      Nh Nh
                ∆k =     nh (Nh − nh )                                                                     (4.2)
                      − 2
                      Nh (Nh − 1)                         si k y        ∈ Uh , k =
                     
                     
                       0                                   si k ∈ Uh y          ∈ Ui , h = i.
    El π-estimador
                                                      H                          H
                                             yk             Nh
                          Yestrat =             =                        yk =         Yh ,
                                       k∈S
                                             πk      h=1
                                                            nh   k∈Sh           h=1

y
                                                     H                                H
                            1          yk   1              Nh                 1
                Y strat   =               =                              yk =              Nh Y h .
                            N    k∈S
                                       πk   N        h=1
                                                           nh    k∈Sh
                                                                              N      h=1

donde Yh es el estimador del total del estrato h
                                                     Nh
                                             Yh =                 yk .
                                                     nh    k∈Sh


e Y h es la media de la muestra en el estrato h
                                                     1
                                             Yh =                 yk .
                                                     nh    k∈Sh

   Como las selecciones son independientes entre los estratos y que los dise˜os son
                                                                            n
simples en los estratos :
                                       H              H                         H
                                                                                           Nh − n h 2
           var Ystrat = var                 Yh   =          var Yh =                 Nh            Syh .   (4.3)
                                      h=1             h=1                     h=1
                                                                                             nh

La varianza de este estimador puede estimarse sin sesgo por
                                                      H
                                                                 Nh − n h 2
                              var Ystrat =                  Nh           syh ,                             (4.4)
                                                     h=1
                                                                   nh

donde
                                    1
                          s2 =
                           yh               (yk − Y h )2 , h = 1, . . . , H.
                                 nh − 1 k∈S
                                                 h




4.5.       Plan estratificado con afijaci´n proporcional
                                       o
    Un plan estratificado tiene una afijaci´n proporcional, si
                                         o
                                       nh  n
                                          = , h = 1, . . . , N.
                                       Nh  N




                                                          17
Suponemos que nh = nNh /N son enteros. El estimador del total es
                                            H
                                                           N
                                Yprop =           Yh =                 yk ,
                                            h=1
                                                           n    k∈S

y el estimador de la media
                                             H
                                        1                          1
                             Y prop =               Nh Y h =                  yk ,
                                        N   h=1
                                                                   n   k∈S


donde Y h es la media de la muestra en el estrato h e Yh es el estimador del total en el
estrato h
                                          1
                                  Yh =           yk .
                                         nh k∈S
                                                           h

La varianza del estimador del total se simplifica
                                                               H
                                                 N −n                    2
                              var(Yprop ) =                          Nh Syh ,            (4.5)
                                                   n       h=1

y la varianza del estimador de la media viene dada por :
                                                               H
                                            N −n                         2
                             var(Y prop ) =                          Nh Syh .            (4.6)
                                             nN 2              h=1

                    2     2
   Si N es grande, Syh ≈ σyh .

                                                H                                    2
                                  N −n                    2       N − n σy(intra)
                   var(Y prop ) ≈                     Nh σyh    =                 .      (4.7)
                                   nN 2         h=1
                                                                   N       n

Comparaci´n del dise˜o estratificado con el muestro aleatorio simple.
         o          n
                                                       2
                                                N − n σy
                                  var(Y srs ) ≈          .                               (4.8)
                                                 N n
La varianza del estimador de la media puede estimarse por :
                                                               H
                                             N −n
                              var(Y prop ) =                         Nh s 2 ,
                                                                          yh             (4.9)
                                              nN 2             h=1

donde
                                 1
                      s2 =
                       yh                (yk − Y h )2 , h = 1, . . . , H.
                              nh − 1 k∈S
                                            h




                                                      18
4.6.        Dise˜ o estratificado ´ptimo para el total
                n                o
   Neyman (1934) busc´ la afijaci´n para los tama˜os en la muestra n1 , . . . , nh , . . . , nH
                      o         o               n
que maximiza la varianza del estimador de Horvitz-Thompson para un muestreo de
tama˜o fijo. Tenemos que minimizar
    n
                                                         H
                                                                    Nh − n h 2
                                  var(Ystrat ) =               Nh           Syh ,                   (4.10)
                                                         h=1
                                                                      nh

en n1 , . . . , nh , . . . , nH sujeta a que
                                                     H
                                                          nh = n.                                   (4.11)
                                                   h=1

    Podemos escribir la ecuaci´n de Lagrange
                              o
                                               H                                     H
                                                         Nh − n h 2
                  L(n1 , . . . , nH , λ) =         Nh            Syh + λ                 nh − n .
                                             h=1
                                                           nh                    h=1

Anulando las derivadas parciales respecto a los nh y a λ, se logra
                                        2
                               ∂L     Nh 2
                                   = − 2 Syh + λ = 0, h = 1, . . . , H,                             (4.12)
                               ∂nh    nh
y
                                                      H
                                           ∂L
                                              =              nh − n = 0.                            (4.13)
                                           ∂λ        h=1

    Luego
                                           Nh
                                      nh = √ Syh , h = 1, . . . , H.                                (4.14)
                                            λ
y
                                       H                           H
                                                                   h=1Nh Syh
                                             nh = n =                √       .
                                      h=1
                                                                       λ
Obtenemos
                                             √               H
                                                                Nh Syh
                                                             h=1
                                              λ=                       .                            (4.15)
                                                                n
    y finalmente
                                               nNh Syh
                                  nh =         H
                                                               , h = 1, . . . , H.                  (4.16)
                                               h=1   Nh Syh
    Notas

       Hay un problema de redondeo,

       Se puede obtener nh > Nh .




                                                             19
4.7.     Nota sobre la optimalidad en estratificaci´n
                                                  o
    Sea una poblaci´n dividida en dos estratos H = 2 donde queremos estimar la
                    o
diferencia D = Y 1 − Y 2 . El estimador

                                     D = Y 1 − Y 2.

Como las selecciones de las muestras son independientes entre los estratos
                                                    N1 − n1 2     N2 − n2 2
           var D = var Y 1 + var Y 2 =                      Sy1 +        S .   (4.17)
                                                     n 1 N1        n2 N2 y2
Se minimiza (4.17) sujeta a que n1 + n2 = n y se logra

                                      Syh
                                 nh = √ , h = 1, 2,
                                        λ
donde λ es el multiplicador de Lagrange. Como n1 + n2 = n, encontramos
                                       nSyh
                              nh =             , h = 1, 2.
                                     Sy1 + Sy2

4.8.     Optimalidad y coste
    El objetivo es estimar un total Y para un coste fijado C. Minimizamos la expresi´n
                                                                                   o
(4.10) sujeta a que
                                     H
                                           nh Ch = C,
                                     h=1

donde Ch es el coste de la entrevista en el estrato h. Obtenemos
                            
                             n = Nh Syh , h = 1, . . . , H,
                             h      √
                            
                                      λCh
                                H
                            
                            
                            
                                  nh Ch = C,
                              h=1

donde λ es el multiplicador de Lagrange, y
                                            CNh Syh
                             nh = √          H            √       .
                                      Ch     =1    N Sy       C

4.9.     Tama˜ o de muestra m´
             n               ınimo
  Otra manera de tratar el problema es buscar la afijaci´n que da el tama˜o de
                                                       o                n
muestra m´
         ınimo para una varianza fijada. Sea

                              ah = nh /n, h = 1, . . . , H,




                                              20
entonces
                                                  H
                                                      ah = 1.
                                               h=1
De (4.10),
                                                      H
                                                                Nh − nah 2
                                var(Ystrat ) =             Nh           Syh .       (4.18)
                                                   h=1
                                                                  nah
Buscamos entonces un valor m´      ınimo de (4.18) en a1 , . . . , aH , para un valor fijado
var(Ystrat ) representado por V . Sustituyendo (4.18) en var(Ystrat ) por V , se logra
                                              H      2             H
                                         1         Nh 2              2
                                     V =               Sh −     Nh S h ,
                                         n   h=1
                                                   ah       h=1

lo que se puede escribir
                                                               2
                                                              Nh 2
                                                          H
                                                          h=1 ah Sh
                                        n=                  H        2
                                                                       .            (4.19)
                                              V +           h=1 Nh S h
Entonces minimizamos                                           2
                                                          H   Nh 2
                                                          h=1 ah Sh
                                        n=                  H        2
                                                                       .            (4.20)
                                              V +           h=1 Nh S h
con a1 , . . . , aH , sujeta a que
                                                  H
                                                      ah = 1,
                                               h=1
y despu´s de algunos c´lculos, tenemos
       e              a
                                                          Nh Syh
                                         ah =             H
                                                                       .            (4.21)
                                                          =1 N Sy

Se logra el mismo tipo de afijaci´n. Finalmente se puede fijar el tama˜o de la muestra
                                o                                   n
                                                                           2
                                                      H
                                                      h=1    Nh Syh
                                       n∗ =                 H         2
                                                                               .
                                              V +           h=1   Nh Syh
Ejercicio 4.1 Queremos estimar medias para las empresas de un departamento. Las
empresas son clasificadas seg´n el volumen de negocio y son clasificadas en tres clases.
                            u
Los datos de un censo son los siguientes:
                          Volumen de negocio                N´mero de empresas
                                                             u
                                de 0 a 1                          1000
                               de 1 a 10                           100
                              de 10 a 100                           10
Se quiere seleccionar una muestra de 111 empresas. Si se supone que la distribuci´n es
                                                                                 o
uniforme en cada estrato, calcule la varianza del estimador de la media del volumen de
negocios para un dise˜o con representaci´n proporcional y para un dise˜o estratificado
                      n                   o                            n
o
´ptimo.




                                                           21
Cap´
   ıtulo 5

Muestreo con probabilidades
desiguales

    Los dise˜os con probabilidades desiguales permiten reducir la varianza cuando hay
            n
un efecto de tama˜o en los datos. Tambi´n son muy usados en los dise˜os multiet´picos
                  n                     e                            n         a
autoponderados para seleccionar las unidades primarias. Tres libros tratan del tema:
Brewer and Hanif (1983); Gabler (1990); Till´ (2006). Aqu´ presentamos los planes
                                               e            ı,
m´s importantes. Un desarrollo m´s exhaustivo pude ser encontrado en Till´ (2006).
  a                                a                                        e


5.1.     Informaci´n auxiliar y probabilidades de in-
                  o
         clusi´n
              o
    Variable auxiliar x conocida sobre U . x es aproximadamente proporcional a y.
Selecci´n de las unidades con probabilidades de inclusi´n proporcionales a x. Varianza
       o                                               o
                                                       2
                       ˆ    1                 yk   y
                   var Yπ =                      −         (πk π − πk ).         (5.1)
                            2 k∈U      ∈U
                                              πk π
                                       =k



5.2.     C´lculo de las probabilidades de inclusi´n
          a                                      o
   Calculamos
                                  xk n
                           πk =            , para todo k ∈ U.
                                       x
                                  ∈U

Algunos de los πk pueden ser πk > 1. Estas unidades son incluidas en la muestra con
una probabilidad de 1. Se vuelve a empezar el c´lculo con las unidades que quedan. Al
                                               a
final, tenemos dos grupos :

     un primer grupo de unidades con probabilidades de inclusi´n iguales a 1
                                                              o

     un segundo grupo con probabilidades de inclusi´n 0 < πk < 1 y proporcionales a
                                                   o
     xk .




                                              22
El problema es seleccionar n unidades con probabilidades de inclusi´n fijadas con
                                                                       o

                  0 < πk < 1, para todo k ∈ U, tal que                  πk = n.   (5.2)
                                                                  k∈U

Ejemplo 5.1 Si N = 6, n = 3, x1 = 1, x2 = 9, x3 = 10, x4 = 70, x5 = 90, x6 = 120,
tenemos
                              X=       xk = 300,
                                            k∈U

y entonces
        nx1    1 nx2    9 nx3  1 nx4  7 nx5  9 nx6  6
            =    ,   =    ,   = ,    = ,    = ,    = > 1.
         X    100 X    100 X   10 X   10 X   10 X   5
La unidad 6 es seleccionada (con una probabilidad de 1). Luego, volvemos a calcular
las probabilidades de inclusi´n
                             o

                                               xk = 180,
                                    k∈U {6}

y entonces
                 (n − 1)x1    1 (n − 1)x2    1 (n − 1)x3    1
                             = ,            = ,            = ,
                   ∈U {6} x  90  ∈U {6} x  10  ∈U {6} x  9
                            (n − 1)x4    7 (n − 1)x5
                                        = ,            = 1.
                              ∈U {6} x  9   ∈U {6} x

Las probabilidades de inclusi´n son
                             o
                          1        1      1      7
                   π1 =      , π2 = , π3 = , π4 = , π5 = 1, π6 = 1.
                          90       10     9      9
Dos unidades son seleccionadas con una probabilidad 1. El problema se reduce a la
selecci´n de una unidad en una subpoblaci´n de tama˜o 4.
       o                                 o         n


5.3.      Muestreo con probabilidades desiguales con
          reemplazamiento
   Hansen and Hurwitz (1943) han propuesto un m´todo de selecci´n de una muestra
                                                  e            o
con probabilidades desiguales con reemplazamiento. Sea
                                             xk
                                 pk =                  , k ∈ U,
                                             ∈U   x
y
                                        k
                                vk =         p , con v0 = 0.
                                        =1

      u es una variable continua, uniforme en [0, 1[,




                                                  23
se selecciona la unidad k tal que vk−1 ≤ u < vk .

     Esta operaci´n es repetida m veces de manera independiente.
                 o
yi es la i´sima unidad seleccionada en la muestra. El total Y es estimado por el esti-
˜         e
mador de Hansen-Hurwitz                      m
                                          1     yi
                                                ˜
                                  YHH =            .
                                          m i=1 pi
Como
                                   yi
                                   ˜        yk
                               E      =        pk = Y,
                                   pi   k∈U
                                            pk

YHH es un estimador insesgado Y . En efecto,
                                       m                       m
                                 1                yi
                                                  ˜        1
                     E YHH     =            E            =           Y = Y.
                                 m    i=1
                                                  pi       m   i=1

Varianza :
                                       2                                        2
                           1          yk                 1            yk
               var[YHH ] =               − t2
                                            y          =       pk        −Y         ,   (5.3)
                           m    k∈U
                                      pk                 m k∈U        pk
y puede estimarse por
                                                     m                  2
                                    1                     yi
                                                          ˜
                     var[YHH ] =                             − YyHH         .
                                 m(m − 1)          i=1
                                                          pi


5.4.     Dise˜ o de Poisson
             n
    Cada unidad de U es seleccionada de manera independiente con una probabilidad
de inclusi´n πk .
          o
                                    πk = πk π ,
∆k = πk − πk π = 0, para todos k = . El dise˜o muestral viene dado por
                                            n
                                             
                                             
             p(s) =     πk ×         (1 − πk ) , para todos s ⊂ U.                      (5.4)
                                             
                        k∈s           k∈U s


    En un dise˜o de Poisson, ∆k = 0 cuando k = , la varianza del estimador puede
               n
ser calculada simplemente
                                                               2
                                                  πk (1 − πk )yk
                              var Yπ =                   2
                                                                 ,                      (5.5)
                                            k∈U
                                                        πk

y puede estimarse por
                                                           2
                                                 (1 − πk )yk
                              var Yπ =                2
                                                             .                          (5.6)
                                            k∈Se
                                                     πk




                                                24
5.5.      Muestreo de entrop´ m´xima con tama˜ o fijo
                            ıa a             n
    Buscamos un dise˜o muestral con la entrop´ m´xima sobre el conjunto de todas
                     n                       ıa a
las muestras de U de tama˜o fijo n.
                         n

                                      Sn = {s|#s = n}.

El problema es maximizar

                                  I(p) = −          p(s) log p(s),
                                             s∈Sn

sujeta a que
                                    p(s) = πk , y            p(s) = 1.          (5.7)
                              s k                     s∈Sn
                             s∈Sn

Existe una soluci´n pero es complicada.
                 o


                                                exp k∈s λk
                              p(s) =
                                               s∈Sn exp k∈s λk

Un algoritmo (ver Chen et al., 1994; Deville, 2000; Till´, 2006) permite calcular los
                                                          e
πk a partir de los λk y los λk a partir de los πk . El conocimiento de los λk permite
numerosas implementaciones del dise˜o de muestreo (ver Till´, 2006).
                                    n                         e


5.6.      El dise˜ o muestral sistem´tico
                 n                  a
    Madow (1949) propuso el primero m´todo con tama˜o fijo y probabilidades de
                                         e          n
inclusi´n desiguales. Tenemos 0 < πk < 1, k ∈ U con
       o

                                               πk = n.
                                         k∈U

Sea
                             k
                      Vk =        π , para todos k ∈ U, con Vo = 0.             (5.8)
                             =1



Una variable uniforme es generada en [0, 1].

      la primera unidad seleccionada k1 es tal que Vk1 −1 ≤ u < Vk1 ,

      la segunda unidad seleccionada es tal que Vk2 −1 ≤ u + 1 < Vk2 y

      la j´sima unidad seleccionada es tal que Vkj −1 ≤ u + j − 1 < Vkj .
          e




                                                 25
0,2           0,9          1,7       2,2     2,6

                 0                    1               2                 3
                           u              u+1              u+2

                               Figura 5.1: Muestreo sistem´tico
                                                          a


Ejemplo 5.2 N = 6 y n = 3, π1 = 0,2, π2 = 0,7, π3 = 0,8, π4 = 0,5, π5 = π6 = 0,4,
V1 = 0,2, V2 = 0,9, V3 = 1, 7, V4 = 2,2, V5 = 2,6, V6 = 3, u = 0,3658. Las unidades 2,
3 y 5 son seleccionadas.

    El algoritmo tambi´n puede ser presentado de la manera siguiente : Primero, se
                       e
selecciona la unidad k tal que los intervalos [Vk−1 − u, Vk − u[ contengan un n´mero
                                                                               u
entero.
Algorithm 2 Algoritmo de muestreo sistem´tico
                                            a
             Definici´n a, b, u real; k entero;
                    o
             u = un n´mero aleatorio uniforme en [0,1];
                      u
             a = −u;
                                          b = a;
             Repetir para k = 1, .., N a = a + πk ;
                                          si a = b seleccionar k.


   El problema es que la mayor´ de las probabilidades de inclusi´n son iguales a cero.
                               ıa                               o
La matriz de probabilidades de inclusi´n viene dada por :
                                      o
                                                        
                             − 0 0,2 0,2 0           0
                           0 − 0,5 0,2 0,4 0,3 
                                                        
                           0,2 0,5 − 0,3 0,4 0,2 
                                                        
                           0,2 0,2 0,3 − 0 0,3 
                                                        
                           0 0,4 0,4 0 − 0 
                             0 0,3 0,2 0,3 0 −

5.7.     El m´todo de escisi´n
             e              o
5.7.1.    Escisi´n en dos partes
                o
    El m´todo de escisi´n (ver Deville and Till´, 1998; Till´, 2006) es une t´cnica bas-
         e             o                       e            e                e
tante simple para seleccionar une muestra seg´n probabilidades de inclusi´n dadas. A
                                               u                            o
partir del vector de probabilidades de inclusi´n, se vuelve a aplicar a cada etapa une
                                              o
escisi´n en dos o varios nuevos vectores. Un vector es elegido aleatoriamente. A cada
      o
etapa se intenta lograr un vector m´s simple, por ejemplo, introduciendo 0 o 1 en el
                                     a
nuevo vector. En N etapas como m´ximo, la muestra es seccionada. El m´todo del cubo
                                   a                                     e
para seleccionar un dise˜o equilibrado es una generalizaci´n del m´todo de escisi´n.
                        n                                  o        e              o




                                               26
(1)   (2)
    La t´cnica b´sica es muy simple : cada πk se separa en dos partes πk y πk que
        e       a
verifican :
                                      (1)          (2)
                              πk = λπk + (1 − λ)πk ;                         (5.9)
                                           (1)                      (2)
                                 0 ≤ πk ≤ 1 y 0 ≤ πk ≤ 1,                                      (5.10)
                                             (1)              (2)
                                           πk =              πk = n,                           (5.11)
                                     k∈U               k∈U

donde λ puede elegirse libremente dentro de 0 < λ < 1. El m´todo consiste en selec-
                                                           e
cionar n unidades con probabilidades desiguales
                         (1)
                      πk , k ∈ U,            con una probabilidad λ
                       (2)
                      πk , k ∈ U,            con una probabilidad 1 − λ.


                                                       
                                                     π1
                                                    . 
                                                    . 
                                                      .
                                                       
                                                    πk 
                                                    . 
                                                    . 
                                                      .
                                                     πN
                                              ¨¨rr
                                     λ¨    ¨ ¨    rr                      1−λ
                                                                     rr
                            ¨    ¨¨                                       rr
                           %
                           ¨                                                j
                                                                            r
                          (1)
                                                                            (2)
                                                                                    
                       π1                                                   π1
                      .                                                  .       
                      . .                                                . .     
                      (1)                                                (2)     
                      π                                                  π       
                      k                                                  k       
                      .                                                  .       
                      . .                                                . .     
                         (1)                                                  (2)
                       πN                                                   πN



                           Figura 5.2: Escisi´n en dos partes
                                             o


    El problema se reduce a otro problema de muestreo con probabilidades desiguales.
                                                (1)         (2)
Si la escisi´n es tal que uno o algunos de los πk y de los πk son iguales a 0 o 1,
            o
el problema de muestreo ser´ m´s simple en la pr´xima etapa porque la escisi´n es
                              a a                   o                         o
aplicada a una poblaci´n m´s peque˜a.
                        o   a       n




                                                        27
5.7.2.    Escisi´n en M partes
                o
   El m´todo puede ser generalizado a una t´cnica de escisi´n en M vectores de pro-
        e                                   e              o
                                                   (j)
babilidades de inclusi´n. Primero, construimos los πk y los λj de manera que
                      o
                                                  M
                                                       λj = 1,
                                                 j=1


                                 0 ≤ λj ≤ 1 (j = 1, . . . , M ),
                                             M
                                                        (j)
                                                  λj π k = π k ,
                                            j=1

                                     (j)
                           0 ≤ πk ≤ 1 (k ∈ U, j = 1, . . . , M ),
                                           (j)
                                       πk = n (j = 1, . . . , M ).
                                 k∈U



                                                      
                                                    π1
                                                   . 
                                                   . 
                                                     .
                                                      
                                                   πk 
                                                   . 
                                                   . 
                                                     .
                                                    πN
                                                  ¨¨rr
                                     λ1 ¨¨
                                      ¨
                                                     λ rr     j    rr
                                                                        λM
                             ¨   ¨¨                      c              rr
                            %
                            ¨                                             j
                                                                          r
                          (1)
                                                      (i)
                                                                                (M )
                                                                                         
                          π1                           π1                    π1
                          .
                           .                          .
                                                        .                    .
                                                                               .         
                          .                          .                    .         
                                                                                    
                          (1)
                          πk          ...             (i)
                                                       πk        ...        (M )
                                                                             πk          
                                                                                    
                          .
                           .                          .
                                                        .                    .
                                                                               .         
                          .                          .                    .         
                           (1)                          (i)                       (M )
                          πN                           πN                    πN




                            Figura 5.3: Escisi´n en M partes
                                              o
                                                                            (j)
     El m´todo consiste en seleccionar uno de los vectores πk con probabilidades λj (j =
            e
                               (j)
1, . . . , M ). De nuevo, los πk son tales que el problema de muestreo ser´ m´s simple
                                                                           a a
en la pr´xima etapa.
            o




                                                         28
5.7.3.      Dise˜ o con un soporte m´
                n                   ınimo
   (π(1) , . . . , π(k) , . . . , π(N ) ) representa el vector de probabilidades de inclusi´n. Luego,
                                                                                           o
definimos

                                     ın{1 − π(N −n) , π(N −n+1) },
                                λ = m´
                               (1)          0   si k ≤ N − n
                             π(k) =
                                            1   si k > N − n,
                                         π(k)
                                        
                                                  if k ≤ N − n
                                (2)       1−λ
                              π(k)    =
                                         π(k) − λ
                                                  if k > N − n.
                                           1−λ

Ejemplo 1. Suponemos que N = 6, n = 3, π1 = 0,07, π2 = 0,17, π3 = 0,41, π4 = 0,61,
π5 = 0,83, π6 = 0,91. En este caso, la soluci´n se encuentra en 4 etapas. El vector
                                               o
de probabilidades de inclusi´n se separa en dos partes dadas en las columnas 2 y 3
                              o
de la Tabla 1. Con la probabilidad λ = 0,59, la muestra {4, 5, 6} es seleccionada y
con probabilidad 1 − λ = 0,41, otro dise˜o muestral se aplica con probabilidades de
                                          n
inclusi´n dadas por (0.171, 0.415, 1, 0.049, 0.585, 0.780). En la etapa 2, la escisi´n
       o                                                                            o
se aplica al vector y, en 4 etapas la muestra es seleccionada. El dise˜o muestral es el
                                                                      n

                             Cuadro 5.1: Plan con soporte m´
                                                           ınima

                             Etapa 1       Etapa 2      Etapa 3     Etapa 4
                       πk    λ = 0,59     λ = 0,585    λ = 0,471   λ = 0,778
                      0,07   0 0,171      0 0,412      0 0,778     1    0
                      0,17   0 0,415      0    1       1    1      1    1
                      0,41   0    1       1    1       1    1      1    1
                      0,61   1 0,049      0 0,118      0 0,222     0    1
                      0,83   1 0,585      1    0       0    0      0    0
                      0,91   1 0,780      1 0,471      1    0      0    0


siguiente p({4, 5, 6}) = 0,59; p({3, 5, 6}) = (1 − 0,59) × 0,585 = 0,24; p({2, 3, 6}) =
(1 − 0,59 − 0,24) × 0,471 = 0,08; p({1, 2, 3}) = (1 − 0,59 − 0,24 − 0,08) × 0,778 = 0,07;
p({2, 3, 4}) = 1 − 0,59 − 0,24 − 0,08 − 0,7 = 0,02.
    El dise˜o muestral viene dado por p({4, 5, 6}) = 0,59, p({3, 5, 6}) = (1 − 0,59) ×
            n
0,585 = 0,24, p({2, 3, 6}) = (1 − 0,59 − 0,24) × 0,471 = 0,08, p({1, 2, 3}) = (1 − 0,59 −
0,24 − 0,08) × 0,778 = 0,07, p({2, 3, 4}) = (1 − 0,59 − 0,24 − 0,08 − 0,7) = 0,02.

5.7.4.      Escisi´n en dise˜ os simples
                  o         n
   Este m´todo permite separar el vector de probabilidades de inclusi´n en dos partes.
         e                                                           o
Definimos
                                          N     N
                           λ = m´ π(1) ,
                                   ın                  ,                        (5.12)
                                           n N −n




                                                  29
y calculamos, para k ∈ U,
                                                          n
                                   (1)     n (2) πk − λ N
                                  π(k) =     , π(k) =       .
                                           N          1−λ
                            (2)                                              (2)
Si λ = π(1) N/n, entonces π(1) = 0; si λ = (1 − π(N ) )N/(N − n), entonces π(N ) = 1. En
la pr´xima etapa, el problema se reduce a la selecci´n de una muestra de tama˜o n − 1
     o                                                o                          n
o n en una poblaci´n de tama˜o N − 1. En N − 1 etapas, el problema es reducido.
                   o           n

Ejemplo 2 Con los mismos πk que en el ejemplo 1, el resultado del m´todo viene
                                                                          e
dado en la Tabla 2. El problema consiste finalmente en seleccionar uno de los 6 dise˜os
                                                                                   n

                    Cuadro 5.2: Descomposici´n en planes simples
                                            o

                 Etapa 1      Etapa 2           Etapa 3    Etapa 4    Etapa 5
          πk     λ = 0,14    λ = 0,058         λ = 0,173  λ = 0,045 λ = 0,688
         0,07   0,5    0      0     0           0    0     0     0    0    0
         0,17   0,5 0,116   0,600 0,086        0,5   0     0     0    0    0
         0,41   0,5 0,395   0,600 0,383        0,5 0,358 0,667 0,344 0,5   0
         0,61   0,5 0,628   0,600 0,630        0,5 0,657 0,667 0,656 0,5   1
         0,83   0,5 0,884   0,600 0,901        0,5 0,985 0,667   1    1    1
         0,91   0,5 0,977   0,600   1           1    1     1     1    1    1


simples definidos en las columnas de la Tabla 3. λ1 = 0,14, λ2 = (1 − 0,14) × 0,058 =
0,050, λ3 = (1 − 0,14) × (1 − 0,058) × 0,173 = 0,14, λ4 = (1 − 0,14) × (1 − 0,058) × (1 −
0,173)×0,045 = 0,03, λ5 = (1−0,14)×(1−0,058)×(1−0,173)×(1−0,045)×0,688 = 0,44,
λ6 = (1 − 0,14) × (1 − 0,058) × (1 − 0,173) × (1 − 0,045) × (1 − 0,688) = 0,200.

                      Cuadro 5.3: Escisi´n en N planes simples
                                        o

       k λ1 = 0,14 λ2    = 0,050 λ3 = 0,14 λ4 = 0,03 λ5 = 0,44 λ6 = 0,200
       1    0,5            0         0         0         0         0
       2    0,5           0,6       0,5        0         0         0
       3    0,5           0,6       0,5      0,667      0,5        0
       4    0,5           0,6       0,5      0,667      0,5        1
       5    0,5           0,6       0,5      0,667       1         1
       6    0,5           0,6        1         1         1         1



5.7.5.    El m´todo del pivote
              e
   Solamente son modificadas dos probabilidades de inclusi´n: i y j.
                                                         o
   Si πi + πj > 1, entonces
                                      1 − πj
                               λ=                ,
                                    2 − πi − π j




                                                30
Muestreo equilibrado eficiente, el método del cubo
Muestreo equilibrado eficiente, el método del cubo
Muestreo equilibrado eficiente, el método del cubo
Muestreo equilibrado eficiente, el método del cubo
Muestreo equilibrado eficiente, el método del cubo
Muestreo equilibrado eficiente, el método del cubo
Muestreo equilibrado eficiente, el método del cubo
Muestreo equilibrado eficiente, el método del cubo
Muestreo equilibrado eficiente, el método del cubo
Muestreo equilibrado eficiente, el método del cubo
Muestreo equilibrado eficiente, el método del cubo
Muestreo equilibrado eficiente, el método del cubo
Muestreo equilibrado eficiente, el método del cubo
Muestreo equilibrado eficiente, el método del cubo
Muestreo equilibrado eficiente, el método del cubo
Muestreo equilibrado eficiente, el método del cubo
Muestreo equilibrado eficiente, el método del cubo
Muestreo equilibrado eficiente, el método del cubo
Muestreo equilibrado eficiente, el método del cubo
Muestreo equilibrado eficiente, el método del cubo
Muestreo equilibrado eficiente, el método del cubo
Muestreo equilibrado eficiente, el método del cubo

Mais conteúdo relacionado

Mais procurados

Elementos del muestreo. UGMA
Elementos del muestreo. UGMAElementos del muestreo. UGMA
Elementos del muestreo. UGMA
alcala1203
 
Ensayo de estadística inferencial
Ensayo de estadística inferencialEnsayo de estadística inferencial
Ensayo de estadística inferencial
thomas669
 
muestreo y estimacion 2012
muestreo y estimacion 2012muestreo y estimacion 2012
muestreo y estimacion 2012
jose_pabon_2012
 
Estadisticas Inferenciales
Estadisticas InferencialesEstadisticas Inferenciales
Estadisticas Inferenciales
Sandra Zapata
 
Ejemplo explicado
Ejemplo explicadoEjemplo explicado
Ejemplo explicado
1010karen
 
EJEMPLOS DE CADA DISTRIBUCIÓN
EJEMPLOS DE CADA DISTRIBUCIÓN EJEMPLOS DE CADA DISTRIBUCIÓN
EJEMPLOS DE CADA DISTRIBUCIÓN
Roza Meza
 
Proyecto de estadistica
Proyecto de estadisticaProyecto de estadistica
Proyecto de estadistica
ERICK CONDE
 
Peranan statistik dalam kehidupan sehari
Peranan statistik dalam kehidupan sehariPeranan statistik dalam kehidupan sehari
Peranan statistik dalam kehidupan sehari
Oki Mentari
 
Ensayo probabilidad
Ensayo probabilidadEnsayo probabilidad
Ensayo probabilidad
maykeljunior
 
Tablas de probabilidad
Tablas de probabilidadTablas de probabilidad
Tablas de probabilidad
rserrato7
 

Mais procurados (20)

Estadistica descriptiva
Estadistica descriptivaEstadistica descriptiva
Estadistica descriptiva
 
Muestreo probabilistico
Muestreo probabilistico Muestreo probabilistico
Muestreo probabilistico
 
Elementos del muestreo. UGMA
Elementos del muestreo. UGMAElementos del muestreo. UGMA
Elementos del muestreo. UGMA
 
Ensayo de estadística inferencial
Ensayo de estadística inferencialEnsayo de estadística inferencial
Ensayo de estadística inferencial
 
muestreo y estimacion 2012
muestreo y estimacion 2012muestreo y estimacion 2012
muestreo y estimacion 2012
 
Muestreo
MuestreoMuestreo
Muestreo
 
Empresa como sistema
Empresa como sistema Empresa como sistema
Empresa como sistema
 
Distribuciones muestrales.ppt
Distribuciones muestrales.pptDistribuciones muestrales.ppt
Distribuciones muestrales.ppt
 
Stats Muestreo
Stats   MuestreoStats   Muestreo
Stats Muestreo
 
Estadisticas Inferenciales
Estadisticas InferencialesEstadisticas Inferenciales
Estadisticas Inferenciales
 
Ejemplo explicado
Ejemplo explicadoEjemplo explicado
Ejemplo explicado
 
EJEMPLOS DE CADA DISTRIBUCIÓN
EJEMPLOS DE CADA DISTRIBUCIÓN EJEMPLOS DE CADA DISTRIBUCIÓN
EJEMPLOS DE CADA DISTRIBUCIÓN
 
Proyecto de estadistica
Proyecto de estadisticaProyecto de estadistica
Proyecto de estadistica
 
Capitulo 5 alcance de investigación
Capitulo 5 alcance de investigación Capitulo 5 alcance de investigación
Capitulo 5 alcance de investigación
 
Peranan statistik dalam kehidupan sehari
Peranan statistik dalam kehidupan sehariPeranan statistik dalam kehidupan sehari
Peranan statistik dalam kehidupan sehari
 
Formulario 1 estadística ii (1)
Formulario 1 estadística ii (1)Formulario 1 estadística ii (1)
Formulario 1 estadística ii (1)
 
Ensayo probabilidad
Ensayo probabilidadEnsayo probabilidad
Ensayo probabilidad
 
Estudios estadisticos
Estudios estadisticosEstudios estadisticos
Estudios estadisticos
 
Tablas de probabilidad
Tablas de probabilidadTablas de probabilidad
Tablas de probabilidad
 
Clase 2 unidad ii estadistica ii
Clase 2 unidad ii estadistica iiClase 2 unidad ii estadistica ii
Clase 2 unidad ii estadistica ii
 

Semelhante a Muestreo equilibrado eficiente, el método del cubo

Abm1de3“la desregulación de latelevisión local en españa: elcaso de castilla ...
Abm1de3“la desregulación de latelevisión local en españa: elcaso de castilla ...Abm1de3“la desregulación de latelevisión local en españa: elcaso de castilla ...
Abm1de3“la desregulación de latelevisión local en españa: elcaso de castilla ...
Sat Án
 
Actividades de blogger
Actividades de bloggerActividades de blogger
Actividades de blogger
josebaj11
 
Actividades de blogger
Actividades de bloggerActividades de blogger
Actividades de blogger
josebaj11
 
Castellano
CastellanoCastellano
Castellano
Zelorius
 
Plan acogida gv
Plan acogida gvPlan acogida gv
Plan acogida gv
Zelorius
 

Semelhante a Muestreo equilibrado eficiente, el método del cubo (20)

Clasesprobabilidades
ClasesprobabilidadesClasesprobabilidades
Clasesprobabilidades
 
Abm1de3“la desregulación de latelevisión local en españa: elcaso de castilla ...
Abm1de3“la desregulación de latelevisión local en españa: elcaso de castilla ...Abm1de3“la desregulación de latelevisión local en españa: elcaso de castilla ...
Abm1de3“la desregulación de latelevisión local en españa: elcaso de castilla ...
 
Diseño de muestras para encuestas de hogares Directrices prácticas
Diseño de muestras para encuestas de hogares Directrices prácticasDiseño de muestras para encuestas de hogares Directrices prácticas
Diseño de muestras para encuestas de hogares Directrices prácticas
 
Tesis cult tribu una puno
Tesis cult tribu una punoTesis cult tribu una puno
Tesis cult tribu una puno
 
nata.docx
nata.docxnata.docx
nata.docx
 
nata.docx
nata.docxnata.docx
nata.docx
 
nata.docx
nata.docxnata.docx
nata.docx
 
nata (1).docx
nata (1).docxnata (1).docx
nata (1).docx
 
Sup. univ. austral_4_de_mayo_de_2009
Sup. univ. austral_4_de_mayo_de_2009Sup. univ. austral_4_de_mayo_de_2009
Sup. univ. austral_4_de_mayo_de_2009
 
Actividades de blogger
Actividades de bloggerActividades de blogger
Actividades de blogger
 
Actividades de blogger
Actividades de bloggerActividades de blogger
Actividades de blogger
 
Programa estimulacion lenguaje
Programa estimulacion lenguajePrograma estimulacion lenguaje
Programa estimulacion lenguaje
 
Inferencial
InferencialInferencial
Inferencial
 
Probabilidad y estadistica elementales
Probabilidad y estadistica elementalesProbabilidad y estadistica elementales
Probabilidad y estadistica elementales
 
TRABAJO FINAL
TRABAJO FINAL TRABAJO FINAL
TRABAJO FINAL
 
Análisis Económico del Sector de las Artes Escénicas en España
Análisis Económico del Sector de las Artes Escénicas en EspañaAnálisis Económico del Sector de las Artes Escénicas en España
Análisis Económico del Sector de las Artes Escénicas en España
 
Libro: ¿Cómo Analizar un Film?
Libro: ¿Cómo Analizar un Film?Libro: ¿Cómo Analizar un Film?
Libro: ¿Cómo Analizar un Film?
 
Proyecto, turismo
Proyecto, turismoProyecto, turismo
Proyecto, turismo
 
Castellano
CastellanoCastellano
Castellano
 
Plan acogida gv
Plan acogida gvPlan acogida gv
Plan acogida gv
 

Mais de EUSTAT - Euskal Estatistika Erakundea - Instituto Vasco de Estadística

Web Survey Methodology: Interface Design, Sampling and Statistical Inference
Web Survey Methodology: Interface Design, Sampling and Statistical InferenceWeb Survey Methodology: Interface Design, Sampling and Statistical Inference
Web Survey Methodology: Interface Design, Sampling and Statistical Inference
EUSTAT - Euskal Estatistika Erakundea - Instituto Vasco de Estadística
 

Mais de EUSTAT - Euskal Estatistika Erakundea - Instituto Vasco de Estadística (15)

Calibration of weights in surveys with nonresponse and frame imperfections
Calibration of weights in surveys with nonresponse and frame imperfectionsCalibration of weights in surveys with nonresponse and frame imperfections
Calibration of weights in surveys with nonresponse and frame imperfections
 
Web Survey Methodology: Interface Design, Sampling and Statistical Inference
Web Survey Methodology: Interface Design, Sampling and Statistical InferenceWeb Survey Methodology: Interface Design, Sampling and Statistical Inference
Web Survey Methodology: Interface Design, Sampling and Statistical Inference
 
Panorama de la salud de la C.A. de Euskadi. 2008
Panorama de la salud de la C.A. de Euskadi. 2008Panorama de la salud de la C.A. de Euskadi. 2008
Panorama de la salud de la C.A. de Euskadi. 2008
 
Euskal AEko Osasunaren Ikuspegia. 2008. Emaitza nagusiak
Euskal AEko Osasunaren Ikuspegia. 2008. Emaitza nagusiakEuskal AEko Osasunaren Ikuspegia. 2008. Emaitza nagusiak
Euskal AEko Osasunaren Ikuspegia. 2008. Emaitza nagusiak
 
Euskal AEko Osasunaren Ikuspegia. 2008 / Panorama de la salud de la C.A. de E...
Euskal AEko Osasunaren Ikuspegia. 2008 / Panorama de la salud de la C.A. de E...Euskal AEko Osasunaren Ikuspegia. 2008 / Panorama de la salud de la C.A. de E...
Euskal AEko Osasunaren Ikuspegia. 2008 / Panorama de la salud de la C.A. de E...
 
Inna steinbuka límites del pib como indicador de crecimiento económico y pr...
Inna steinbuka   límites del pib como indicador de crecimiento económico y pr...Inna steinbuka   límites del pib como indicador de crecimiento económico y pr...
Inna steinbuka límites del pib como indicador de crecimiento económico y pr...
 
Limitations of GDP as an indicator of social progress and growth
Limitations of GDP as an indicator of social progress and growthLimitations of GDP as an indicator of social progress and growth
Limitations of GDP as an indicator of social progress and growth
 
Censo del Mercado de Trabajo de la C.A. de Euskadi. Principales Cambios en el...
Censo del Mercado de Trabajo de la C.A. de Euskadi. Principales Cambios en el...Censo del Mercado de Trabajo de la C.A. de Euskadi. Principales Cambios en el...
Censo del Mercado de Trabajo de la C.A. de Euskadi. Principales Cambios en el...
 
Euskal industriaren ikuspegia. 2009
Euskal industriaren ikuspegia. 2009Euskal industriaren ikuspegia. 2009
Euskal industriaren ikuspegia. 2009
 
Panoramica de la industria vasca. 2009
Panoramica de la industria vasca. 2009 Panoramica de la industria vasca. 2009
Panoramica de la industria vasca. 2009
 
Informe Socioeconómico de la C.A. de Euskadi / Euskal AEko Txosten Sozioekon...
Informe Socioeconómico de la C.A. de Euskadi  / Euskal AEko Txosten Sozioekon...Informe Socioeconómico de la C.A. de Euskadi  / Euskal AEko Txosten Sozioekon...
Informe Socioeconómico de la C.A. de Euskadi / Euskal AEko Txosten Sozioekon...
 
Euskal AEko Ikuspegi Demografikoa. 2008
Euskal AEko Ikuspegi Demografikoa. 2008Euskal AEko Ikuspegi Demografikoa. 2008
Euskal AEko Ikuspegi Demografikoa. 2008
 
Panorama demográfico de la C.A. de Euskadi 2008
Panorama demográfico de la C.A. de Euskadi 2008Panorama demográfico de la C.A. de Euskadi 2008
Panorama demográfico de la C.A. de Euskadi 2008
 
Eustat. Cuenta con nosotros. 2010
Eustat. Cuenta con nosotros. 2010Eustat. Cuenta con nosotros. 2010
Eustat. Cuenta con nosotros. 2010
 
Eustat. Bat egin gurekin. 2010
Eustat. Bat egin gurekin. 2010Eustat. Bat egin gurekin. 2010
Eustat. Bat egin gurekin. 2010
 

Último

2 REGLAMENTO RM 0912-2024 DE MODALIDADES DE GRADUACIÓN_.pptx
2 REGLAMENTO RM 0912-2024 DE MODALIDADES DE GRADUACIÓN_.pptx2 REGLAMENTO RM 0912-2024 DE MODALIDADES DE GRADUACIÓN_.pptx
2 REGLAMENTO RM 0912-2024 DE MODALIDADES DE GRADUACIÓN_.pptx
RigoTito
 
6.-Como-Atraer-El-Amor-01-Lain-Garcia-Calvo.pdf
6.-Como-Atraer-El-Amor-01-Lain-Garcia-Calvo.pdf6.-Como-Atraer-El-Amor-01-Lain-Garcia-Calvo.pdf
6.-Como-Atraer-El-Amor-01-Lain-Garcia-Calvo.pdf
MiNeyi1
 
🦄💫4° SEM32 WORD PLANEACIÓN PROYECTOS DARUKEL 23-24.docx
🦄💫4° SEM32 WORD PLANEACIÓN PROYECTOS DARUKEL 23-24.docx🦄💫4° SEM32 WORD PLANEACIÓN PROYECTOS DARUKEL 23-24.docx
🦄💫4° SEM32 WORD PLANEACIÓN PROYECTOS DARUKEL 23-24.docx
EliaHernndez7
 

Último (20)

Feliz Día de la Madre - 5 de Mayo, 2024.pdf
Feliz Día de la Madre - 5 de Mayo, 2024.pdfFeliz Día de la Madre - 5 de Mayo, 2024.pdf
Feliz Día de la Madre - 5 de Mayo, 2024.pdf
 
SESION DE PERSONAL SOCIAL. La convivencia en familia 22-04-24 -.doc
SESION DE PERSONAL SOCIAL.  La convivencia en familia 22-04-24  -.docSESION DE PERSONAL SOCIAL.  La convivencia en familia 22-04-24  -.doc
SESION DE PERSONAL SOCIAL. La convivencia en familia 22-04-24 -.doc
 
2 REGLAMENTO RM 0912-2024 DE MODALIDADES DE GRADUACIÓN_.pptx
2 REGLAMENTO RM 0912-2024 DE MODALIDADES DE GRADUACIÓN_.pptx2 REGLAMENTO RM 0912-2024 DE MODALIDADES DE GRADUACIÓN_.pptx
2 REGLAMENTO RM 0912-2024 DE MODALIDADES DE GRADUACIÓN_.pptx
 
Caja de herramientas de inteligencia artificial para la academia y la investi...
Caja de herramientas de inteligencia artificial para la academia y la investi...Caja de herramientas de inteligencia artificial para la academia y la investi...
Caja de herramientas de inteligencia artificial para la academia y la investi...
 
AFICHE EL MANIERISMO HISTORIA DE LA ARQUITECTURA II
AFICHE EL MANIERISMO HISTORIA DE LA ARQUITECTURA IIAFICHE EL MANIERISMO HISTORIA DE LA ARQUITECTURA II
AFICHE EL MANIERISMO HISTORIA DE LA ARQUITECTURA II
 
ACTIVIDAD DIA DE LA MADRE FICHA DE TRABAJO
ACTIVIDAD DIA DE LA MADRE FICHA DE TRABAJOACTIVIDAD DIA DE LA MADRE FICHA DE TRABAJO
ACTIVIDAD DIA DE LA MADRE FICHA DE TRABAJO
 
Procedimientos para la planificación en los Centros Educativos tipo V ( multi...
Procedimientos para la planificación en los Centros Educativos tipo V ( multi...Procedimientos para la planificación en los Centros Educativos tipo V ( multi...
Procedimientos para la planificación en los Centros Educativos tipo V ( multi...
 
Infografía EE con pie del 2023 (3)-1.pdf
Infografía EE con pie del 2023 (3)-1.pdfInfografía EE con pie del 2023 (3)-1.pdf
Infografía EE con pie del 2023 (3)-1.pdf
 
SEPTIMO SEGUNDO PERIODO EMPRENDIMIENTO VS
SEPTIMO SEGUNDO PERIODO EMPRENDIMIENTO VSSEPTIMO SEGUNDO PERIODO EMPRENDIMIENTO VS
SEPTIMO SEGUNDO PERIODO EMPRENDIMIENTO VS
 
Prueba libre de Geografía para obtención título Bachillerato - 2024
Prueba libre de Geografía para obtención título Bachillerato - 2024Prueba libre de Geografía para obtención título Bachillerato - 2024
Prueba libre de Geografía para obtención título Bachillerato - 2024
 
LABERINTOS DE DISCIPLINAS DEL PENTATLÓN OLÍMPICO MODERNO. Por JAVIER SOLIS NO...
LABERINTOS DE DISCIPLINAS DEL PENTATLÓN OLÍMPICO MODERNO. Por JAVIER SOLIS NO...LABERINTOS DE DISCIPLINAS DEL PENTATLÓN OLÍMPICO MODERNO. Por JAVIER SOLIS NO...
LABERINTOS DE DISCIPLINAS DEL PENTATLÓN OLÍMPICO MODERNO. Por JAVIER SOLIS NO...
 
Dinámica florecillas a María en el mes d
Dinámica florecillas a María en el mes dDinámica florecillas a María en el mes d
Dinámica florecillas a María en el mes d
 
BIOMETANO SÍ, PERO NO ASÍ. LA NUEVA BURBUJA ENERGÉTICA
BIOMETANO SÍ, PERO NO ASÍ. LA NUEVA BURBUJA ENERGÉTICABIOMETANO SÍ, PERO NO ASÍ. LA NUEVA BURBUJA ENERGÉTICA
BIOMETANO SÍ, PERO NO ASÍ. LA NUEVA BURBUJA ENERGÉTICA
 
6.-Como-Atraer-El-Amor-01-Lain-Garcia-Calvo.pdf
6.-Como-Atraer-El-Amor-01-Lain-Garcia-Calvo.pdf6.-Como-Atraer-El-Amor-01-Lain-Garcia-Calvo.pdf
6.-Como-Atraer-El-Amor-01-Lain-Garcia-Calvo.pdf
 
🦄💫4° SEM32 WORD PLANEACIÓN PROYECTOS DARUKEL 23-24.docx
🦄💫4° SEM32 WORD PLANEACIÓN PROYECTOS DARUKEL 23-24.docx🦄💫4° SEM32 WORD PLANEACIÓN PROYECTOS DARUKEL 23-24.docx
🦄💫4° SEM32 WORD PLANEACIÓN PROYECTOS DARUKEL 23-24.docx
 
Power Point: Fe contra todo pronóstico.pptx
Power Point: Fe contra todo pronóstico.pptxPower Point: Fe contra todo pronóstico.pptx
Power Point: Fe contra todo pronóstico.pptx
 
ACRÓNIMO DE PARÍS PARA SU OLIMPIADA 2024. Por JAVIER SOLIS NOYOLA
ACRÓNIMO DE PARÍS PARA SU OLIMPIADA 2024. Por JAVIER SOLIS NOYOLAACRÓNIMO DE PARÍS PARA SU OLIMPIADA 2024. Por JAVIER SOLIS NOYOLA
ACRÓNIMO DE PARÍS PARA SU OLIMPIADA 2024. Por JAVIER SOLIS NOYOLA
 
Qué es la Inteligencia artificial generativa
Qué es la Inteligencia artificial generativaQué es la Inteligencia artificial generativa
Qué es la Inteligencia artificial generativa
 
OCTAVO SEGUNDO PERIODO. EMPRENDIEMIENTO VS
OCTAVO SEGUNDO PERIODO. EMPRENDIEMIENTO VSOCTAVO SEGUNDO PERIODO. EMPRENDIEMIENTO VS
OCTAVO SEGUNDO PERIODO. EMPRENDIEMIENTO VS
 
Lecciones 05 Esc. Sabática. Fe contra todo pronóstico.
Lecciones 05 Esc. Sabática. Fe contra todo pronóstico.Lecciones 05 Esc. Sabática. Fe contra todo pronóstico.
Lecciones 05 Esc. Sabática. Fe contra todo pronóstico.
 

Muestreo equilibrado eficiente, el método del cubo

  • 1. NAZIOARTEKO ESTATISTIKA MINTEGIA SEMINARIO INTERNACIONAL DE ESTADÍSTICA 2010 Muestreo Equilibrado Eficiente: El Método del Cubo Yves Tillé EUSKAL ESTATISTIKA ERAKUNDEA INSTITUTO VASCO DE ESTADÍSTICA 52
  • 2. Muestreo Equilibrado Eficiente: ´ El Metodo del Cubo Yves Till´ e Institut de Statistique, Universit´ de Neuchˆtel e a Pierre ` Mazel 7, 2002 Neuchˆtel, Suiza a a email : yves.tille@unine.ch 29 de septiembre de 2010
  • 3. Lanketa / Elaboración: Euskal Estatistika Erakundea Instituto Vasco de Estadística (EUSTAT) Argitalpena / Edición: Euskal Estatistika Erakundea Instituto Vasco de Estadística Donostia – San Sebastián, 1 – 01010 Vitoria – Gasteiz Euskal AEko Administrazioa Administración de la C.A. de Euskadi Ale-kopurua / Tirada: 500 ale / ejemplares XI-2010 Inprimaketa eta Koadernaketa: Impresión y Encuadernacion: Estudios Gráficos ZURE S.A. Ctra. Lutxana-Asua, 24 A Erandio-Goikoa (BIZKAIA) I.S.B.N.: 978-84-7749-465-2 Lege-gordailua / Depósito Legal: BI-2699-10
  • 4. AURKEZPENA Nazioarteko Estatistika Mintegia antolatzean, hainbat helburu bete nahi ditu EUSTAT-Euskal Estatistika Erakundeak: – Unibertsitatearekiko eta, batez ere, Estatistika-Sailekiko lankidetza bultzatzea. – Funtzionarioen, irakasleen, ikasleen eta estatistikaren alorrean interesatuta egon daitezkeen guz- tien lanbide-hobekuntza erraztea. – Estatistika alorrean mundu mailan abangoardian dauden irakasle eta ikertzaile ospetsuak Eus- kadira ekartzea, horrek eragin ona izango baitu, zuzeneko harremanei eta esperientziak ezagu- tzeari dagokienez. Jarduera osagarri gisa, eta interesatuta egon litezkeen ahalik eta pertsona eta erakunde gehienetara iristearren, ikastaro horietako txostenak argitaratzea erabaki dugu, beti ere txostengilearen jato- rrizko hizkuntza errespetatuz; horrela, gai horri buruzko ezagutza gure herrian zabaltzen lagun- tzeko. Vitoria-Gasteiz, 2010eko Urria JAVIER FORCADA SAINZ EUSTATeko Zuzendari Nagusia PRESENTATION In promoting the International Statistical Seminars, EUSTAT-The Basque Statistics Institute wishes to achieve several aims: – Encourage the collaboration with the universities, especially with their statistical departments. – Facilitate the professional recycling of civil servants, university teachers, students and whoever else may be interested in the statistical field. – Bring to the Basque Country illustrious professors and investigators in the vanguard of statis- tical subjects, on a worldwide level, with the subsequent positive effect of encouraging direct relationships and sharing knowledge of experiences. As a complementary activity and in order to reach as many interested people and institutions as possible, it has been decided to publish the papers of these courses, always respecting the original language of the author, to contribute in this way towards the growth of knowledge concerning this subject in our country. Vitoria-Gasteiz, October 2010 JAVIER FORCADA SAINZ General Director of EUSTAT III
  • 5. PRESENTACION Al promover los Seminarios Internacionales de Estadística, el EUSTAT-Instituto Vasco de Esta- dística pretende cubrir varios objetivos: – Fomentar la colaboración con la Universidad y en especial con los Departamentos de Estadística. – Facilitar el reciclaje profesional de funcionarios, profesores, alumnos y cuantos puedan estar interesados en el campo estadístico. – Traer a Euskadi a ilustres profesores e investigadores de vanguardia en materia estadística, a nivel mundial, con el consiguiente efecto positivo en cuanto a la relación directa y conocimiento de experiencias. Como actuación complementaria y para llegar al mayor número posible de personas e Institucio- nes interesadas, se ha decidido publicar las ponencias de estos cursos, respetando en todo caso la lengua original del ponente, para contribuir así a acrecentar el conocimiento sobre esta materia en nuestro País. Vitoria-Gasteiz, Octubre 2010 JAVIER FORCADA SAINZ Director General de EUSTAT IV
  • 6. BIOGRAFI OHARRAK Yves Tillé doktorea da Bruselako Unibertsitate Librean, estatistikan. 2001 ezkeroztik irakasle dihardu Suitzako Neuchâtel unibertsitatean. Inkesta-estatistika eta laginketaren teorian ari da ikertzen. BIOGRAPHICAL SKETCH Yves Tillé was awarded his pHD in Statistics by the Free University of Brussels. He has been a professor at Neuchâtel University in Switzerland since 2001. His fields of research are survey statistics and sampling theory. NOTAS BIOGRÁFICAS Yves Tillé ha logrado un doctorado en estadística de la Universidad libre de Bruselas. Desde 2001, es profesor en la Universidad de Neuchâtel en Suiza. Sus campos de investigaciones son la estadística de encuesta y la teoría del muestreo. V
  • 7. ´ Indice general 1. Introducci´n o 3 2. Poblaci´n, dise˜ o muestral, y estimaci´n o n o 4 2.1. Poblaci´n finita . . . . . . . . . . . . . . . . . . . . . o . . . . . . . . . . 4 2.2. Dise˜o del Muestreo . . . . . . . . . . . . . . . . . . n . . . . . . . . . . 5 2.3. El estimador de Horvitz-Thompson . . . . . . . . . . . . . . . . . . . . 6 2.4. Estimaci´n de N . . . . . . . . . . . . . . . . . . . . o . . . . . . . . . . 7 2.5. Mala propiedad del estimador de Horvitz-Thompson . . . . . . . . . . 7 2.6. El problema de los elefantes de Basu (1971) . . . . . . . . . . . . . . . 7 3. Muestreo simple 9 3.1. Muestreo simple sin reemplazamiento (o muestro aleatorio simple m.a.s.) 9 3.2. La varianza del dise˜o simple sin reemplazamiento . . . . . . . . . . . . n 10 3.3. Algoritmo de selecci´n-rechazo . . . . . . . . . . . . . . . . . . . . . . . o 11 3.4. Dise˜os simples con reemplazamiento . . . . . . . . . . . . . . . . . . . n 12 3.5. Comparaci´n de los dise˜os simples . . . . . . . . . . . . . . . . . . . . o n 13 4. Estratificaci´no 14 4.1. Introducci´n . . . . . . . . . . . . . . . . . . . o . . . . . . . . . . . . . . 14 4.2. Poblaci´n y estratos . . . . . . . . . . . . . . o . . . . . . . . . . . . . . 14 4.3. Muestra, probabilidad de inclusi´n, estimaci´n o o . . . . . . . . . . . . . 15 4.4. Probabilidad de inclusi´n . . . . . . . . . . . . o . . . . . . . . . . . . . . 16 4.5. Plan estratificado con afijaci´n proporcional . o . . . . . . . . . . . . . . 17 4.6. Dise˜o estratificado ´ptimo para el total . . . n o . . . . . . . . . . . . . . 19 4.7. Nota sobre la optimalidad en estratificaci´n . o . . . . . . . . . . . . . . 20 4.8. Optimalidad y coste . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 4.9. Tama˜o de muestra m´ n ınimo . . . . . . . . . . . . . . . . . . . . . . . . 20 5. Muestreo con probabilidades desiguales 22 5.1. Informaci´n auxiliar y probabilidades de inclusi´n . . . . . . o o . . . . . . 22 5.2. C´lculo de las probabilidades de inclusi´n . . . . . . . . . . a o . . . . . . 22 5.3. Muestreo con probabilidades desiguales con reemplazamiento . . . . . . 23 5.4. Dise˜o de Poisson . . . . . . . . . . . . . . . . . . . . . . . . n . . . . . . 24 5.5. Muestreo de entrop´ m´xima con tama˜o fijo . . . . . . . . ıa a n . . . . . . 25 5.6. El dise˜o muestral sistem´tico . . . . . . . . . . . . . . . . . n a . . . . . . 25 1
  • 8. 5.7. El m´todo de escisi´n . . . . . . . . . . . . . . . . e o . . . . . . . . . . . . 26 5.7.1. Escisi´n en dos partes . . . . . . . . . . . o . . . . . . . . . . . . 26 5.7.2. Escisi´n en M partes . . . . . . . . . . . . o . . . . . . . . . . . . 28 5.7.3. Dise˜o con un soporte m´ n ınimo . . . . . . . . . . . . . . . . . . . 29 5.7.4. Escisi´n en dise˜os simples . . . . . . . . . o n . . . . . . . . . . . . 29 5.7.5. El m´todo del pivote . . . . . . . . . . . . e . . . . . . . . . . . . 30 5.7.6. M´todo de Brewer . . . . . . . . . . . . . e . . . . . . . . . . . . 31 5.8. Varianza en dise˜os con probabilidades desiguales n . . . . . . . . . . . . 32 6. Muestreo equilibrado 33 6.1. Introducci´n . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . o . . . 33 6.2. Representaci´n por un cubo . . . . . . . . . . . . . . . . . . . . . o . . . 34 6.3. Muestras equilibradas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 6.4. Representaci´n gr´fica del problema de redondeado . . . . . . . . o a . . . 35 6.5. La martingala equilibrada . . . . . . . . . . . . . . . . . . . . . . . . . 38 6.6. Implementaci´n de la fase de vuelo . . . . . . . . . . . . . . . . . o . . . 38 6.7. Implementaci´n de la fase de aterrizaje . . . . . . . . . . . . . . o . . . 39 6.7.1. El problema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 6.7.2. Soluci´n 1: programa linear . . . . . . . . . . . . . . . . . o . . . 40 6.7.3. Soluci´n 2: supresi´n sucesiva de variables . . . . . . . . . o o . . . 40 6.8. Varianza en un plan equilibrado . . . . . . . . . . . . . . . . . . . . . . 41 6.8.1. Una t´cnica de residuos . . . . . . . . . . . . . . . . . . . e . . . 41 6.8.2. Aproximaci´n de la varianza . . . . . . . . . . . . . . . . . o . . . 41 6.8.3. Estimaci´n de la varianza . . . . . . . . . . . . . . . . . . o . . . 42 6.9. Muestreo equilibrado en pr´ctica . . . . . . . . . . . . . . . . . . a . . . 42 6.9.1. Inter´s de muestreo equilibrado . . . . . . . . . . . . . . . e . . . 42 6.9.2. Muestreo Equilibrado Contra Otras T´cnicas de Muestreo e . . . 44 6.9.3. Elecci´n de las variables de equilibrio . . . . . . . . . . . . o . . . 44 6.9.4. Equilibrio versus Calibraci´n . . . . . . . . . . . . . . . . . o . . . 45 6.9.5. Precisi´n de las ecuaciones de equilibrio . . . . . . . . . . o . . . 46 6.9.6. Principales Implementaciones de muestreo equilibrado . . . . . . 46 2
  • 9. Cap´ ıtulo 1 Introducci´n o Este peque˜o libro ha sido escrito a ra´ de una invitaci´n al Instituto Vasco de n ız o Estad´ ıstica. El objetivo era presentar el m´todo del cubo para seleccionar muestras e equilibradas y de mostrar el inter´s del m´todo. Sin embargo, he empezado por una pre- e e sentaci´n general de la teor´ de muestreo, con las definiciones del dise˜o de muestreo, o ıa n del estimador de Horvitz-Thompson y su varianza. Tambi´n, he desarrollado dos cap´ e ıtu- los sobre los dise˜os simples y estratificados ya que el muestreo equilibrado es una n generalizaci´n de estos dise˜os. El largo cap´ o n ıtulo sobre los dise˜os con probabilidades n desiguales y el m´todo de escisi´n es una introducci´n al m´todo del cubo. En efecto, e o o e el m´todo de escisi´n es el caso particular del algoritmo de cubo cuando solamente e o una variable auxiliar proporcional a las probabilidades de inclusi´n es disponible. El o m´todo de escisi´n es el que nos lleva a proponer el m´todo del cubo. e o e Despu´s de esta larga introducci´n, presentamos el m´todo del cubo: el principio e o e del algoritmo, su implementaci´n, el c´lculo de las varianzas y sus estimaciones. Tam- o a bi´n hemos a˜adido una larga discusi´n sobre el inter´s del m´todo, sus principales e n o e e aplicaciones, sus implementaciones y los limites. 3
  • 10. Cap´ ıtulo 2 Poblaci´n, dise˜ o muestral o n y estimaci´n o 2.1. Poblaci´n finita o El objetivo es estudiar una poblaci´n finita U = {1, . . . , N } de tama˜o N . La o n variable de inter´s y toma el valor yk , k ∈ U. Queremos estimar una funci´n de inter´s e o e de los yk , θ = f (y1 , . . . , yk , . . . , yN ). Por ejemplo, el total o la media 1 Y = yk , e Y = yk . k∈U N k∈U porque se puede escribir N= 1. k∈U La varianza 2 1 σy = (yk − Y )2 . N k∈U La cuasivarianza 2 1 Sy = (yk − Y )2 . N − 1 k∈U Existen funciones no lineales de los yk como un ratio Y R= , X donde X= xk . k∈U Un ratio es una funci´n no lineal de los valores yk . Existen tambi´n funciones m´s o e a complejas como un coeficiente de correlaci´n, la mediana, o los coeficientes de o desigualdades. 4
  • 11. 2.2. Dise˜ o del Muestreo n Una muestra s es un subconjunto de la poblaci´n s ⊂ U. Un dise˜o muestral p(s) o n es una distribuci´n de probabilidad sobre todas las muestras posibles o p(s) = 1. s⊂U La muestra aleatoria S toma el valor s con la probabilidad Pr(S = s) = p(s). Las variables indicadoras son definidas por : 1 si la unidad k ∈ S Ik = 0 si la unidad k ∈ S. / La probabilidad de inclusi´n es la probabilidad que la unidad k sea seleccionada en la o muestra aleatoria : πk = Pr(k ∈ S) = p(s) = E(Ik ) = . s k La probabilidad de inclusi´n de segundo orden es la probabilidad que dos unidades o distintas sean seleccionadas conjuntamente en la muestra : πk = E(Ik I ) = Pr(k y ∈ S) = p(s). s k, Adem´s a πk (1 − πk ) si k = ∆k = Cov(Ik , I ) πk − πk π si k = Si el dise˜o muestral es de tama˜o fijo, entonces n n πk = n. k∈U En effecto, πk = E(Ik ) = E Ik = E(n) = n. k∈U k∈U k∈U Adem´s, es posible demostrar que, para un dise˜o muestral de tama˜o fijo, a n n πk = nπk con πkk = πk . ∈U 5
  • 12. 2.3. El estimador de Horvitz-Thompson El estimador de Horvitz-Thompson para el total viene dado por yk Yπ = , k∈S πk y para la media 1 yk Yπ = . N k∈S πk El estimador de Horvitz-Thompson es insesgado, si πk > 0, k ∈ U. En efecto yk E Yπ = E k∈S πk yk = E Ik k∈U πk yk = E (Ik ) k∈U πk yk = πk k∈U πk = yk k∈U = Y. La varianza del estimador de Horvitz-Thompson es ˆ yk var Yπ = var Ik k∈U πk 2 yk yk y = 2 var(Ik ) + Cov(Ik , I ) k∈U πk k∈U ∈U πk π 2 yk yk y = πk (1 − πk ) + ∆k . (2.1) π2 k∈U k k∈U ∈U πk π =k Se puede demostrar que con una muestra de tama˜o fijo n 2 ˆ −1 yk y var Yπ = − ∆k . (2.2) 2 k∈U ∈U πk π =k La varianza puede estimarse sin sesgo por 2 ˆ yk yk y ∆ k var Yπ = 2 (1 − πk ) + . (2.3) k∈S πk k∈S ∈S πk π πkl =k 6
  • 13. Si el dise˜o es de tama˜o fijo, se puede tambi´n estimar la varianza por n n e 2 ˆ −1 yk y ∆k var Yπ = − . (2.4) 2 k∈S ∈S πk π πk =k 2.4. Estimaci´n de N o Sabiendo que N es un total, se puede escribir: N= 1, k∈U Podemos estimar N sin sesgo por el estimador de Horvitz-Thompson 1 Nπ = . k∈S πk 2.5. Mala propiedad del estimador de Horvitz-Thompson El estimador de Horvitz-Thompson tiene una mala propiedad, cuando la variable es constante, yk = C 1 yk 1 C 1 1 Nπ Yπ = = =C =C N k∈S πk N k∈S πk N k∈S πk N 2.6. El problema de los elefantes de Basu (1971) The circus owner is planning to ship his 50 adult elephants and so he needs a rough estimate of the total weight of the elephants. As weighing an elephant is a cumbersome process, the owner wants to estimate the total weight by weighing just one elephant. Which elephant should he weigh ? So the owner looks back on his records and discovers a list of the elephants’ weights taken 3 years ago. He finds that 3 years ago Sambo the middle-sized elephant was the average (in weight) elephant in his herd. He checks with the elephant trainer who reassures him (the owner) that Sambo may still be considered to be the average elephant in the herd. Therefore, the owner plans to weigh Sambo and take 50 y (where y is the present weight of Sambo) as an estimate of the total weight Y = Y1 + Y2 + . . . + Y50 of the 50 elephants. But the circus statistician is horrified when he learns of the owner’s purposive samplings plan. “How can you get an unbiased estimate of Y this way ?” protests the statistician. So, together they work out a compromise sampling plan. With the help of a table of random numbers they devise a plan that allots a selection probability of 99/100 to Sambo and equal selection probabilities 1/4900 to each of the other 49 elephants. Naturally, Sambo is selected and the owner is happy. “How are you going to estimate Y?”, asks the statistician. “Why ? The estimate ought to be 50y of course,” says the owner. Oh! No! That cannot 7
  • 14. possibly be right,” says the statistician, “I recently read an article in the Annals of Mathematical Statistics where it is proved that the Horvitz-Thompson estimator is the unique hyperadmissible estimator in the class of all generalized polynomial unbiased estimators.” “What is the Horvitz-Thompson estimate in this case?” asks the owner, duly impressed. “Since the selection probability for Sambo in our plan was 99/100,” says the statistician, “the proper estimate of Y is 100y/99 and not 50y.” “And, how would you have estimated Y,” inquires the incredulous owner, “if our sampling plan made us select, say, the big elephant Jumbo?” “According what I understand of the Horvitz-Thompson estimation method,” says the unhappy statistician, “the proper estimate of Y would then have been 4900y, where y is Jumbo’s weight.” That is how the statistician lost his circus job (and perhaps became teacher of statistics!). 8
  • 15. Cap´ ıtulo 3 Muestreo simple 3.1. Muestreo simple sin reemplazamiento (o muestro aleatorio simple m.a.s.) Los dise˜os simples son los m´s b´sicos en teor´ del muestreo. Sin embargo, sus n a a ıa implementaciones no son evidentes. Veremos que diferentes algoritmos permiten selec- cionar dise˜os simples. No hay que confundir dise˜os simples y dise˜os con probabi- n n n lidades de inclusi´n iguales. Los dise˜os simples tienen probabilidades de inclusiones o n iguales pero todos los dise˜os con probabilidades de inclusi´n iguales no son simples. n o Nos referimos a la definici´n siguiente. o Definici´n 3.1 Un dise˜o muestral es aleatorio simple si todas las muestras de mismo o n tama˜o tienen la misma probabilidad de ser seleccionadas. n Existe solamente un dise˜o simple de tama˜o fijo. n n  −1  N si #s = n p(s) =  n 0 en caso contrario , donde N N! = . n n!(N − n)! −1 −1 N N −1 N n πk = p(s) = = = , para todo k ∈ U. s k s k n n−1 n N Probabilidades de inclusi´n del segundo orden : o −1 −1 N N −2 N n(n − 1) πk = p(s) = = = , s k, s k, n n−2 n N (N − 1) 9
  • 16. para todos k = ∈ U . Luego tenemos,  2  π − π π = n(n − 1) − n = − n(N − n)  k si k = k ∆k = N (N − 1) N 2 N 2 (N − 1) (3.1)  π (1 − π ) = n 1 − n = n(N − n)  si k = . k k N N N2 1 yk 1 N 1 Yπ = = yk = yk . N k∈S πk N k∈S n n k∈S yk N N Yπ = = yk = yk = N Y π . k∈S πk k∈S n n k∈S 3.2. La varianza del dise˜ o simple sin reemplaza- n miento 2 −1 yk y var Yπ = − ∆k (3.2) 2 k∈U ∈U πk π =k 2 1 yk N yN n(N − n) = − (3.3) 2 k∈U ∈U n n N 2 (N − 1) =k N (N − n) 1 = (yk − y )2 (3.4) n 2N (N − 1) k∈U ∈U =k 2 2N − n Sy = N . (3.5) N n Teorema 1 En un m.a.s., la cuasivarianza de la poblaci´n es o 2 1 Sy = (yk − Y )2 , N − 1 k∈U y puede estimarse por 1 s2 = y (yk − Y π )2 n−1 k∈S 10
  • 17. Demostraci´n o 1 E(s2 ) = E y (yk − Y π )2 n−1 k∈S       1 = E (yk − y )2  2n(n − 1)    k∈S ∈S =k 1 = (yk − y )2 E (Ik I ) 2n(n − 1) k∈U ∈U =k 1 n(n − 1) = (yk − y )2 2n(n − 1) k∈U ∈U N (N − 1) =k 1 = (yk − y )2 2N (N − 1) k∈U ∈U =k 2 = Sy . 2 3.3. Algoritmo de selecci´n-rechazo o Existen numerosas maneras de seleccionar un dise˜o simple. Por ejemplo se puede n sortear la poblaci´n aleatoriamente y seleccionar las n primeras unidades de la poblaci´n. o o Tambi´n, se puede seleccionar sucesivamente n unidades sin reemplazamiento con proba - e bilidades iguales. Sin embargo, la manera la m´s eficaz para seleccionar un muestra a seg´n un dise˜o simple fue propuesta por Fan et al. (1962) y Bebbington (1975) quienes u n propusieron un m´todo secuencial en el sentido de que el fichero de datos tiene que e ser le´ una sola vez. Es posible demostrar que este algoritmo genera une muestreo ıdo Algorithm 1 M´todo de selecci´n-rechazo e o Definici´n k, j : entero; u : real; o k = 0; j = 0; u = variable aleatoria uniforme a[0, 1[; n−j seleccionar la unidad k + 1; Si u < Repetir mientras j < n N − k j = j + 1; sino pasar la unidad k + 1; k = k + 1. simple (vease por ejemplo Till´, 2006). e 11
  • 18. 3.4. Dise˜ os simples con reemplazamiento n Selecci´n con reemplazamiento de manera independiente S las unidades de la mues- o tra son y1 , . . . , yi , . . . , ym Los yi son m variables aleatorias de varianza 2 1 σy = (yk − Y )2 . N k∈U Se puede estimar Y sin sesgo por m 1 1 Y CR = yi = yk . m i=1 m k∈S La varianza de Y CR es m m 2 1 1 2 σy var(Y CR ) = 2 var(yi ) = 2 σy = . (3.6) m i=1 m i=1 m y puede estimarse por m 1 s2 y = (yi − Y CR )2 . m−1 i=1 La varianza del estimador de la media puede estimarse por s2 y var(Y CR ) = . m 12
  • 19. 3.5. Comparaci´n de los dise˜ os simples o n Cuadro 3.1: Planes simples Plan simple Sin reemplazamiento Con reemplazamiento Tama˜o de la muestra n n m 1 1 Estimador de la media Y SR = yk Y CR = yk n k∈S m k∈S 2 (N − n) 2 σy Varianza del estimador var Y SR = Sy var Y CR = nN m Esperanza de la varianza E s2 = S y y 2 E s2 = σy y 2 (N − n) 2 s2 y Estimador de la varianza var Y SR = sy var Y CR = nN m Ejercicio Ejercicio 3.1 Seleccione una muestra de tama˜o 4 en una poblaci´n de tama˜o 10 n o n seg´n un dise˜o simple sin reemplazamiento con el m´todo de selecci´n-rechazo. Use u n e o las realizaciones siguientes de una variable aleatoria uniforme [0, 1]: 0,375489 0,624004 0,517951 0,0454450 0,632912 0,246090 0,927398 0,32595 0,645951 0,178048. 13
  • 20. Cap´ ıtulo 4 Estratificaci´n o 4.1. Introducci´n o Los dise˜os estratificados son la manera m´s simple de introducir informacion auxi- n a ´ liar en un diseno de muestreo. Se necesita definir estratos o categor´ en la poblaci´n. ˜ ıas o Adem´s, se necesita saber a qu´ estrato pertenece cada unidad de la poblaci´n. a e o 4.2. Poblaci´n y estratos o Poblaci´n U = {1, . . . , k, . . . , N } dividida en H subconjuntos, Uh , h = 1, .., H, lla- o mados estratos H Uh = U y Uh Ui = ∅, h = i. h=1 Siendo Nh el tama˜o del estrato Uh . n H Nh = N. h=1 El objetivo es estimar H H Y = yk = yk = Yh , k∈U h=1 k∈Uh h=1 donde Yh = yk . k∈Uh H H 1 1 1 Y = yk = yk = Nh Y h , N k∈U N h=1 k∈Uh N h=1 donde Y h es la media calculada en el estrato h 1 Yh = yk . Nh k∈Uh 14
  • 21. 2 Adem´s, σyh representa la varianza del estrato h a 2 1 2 σyh = yk − Y h Nh k∈Uh 2 y Syh la cuasivarianza 2 Nh Syh = σ2 . Nh − 1 yh 2 La varianza total σy se logra por H H 2 1 1 1 σy = (yk − Y )2 = 2 Nh σyh + Nh (Y h − Y )2 . (4.1) N k∈U N h=1 N h=1 Esta igualdad es la descomposici´n cl´sica de la varianza, que se escribe o a 2 2 2 σy = σy(intra) + σy(inter) 2 donde σy(intra) es la varianza intra-estratos H 2 1 2 σy(intra) = Nh σyh N h=1 2 y σy(inter) es la varianza inter-estratos H 2 1 σy(inter) = Nh (Y h − Y )2 . N h=1 4.3. Muestra, probabilidad de inclusi´n, estimaci´n o o Un dise˜o muestral es estratificado si, n en cada estrato, se selecciona una muestra simple aleatoria de tama˜o fijo nh n la selecci´n de una muestra en un estrato es independiente de selecci´n de las o o muestras de los otros estratos. Sh representa la muestra aleatoria seleccionada en el estrato h con el dise˜o ph (.), n donde ph (sh ) = Pr(Sh = sh ). La muestra aleatoria total es H S= Sh . h=1 Adem´s, de manera general s representa un valor posible de S donde a H s= sh . h=1 15
  • 22. S1 S2 Sh SH U1 U2 Uj UJ Figura 4.1: Plan estratificado El dise˜o muestral global es p(.) donde n p(s) = Pr(S = s). Debido a la independencia de las selecciones en cada estrato, tenemos H H p(s) = ph (sh ), s = sh . h=1 h=1 Si nh representa el tama˜o de la muestra en el estrato h, tenemos n H nh = n, h=1 donde n es el tama˜o de la muestra. n 4.4. Probabilidad de inclusi´n o Si la unidad k est´ en el estrato h, a nh πk = , k ∈ Uh . Nh Para calcular las probabilidades de inclusi´n de segundo orden, tenemos que separar o dos casos : En el caso donde las unidades k y est´n en el mismo estrato a nh (nh − 1) πk = ,k y ∈ Uh . Nh (Nh − 1) Si dos individuos k y est´n en dos estratos distintos, a nh ni πk = , k ∈ Uh y ∈ Ui . Nh Ni 16
  • 23. Se logra  n N −n  h h  h si = k, k ∈ Uh   Nh Nh ∆k = nh (Nh − nh ) (4.2)  − 2  Nh (Nh − 1) si k y ∈ Uh , k =   0 si k ∈ Uh y ∈ Ui , h = i. El π-estimador H H yk Nh Yestrat = = yk = Yh , k∈S πk h=1 nh k∈Sh h=1 y H H 1 yk 1 Nh 1 Y strat = = yk = Nh Y h . N k∈S πk N h=1 nh k∈Sh N h=1 donde Yh es el estimador del total del estrato h Nh Yh = yk . nh k∈Sh e Y h es la media de la muestra en el estrato h 1 Yh = yk . nh k∈Sh Como las selecciones son independientes entre los estratos y que los dise˜os son n simples en los estratos : H H H Nh − n h 2 var Ystrat = var Yh = var Yh = Nh Syh . (4.3) h=1 h=1 h=1 nh La varianza de este estimador puede estimarse sin sesgo por H Nh − n h 2 var Ystrat = Nh syh , (4.4) h=1 nh donde 1 s2 = yh (yk − Y h )2 , h = 1, . . . , H. nh − 1 k∈S h 4.5. Plan estratificado con afijaci´n proporcional o Un plan estratificado tiene una afijaci´n proporcional, si o nh n = , h = 1, . . . , N. Nh N 17
  • 24. Suponemos que nh = nNh /N son enteros. El estimador del total es H N Yprop = Yh = yk , h=1 n k∈S y el estimador de la media H 1 1 Y prop = Nh Y h = yk , N h=1 n k∈S donde Y h es la media de la muestra en el estrato h e Yh es el estimador del total en el estrato h 1 Yh = yk . nh k∈S h La varianza del estimador del total se simplifica H N −n 2 var(Yprop ) = Nh Syh , (4.5) n h=1 y la varianza del estimador de la media viene dada por : H N −n 2 var(Y prop ) = Nh Syh . (4.6) nN 2 h=1 2 2 Si N es grande, Syh ≈ σyh . H 2 N −n 2 N − n σy(intra) var(Y prop ) ≈ Nh σyh = . (4.7) nN 2 h=1 N n Comparaci´n del dise˜o estratificado con el muestro aleatorio simple. o n 2 N − n σy var(Y srs ) ≈ . (4.8) N n La varianza del estimador de la media puede estimarse por : H N −n var(Y prop ) = Nh s 2 , yh (4.9) nN 2 h=1 donde 1 s2 = yh (yk − Y h )2 , h = 1, . . . , H. nh − 1 k∈S h 18
  • 25. 4.6. Dise˜ o estratificado ´ptimo para el total n o Neyman (1934) busc´ la afijaci´n para los tama˜os en la muestra n1 , . . . , nh , . . . , nH o o n que maximiza la varianza del estimador de Horvitz-Thompson para un muestreo de tama˜o fijo. Tenemos que minimizar n H Nh − n h 2 var(Ystrat ) = Nh Syh , (4.10) h=1 nh en n1 , . . . , nh , . . . , nH sujeta a que H nh = n. (4.11) h=1 Podemos escribir la ecuaci´n de Lagrange o H H Nh − n h 2 L(n1 , . . . , nH , λ) = Nh Syh + λ nh − n . h=1 nh h=1 Anulando las derivadas parciales respecto a los nh y a λ, se logra 2 ∂L Nh 2 = − 2 Syh + λ = 0, h = 1, . . . , H, (4.12) ∂nh nh y H ∂L = nh − n = 0. (4.13) ∂λ h=1 Luego Nh nh = √ Syh , h = 1, . . . , H. (4.14) λ y H H h=1Nh Syh nh = n = √ . h=1 λ Obtenemos √ H Nh Syh h=1 λ= . (4.15) n y finalmente nNh Syh nh = H , h = 1, . . . , H. (4.16) h=1 Nh Syh Notas Hay un problema de redondeo, Se puede obtener nh > Nh . 19
  • 26. 4.7. Nota sobre la optimalidad en estratificaci´n o Sea una poblaci´n dividida en dos estratos H = 2 donde queremos estimar la o diferencia D = Y 1 − Y 2 . El estimador D = Y 1 − Y 2. Como las selecciones de las muestras son independientes entre los estratos N1 − n1 2 N2 − n2 2 var D = var Y 1 + var Y 2 = Sy1 + S . (4.17) n 1 N1 n2 N2 y2 Se minimiza (4.17) sujeta a que n1 + n2 = n y se logra Syh nh = √ , h = 1, 2, λ donde λ es el multiplicador de Lagrange. Como n1 + n2 = n, encontramos nSyh nh = , h = 1, 2. Sy1 + Sy2 4.8. Optimalidad y coste El objetivo es estimar un total Y para un coste fijado C. Minimizamos la expresi´n o (4.10) sujeta a que H nh Ch = C, h=1 donde Ch es el coste de la entrevista en el estrato h. Obtenemos   n = Nh Syh , h = 1, . . . , H,  h √   λCh H     nh Ch = C, h=1 donde λ es el multiplicador de Lagrange, y CNh Syh nh = √ H √ . Ch =1 N Sy C 4.9. Tama˜ o de muestra m´ n ınimo Otra manera de tratar el problema es buscar la afijaci´n que da el tama˜o de o n muestra m´ ınimo para una varianza fijada. Sea ah = nh /n, h = 1, . . . , H, 20
  • 27. entonces H ah = 1. h=1 De (4.10), H Nh − nah 2 var(Ystrat ) = Nh Syh . (4.18) h=1 nah Buscamos entonces un valor m´ ınimo de (4.18) en a1 , . . . , aH , para un valor fijado var(Ystrat ) representado por V . Sustituyendo (4.18) en var(Ystrat ) por V , se logra H 2 H 1 Nh 2 2 V = Sh − Nh S h , n h=1 ah h=1 lo que se puede escribir 2 Nh 2 H h=1 ah Sh n= H 2 . (4.19) V + h=1 Nh S h Entonces minimizamos 2 H Nh 2 h=1 ah Sh n= H 2 . (4.20) V + h=1 Nh S h con a1 , . . . , aH , sujeta a que H ah = 1, h=1 y despu´s de algunos c´lculos, tenemos e a Nh Syh ah = H . (4.21) =1 N Sy Se logra el mismo tipo de afijaci´n. Finalmente se puede fijar el tama˜o de la muestra o n 2 H h=1 Nh Syh n∗ = H 2 . V + h=1 Nh Syh Ejercicio 4.1 Queremos estimar medias para las empresas de un departamento. Las empresas son clasificadas seg´n el volumen de negocio y son clasificadas en tres clases. u Los datos de un censo son los siguientes: Volumen de negocio N´mero de empresas u de 0 a 1 1000 de 1 a 10 100 de 10 a 100 10 Se quiere seleccionar una muestra de 111 empresas. Si se supone que la distribuci´n es o uniforme en cada estrato, calcule la varianza del estimador de la media del volumen de negocios para un dise˜o con representaci´n proporcional y para un dise˜o estratificado n o n o ´ptimo. 21
  • 28. Cap´ ıtulo 5 Muestreo con probabilidades desiguales Los dise˜os con probabilidades desiguales permiten reducir la varianza cuando hay n un efecto de tama˜o en los datos. Tambi´n son muy usados en los dise˜os multiet´picos n e n a autoponderados para seleccionar las unidades primarias. Tres libros tratan del tema: Brewer and Hanif (1983); Gabler (1990); Till´ (2006). Aqu´ presentamos los planes e ı, m´s importantes. Un desarrollo m´s exhaustivo pude ser encontrado en Till´ (2006). a a e 5.1. Informaci´n auxiliar y probabilidades de in- o clusi´n o Variable auxiliar x conocida sobre U . x es aproximadamente proporcional a y. Selecci´n de las unidades con probabilidades de inclusi´n proporcionales a x. Varianza o o 2 ˆ 1 yk y var Yπ = − (πk π − πk ). (5.1) 2 k∈U ∈U πk π =k 5.2. C´lculo de las probabilidades de inclusi´n a o Calculamos xk n πk = , para todo k ∈ U. x ∈U Algunos de los πk pueden ser πk > 1. Estas unidades son incluidas en la muestra con una probabilidad de 1. Se vuelve a empezar el c´lculo con las unidades que quedan. Al a final, tenemos dos grupos : un primer grupo de unidades con probabilidades de inclusi´n iguales a 1 o un segundo grupo con probabilidades de inclusi´n 0 < πk < 1 y proporcionales a o xk . 22
  • 29. El problema es seleccionar n unidades con probabilidades de inclusi´n fijadas con o 0 < πk < 1, para todo k ∈ U, tal que πk = n. (5.2) k∈U Ejemplo 5.1 Si N = 6, n = 3, x1 = 1, x2 = 9, x3 = 10, x4 = 70, x5 = 90, x6 = 120, tenemos X= xk = 300, k∈U y entonces nx1 1 nx2 9 nx3 1 nx4 7 nx5 9 nx6 6 = , = , = , = , = , = > 1. X 100 X 100 X 10 X 10 X 10 X 5 La unidad 6 es seleccionada (con una probabilidad de 1). Luego, volvemos a calcular las probabilidades de inclusi´n o xk = 180, k∈U {6} y entonces (n − 1)x1 1 (n − 1)x2 1 (n − 1)x3 1 = , = , = , ∈U {6} x 90 ∈U {6} x 10 ∈U {6} x 9 (n − 1)x4 7 (n − 1)x5 = , = 1. ∈U {6} x 9 ∈U {6} x Las probabilidades de inclusi´n son o 1 1 1 7 π1 = , π2 = , π3 = , π4 = , π5 = 1, π6 = 1. 90 10 9 9 Dos unidades son seleccionadas con una probabilidad 1. El problema se reduce a la selecci´n de una unidad en una subpoblaci´n de tama˜o 4. o o n 5.3. Muestreo con probabilidades desiguales con reemplazamiento Hansen and Hurwitz (1943) han propuesto un m´todo de selecci´n de una muestra e o con probabilidades desiguales con reemplazamiento. Sea xk pk = , k ∈ U, ∈U x y k vk = p , con v0 = 0. =1 u es una variable continua, uniforme en [0, 1[, 23
  • 30. se selecciona la unidad k tal que vk−1 ≤ u < vk . Esta operaci´n es repetida m veces de manera independiente. o yi es la i´sima unidad seleccionada en la muestra. El total Y es estimado por el esti- ˜ e mador de Hansen-Hurwitz m 1 yi ˜ YHH = . m i=1 pi Como yi ˜ yk E = pk = Y, pi k∈U pk YHH es un estimador insesgado Y . En efecto, m m 1 yi ˜ 1 E YHH = E = Y = Y. m i=1 pi m i=1 Varianza : 2 2 1 yk 1 yk var[YHH ] = − t2 y = pk −Y , (5.3) m k∈U pk m k∈U pk y puede estimarse por m 2 1 yi ˜ var[YHH ] = − YyHH . m(m − 1) i=1 pi 5.4. Dise˜ o de Poisson n Cada unidad de U es seleccionada de manera independiente con una probabilidad de inclusi´n πk . o πk = πk π , ∆k = πk − πk π = 0, para todos k = . El dise˜o muestral viene dado por n     p(s) = πk × (1 − πk ) , para todos s ⊂ U. (5.4)   k∈s k∈U s En un dise˜o de Poisson, ∆k = 0 cuando k = , la varianza del estimador puede n ser calculada simplemente 2 πk (1 − πk )yk var Yπ = 2 , (5.5) k∈U πk y puede estimarse por 2 (1 − πk )yk var Yπ = 2 . (5.6) k∈Se πk 24
  • 31. 5.5. Muestreo de entrop´ m´xima con tama˜ o fijo ıa a n Buscamos un dise˜o muestral con la entrop´ m´xima sobre el conjunto de todas n ıa a las muestras de U de tama˜o fijo n. n Sn = {s|#s = n}. El problema es maximizar I(p) = − p(s) log p(s), s∈Sn sujeta a que p(s) = πk , y p(s) = 1. (5.7) s k s∈Sn s∈Sn Existe una soluci´n pero es complicada. o exp k∈s λk p(s) = s∈Sn exp k∈s λk Un algoritmo (ver Chen et al., 1994; Deville, 2000; Till´, 2006) permite calcular los e πk a partir de los λk y los λk a partir de los πk . El conocimiento de los λk permite numerosas implementaciones del dise˜o de muestreo (ver Till´, 2006). n e 5.6. El dise˜ o muestral sistem´tico n a Madow (1949) propuso el primero m´todo con tama˜o fijo y probabilidades de e n inclusi´n desiguales. Tenemos 0 < πk < 1, k ∈ U con o πk = n. k∈U Sea k Vk = π , para todos k ∈ U, con Vo = 0. (5.8) =1 Una variable uniforme es generada en [0, 1]. la primera unidad seleccionada k1 es tal que Vk1 −1 ≤ u < Vk1 , la segunda unidad seleccionada es tal que Vk2 −1 ≤ u + 1 < Vk2 y la j´sima unidad seleccionada es tal que Vkj −1 ≤ u + j − 1 < Vkj . e 25
  • 32. 0,2 0,9 1,7 2,2 2,6 0 1 2 3 u u+1 u+2 Figura 5.1: Muestreo sistem´tico a Ejemplo 5.2 N = 6 y n = 3, π1 = 0,2, π2 = 0,7, π3 = 0,8, π4 = 0,5, π5 = π6 = 0,4, V1 = 0,2, V2 = 0,9, V3 = 1, 7, V4 = 2,2, V5 = 2,6, V6 = 3, u = 0,3658. Las unidades 2, 3 y 5 son seleccionadas. El algoritmo tambi´n puede ser presentado de la manera siguiente : Primero, se e selecciona la unidad k tal que los intervalos [Vk−1 − u, Vk − u[ contengan un n´mero u entero. Algorithm 2 Algoritmo de muestreo sistem´tico a Definici´n a, b, u real; k entero; o u = un n´mero aleatorio uniforme en [0,1]; u a = −u; b = a; Repetir para k = 1, .., N a = a + πk ; si a = b seleccionar k. El problema es que la mayor´ de las probabilidades de inclusi´n son iguales a cero. ıa o La matriz de probabilidades de inclusi´n viene dada por : o   − 0 0,2 0,2 0 0  0 − 0,5 0,2 0,4 0,3     0,2 0,5 − 0,3 0,4 0,2     0,2 0,2 0,3 − 0 0,3     0 0,4 0,4 0 − 0  0 0,3 0,2 0,3 0 − 5.7. El m´todo de escisi´n e o 5.7.1. Escisi´n en dos partes o El m´todo de escisi´n (ver Deville and Till´, 1998; Till´, 2006) es une t´cnica bas- e o e e e tante simple para seleccionar une muestra seg´n probabilidades de inclusi´n dadas. A u o partir del vector de probabilidades de inclusi´n, se vuelve a aplicar a cada etapa une o escisi´n en dos o varios nuevos vectores. Un vector es elegido aleatoriamente. A cada o etapa se intenta lograr un vector m´s simple, por ejemplo, introduciendo 0 o 1 en el a nuevo vector. En N etapas como m´ximo, la muestra es seccionada. El m´todo del cubo a e para seleccionar un dise˜o equilibrado es una generalizaci´n del m´todo de escisi´n. n o e o 26
  • 33. (1) (2) La t´cnica b´sica es muy simple : cada πk se separa en dos partes πk y πk que e a verifican : (1) (2) πk = λπk + (1 − λ)πk ; (5.9) (1) (2) 0 ≤ πk ≤ 1 y 0 ≤ πk ≤ 1, (5.10) (1) (2) πk = πk = n, (5.11) k∈U k∈U donde λ puede elegirse libremente dentro de 0 < λ < 1. El m´todo consiste en selec- e cionar n unidades con probabilidades desiguales (1) πk , k ∈ U, con una probabilidad λ (2) πk , k ∈ U, con una probabilidad 1 − λ.   π1  .   .  .    πk   .   .  . πN ¨¨rr λ¨ ¨ ¨ rr 1−λ rr ¨ ¨¨ rr % ¨ j r  (1)   (2)  π1 π1  .   .   . .   . .   (1)   (2)   π   π   k   k   .   .   . .   . .  (1) (2) πN πN Figura 5.2: Escisi´n en dos partes o El problema se reduce a otro problema de muestreo con probabilidades desiguales. (1) (2) Si la escisi´n es tal que uno o algunos de los πk y de los πk son iguales a 0 o 1, o el problema de muestreo ser´ m´s simple en la pr´xima etapa porque la escisi´n es a a o o aplicada a una poblaci´n m´s peque˜a. o a n 27
  • 34. 5.7.2. Escisi´n en M partes o El m´todo puede ser generalizado a una t´cnica de escisi´n en M vectores de pro- e e o (j) babilidades de inclusi´n. Primero, construimos los πk y los λj de manera que o M λj = 1, j=1 0 ≤ λj ≤ 1 (j = 1, . . . , M ), M (j) λj π k = π k , j=1 (j) 0 ≤ πk ≤ 1 (k ∈ U, j = 1, . . . , M ), (j) πk = n (j = 1, . . . , M ). k∈U   π1  .   .  .    πk   .   .  . πN ¨¨rr λ1 ¨¨ ¨ λ rr j rr λM ¨ ¨¨ c rr % ¨ j r  (1)   (i)   (M )  π1 π1 π1  . .   . .   . .   .   .   .         (1) πk  ...  (i) πk  ...  (M ) πk         . .   . .   . .   .   .   .  (1) (i) (M ) πN πN πN Figura 5.3: Escisi´n en M partes o (j) El m´todo consiste en seleccionar uno de los vectores πk con probabilidades λj (j = e (j) 1, . . . , M ). De nuevo, los πk son tales que el problema de muestreo ser´ m´s simple a a en la pr´xima etapa. o 28
  • 35. 5.7.3. Dise˜ o con un soporte m´ n ınimo (π(1) , . . . , π(k) , . . . , π(N ) ) representa el vector de probabilidades de inclusi´n. Luego, o definimos ın{1 − π(N −n) , π(N −n+1) }, λ = m´ (1) 0 si k ≤ N − n π(k) = 1 si k > N − n,  π(k)   if k ≤ N − n (2) 1−λ π(k) =  π(k) − λ  if k > N − n. 1−λ Ejemplo 1. Suponemos que N = 6, n = 3, π1 = 0,07, π2 = 0,17, π3 = 0,41, π4 = 0,61, π5 = 0,83, π6 = 0,91. En este caso, la soluci´n se encuentra en 4 etapas. El vector o de probabilidades de inclusi´n se separa en dos partes dadas en las columnas 2 y 3 o de la Tabla 1. Con la probabilidad λ = 0,59, la muestra {4, 5, 6} es seleccionada y con probabilidad 1 − λ = 0,41, otro dise˜o muestral se aplica con probabilidades de n inclusi´n dadas por (0.171, 0.415, 1, 0.049, 0.585, 0.780). En la etapa 2, la escisi´n o o se aplica al vector y, en 4 etapas la muestra es seleccionada. El dise˜o muestral es el n Cuadro 5.1: Plan con soporte m´ ınima Etapa 1 Etapa 2 Etapa 3 Etapa 4 πk λ = 0,59 λ = 0,585 λ = 0,471 λ = 0,778 0,07 0 0,171 0 0,412 0 0,778 1 0 0,17 0 0,415 0 1 1 1 1 1 0,41 0 1 1 1 1 1 1 1 0,61 1 0,049 0 0,118 0 0,222 0 1 0,83 1 0,585 1 0 0 0 0 0 0,91 1 0,780 1 0,471 1 0 0 0 siguiente p({4, 5, 6}) = 0,59; p({3, 5, 6}) = (1 − 0,59) × 0,585 = 0,24; p({2, 3, 6}) = (1 − 0,59 − 0,24) × 0,471 = 0,08; p({1, 2, 3}) = (1 − 0,59 − 0,24 − 0,08) × 0,778 = 0,07; p({2, 3, 4}) = 1 − 0,59 − 0,24 − 0,08 − 0,7 = 0,02. El dise˜o muestral viene dado por p({4, 5, 6}) = 0,59, p({3, 5, 6}) = (1 − 0,59) × n 0,585 = 0,24, p({2, 3, 6}) = (1 − 0,59 − 0,24) × 0,471 = 0,08, p({1, 2, 3}) = (1 − 0,59 − 0,24 − 0,08) × 0,778 = 0,07, p({2, 3, 4}) = (1 − 0,59 − 0,24 − 0,08 − 0,7) = 0,02. 5.7.4. Escisi´n en dise˜ os simples o n Este m´todo permite separar el vector de probabilidades de inclusi´n en dos partes. e o Definimos N N λ = m´ π(1) , ın , (5.12) n N −n 29
  • 36. y calculamos, para k ∈ U, n (1) n (2) πk − λ N π(k) = , π(k) = . N 1−λ (2) (2) Si λ = π(1) N/n, entonces π(1) = 0; si λ = (1 − π(N ) )N/(N − n), entonces π(N ) = 1. En la pr´xima etapa, el problema se reduce a la selecci´n de una muestra de tama˜o n − 1 o o n o n en una poblaci´n de tama˜o N − 1. En N − 1 etapas, el problema es reducido. o n Ejemplo 2 Con los mismos πk que en el ejemplo 1, el resultado del m´todo viene e dado en la Tabla 2. El problema consiste finalmente en seleccionar uno de los 6 dise˜os n Cuadro 5.2: Descomposici´n en planes simples o Etapa 1 Etapa 2 Etapa 3 Etapa 4 Etapa 5 πk λ = 0,14 λ = 0,058 λ = 0,173 λ = 0,045 λ = 0,688 0,07 0,5 0 0 0 0 0 0 0 0 0 0,17 0,5 0,116 0,600 0,086 0,5 0 0 0 0 0 0,41 0,5 0,395 0,600 0,383 0,5 0,358 0,667 0,344 0,5 0 0,61 0,5 0,628 0,600 0,630 0,5 0,657 0,667 0,656 0,5 1 0,83 0,5 0,884 0,600 0,901 0,5 0,985 0,667 1 1 1 0,91 0,5 0,977 0,600 1 1 1 1 1 1 1 simples definidos en las columnas de la Tabla 3. λ1 = 0,14, λ2 = (1 − 0,14) × 0,058 = 0,050, λ3 = (1 − 0,14) × (1 − 0,058) × 0,173 = 0,14, λ4 = (1 − 0,14) × (1 − 0,058) × (1 − 0,173)×0,045 = 0,03, λ5 = (1−0,14)×(1−0,058)×(1−0,173)×(1−0,045)×0,688 = 0,44, λ6 = (1 − 0,14) × (1 − 0,058) × (1 − 0,173) × (1 − 0,045) × (1 − 0,688) = 0,200. Cuadro 5.3: Escisi´n en N planes simples o k λ1 = 0,14 λ2 = 0,050 λ3 = 0,14 λ4 = 0,03 λ5 = 0,44 λ6 = 0,200 1 0,5 0 0 0 0 0 2 0,5 0,6 0,5 0 0 0 3 0,5 0,6 0,5 0,667 0,5 0 4 0,5 0,6 0,5 0,667 0,5 1 5 0,5 0,6 0,5 0,667 1 1 6 0,5 0,6 1 1 1 1 5.7.5. El m´todo del pivote e Solamente son modificadas dos probabilidades de inclusi´n: i y j. o Si πi + πj > 1, entonces 1 − πj λ= , 2 − πi − π j 30