SlideShare uma empresa Scribd logo
1 de 141
Baixar para ler offline
CURSO BREVE DE ESTADÍSTICA

COLECTIVO DE AUTORES:

MSc. Manuel Ernesto Acosta Aguilera       Prof. Asistente
     mernesto@fec.uh.cu

MSc. Luis Piña León                       Prof. Auxiliar
     luisp@fec.uh.cu

MSc. Daysi Espallargas Ibarra             Prof. Auxiliar
     daysi@fec.uh.cu




                 DPTO. ESTADÍSTICA - INFORMÁTICA
                      FACULTAD DE ECONOMÍA
                    UNIVERSIDAD DE LA HABANA
                              2008
ÍNDICE


INTRODUCCIÓN A LA ESTADÍSTICA ..................................................................................... 3
OBJETIVOS DEL CURSO ............................................................................................................ 4
TEMA I: MÉTODOS DESCRIPTIVOS......................................................................................... 5
1.1: Definición de población y muestra. Clasificación de las variables. Organización de los datos.
Tablas de frecuencias. Gráficos...............................................................................................................5
1.2: Medidas descriptivas o estadígrafos. Estadígrafos de posición más usados: media, mediana
y moda. Estadígrafos de dispersión más usados: varianza, desviación típica y coeficiente de
variación.....................................................................................................................................................16
TEMA II: PROBABILIDADES. .................................................................................................. 28
2.1: Introducción a los fenómenos y experimentos aleatorios. Espacio muestral y sucesos.
Clasificación de sucesos. Definición clásica de Probabilidad. Definición estadística de
Probabilidad...............................................................................................................................................28
2.2: Axiomatización de la Probabilidad. Reglas de cálculo de probabilidades. Probabilidad
condicional. Independencia de sucesos. ..............................................................................................35
TEMA III: DISTRIBUCIONES TEÓRICAS DE PROBABILIDAD.......................................... 41
3.1: Definición de variable aleatoria. Función de probabilidad univariada: casos discreto y
continuo. Función de distribución. Media y varianza de variables aleatorias. ................................41
3.2: Distribución binomial: características y uso. Distribución de Poisson: características y uso.
.....................................................................................................................................................................49
3.3: Distribución normal o de Gauss. Distribución chi-cuadrado. Distribución t de Student.
Distribución F de Fisher...........................................................................................................................58
TEMA IV: MUESTREO Y ESTIMACIÓN ................................................................................. 74
4.1. Conceptos básicos: Población y Muestra. Muestreos aleatorios: Muestreo Aleatorio Simple.
Uso de la tabla de números aleatorios para efectuar un muestreo aleatorio. ................................74
4.2 Estimadores. Propiedades deseables para un buen estimador. Estimación puntual.
Distribución muestral. Distribución muestral de la media tanto con varianza (σ2) conocida como
desconocida. Distribución muestral de las proporciones y de la varianza. .....................................80
4.3: Error máximo permisible y tamaño de muestra necesario para la estimación de μ y p.
Estimación por intervalos de confianza. ...............................................................................................89
TEMA V: PRUEBAS DE HIPÓTESIS ........................................................................................ 98
5.1. Conceptos básicos. Desarrollo general de pruebas de hipótesis. Pruebas para medias en
una población............................................................................................................................................98
5.2: Tamaño del error tipo II. Función de potencia. Tamaño de la muestra. ................................112
5.3: Pruebas no paramétricas: Prueba chi-cuadrado de la bondad de ajuste para verificar
normalidad. Prueba chi-cuadrado para verificar el supuesto de independencia. Tablas de
contingencia. ...........................................................................................................................................119
TEMA VI: ANÁLISIS DE VARIANZA.................................................................................... 129
6.1: Conceptos básicos del análisis de varianza. Modelo de clasificación simple. Supuestos del
método. ....................................................................................................................................................129
BIBLIOGRAFÍA BÁSICA:........................................................................................................ 140




                                                                                                                                                                     1
PRESENTACIÓN
A los estudiantes:

Este texto ha sido elaborado por un colectivo de profesores de Estadística de la Facultad de Economía de
la Universidad de La Habana, para contribuir a un mejor estudio de los temas correspondientes a esta
asignatura en las carreras de perfil económico y social, en general, particularmente en la Licenciatura en
Economía.

El objetivo del estudio de la Estadística en cualquier carrera es dotar al alumno de algunos elementos que
le servirán para trabajar con conjuntos de datos, describir situaciones de interés, hacer inferencias sobre
la base de observaciones y evaluar hipótesis relacionadas con alguna circunstancia práctica; además,
pueden iniciarse en el estudio de los fenómenos y experimentos aleatorios, estableciendo el vínculo entre
los conocimientos y habilidades de los contenidos de la Estadística Descriptiva, la Teoría de las
Probabilidades y la Estadística Inferencial.

Debe señalarse que la Estadística es eminentemente práctica, sin embargo, se necesita del conocimiento
de la teoría que la sustenta para la correcta aplicación de las fórmulas de cálculo y los modelos que
intentan representar la realidad existente.

En el texto se detallan los objetivos generales del curso y la distribución del mismo en los seis temas en
que está subdividido. También se incluyen los objetivos específicos de cada una de las unidades
didácticas que conforman los distintos temas. Además, se desarrolla sucintamente el contenido de la
asignatura, el cual aparece disperso en otros textos que se refieren en la bibliografía básica. Finalmente,
se brindan ejemplos demostrativos de todos los aspectos abrdados, y se han añadido ejercicios para que
sirvan de autoevaluación.

Es aspiración de los autores que estos apuntes para el estudio de Estadística sean de utilidad tanto para
sus destinatarios iniciales como para estudiantes de otras carreras y modalidades de estudio.

                                                                                              Los Autores.

                                                                                         La Habana, 2008




                                                                                                         2
INTRODUCCIÓN A LA ESTADÍSTICA

El vocablo “estadística” (con minúscula) se utiliza para denominar cualquier colección
sistemática de datos, por ejemplo: natalidad o mortalidad en un país o provincia, resultados
periódicos en cierto deporte, cifras de producción de una empresa, pasajeros transportados
durante un período, enfermos recuperados con ciertos medicamentos

Las estadísticas son tan antiguas como las sociedades humanas, pero la Estadística como
ciencia (con mayúscula) surge en el siglo XVI paralelo al desarrollo de las probabilidades.

La Estadística como ciencia puede definirse como un conjunto de principios y métodos que
se han desarrollado para analizar datos numéricos, utilizando las probabilidades; sus
métodos se clasifican en:

•   Métodos descriptivos (Estadística Descriptiva)
    Describen el comportamiento de los datos estadísticos, se ocupan de la recolección,
    organización, reducción, tabulación y presentación de la información.

•   Inferencia estadística (Estadística Inferencial)
    Estudia y concluye sobre un fenómeno basándose en el análisis e investigación de una
    parte del mismo, por lo que constituye una poderosa herramienta para la investigación
    científica.




                                                                                          3
OBJETIVOS DEL CURSO

 1. Clasificar las variables en cualitativas, cuantitativas discretas y cuantitativas continuas.
    Organizar los datos u observaciones de diferentes variables (discretas y continuas) en
    tablas de frecuencias. Construir gráficos de barras (histogramas) y polígonos de
    frecuencias. Calcular e interpretar los principales estadígrafos o medidas de posición y
    de dispersión. Aplicar e interpretar resultados obtenidos mediante algún paquete de
    cómputo estadístico.

 2. Diferenciar entre determinismo y aleatoriedad. Definir el espacio muestral de un
    experimento o fenómeno aleatorio. Calcular la probabilidad de ocurrencia de un
    suceso utilizando la definición clásica y la estadística. Aplicar las propiedades o
    teoremas derivados de la definición axiomática de probabilidad. Aplicar las definiciones
    de probabilidad condicional e independencia. Aplicar e interpretar los fundamentos de la
    teoría de probabilidades en la solución de problemas.

 3. Asociar a la noción de variable aleatoria (tanto discreta como continua), los conceptos
    de función de probabilidad, función de distribución o acumulación, y caracterizar
    estas funciones mediante la esperanza, valor esperado o media teórica, y la varianza
    teórica. Identificar y caracterizar las distribuciones probabilísticas: Binomial, Poisson,
    Normal, Chi-Cuadrado, t’ Student y F de Fisher. Calcular probabilidades asociadas a las
    distribuciones anteriores haciendo uso de las tablas correspondientes.

 4. Identificar los conceptos básicos de población, muestra, muestreo, parámetro y
    estimador. Caracterizar el Muestreo Aleatorio Simple (MAS) y el Muestreo Irrestricto
    Aleatorio (MIA). Obtener muestras aleatorias simples mediante la tabla de números
    aleatorios. Aplicar la distribución muestral de la media, la varianza y la proporción en la
    estimación puntual y por intervalos de los parámetros correspondientes (μ, σ2 y p), así
    como también a la obtención de una medida probabilística del error y del tamaño de la
    muestra requerido para la estimación de los mismos.

 5. Identificar los conceptos básicos asociados a las pruebas de hipótesis: hipótesis nula
    e hipótesis alternativa, región crítica o de rechazo y nivel de significación.
    Diferenciar entre los errores de tipo I y tipo II. Identificar y emplear distintas pruebas
    paramétricas para una población: de media (con varianza conocida y desconocida), de
    proporciones, y de varianza. Identificar y emplear las pruebas no paramétricas chi-
    cuadrado, tanto para probar normalidad, como para verificar independencia entre
    variables o criterios de clasificación. Verificar el supuesto de normalidad a través de la
    prueba Jarque-Bera, a partir de salidas del programa de cómputo EViews.

 6. Aplicar el análisis estadístico para verificar la igualdad de tres o más medias
    poblacionales a través del análisis de varianza. Establecer los supuestos del análisis
    de varianza.




                                                                                              4
TEMA I: MÉTODOS DESCRIPTIVOS


Con este tema se inicia el estudio de la parte de la estadística que se ocupa de la recolección,
organización, resumen y presentación de la información; cuestión esencial para cualquier
investigación. El buen uso de los métodos descriptivos ahorra tiempo y esfuerzo, facilita la
interpretación de resultados y sirve de base incuestionable para el desarrollo de métodos de
inferencia y predicción: La información recogida durante el proceso de observación, medición,
entrevista, etc., suele ser dispersa, y no es hasta que la misma se organiza, procesa y presenta
adecuadamente que cobra real dimensión la misma y puede considerarse, más allá de un
conjunto de datos, verdadera información.

1.1: Definición de población y muestra. Clasificación de las variables.
Organización de los datos. Tablas de frecuencias. Gráficos.

Ya se ha dicho que los métodos descriptivos se ocupan de la recolección, organización,
reducción, tabulación y presentación de la información en un estudio o investigación dados.
Durante este proceso siempre se hace referencia de alguna manera a conceptos básicos en el
contexto de la Estadística, como son:

Población: Colección de individuos o elementos que representan el objeto de interés (seres
vivos o inanimados).

Tamaño de la población: Cantidad de elementos que abarca la población. En casi todos los
textos se representa con el símbolo “N”.

Censo: Observación y estudio de todos los elementos que componen la población.

Muestra: Cualquier subconjunto de la población tomado para su estudio.

Muestreo: Procedimiento mediante el cuál se extrae una muestra.

Tamaño de muestra: Cantidad de elementos contenidos en la muestra. En casi todos los
textos se representa con el símbolo “n”.

Variable o característica: Es el signo o detalle que interesa caracterizar en la población.

Para organizar los datos muchas veces es útil conocer qué tipo de variables éstos miden. Con
este fin, las variables pueden clasificarse en:

Cualitativas: También llamadas atributos, y se refieren a cualidades tales como: calidad
(bueno, regular, malo), sexo, color del pelo o de los ojos, estado civil, nivel escolaridad, etc.

Cuantitativas: Se refieren a cantidades tales como costos, estaturas, pesos, ingresos, número
de hijos, etc. A la vez, se distinguen dos tipos de datos o variables cuantitativos:

   •   Variables Discretas: Son aquellas que tienen valores prohibidos dentro de su intervalo
       de definición, o sea, toman valores determinados, predefinido. Generalmente
       representan valores enteros asociados a observaciones susceptibles de conteo.



                                                                                               5
•   Variables Continuas: Son aquellas que pueden tomar cualquier valor dentro de su
        intervalo de definición. Generalmente representan observaciones susceptibles de
        medición. Es importante tener en cuenta que la continuidad está dada por la propia
        naturaleza de variable, no porque ésta se exprese con valores decimales o no, pues
        esto es algo que depende de las unidades de medida utilizadas, de la precisión deseada
        o de costumbres al expresar una magnitud.


TABULACIÓN DE DATOS (TABLAS DE FRECUENCIAS):

Según la forma en que se presenta la información, se habla de:

•   Recolección simple o no organizada (datos no organizados):
    Es el listado de los datos presentados en su forma primaria, es decir, tal como fueron
    obtenidos durante el proceso observación o medición en la muestra o población.

•   Recolección organizada o tabulación (datos organizados):
    Es el ordenamiento de la información en tablas, denominadas tablas de frecuencias o
    distribuciones de frecuencias, a partir de los datos primarios. Cuando los datos se
    tabulan, o se organizan en las tablas de frecuencias, pueden estar no agrupados, es decir,
    de manera que se leen directamente los valores observados, o agrupados, esto es, se
    construyen intervalos para resumir la información observada.

Se dice que los datos están organizados, pero no agrupados, cuando en las tablas de
frecuencias se ponen, organizados, todos y cada uno de los valores que toma la variable; esto
es, se colocan los datos en columnas que recogen los distintos valores de la variable y las
frecuencias (las veces) con que han aparecido tales valores.

Por su parte, se dice que los datos están organizados y agrupados cuando en la tabla se
presentan éstos no con sus valores individuales, sino en agrupaciones parciales del recorrido
de la variable, denominadas “clases” o “intervalos de clases”.

Una clase se caracteriza por un valor que es su límite inferior y otro que es su límite superior. El
promedio de los dos límites, que muchas veces se toma como el valor representativo de la
clase, es llamado marca de clase. Y a la diferencia o distancia entre los límites de la clase se le
llama ancho de clase: aunque no es obligatorio, es usual utilizar clases del mismo ancho
siempre que es posible. (Si las clases no tienen el mismo ancho, no es la altura de las barras o
rectángulos la que debe ser proporcional a las frecuencias representadas, sino su área.)

La forma general de una tabla de frecuencias es la siguiente:

                       Li-1 - Li         Xi       ni       fi         Ni      Fi
                       L0 - L1           X1       n1       f1         N1      F1
                       L1 - L2           X2       n2       f2         N2      F2
                          …




                                         …


                                                  …


                                                           …


                                                                      …


                                                                              …




                      Lk-1 - Lk          Xk       nk       fk         Nk      Fk
                           ↑                                ↑          ↑          ↑
                   sólo si hay clases                             frecuencias
                   (datos agrupados)                            complementarias


                                                                                                  6
Los símbolos y definiciones correspondientes son:

Xi : representa los valores individuales de la variable (en datos no agrupados) o las marcas de
clase (en datos agrupados en clases)

Li-1 - Li : representan las clases (si los datos se agruparon), delimitadas por los límites de clase,
el inferior (Li-1) y el superior (Li)

ni ( frecuencia absoluta ): número de veces que se repite el i-ésimo valor de la variable;
donde ∑ ni = n

n ( tamaño de la muestra ): cantidad de observaciones efectuadas, es decir, número de
elementos contenidos en la muestra

k: representa el número de valores diferentes observados (datos no agrupados) o la cantidad
de clases creadas (datos agrupados)

También pueden incorporarse a la tabla otras frecuencias, como:

fi ( frecuencia relativa ): proporción de veces que se repite el i-ésimo valor de la variable (si se
multiplica por cien constituye un porciento); se cumple que:
                                                                    fi = ni/n    y donde ∑ fi = 1

Ni ( frecuencia absoluta acumulada ): Es el número de observaciones menores o iguales al i-
ésimo valor de la variable, donde N1 = n1, N2 = n1 + n2, N3 = n1 + n2 + n3, y así sucesivamente
hasta Nk = n. Así, se interpreta como el número de observaciones menores o iguales al i-ésimo
valor de la variable.

Fi ( frecuencia relativa acumulada ): es la proporción (o porciento) de observaciones menores
o iguales al i-ésimo valor de la variable, siendo F1 = f1, F2 = f1 + f2, F3 = f1 + f2 + f3, y así
sucesivamente hasta Fk = 1.

Generalmente se agrupan las observaciones correspondientes a variables continuas, ya que
estas son las que pueden tomar cualquier valor en un intervalo, y prácticamente es imposible
considerar todos y cada uno de los valores que toma la variable, como sí ocurre con las
variables discretas.

No obstante no se puede decir rotundamente que no se agrupan en clases las variables
discretas y sí las continuas, porque esto depende de la cantidad de datos que se tiene y del tipo
de análisis que se va a hacer. Así, se podría presentar la situación de que se tiene una variable
discreta que toma tantos valores diferentes que es necesario agruparla; o el caso de que se
tiene una variable continua para la cual todas las observaciones constituyen valores enteros y
se pueden recoger entonces en una tabla de frecuencia con datos no agrupados.

Por todo ello, cuando se insiste en que las variables discretas se presentan en tablas de
frecuencia sin agrupar, y las variables continuas en tablas de frecuencias agrupadas, esto es
ante todo con fines metodológicos.




                                                                                                    7
PROPIEDADES DE LAS FRECUENCIAS:

De la definición de las distintas frecuencias se deduce que éstas son siempre números no
negativos, y pueden considerarse como propiedades de las mismas las siguientes:

       1. ni ≥ 0     /   Ni ≥ 0                          6. Fk = 1

       2. ∑ni = n                                        7. N1 = n1

       3. ∑ fi = 1                                       8. F1 = f1

       4. 0 ≤ fi ≤ 1     /    0 ≤ Fi ≤ 1                 9. n1 = N1 ≤ N2 ≤ N3 ≤ ... ≤ Nk

       5. Nk = n                                         10. f1 = F1 ≤ F2 ≤ F3 ≤ ... ≤ Fk



AGRUPACIÓN DE LOS DATOS EN CLASES:

La agrupación de datos en clases incluye muchas cuestiones subjetivas, como facilidad o
conveniencias de agrupación, diversidad de criterios o necesidades de la investigación; e
incluso puede depender de la propia naturaleza de los datos.

Se debe considerar también que la agrupación de datos siempre conlleva un grado de
pérdida de información, pues ya no se cuenta con todos y cada uno de los valores de la
variable sino con los intervalos creados; no obstante, esta pérdida de información en general no
es significativa para el análisis global.

Algunas de las formas en que se presentan los intervalos de clases son:

                             Caso A         Caso B                    Caso C
                             10    14,9     10     15             10      15
                             15    19,9    15,1    20             15      20
                             20    24,9    20,1    25             20      25

Las variantes A y B se utilizan con el objetivo de que no se repita el mismo valor de un límite de
clase, de manera que para una observación dada sea inequívoca (única) la pertenencia a una
clase; pero en cualquiera de los dos casos hay infinitos valores posibles entre el cierre de una
clase y el inicio de la otra, es decir, entre 14,9 y 15 (caso A) y lo mismo entre 15 y 15,1 (caso
B). Por ello muchos autores e investigadores prefieren la variante C, donde el valor que cierra
una clase es el mismo que abre la siguiente, y se suele recurrir al siguiente convenio: cuando
una observación coincide con un límite de clase se incluye en la clase donde dicho límite
es el límite superior, es decir, se consideran los intervalos de clase como abiertos al inicio y
cerrados al final, así: ( Li-1 ; Li ]

También existen los intervalos abiertos atendiendo al tipo de información que se puede
presentar:




                                                                                                8
Abierto en la
             Abierto en la               Abierto en la
                                                                    primera y en la
             primera clase               última clase
                                                                     última clase
             menos de 10                  0       10                 menos de 10
             10       20                 10       20                 10        20
             20       30                 20       30                 20        30
             30       40                 30       40                 30        40
             40       50                  más de 50                    más de 50

Es útil tener en cuenta además que no siempre los intervalos podrán ser de igual amplitud, sin
embargo es recomendable que estos tengan el mismo ancho si es posible ello, para lograr
mayor facilidad en las interpretaciones, representaciones y cálculos.

Entre los métodos seguidos para crear las clases, dos son los más utilizados:

1. Definir, a partir del uso que se hará de la información, el ancho de clases que se empleará,
   y con esto ver cuántas clases surgen.

2. Definir, a partir de la cantidad de datos disponibles, la cantidad de clases que se crearán, y
   a partir de ahí calcular el ancho que deberán tener las mismas.

Los pasos que se deben dar para agrupar los valores observados según el segundo método
pueden resumirse como sigue:

1. Determinar el recorrido de la variable (R), definido como la diferencia entre el valor máximo
   y el mínimo de la variable: R = Xmax - Xmin
2. Definir el número de intervalos o clases (k): La práctica indica que menos de 4 ó 5 clases
   suele ser muy poco y que en general más de 20 clases puede ser excesivo, es decir, ni tan
   pocos, que se pierda demasiada información, ni tantos que parezca que no se han
   agrupados los datos ( 4 ≤ k ≤ 20 )
3. Determinar la amplitud o ancho de estos intervalos (c), como el cociente del recorrido de los
   datos entre la cantidad de clases que se decidió usar, aproximado convenientemente y
   siempre por exceso: c ≈ R/k
4. Crear las clases, partiendo del valor mínimo observado (xmin) o un valor inferior, y sumando
   sucesivamente el ancho de clases (c) determinado.
5. Clasificar la variable en las distintas clases, para lo cual se puede hacer un tarjado,
   obteniendo las frecuencias absolutas correspondiente (ni).
6. Calcular las restantes frecuencias deseadas: relativas (fi), absolutas acumuladas (Ni) y
   relativas acumuladas (Fi).
7. Determinar las marcas de clases (Xi), valores que representarán a sus respectivas clases.



REPRESENTACIÓN GRÁFICA DE LOS DATOS:

Otra manera de presentar los datos de manera de que brinden información a primera vista es
una representación gráfica de los mismos, y entre los gráficos más usados se encuentran:

•   Gráficos de barras o histogramas
    Constan de dos ejes; un eje horizontal, donde se distribuyen los valores observados de la
    variable (datos no agrupados) o sus límites de clases (datos agrupados), y un eje vertical


                                                                                               9
donde se representan las frecuencias absolutas (ni) o relativas (fi) correspondientes. En el
    punto correspondiente a cada observación o clase se levanta una barra cuya altura indica el
    valor de la frecuencia observada. Si los datos están agrupados en clases las barras
    conforman rectángulos contiguos, y el gráfico suele ser denominado histograma.

•   Polígonos de frecuencias
    Son similares a los gráficos de barras, y tienen la misma función, aunque actualmente se
    utilizan menos que aquellos. Constan de también de dos ejes, con la diferencia de que en el
    eje horizontal, si los datos están agrupados en clases se distribuyen no sus límites de clase
    sino sus marcas de clase. En cualquier caso, sobre el punto correspondiente a cada
    observación o marca de clase se hace una marca a la altura de la frecuencia observada, y
    posteriormente estas marcas se unen con trazos rectos, formando una línea poligonal.

•   Gráficos circulares o de pastel
    Parten de subdividir un círculo en tantos sectores como valores distintos (datos no
    agrupados) o clases (datos agrupados en clases) se tiene, de manera que la amplitud
    angular del sector, y por tanto su área, es proporcional a la frecuencia absoluta
    correspondiente (y consecuentemente también a la relativa).

EJEMPLO 1 (Datos no agrupados):

Se tiene los datos recopilados acerca de la variable X: número de ausencias a clase que tienen
los estudiantes de un grupo.

       0   1   2   2   1
       3   2   1   4   2
       4   3   2   0   0
       2   2   3   0   3              Datos en su forma primaria (sin organizar)

¿Qué tipo de variable es esta?:       Variable cuantitativa discreta.

Construcción de la tabla o distribución de frecuencias:

Al tratarse de una variable discreta (un conteo siempre tomará valores enteros) y con pocos
valores diferentes, no parece necesario crear clases para agrupar los datos.

En este caso k = 5 (son cinco los valores distintos de X: 0, 1, 2, 3 y 4).

Para facilitar el conteo de las observaciones se suele hacer algún tipo de marcas, a lo cual se le
llama tarjado.

           número de                  cantidad de      proporción de
           ausencias       tarjado    estudiantes       estudiantes
              Xi                           ni                fi              Ni    Fi
               0             ////          4               0,20              4    0,20
               1              ///          3               0,15              7    0,35
               2            ///////        7               0,35              14   0,70
               3             ////          4               0,20              18   0,90
               4               //          2               0,10              20   1,00
                                      n = 20


                                                                                               10
Interpretación de las distintas frecuencias:

•   ni indica las veces que se repite el valor de la variable, así:

    n1 = 4 indica que hay 4 alumnos del grupo que no tienen ausencias.
    n3 = 7 indica que hay 7 estudiantes del grupo que tienen 2 ausencias.

•   fi indica el porciento de veces que se repite el valor de la variable, así:

    f4 = 0.20 indica que el 20% de los estudiantes tienen 3 ausencias
    f5= 0.10 indica que el 10% de los estudiantes tienen 4 ausencias

•   Ni indica el número de observaciones menores o iguales al valor de la variable, así:

    N2 = 7 indica que hay 7 estudiantes que tienen hasta (o como máximo) 1 ausencia
    N3 = 18 indica que hay 18 estudiantes que tienen hasta 3 ausencias

•   Fi indica el porciento de observaciones menores o iguales al valor de la variable, así:

    F2 = 0.35 indica que el 35% de los estudiantes tienen hasta 1 ausencia.
    F3 = 0.70 indica que el 70% de los estudiantes tienen hasta 2 ausencias.


Representación gráfica:

A partir de la tabla de frecuencias se puede construir cualquiera de los gráficos siguientes:
                       gráfico de barras                                        polígono de frecuencias
          ni                                                         ni
               8                                                          8
               7                                                          7
               6                                                          6
               5                                                          5
               4                                                          4
               3                                                          3
               2                                                          2
               1                                                          1
               0                                                          0
                   0       1     2         3    4 xi                            0      1     2     3      4 xi



                                                     diagrama circular

                                                4                          0
                                               10%                        20%
                                                3
                                               20%

                                                                          1
                                                2                        15%
                                               35%




                                                                                                                 11
EJEMPLO 2 (Datos agrupados):

Los siguientes valores corresponden al registro del consumo de gasolina de una flota de 50
taxis, en litros, un día dado:

               46   39   34   33   32   36   41   26   32   36
               43   28   30   27   32   42   30   31   34   41
               28   30   26   21   37   39   25   33   47   28
               26   23   30   43   40   36   21   38   31   38
               29   30   48   47   23   31   24   38   35   36

¿Qué tipo de variable es ésta?
Aunque los datos observados son todos enteros la variable es continua, por su propia
naturaleza (de hecho, un taxi podría haber consumido 24,75 litros de gasolina).

•   Se tiene n = 50 taxis (tamaño de la muestra).

•   Determinación del recorrido:
    R = Xmax - Xmin = 48 - 21 = 27

•   Definición del número de clases a usar:
    Para 50 observaciones podrían usarse 5, 6, 7 u 8 clases, según decisión de quien va a
    organizar los datos.
    Sea en este caso k = 6.

•   Determinación del ancho de clases:
    c ≈ R/k
    R/k = 27/6 = 4,5 ≈ 5
    c=5
    (El valor R/k = 4,5 se redondea a 5 porque no tendría sentido en este caso hacer los
    intervalos de amplitud decimal, ya que complicaría, en vez de facilitar, la interpretación y el
    trabajo con la información; nótese que esta aproximación fue a un valor superior al
    verdadero cociente, es decir, por exceso.)

•   Creación de las clases:
    Se podría partir del valor Xmin = 21, pero resulta más cómodo comenzar ligeramente por
    debajo de él, en 20, de manera que la primera clase sea desde 20 a 20 + c (ya se tiene c =
    5), o sea, de 20 a 25; la segunda de 25 a 30, sin incluir el 25 (límite inferior y extremo
    abierto) e incluyendo el 30 (límite superior y extremo cerrado), y así sucesivamente hasta la
    sexta clase (k = 6), que sería desde 45 (extremo abierto) a 50 (extremo cerrado).

•   Determinación de las marcas de clases (Xi):
    Siendo el promedio de los límites de clase se tiene que: Xi = (Li – Li-1)/2
    Así:       X1 = (20 + 25)/2 = 45/2 = 22,5
               X2 = (25 + 30)/2 = 55/2 = 25,5 ó X2 = X1 + c
    Y así sucesivamente…

•   Clasificación de la variable y cálculo de las distintas frecuencias:
    Para ello se puede hacer previamente un tarjado…
    Se debe tener en cuenta, además, el convenio de que si una observación coincide con un
    límite de clase, se incluye en la clase donde dicho límite está como límite superior; así,


                                                                                                12
todos los taxis que consumieron 30 litros de gasolina se incluyen en la clase de 25 a 30, no
         en la que va de 30 a 35.

                   clases                    tarjado
                  (Li-1; Li]      Xi                           ni           fi        Ni            Fi
                   20 - 25       22,5      ///// /              6         0,12         6           0,12
                   25 - 30       27,5      ///// ///// ///     13         0,26        19           0,38
                   30 - 35       32,5      ///// ///// /       11         0,22        30           0,60
                   35 - 40       37,5      ///// ///// /       11         0,22        41           0,82
                   40 - 45       42,5      /////                5         0,10        46           0,92
                   45 - 50       47,5      ////                 4         0,08        50           1,00
                                                           n = 50         1,00

Interpretación de las distintas frecuencias:

•        n2 = 13: indica que hay 13 taxis que consumieron entre 25 y 30 litros de gasolina, o que
         consumieron como promedio 27,5 litros (utilizando la marca de clases)

•        f3 = 0,22: indica que el 22% de los taxis consumieron entre 30 y 35 litros de gasolina, o que
         consumieron 32,5 litros como promedio.

•        N4 = 41: indica que 41 taxis consumieron HASTA 40 litros de gasolina, o un máximo de 40
         litros. (Las frecuencias acumuladas se interpretan utilizando el límite superior del intervalo,
         nunca con la marca de clases.)

•        F5 = 0,92: indica que el 92% de los taxis consumió HASTA 45 litros de gasolina, o un
         máximo de 45 litros.

Representación gráfica:

    ni                 histograma                        ni         polígono de frecuencias
     14                                                    14
     12                                                    12
     10                                                    10
         8                                                  8
         6                                                  6
         4                                                  4
         2                                                  2
         0                                                  0
             20   25   30   35   40   45    50                  22,5   27,5   32,5   37,5   42,5    47,5 i
                                            X (clases)                                                  X


EJERCICIOS DE AUTOEVALUACIÓN

1.- Ponga 3 ejemplos de variables discretas y 3 de variables continuas

2.- ¿Qué quiere decir organizar los datos?

3.- ¿Cómo se forma una tabla de frecuencias?


                                                                                                             13
4.- A partir de los siguientes datos, que representan el número de habitaciones de 50 viviendas
del municipio Plaza, que se están visitando para estudiar el grado de hacinamiento, construya
una distribución de frecuencias e interprete 3 frecuencias absolutas y relativas simples y 3
frecuencias absolutas y relativas acumuladas.

                                     3    2   3     4   3   5   2   1    3    2
                                     4    3   2     1   1   2   5   2    3    1
                                     2    3   2     1   2   2   2   3    3    4
                                     3    2   2     3   4   1   1   5    2    3
                                     4    4   3     3   2   2   2   1    1    2

5.- ¿Es absolutamente privativo de las variables discretas la organización de los datos
directamente a partir de los valores observados, o considera que una variable continua también
podría organizarse de esta forma? Explique.

6.- ¿Qué pasos se deben dar para conformar una tabla de frecuencia?

7.- ¿En casos de datos agrupados se cumple que: ∑ni = n y ∑fi = 1? Fundamente su respuesta.

8.- ¿Cómo se determina el recorrido de la variable?

9.- ¿Se agrupan en intervalos de clase sólo las variables continuas?

10.- ¿Cómo determinaría el número de intervalos o clases a considerar en una tabla de
frecuencias?

11.- ¿En que casos utilizaría intervalos de amplitud diferentes?

12.- Si una observación le coincide con un límite de clases, ¿dónde la pondría y por qué?

13.- Investigados los precios por habitación de 50 hoteles del país se ha obtenido los siguientes
resultados (en cientos de pesos):

                 7   3     5     4     5       7        4   7.5      8       5
                 5   7.5   3     7    10      15        5   7.5     12       8
                 4   5     3     5    10        3       4   5        7       5
                 3   4     7     4      7       5       4   7       10       7.5
                 7   8     7.5   7   7.5       8        7   7       12       8

  a) Diga qué tipo de variable es.
  b) Construya la distribución de frecuencias para esta variable.

14.- Realizada una encuesta en una región del país, se han agrupados los establecimientos
hoteleros por el número de cuartos, obteniéndose la siguiente distribución:

                                          cuartos           # de hoteles
                                          0 100                  25
                                         100 200                 37
                                         200 300                 12
                                         300 400                 22


                                                                                              14
400   500          21
                                500   600          13
                                600   700           5
                                700   800           3

a.- Determine el número de establecimientos hoteleros con más de 300 cuartos.
b.- Determine el porcentaje de establecimientos que tienen más de 100 cuartos y hasta 400.
c.- Represente gráficamente la distribución.
d.- ¿Que tipo de variable es ésta?
e.- ¿Por qué, siendo ese el tipo de variable, la tabla de frecuencia es de esta forma?




                                                                                         15
1.2: Medidas descriptivas o estadígrafos. Estadígrafos de posición más usados:
media, mediana y moda. Estadígrafos de dispersión más usados: varianza,
desviación típica y coeficiente de variación.

La organización de los datos y el análisis del comportamiento de los mismos mediante tablas o
gráficos, aportan una información inicial sobre la población en estudio, pero no suelen ser
suficiente para describir a la misma. Sin embargo, es posible la obtención de ciertas cantidades
numéricas, denominadas estadígrafos o estadísticos, que caracterizan mejor el conjunto de
datos.

Un estadígrafo o estadístico es una medida descriptiva que resume alguna de las principales
características de un conjunto de datos, como puede ser la tendencia central, la dispersión o la
forma. Precisamente atendiendo al tipo de resumen que brindan los estadígrafos, éstos suelen
clasificarse.

Cuando un estadígrafo es calculado a partir de todos los datos poblacionales, es decir, no en
una muestra sino en toda la población, se dice que es un parámetro poblacional.


1.2.1- ESTADÍGRAFOS O MEDIDAS DE POSICIÓN O TENDENCIA

Los llamados estadígrafos de posición son medidas que informan sobre el centro de la
distribución (tendencia central) o sobre valores significativos de ésta.

La mayor parte de los conjuntos de datos muestran una tendencia a agruparse alrededor de un
punto central y por lo general es posible encontrar algún tipo de valor promedio que describa
todo el conjunto. Un valor típico descriptivo como ese, es una medida de tendencia central. Con
frecuencia se utilizan, como las más importantes medidas de tendencia central, la media
aritmética, la mediana, la moda y la media geométrica.

No obstante, aunque menos usadas, también se recurre en muchos casos a otras estadígrafos
de posición que no son medidas de tendencia central, como las cuantilas, entre las que se
encuentran las cuartilas, las decilas y los percentiles, que son aquellos valores que dividen el
conjunto de datos en cuatro, diez y cien partes iguales, respectivamente.

MEDIA ARITMÉTICA (O MEDIA)

La media aritmética, más frecuentemente denominada sólo media, es el promedio o medida
de tendencia central que se utiliza con mayor frecuencia. Se define como la suma de todos los
valores de la variable dividida entre el número de elementos, dicho en otras palabras, es lo que
comúnmente se conoce como promedio.

La media se representa:
   • en la muestra, por x
   • en la población, por μ (la letra griega miu)
   • en definiciones y demostraciones, por M(x)

A partir de la propia definición se deduce que la media en una muestra puede calcularse como:




                                                                                             16
∑ xi                    1
                                 x=               ó    x=       ∑ xi                      (definición)
                                       n                      n

         EJEMPLO:

         Sea X las calificaciones de un estudiante:
                                                 X: 5 4 3 4 5 3 5 5
         Su promedio es, por tanto:
                          1        1                                34
                     x = ∑ x i = (5 + 4 + 3 + 4 + 5 + 3 + 5 + 5 ) =    = 4,25
                         n         8                                 8

Al trabajar con datos tabulados debe tenerse en cuenta que cada valor de la variable (Xi) se
repite una determinada cantidad de veces (ni), y por tanto, la expresión matemática derivada de
la definición de la media debe modificarse, como se muestra, multiplicando cada valor por su
respectiva frecuencia.

                       ∑ x in i       1
                x=              ó x = n ∑ x in i ó x = ∑ x i f i                          (en datos tabulados)
                         n

EJEMPLO 1 (caso de datos no agrupados, continuación):

Calcular el promedio de inasistencias para los 20 estudiantes del grupo analizado:

    Xi    ni     fi    Ni     Fi           Xini                        1            37
    0     4    0,20    4     0,20           0                    x=      ∑ x in i =    = 1,85
                                                                       n            20
    1     3    0,15    7     0,35           3
    2     7    0,35    14    0,70          14
    3     4    0,20    18    0,90          12
                                                      Nota: Es usual, cuando se efectúan cálculos utilizar
    4     2    0,10    20    1,00           8
                                                      la propia tabla de frecuencia, creando columnas
                                           37
                                                      auxiliares, como se ve, para facilitar los mismos.



EJEMPLO 2 (caso de datos agrupados, continuación):

Calcular el consumo promedio diario de gasolina de los 50 taxis de la flota.

    clases       Xi         ni        fi               Xini
    20 - 25     22,5         6      0,12               135,0
    25 - 30     27,5        13      0,26               357,5                     1            1665
                                                                            x=     ∑ x in i =      = 33,3
    30 - 35     32,5        11      0,22               357,5                     n             50
    35 - 40     37,5        11      0,22               412,5
    40 - 45     42,5         5      0,10               212,5      (O sea, el consumo promedio en el día fue
    45 - 50     47,5         4      0,08               190,0      de 33,3 litros por auto.)
                                                      1665,0

Nota: Para los cálculos de la media en datos agrupados en clases se utilizan las marcas de
clase, y salvo eso, la expresión matemática empleada no se diferencia del caso en que los


                                                                                                                 17
datos no están agrupados. Algo a tener en cuenta en este sentido es que si existen intervalos
abiertos, como a veces se presenta la primera o la última clase, la media no se puede calcular
a menos que se modifiquen los mismos.


PROPIEDADES Y CARACTERÍSTICAS DE LA MEDIA:

Algunas propiedades importantes y con utilidad práctica de la media son:

   1. M(k) = k (La media de una constante es igual a la propia constante.)

   2. M(kx) = k M(x) (La media de una constante por una variable es igual a la constante por
      la media de la variable.)

   3. M(k + x) = k + M(x) (La media de una constante más una variable es igual a la
      constante más la media de la variable.)

   4. M(x1 + x2) = M(x1) + M(x2) (La media de la suma de dos variables es igual a la suma de
      las medias de ambas variables.)

   5. M(x - x ) = 0 (La media de las desviaciones con respecto a la media es igual a cero.)

   6. M(x - x )2 = mínimo. (La media del cuadrado de las desviaciones con respecto a la
      media al cuadrado es un mínimo.)

Cabe especificar que se le llama desviaciones a la diferencia entre los valores de una variable y
un valor fijo; cuando este valor fijo es la propia media de la variable, se le llama desviaciones
con respecto a la media.

De la quinta propiedad citada se deduce que la media es el centro de gravedad o el punto de
equilibrio de la distribución, o sea, el valor que correspondería a una distribución equitativa para
todas las observaciones.

Una característica notable en la media es que ésta se ve afectada por la ocurrencia de
valores extremos, esto quiere decir que si hay algunos valores atípicos en el conjunto, estos
arrastran consigo el valor de la media; así, valores atípicos muy grandes conducirán a una
media mayor que la real del conjunto, mientras que valores muy pequeños provocarán que la
media sea menor que la real.


MODA

La moda se define como el valor mas frecuente en un conjunto de datos, es decir, el valor
modal es el de mayor frecuencia. Se denota por Mo(x) y puede no existir en una distribución
(distribución amodal), o existir más de una (distribución multimodal).

La moda cobra especial importancia en datos de tipo cualitativo, pues en ellos es imposible
calcular otros estadígrafos de posición, como la media. Esto no quita que también para datos
cuantitativos suele ser de interés conocer el valor modal, que se utiliza en ocasiones como
medida de tendencia central.



                                                                                                 18
Para determinar la moda a partir de datos primarios suele ser conveniente organizar primero
estos, conformando lo que se llama un arreglo ordenado.

         EJEMPLO:

         Sean las calificaciones de tres estudiantes:
         A: 3 4 3 4 5 4 5 4 4         B: 3 4 5 4 5 4 5 5 4              C: 3 4 3 4 5 4 5 5 3

         Organizando primeramente los datos se tiene:

         A: 3 3 4 4 4 4 4 5 5                             Mo(A) = 4 (conjunto unimodal)
         B: 3 4 4 4 4 5 5 5 5                             Mo(B) = { 4 ; 5 } (conjunto bimodal)
         C: 3 3 3 4 4 4 5 5 5                             Mo(C) = Ø (conjunto amodal)

         Nota: Para el estudiante C ninguna nota es más frecuente que las demás, por eso
         no tiene valor modal.


En datos tabulados es muy sencillo encontrar el valor o valores modales, pues son aquellos que
presentan la máxima frecuencia absoluta.


EJEMPLO 1 (caso de datos no agrupados, continuación):

Determinar la moda de inasistencias para los 20 estudiantes del grupo analizado:

    Xi    ni      fi   Ni    Fi
    0     4     0,20    4   0,20              nmod = 7 (frecuencia modal)
    1     3     0,15    7   0,35
    2     7     0,35   14   0,70              Mo(X) = 2
    3     4     0,20   18   0,90
    4     2     0,10   20   1,00

Nota: La frecuencia modal es 7, porque la cantidad de inasistencias que más ocurre, que son
dos, se repite 7 veces en la muestra (o un 35% de las veces).

Cuando se trabaja con datos agrupados en clases, es sencillo determinar la clase o clases
modales existentes, y para muchos fines esto es suficiente. Pero si se quiere indicar un valor
modal dentro de la clase modal, se ha determinado, atendiendo a cuestiones geométricas, que
el mismo puede obtenerse a partir de la expresión:

                                                           n mod − n mod −1
                  Mo ( x ) = L mod −1 + c ⋅
                                              (n mod   − n mod −1 ) + (n mod − n mod +1 )

Siendo:
      Lmod-1:    el límite inferior de la clase modal
      c:         el ancho de la clase modal (que en general es el de todas las clases)
      nmod:      la frecuencia absoluta de la clase modal
      nmod-1:    la frecuencia absoluta de la clase anterior a la modal


                                                                                                 19
nmod+1: la frecuencia absoluta de la clase siguiente a la


EJEMPLO 2 (caso de datos agrupados, continuación):

Calcular el valor modal para el consumo diario de gasolina de los 50 taxis de la flota.

     clases        Xi           ni           fi
     20 - 25      22,5           6         0,12
     25 - 30      27,5          13         0,26
     30 - 35      32,5          11         0,22
     35 - 40      37,5          11         0,22
     40 - 45      42,5           5         0,10               nmod = 13
     45 - 50      47,5           4         0,08               clase modal: 25 - 30


Para determinar un valor modal puntual se parte de la clase modal:

                                         n mod − n mod −1                                13 − 6
Mo ( x ) = L mod −1 + c ⋅                                               = 25 + 5 ⋅
                            (n mod   − n mod −1 ) + (n mod − n mod +1 )            (13 − 6 ) + (13 − 11)
                      7
Mo ( x ) = 25 + 5 ⋅     = 25 + 3,89 = 28,89
                      9


CARACTERÍSTICAS DE LA MODA:

A diferencia de la media, la moda no se afecta ante la presencia de valores extremos.

La moda, como se ha visto, no tiene necesariamente que existir, ni tiene que ser única.

Además, la moda puede ser definida en forma relativa, aunque es menos frecuente este uso,
llamando valor modal a aquel donde exista un máximo relativo en la distribución de frecuencias,
esto es, donde: ni – 1 < ni >ni + 1

MEDIANA

La mediana se define como el valor central de un grupo de datos ordenados, o sea, como aquel
valor que supera hasta un 50% de las observaciones y a la vez es superado por hasta un 50 %
de las observaciones. Se denota por Me(x).

Para calcular la mediana a partir de un conjunto de datos en su forma primaria, es necesario
antes ordenarlos; después, se puede buscar la posición del valor mediano en el arreglo
ordenado, atendiendo al número de observaciones, según las dos siguientes reglas:

        Regla 1: Si el tamaño de la muestra es un número impar, la mediana está representada
        por el valor numérico correspondiente a la posición del centro de las observaciones
        ordenadas.




                                                                                                           20
Regla 2: Si el tamaño de la muestra es un número par, entonces el valor mediano,
         será la semisuma o promedio de los dos valores centrales de las observaciones
         ordenadas. (Esto, estrictamente hablando, es un convenio adoptado, pues cualquier
         valor entre los dos valores centrales podría ser considerado como un valor mediano)

         EJEMPLO:

         Sean las calificaciones de un estudiante en dos semestres:

         SI: 5 3 5 4 4 5 5
         SII: 5 3 5 4 4 5 5 4

         Ordenando los datos, se tiene:

         SI:       3 4 4 5 5 5 5                        Me(x) = 5

         SII: 3 4 4 4 5 5 5 5                           Me(x) = (4 + 5)/2 = 4,5


Para determinar la mediana en datos tabulados pero sin agrupar en clases se puede proceder
de la siguiente manera:

   1. Determinar la fracción n/2, que ubica el centro de la distribución.

   2. Encontrar la denominada frecuencia mediana, que es la primera frecuencia absoluta
      acumulada que iguala o supera a n/2 (representada por Nmed); y entonces:

         •        Si Nmed > n/2, Me(x) = Xmed
                  (Es decir, si la frecuencia mediana encontrada supera a n/2, la mediana es el valor
                  de X al que le corresponde dicha frecuencia en la tabla)

         •        Si Nmed = n/2, Me(x) = (Xmed + Xmed+1)/2
                  (Es decir, si la frecuencia mediana encontrada coincide con n/2, la mediana es el
                  promedio del valor de X al que le corresponde dicha frecuencia en la tabla con el
                  valor de X siguiente)

EJEMPLO 1 (caso de datos no agrupados, continuación):

Determinar la mediana para las inasistencias de los 20 estudiantes del grupo analizado:


    Xi       ni       fi   Ni    Fi           n/2 = 10
    0        4      0,20    4   0,20          Nmed = 14 ( >10 )
    1        3      0,15    7   0,35          Me(X) = 2
    2        7      0,35   14   0,70
    3        4      0,20   18   0,90   Nota: La frecuencia mediana es 14, porque es la primera
    4        2      0,10   20   1,00   frecuencia absoluta acumulada que sobrepasa a n/2 = 10.




                                                                                                  21
En el caso de datos agrupados en clases, se determina ante todo una clase mediana, como
aquella cuya frecuencia absoluta acumulada sobrepasa a n/2; y si quiere un valor mediano,
sobre esa clase se aplica la siguiente expresión:

                                                       n −N
                                                             med−1
                                Me( x ) = L med−1 + c ⋅ 2
                                                          nmed
Siendo:
      Lmed-1:   el límite inferior de la clase mediana
      c:        el ancho de la clase modal (que en general es el de todas las clases)
      Nmed-1:   la frecuencia absoluta acumulada hasta la clase anterior a la mediana
      nmed:     la frecuencia absoluta de la clase mediana


EJEMPLO 2 (caso de datos agrupados, continuación):

Calcular el valor mediano para el consumo diario de gasolina de los 50 taxis de la flota.

    clases       Xi      ni       Ni
    20 - 25     22,5      6        6
    25 - 30     27,5     13       19
    30 - 35     32,5     11       30
    35 - 40     37,5     11       41             Nmed = 30
    40 - 45     42,5      5       46             clase mediana: 30 - 35
    45 - 50     47,5      4       50

                               n − Nmed−1
                                                     25 − 19           6
         Me( x ) = Lmed−1 + c ⋅ 2         = 30 + 5 ⋅         = 30 + 5 ⋅ = 30 + 2,73 = 32,73
                                  nmed                 11              11


CARACTERÍSTICAS DE LA MEDIANA:

La mediana no se ve afectada por datos extremos, es por ello que cuando éstos existen ella
es más representativa que la media como medida de tendencia central.


1.2.2- ESTADÍGRAFOS O MEDIDAS DE DISPERSIÓN

A pesar de toda la información que brindan los estadígrafos de posición, no basta con ellos para
caracterizar un conjunto de datos:

Téngase por caso dos empresas que reportan el mismo promedio de recaudaciones
mensuales, siendo que una de ellas esto se debe a que todos los meses ha recaudado esa
misma cantidad, mientras que la otra ha oscilado bastante en sus recaudaciones alrededor de
ese valor medio, habiendo recaudado unos meses mucho más que dicho valor, pero otros,
mucho menos; de esta manera, no puede decirse que ambas empresas tiene el mismo
comportamiento, a pesar de que han coincidido en el valor de la recaudación media mensual: la
primera de ellas es mucho más estable en su comportamiento que la segunda… Esto sería útil
conocerlo a través de alguna medida resumen, junto con el valor de la media.


                                                                                              22
Precisamente, los estadígrafos de dispersión son medidas que describen cómo se distribuyen
los datos alrededor de alguno de sus valores representativos, principalmente alrededor de su
media.

Por tanto, las medidas de posición no dicen mucho si no están acompañadas de medidas de
dispersión o variabilidad, porque a través de estas últimas es que se puede determinar si la
medida de posición es significativa o representativa de la distribución.

Entre las medidas de dispersión más empleadas destacan la varianza, la desviación típica y el
coeficiente de variación.


VARIANZA

La varianza de un conjunto de datos se define como la media o promedio del cuadrado de las
desviaciones de la variable respecto a su media. Por sus propiedades, es la medida de
dispersión más usada, y base para el cálculo de otras.

La varianza se representa:
   • en la muestra, por S2
   • en la población, por σ2 (la letra griega sigma, al cuadrado)
   • en definiciones y demostraciones, por V(x)

De la definición de la varianza se desprende que ésta, en una muestra, puede calcularse como:

                               ∑ (x i − x )
                                          2
                                                         1
                                                           ∑ (x i − x )
                                                                       2
                       S2 =                   ó   S2 =                        (definición)
                                     n                   n

   EJEMPLO:

   Sea X las calificaciones de un estudiante:
   X: 5 4 3 4 5 3

   El promedio es: x = 4

   Por tanto, la varianza es:

    S2 =
         1
         n
                       2 1
                         6
                           [
           ∑ (x i − x ) = (5 − 4 ) + (4 − 4 ) + (3 − 4 ) + (4 − 4 ) + (5 − 4 ) + (3 − 4 )
                                   2           2        2          2          2          2
                                                                                             ]
         1
           [                                  ]  4
    S 2 = 12 + 0 2 + (− 1) + 0 2 + 12 + (− 1) = = 0,67
         6
                          2                  2

                                                 6

Al trabajar con datos tabulados debe tenerse en cuenta, al igual que en los cálculos de la
media, que cada valor de la variable (Xi) se repite una determinada cantidad de veces (ni), y por
tanto, la expresión matemática derivada de la definición debe modificarse, como se muestra:




                                                                                                 23
∑ (x i − x ) n i
                      2
                                          1
                                            ∑ (x i − x ) n i ó S 2 = ∑ (x i − x ) fi
     2                                                  2                        2
S =                          ó     S2 =                                                 (en datos tabulados)
           n                              n

EJEMPLO 1 (caso de datos no agrupados, continuación):

Calcular la varianza en las inasistencias para los 20 estudiantes del grupo analizado:

Xi       ni     fi    Ni     Fi       (x i − x )2 ni    Se tiene que: x = 1,85
0        4    0,20     4    0,2013,6900                 Por tanto:
1        3    0,15     7    0,35 2,1675
2        7    0,35    14    0,70 0,1575          1                30,55
                                 5,2900 S = n ∑ (x i − x ) n i = 20 = 1,53
                                             2              2
3        4    0,20    18    0,90
4        2    0,10    20    1,00 9,2450
                                30,5500
Nota: Algunos cálculos se han organizado utilizando la propia tabla de frecuencias.


EJEMPLO 2 (caso de datos agrupados, continuación):

Calcularla varianza para el consumo diario de gasolina de los 50 taxis de la flota.

clases          Xi         ni        (x i − x )2 ni
20 - 25        22,5         6         703,7334         Se tiene que: x = 33,3
25 - 30        27,5        13         441,8557
30 - 35        32,5        11           7,5779         Por tanto:
35 - 40        37,5        11         191,2779
                                                              1                    2568 ,045
                                                                ∑ (x i − x ) n i =
40 - 45        42,5         5         420,4445         S2 =
                                                                            2
                                                                                             = 128 ,4
45 - 50        47,5         4         803,1556                n                       50
                          n=50       2568,0450


PROPIEDADES Y CARACTERÍSTICAS DE LA VARIANZA:

Algunas propiedades importantes y con utilidad práctica de la varianza son:

         1. V(x) ≥ 0 (La varianza es un número no negativo.)

         2. V(k) = 0 (La varianza de un grupo de datos constante es igual a cero.)

         3. V(x ± k) = V(x) (La varianza de la suma de los valores de una variable más una
            constante es igual a la varianza de la variable.)

         4. V(kx) = k2 V(x) (La varianza del producto de los valores de una variable por una
            constante es igual a la constante al cuadrado por la varianza de la variable.)

La varianza, dada la manera en que se define y calcula, se expresa en unidades cuadráticas
respecto a la variable de la que procede, y esto hace que no se le pueda dar una interpretación
realista a dicho estadígrafo.



                                                                                                               24
No obstante, la varianza, por la misma forma en que se define y calcula, indica el grado de
dispersión de los datos; se dice que es una medida de dispersión absoluta: mientras mayor es
la varianza en un conjunto de observaciones, mayor es su dispersión; por el contrario, si una
varianza nula indica que todas las observaciones coinciden en un mismo valor.


DESVIACIÓN TÍPICA O ESTÁNDAR

Puesto que la varianza pierde interpretación por estar su resultado en unidades cuadráticas,
resulta conveniente contar con otro estadístico que basado en el valor de la varianza sirva para
dar una medida de la dispersión en las mismas unidades o dimensiones en que están
expresados los datos y este estadístico es la desviación típica.

La desviación típica o desviación estándar se define como la raíz cuadrada positiva de la
varianza. Se denota por S en la muestra y por σ en la población:

                                               S = S2

   EJEMPLO:

   Sea X el precio de venta, en centavos, los distintos jabones de una marca dada:
   X: 40 35 45 50 40

                                                 1        40 + 35 + 45 + 50 + 40
   El precio promedio para la marca es: x =        ∑ xi =                        = 42 ¢
                                                 n                   5

                           1                130
                             ∑ (x i − x ) =
                                         2
   La varianza es: S 2 =                        = 26 ¢ 2
                           n                 5
   Por tanto, la desviación estándar es: S = S 2 = 26 = 5,1¢


La desviación típica es una magnitud no negativa, y con el misma interpretación que la varianza
en cuanto a medida de dispersión absoluta, pero no cumple las restantes propiedades
matemáticas de aquella, pues la extracción de la raíz no lo permite.


COEFICIENTE DE VARIACIÓN

En ocasiones resulta necesario contar con un estadígrafo que refleje la dispersión sin depender
de la magnitud de las observaciones, esto es que sea un valor relativo. Esta necesidad surge
generalmente cuando se comparan las dispersiones entre varios conjuntos expresados en
unidades diferentes, o incluso entre variables expresadas en las mismas unidades pero con
diferencias significativas en sus valores medios. Este estadístico es el denominado coeficiente
de variación.

El coeficiente de variación se define como el cociente de la desviación típica entre la media. Se
denota por CV(x), y en forma matemática puede expresarse:



                                                                                              25
Sx
                                                                    CV( x ) =
                                                                                x

Del coeficiente de variación se dice que es una medida de dispersión relativa, por carecer de
unidades, o una medida de la variabilidad de los datos. Muchas veces su valor se multiplica por
100, para expresar el resultado en porciento.


   EJEMPLO:

   Sea cuenta con datos del peso y la estatura de un grupo de 20 niños entre 8 y 10 años,
   y se desea saber cuál de las dos variables tiene mayor variabilidad.

                         X: estatura (cm)               Y: peso (kg)

                             X = 155 cm                   Y = 42 kg
                            S2
                             X  = 110 cm  2
                                                         S 2 = 20 kg2
                                                           Y
                            S X = 10,5 cm                S Y = 4,5 kg

   En este caso no tiene sentido decir que hay mayor dispersión en términos absolutos en
   la estatura, por el hecho de que la desviación estándar para dicha variable es 10,5
   mientras que para el peso es 4,5, pues las unidades en que están expresadas ambas
   no son comparables. Aquí cobran especial importancia los coeficientes de variación,
   que quedan:

                         10,5                                    4,5
              CV( X) =        = 0,068 = 6,8%         CV( Y ) =       = 0,107 = 10,7%
                         155                                     42

   De ello resulta que hay mayor variabilidad en el peso (10,7%) que en la estatura de los
   niños (6,8%).


EJERCICIOS DE AUTOEVALUACIÓN

1.- ¿Qué indican las medidas de tendencia central?

2.- ¿Cómo se define la media aritmética? ¿Cuáles son sus propiedades?

3.- ¿Qué desventajas se le pudiera atribuir a la media?

4.- ¿Cómo se define la mediana?

5.- ¿Cuál de los dos estadísticos, media y mediana, considera que es mejor para representar el
promedio? Explique su respuesta.

6.- ¿Cómo se define la moda?

7.- ¿En que casos considera útil utilizar la moda?



                                                                                             26
8.- ¿Qué indican las medidas de dispersión?

9.- ¿Cómo se define la varianza? Mencione algunas de sus propiedades.

10.- ¿Cómo interpretaría el resultado de la varianza?

11.- ¿Cómo se define la desviación típica? ¿Cómo la interpretaría en general?

12.- ¿Cuándo y porqué utilizaría la desviación típica en vez de la varianza?

13.- ¿Cómo se define el coeficiente de variación? ¿Cómo se interpreta este coeficiente?
14.- ¿Cuáles son las ventajas del coeficiente de variación sobre la desviación típica?

15.- Un fabricante de pilas para linternas tomó una muestra de 13 piezas de la producción de un
día y las utilizó de forma continua hasta que comenzaron a fallar. El resultado en horas de
funcionamiento fue:

   342, 426, 317, 545, 264, 451, 1049,            631, 512, 266, 492, 562, 298

a.- Calcule la media, la mediana y la moda. ¿Qué medidas descriptivas parecen ser las mejores
y cuales las peores? ¿Por que?
b.- Calcule la varianza, la desviación típica y el coeficiente de variación.
c.- Utilizando la información anterior ¿qué se aconsejaría al fabricante si él deseara anunciar
que sus baterías duran 400 horas?

16.- Examinando los registros de cuentas mensuales de una empresa que vende
                                                                                     Li-1   Li   ni
libros por correo, el auditor toma una muestra de 20 de esas cuentas no pagadas
                                                                                     10     15   4
(dadas en cientos de pesos). Los adeudos de la empresa eran:
                                                                                     15     20   6
a.- Calcule la media, la mediana y la moda.
b.- Calcule la varianza y el coeficiente de variación e interprete los resultados.   20     25   7
c.- A que conclusión llegaría acerca de la empresa conociendo que tiene 370          25     30   2
facturas pendientes de pago.                                                         30     35   1




                                                                                                 27
TEMA II: PROBABILIDADES.

2.1: Introducción a los fenómenos y experimentos aleatorios. Espacio muestral y
sucesos. Clasificación de sucesos. Definición clásica de Probabilidad. Definición
estadística de Probabilidad.

La Teoría de las Probabilidades surge en el siglo XVII, relacionada con problemas de los juegos
de azar, y entre sus principales precursores estuvo el matemático Pascal, junto con Fermat,
Huygens y Bernoulli; algo después se sumó la importante contribución de De Moivre, Gauss,
Laplace y Poisson. Esta teoría se encarga del estudio de las leyes que rigen el comportamiento
de los fenómenos aleatorios, y es la base de la inferencia estadística, de ahí la necesidad de su
estudio si se quiere pasar de la mera descripción al trazado de predicciones.

Para desarrollar la teoría de las probabilidades es preciso establecer la barrera entre el
determinismo y la necesario aleatoriedad o azar:

Un fenómeno o experimento es determinista cuando se puede predecir con total exactitud el
resultado del mismo a partir del conocimiento de las condiciones iniciales; así, los fenómenos y
experimentos de que se ocupan ciencias exactas como la física y la química son deterministas.

Un fenómeno o experimento es, por el contrario, aleatorio cuando no se puede predecir con
exactitud el resultado del mismo aunque se conozcan las condiciones iniciales; esto es lo que
por lo general ocurre en el campo de las ciencias económicas y sociales.

Según lo dicho, si se va a dejar caer un dado desde una altura determinada, el hecho de que se
conozca cuál es la altura permitiría determinar antes y con exactitud, sobre la base de leyes
físicas, con qué velocidad llegará el dado al suelo, lo que hace de ésta una observación
determinista; sin embargo, no sería posible predecir con total certeza qué cara del dado
quedará hacia arriba, siendo esta otra una observación aleatoria.

Se plantea que la estadística es la tecnología del método científico que proporciona
instrumentos para la toma de decisiones, cuando estas se adoptan en ambiente de
incertidumbre y siempre que pueda ser medida en términos de probabilidad. Luego es una
ciencia que estudia los fenómenos aleatorios.

La probabilidad, en una aproximación intuitiva, puede definirse como una medida cuantitativa de
que las posibilidades pueden llegar a ser realidades.

TERMINOLOGÍA ASOCIADA A LOS EXPERIMENTOS ALEATORIOS:

Para llegar a una definición más rigurosa de lo que lo que es probabilidad resulta útil dominar
algunos conceptos vinculados justamente con lo no medible con exactitud, con lo aleatorio:

Espacio muestral: Es el conjunto formado por todos los posibles resultados de un
experimento o fenómeno aleatorio. Se suele representar con “S”, mayúscula, y utilizando la
notación de la Teoría de Conjuntos. La cantidad de elementos (puntos muestrales) que
conforman el especio muestral es denominada “tamaño del espacio muestral”, y se
representa como N(S).

       Ej. 1: Lanzamiento de una moneda...         S: { C ; E } donde C: Cara E: Escudo


                                                                                              28
N(S) = 2
       Ej. 2: Lanzamiento de un dado...              S: { 1, 2, 3, 4, 5, 6 }
                                                     N(S) = 6

Cuando el experimento consta de observaciones sucesivas (a esto se le denomina experimento
de muestreo), el espacio muestral es la combinación de los posibles resultados en cada una de
las observaciones, y para determinar el mismo se pueden utilizar los llamados diagramas de
árbol. En un diagrama de árbol se ordenan las diferentes observaciones y se establecen los
posibles resultados para cada observación atendiendo a las observaciones anteriores.

       Ej. 3: Lanzamiento de dos monedas




                                                    S: { CC ; CE ; EC ; CC }
                                                    N(S) = 4


El espacio muestral puede ser finito o infinito según el conjunto tenga un número finito o infinito
de elementos (puntos muestrales).

Punto muestral: Es cada uno de los resultados posibles de un experimento o fenómeno
aleatorio.

Suceso o evento: Cualquier característica observada como resultado de un experimento o
fenómeno, y es aleatorio si tiene tanto posibilidad de ocurrir o como de no ocurrir; o sea, es una
colección cualquiera de puntos muestrales. Se utilizan letras mayúsculas para representarlos,
exceptuando la S.

Para establecer relaciones de sucesos con el espacio muestral o entre ellos mismos se utilizan
los diagramas de Venn. En un diagrama de Venn se suele representar el espacio muestral
como un rectángulo, y dentro de este, con círculos u otras formas geométricas los diferentes
sucesos de interés, así:

                                       S
                                                A



Ejemplos de sucesos, en el experimento del lanzamiento de un dado son:

                 A: Que salga el 6.                   A={6}
                 B: Que salga un número > 3           B = { 4; 5; 6 }
                 C: Que salga un número ≤ 2           C = { 1; 2 }
                 D: Que salga un número par           D = { 2; 4; 6 }
                 E: Que salga un número impar         E = { 1; 3; 5 }
                 F: Que salga un número primo         F = { 1; 2; 3; 5 }
                 G: Que salga un número < 10          G = { 1; 2; 3; 4; 5; 6 } (= S )
                 H: Que salga un número > 6           H = ø (conjunto vacío)


                                                                                                29
Los sucesos pueden clasificarse atendiendo a diferentes criterios; así, en dependencia de la
cantidad de puntos muestrales que lo constituyen se habla de sucesos simples y compuestos:

      Suceso simple: Es aquel que consta de un solo punto muestral. (En el ejemplo anterior,
      el suceso A.)

      Suceso compuesto: Es aquel que tiene dos o más puntos muestrales. (En el ejemplo
      anterior, los sucesos del B al G.)


Atendiendo a su ocurrencia, se puede hablar de sucesos seguros o ciertos y de sucesos
imposibles o nulos:

      Suceso seguro o cierto: Es aquel cuya ocurrencia es inevitable, que siempre va a
      ocurrir. (En el ejemplo anterior, el suceso G: al lanzar un dado siempre saldrá un número
      del 1 al 6.) Los sucesos seguros coinciden con el espacio muestral.

      Suceso imposible o nulo. Es aquel que nunca ocurrirá. (En el ejemplo anterior, el
      suceso H.) Los sucesos imposibles constituyen conjuntos vacíos.


Además, en función del vínculo de un suceso o evento con otros existen las siguientes
denominaciones:

  Subevento: A es un subevento o subsuceso de B si todos los puntos muestrales de A están
  incluidos en B, o sea, A ⊂ B. (En el ejemplo anterior: A ⊂ B, A ⊂ D, C ⊂ F, E ⊂ F.)




                                            A⊂B

  Sucesos complementarios: Un suceso es complementario de otro suceso A, si está
  formado por todos los puntos del espacio muestral que no están incluidos en A; se dice
  entonces que ese suceso es el complemento de A, y se denota por A' o Ac. (En el ejemplo
  anterior se tiene para A = { 6 } que el complemento es A’ = { 1; 2; 3; 4; 5}.)




  Sucesos excluyentes: Dos sucesos se dice que son mutuamente excluyentes si la
  ocurrencia de uno excluye la ocurrencia del otro, por lo tanto dichos sucesos no tienen puntos
  en común. (En el ejemplo anterior son excluyentes A y C, B y C, D y E.)



                                                                                             30
Nota: Un caso particular de sucesos excluyentes son los complementarios. Todos los
       sucesos complementarios son excluyentes; lo contrario no necesariamente ocurre.

  Sucesos no excluyentes: Dos sucesos son no excluyentes si pueden ocurrir
  simultáneamente, es decir, si tienen puntos en común. (En el ejemplo anterior son no
  excluyentes A y B, C y D, B y D, C y E, etc.)




  Sucesos exhaustivos: Se dice que dos sucesos son colectivamente exhaustivos cuando la
  ocurrencia de ambos abarca el espacio muestral. (En el ejemplo anterior son no exhaustivos:
  D y E, D y F.)




       Nota: Un caso particular de sucesos exhaustivos son los complementarios. Todos los
       sucesos complementarios son exhaustivos; lo contrario no necesariamente ocurre.


OPERACIONES ENTRE SUCESOS:

Para establecer la relación entre diferentes sucesos se recurre a las operaciones definidas por
el álgebra booleana en la propia Teoría de Conjuntos, entre ellas, las más usadas son:

   •   Intersección o producto: La intersección de los sucesos A y B da como resultado un
       suceso que consiste en la ocurrencia simultánea de ambos, es decir, que contiene los
       puntos muestrales contenidos a la vez en A y en B. Se denota por A ∩ B ó AB.

       Ej.: En el lanzamiento del dado, siendo B = { 4; 5; 6 } (que salga un número mayor que
       3) y D = { 2; 4; 6 } (que salga un número par), la intersección es el suceso dado por que
       salga un número par y mayor que tres, es decir: B ∩ D ≡ BD = { 4; 6 }




                                            B ∩ D ≡ BD



                                                                                             31
•    Unión o suma: La unión de dos sucesos A y B da como resultado un suceso que
        consiste en la ocurrencia de al menos uno de los dos sucesos, es decir que contiene
        todos los puntos muestrales contenidos en A o en B (o en ambos). Se denota por A ∪ B
        ó A + B.

        Ej.: En el lanzamiento del dado, siendo B = { 4; 5; 6 } (que salga un número mayor que
        3) y D = { 2; 4; 6 } (que salga un número par), la unión es el suceso dado por que salga
        un número par o mayor que tres, es decir: B ∪ D = { 2; 4; 5; 6 }




                                                     B∪D

   •    Complemento o negación: El complemento de un suceso A da como resultado su
        suceso complementario, es decir, que no ocurra A. Se denota como A’ ó Ac.

        Ej.: En el lanzamiento del dado, siendo C = { 1; 2 } (que salga un número menor o igual
        que 2), el complemento unión es el suceso dado por que salga un número mayor que 2,
        es decir: C’ = { 3; 4; 5; 6 }




                                                C’ ≡ Cc
DEFINICIÓN CLÁSICA DE PROBABILIDAD:

En el siglo XIX, concretamente en el año 1812, Laplace formula la que es conocida como
definición clásica de probabilidad, que establece que:

Si S es un espacio muestral finito y todos los puntos muestrales son equivalentes o igualmente
representativos, entonces la probabilidad de ocurrencia de cualquier suceso A definido en S
puede calcularse como el cociente del número de resultados favorables al suceso A (tamaño
del suceso) entre el número de resultados posibles (tamaño del espacio muestral), así:

                                                     N( A )
                                          P( A ) =
                                                     N(S)

       Ejemplos:
       La probabilidad de obtener el número 6 al lanzar un dado será:
             A: Que salga el 6.              N(A) = 1            P(A) = 1/6 = 0,167

       La probabilidad de obtener un número par será:
             D: Que salga un número par      N(D) = 3           P(D) = 3/6 = 0,5




                                                                                             32
La definición clásica también se conoce como definición a “priori” de probabilidad, porque no es
necesario realizar el experimento para calcular la probabilidad de ocurrencia. Esta definición
tiene las siguientes limitaciones:
   1. No puede ser aplicada a espacios muestrales infinitos.
   2. No puede ser aplicada cuando los puntos muestrales no son equiprobables, o lo que es
      lo mismo, igualmente probables.

DEFINICIÓN ESTADÍSTICA DE PROBABILIDAD:

Debido a las limitaciones que confronta la definición clásica de probabilidad, se comenzaron a
realizar experimentos con los juegos de azar, surgiendo el concepto de regularidad
estadística. Se le llama regularidad estadística a la estabilidad que presentan las frecuencias
relativas asociadas a un suceso al considerar un gran número de veces un experimento bajo las
mismas condiciones; por ejemplo, si una moneda se lanza un gran número de veces (500, 1000
veces), se observará que aproximadamente el 50% de estas veces sale cara, y mientras más
lanzamientos se haga más tenderá este valor al 50%.

A partir de la regularidad estadística, surge la definición estadística de probabilidad que plantea:

Si el número de observaciones (n) tiende a infinito, la frecuencia relativa asociada a un suceso
A (fA), alcanza un cierto valor límite o ideal, y entonces puede asociarse a un número P(A)
equivalente a la probabilidad de ocurrencia de A, así:

                                                     nA
                                      P( A ) = lim      = lim f A
                                              n→ ∞    n n→ ∞

       Ejemplo: Un arquero ha acertado 70 veces en un blanco de un total de 100
       intentos, y se quiere conocer la probabilidad de que haga blanco en un nuevo tiro.

       Sea A: acertar en el blanco
       Se tiene que n = 100 y nA = 70.
       Entonces:                       P(A) = 70/100 = 0,70

       O sea, se espera que el arquero haga blanco un 70% de las veces que tire.

La definición estadística o frecuencial además se conoce como definición “a posteriori” de
probabilidad, porque si no se realiza el experimento no se puede calcular la misma. Esta
definición también tiene limitaciones, dadas por lo siguiente:
       No siempre es posible repetir un experimento un mismo número de veces bajo las
       mismas condiciones.

PROPIEDADES DE LA PROBABILIDAD:

La probabilidad, como medida de la posibilidad de ocurrencia de un suceso, cumple las
siguientes propiedades:

   •   P(A) ≥ 0
   •   P(S) = 1



                                                                                                 33
Lo anterior implica que: 0 ≤ P(A) ≤ 1

Nota: Es común multiplicar las probabilidades por 100 para expresarlas porcentualmente, y de
  esta forma, lógicamente, resultará un número (un valor porcentual) entre 0 y 100.


EJERCICIOS DE AUTOEVALUACIÓN

1.- ¿Qué es un experimento aleatorio?

2.- ¿Puede calcularse probabilidad a partir de un experimento determinista?. Explique.

3.- ¿Cuáles son los sucesos mutuamente excluyentes?

4.- ¿Cuáles son los sucesos complementarios?

5.- Explique la diferencia entre unión e intersección y proporcione un ejemplo de cada uno.

6.- ¿Cómo se define la probabilidad clásicamente? ¿Bajo que condiciones puede aplicarse?

7.- ¿Cómo se define la probabilidad estadística o frecuencialmente?

8.- ¿Cuáles son las limitaciones de ambas definiciones?

9.- En una amplia red metropolitana se seleccionó una muestra de 500 entrevistados para
   determinar diversas informaciones relacionadas con el comportamiento del consumidor.
   Entre las preguntas hechas se encontraba: “¿disfruta ir de compras?”. De 240 hombres 136
   contestaron que sí; de 260 mujeres 224 contestaron que sí.
   a.- De un ejemplo de un evento simple.
   b.- ¿Cuál es el complemento de disfrutar ir de compras?
   c.- ¿Cual es la probabilidad de que el entrevistado seleccionado en forma aleatoria ...
      c.1      sea hombre?
      c.2      disfrute ir de compras?
      c.3      sea mujer?
      c.4      no disfrute ir de compras?
      c.5      sea mujer y disfrute ir de compras?
      c.6      sea hombre y no disfrute ir de compras?
      c.7      sea hombre y disfrute ir de compras?
      c.8      sea mujer o disfrute ir de compras?
      c.9      sea hombre o no disfrute ir de compras?




                                                                                              34
2.2: Axiomatización de la Probabilidad. Reglas de cálculo de probabilidades.
Probabilidad condicional. Independencia de sucesos.

Existen múltiples situaciones complejas en las que es necesario o deseable conocer la
probabilidad de ocurrencia de un determinado suceso, y donde la aplicación directa de alguna
de las definiciones de este concepto parece prácticamente imposible; de ahí que la teoría en
torno a las probabilidades continuase desarrollándose para encontrar solución a estos casos,
dando lugar a numerosos teoremas y reglas.

Dadas las limitaciones que presentan las dos definiciones previas, en 1933 se axiomatiza la
probabilidad a partir de la formulación de tres axiomas básicos. Entonces, si S es un espacio
muestral y A un suceso definido en S, se dirá, que todo suceso A definido en S está asociado a
un numero real P(A), llamado probabilidad de A, el cual cumplirá con los siguientes axiomas:

   1. P(A) ≥ 0
   2. P(S) = 1
   3. P(A1 ∪ A2 ∪ A3 ∪ ... ∪ Ak) = P(A1) + P(A2) + ... + P(Ak) si los k sucesos son excluyentes
      o lo que es lo mismo si para cada par Ai y Aj se tiene que AiAj = ø siendo i ≠ j.

TEOREMAS ASOCIADOS AL CÁLCULO DE PROBABILIDADES:

De los axiomas establecidos para la probabilidad se derivan algunos teoremas que encuentran
aplicación directa en el cálculo de probabilidades, entre los más usados están:

Teorema 1:    La probabilidad de un suceso imposible o nulo es cero: P(∅) = 0

Teorema 2:    Si A es un subconjunto de B entonces P(A) ≤ P(B)

Teorema 3:    La probabilidad del suceso complementario al
              suceso A es igual a la probabilidad del espacio
              muestral, que es igual a 1 ( P(S) = 1 ), menos la
              probabilidad de A.

              P(A') = 1 - P (A)


Teorema 4:    La probabilidad de que ocurra A y no ocurra
              B será:

              P(AB') = P(A) - P(AB)


Teorema 5:    La probabilidad de que ocurra la unión de dos sucesos, A y B, será:

              P(A ∪ B) = P(A) + P(B) - P(AB)

              Este teorema es conocido como “regla de la
              unión”. El mismo puede generalizarse para
              más de dos sucesos; por ejemplo, la regla de
              la unión referida a tres sucesos queda:


                                                                                            35
P(A ∪ B ∪ C) = P(A) + P(B) + P(C) - P(AB) - P(AC) - P(BC) + P(ABC)

Teorema 6:     La probabilidad de que no ocurra ninguno de
               dos sucesos, A y B, será:

              P(A’B’) = 1 - P(A ∪ B)



       Ejemplo: De un grupo de 1000 habaneros: 420 leen Granma, 105 leen Juventud
       Rebelde y 45 leen ambos periódicos.
       a.- ¿Cuál es la probabilidad de seleccionar aleatoriamente un habanero del grupo
       y lea Granma o Juventud Rebelde.
       b.- ¿Qué probabilidad hay de que el habanero seleccionado no lea ninguno de los
       periódicos?
       c.- ¿Qué probabilidad hay de que lea sólo Granma?

       Sean los sucesos:
       G: leer Granma
       J: leer Juventud Rebelde.

       Se tiene:
       N(S) = 1000
       N(G) = 420, por tanto:        P(G) = 0,42
       N(J) = 105, por tanto:        P(J) = 0,105
       N(GJ) = 45, por tanto:        P(GJ) = 0,045

       a.- P(G ∪ J) = P(G) + P(J) + P(GJ) = 0,42 + 0,105 - 0,045 = 0,48

       b.- P(G ∪ J)' = 1 - P(G ∪ J) = 1 - 0,48 = 0,52

       c.- P(GJ') = P(G) - P(GJ) = 0,42 - 0,045 = 0,385



PROBABILIDAD CONDICIONAL:

Muchas veces surge la necesidad de calcular la probabilidad de ocurrencia de un suceso
asumiendo la ocurrencia de otro, que puede ser llamado condicionante; esto quiere decir que ya
no interesa la totalidad del espacio muestral, sino sólo aquella parte o subconjunto de aquel que
coincide con la realización del suceso condicionante. La probabilidad así calculada se le llama
probabilidad condicional.

Para representar la probabilidad condicional de un suceso A respecto a otro B (condicionante o
condición) se utiliza la el símbolo P(A/B), que se lee “probabilidad de A dado B”, o “probabilidad
de A si ocurre B”.

Matemáticamente se puede calcular la probabilidad condicional como el cociente de la
probabilidad de intersección de los dos sucesos entre la probabilidad del suceso condicionante:



                                                                                               36
P( AB)
                                          P( A / B) =
                                                         P(B)

También se puede calcular la probabilidad condicional directamente a partir del tamaño de los
sucesos:
                                                  N( AB)
                                      P( A / B) =
                                                   N(B)

       Ejemplo: En una escuela de idiomas se ha visto que el 70% de los estudiantes termina
       bien el primer año de Inglés, y que un 59,5% termina bien los dos años de estudio. Se
       quiere determinar la probabilidad de que un estudiante termine bien el segundo año.

       Sean los sucesos:                                Se sabe que:
       A: terminar bien el 1er año de Inglés            P(A)=0,70
       B: terminar bien el 2do año de Inglés            P(AB)=0,595

                                   P( AB) 0,595
       Entonces:     P(B / A ) =          =      = 0,85
                                   P( A )   0,70

REGLA DEL PRODUCTO:

Si A y B son sucesos definidos en S, la probabilidad de AB, de acuerdo a la definición de
probabilidad condicional, se puede expresar como:
       P(AB) = P(A) P(B/A)
       P(AB) = P(B) P(A/B)

De la misma forma:
       P(ABC) = P(A)P(B/A)P(C/AB)

Luego la regla del producto expresa la probabilidad de que ocurran A y B en un orden
determinado: P(AB)=P(A)P(B/A) que primero salga A y en segundo lugar salga B ó
P(AB)=P(B)P(A/B) que primero salga B y en segundo lugar A
Si no interesa el orden, sino que salga una vez A y una vez B, entonces se tienen que expresar
las dos combinaciones posibles que hay:              P(AB) = P(A1 B2 ) + P(B1 A2 )

Ejemplo. De una urna que contiene 4 esmeraldas y 1 brillante, se extraen 2 piedras, una a una,
sin reposición. Calcule la siguiente probabilidad.
a.- Que la 1ra piedra sea esmeralda y la 2da brillante.
b.- Que las dos piedras sean esmeraldas
c.- Solo una sea esmeralda.

Solución: como es sin reposición las extracciones, entonces los sucesos son dependientes,
además que piden orden.
a.- P(E1 B2 )= P(E)P(B/E)
           = 4/5 . 1/4
           = 4/20 = 1/5 = 0.20
b.- P(E1 E2)= 4/5 . 3/4
            = 16/20 = 6/10 = 0.6
c.- P(E1 B2 ∪ B1 E2) = P(E)P(B/E) + P(B)P(E/B)


                                                                                           37
= 4/5 . 1/4 + 1/5 . 4/4
                    = 4/20 + 4/20 = 8/20 = 4/10 = 0.4

INDEPENDENCIA DE SUCESOS:

Dos sucesos A y B se llaman independientes, cuando la probabilidad de ocurrencia de uno de
ellos, no depende de la ocurrencia o no del otro.

Dos sucesos son independientes si se cumple alguna de las siguientes igualdades:

   1. P(A/B) = P(A)
   2. P(B/A) = P(B)
   3. P(AB) = P(A) P(B)

Se debe aclarar que sólo se puede comprobar independencia a través de esta última fórmula si
se tienen las 3 probabilidades y comprobar si la intersección es igual al producto de la
probabilidad de ambos sucesos.

Un ejemplo de independencia es el siguiente: Si se lanza una moneda dos veces, la
probabilidad de que salga cara en el primer lanzamiento, no depende de que salga cara o no en
el segundo lanzamiento.

Ejemplo:

Si una caja contiene 100 piezas de las cuáles 20 son defectuosas y se extraen aleatoriamente 2
piezas una a una (con reposición). ¿Cuál será la probabilidad de obtener una pieza defectuosa
en la primera extracción?:

P=20/100=0.20

¿Y cuál será la probabilidad, en la segunda extracción, de obtener también una pieza
defectuosa?

P=20/100=0.20, es decir exactamente igual, esto es debido a que se repuso la primera pieza.

Por tanto, cuando las observaciones son con reposición se puede considerar que son
independientes, pues lo que ocurre en la segunda extracción es independiente de lo que
ocurre en la primera (y así con las sucesivas, si hay más). Pero si no se repone, es decir,
se hacen las observaciones “sin reposición” la probabilidad de cada observación
depende de las anteriores.

Si de la caja de 100 piezas en la primera extracción sale una pieza defectuosa, la probabilidad
de pieza defectuosa en la segunda extracción, sin reponer la primera pieza tomada, será 19/99;
pero si lo que sale en la primera extracción es una pieza en buen estado, entonces la
probabilidad de pieza defectuosa en la segunda extracción será 20/99.

Generalmente para los juegos de azar, es fácil decidir si dos sucesos son independientes o no.
Para otros experimentos aleatorios, se debe tener más cuidado.

Ejemplo. Si se tienen 3 sucesos definidos en un espacio muestral S y se conoce que:
P(A)=0.40 P(B)=0.42 P(C)=0.15 P(A/B)=0 P(A/C)=0 P(C/B)=0


                                                                                              38
Estadística breve
Estadística breve
Estadística breve
Estadística breve
Estadística breve
Estadística breve
Estadística breve
Estadística breve
Estadística breve
Estadística breve
Estadística breve
Estadística breve
Estadística breve
Estadística breve
Estadística breve
Estadística breve
Estadística breve
Estadística breve
Estadística breve
Estadística breve
Estadística breve
Estadística breve
Estadística breve
Estadística breve
Estadística breve
Estadística breve
Estadística breve
Estadística breve
Estadística breve
Estadística breve
Estadística breve
Estadística breve
Estadística breve
Estadística breve
Estadística breve
Estadística breve
Estadística breve
Estadística breve
Estadística breve
Estadística breve
Estadística breve
Estadística breve
Estadística breve
Estadística breve
Estadística breve
Estadística breve
Estadística breve
Estadística breve
Estadística breve
Estadística breve
Estadística breve
Estadística breve
Estadística breve
Estadística breve
Estadística breve
Estadística breve
Estadística breve
Estadística breve
Estadística breve
Estadística breve
Estadística breve
Estadística breve
Estadística breve
Estadística breve
Estadística breve
Estadística breve
Estadística breve
Estadística breve
Estadística breve
Estadística breve
Estadística breve
Estadística breve
Estadística breve
Estadística breve
Estadística breve
Estadística breve
Estadística breve
Estadística breve
Estadística breve
Estadística breve
Estadística breve
Estadística breve
Estadística breve
Estadística breve
Estadística breve
Estadística breve
Estadística breve
Estadística breve
Estadística breve
Estadística breve
Estadística breve
Estadística breve
Estadística breve
Estadística breve
Estadística breve
Estadística breve
Estadística breve
Estadística breve
Estadística breve
Estadística breve
Estadística breve
Estadística breve

Mais conteúdo relacionado

Mais procurados

Método de la regla falsa (o metodo de la falsa posición) MN
Método de la regla falsa (o metodo de la falsa posición) MNMétodo de la regla falsa (o metodo de la falsa posición) MN
Método de la regla falsa (o metodo de la falsa posición) MNTensor
 
Pestaña insertar
Pestaña insertarPestaña insertar
Pestaña insertarOmarTaker
 
Método del punto fijo
Método del punto fijoMétodo del punto fijo
Método del punto fijoKike Prieto
 
ecuaciones diferenciales de variables separables y ecuaciones diferenciales r...
ecuaciones diferenciales de variables separables y ecuaciones diferenciales r...ecuaciones diferenciales de variables separables y ecuaciones diferenciales r...
ecuaciones diferenciales de variables separables y ecuaciones diferenciales r...ÁLGEBRA LINEAL ECUACIONES DIFERENCIALES
 
Cap 3 logica y conjuntos
Cap 3 logica y conjuntosCap 3 logica y conjuntos
Cap 3 logica y conjuntosnivelacion008
 
Metodo de newton raphson-ANTONIO ZEGARRA
Metodo de newton raphson-ANTONIO ZEGARRAMetodo de newton raphson-ANTONIO ZEGARRA
Metodo de newton raphson-ANTONIO ZEGARRAAntonio Zegarra Vargas
 
Cuadro comparativo de softwares de de metodos numericos
Cuadro comparativo de softwares de de metodos numericosCuadro comparativo de softwares de de metodos numericos
Cuadro comparativo de softwares de de metodos numericosJuanCarlos210997
 
Valor esperado o media
Valor esperado o mediaValor esperado o media
Valor esperado o mediaJag Är Omxr
 
Tema 4 variables aleatorias continuas
Tema 4 variables aleatorias continuasTema 4 variables aleatorias continuas
Tema 4 variables aleatorias continuasMelanie Nogué
 
Variables aleatorias continuas1
Variables aleatorias continuas1Variables aleatorias continuas1
Variables aleatorias continuas1emtelco
 
Método de newton raphson Metodos Numericos
Método de newton raphson Metodos NumericosMétodo de newton raphson Metodos Numericos
Método de newton raphson Metodos NumericosTensor
 
Coeficientes de correlacion de pearson y de sperman.
Coeficientes de correlacion de pearson y de sperman.Coeficientes de correlacion de pearson y de sperman.
Coeficientes de correlacion de pearson y de sperman.gaby castillo
 
Pruebas de bondad de ajuste y pruebas no parametricas
Pruebas de bondad de ajuste y pruebas no parametricasPruebas de bondad de ajuste y pruebas no parametricas
Pruebas de bondad de ajuste y pruebas no parametricasAlez Escandón
 
Metodo de la regla falsa
Metodo de la regla falsaMetodo de la regla falsa
Metodo de la regla falsaSergio Osorio
 

Mais procurados (20)

Practica 3 regla falsa
Practica 3 regla falsaPractica 3 regla falsa
Practica 3 regla falsa
 
Clase7-Estadística
Clase7-EstadísticaClase7-Estadística
Clase7-Estadística
 
Distribución gamma y exponencial
Distribución gamma y exponencialDistribución gamma y exponencial
Distribución gamma y exponencial
 
Método de la regla falsa (o metodo de la falsa posición) MN
Método de la regla falsa (o metodo de la falsa posición) MNMétodo de la regla falsa (o metodo de la falsa posición) MN
Método de la regla falsa (o metodo de la falsa posición) MN
 
Pestaña insertar
Pestaña insertarPestaña insertar
Pestaña insertar
 
Método del punto fijo
Método del punto fijoMétodo del punto fijo
Método del punto fijo
 
ecuaciones diferenciales de variables separables y ecuaciones diferenciales r...
ecuaciones diferenciales de variables separables y ecuaciones diferenciales r...ecuaciones diferenciales de variables separables y ecuaciones diferenciales r...
ecuaciones diferenciales de variables separables y ecuaciones diferenciales r...
 
Cap 3 logica y conjuntos
Cap 3 logica y conjuntosCap 3 logica y conjuntos
Cap 3 logica y conjuntos
 
Metodo de newton raphson-ANTONIO ZEGARRA
Metodo de newton raphson-ANTONIO ZEGARRAMetodo de newton raphson-ANTONIO ZEGARRA
Metodo de newton raphson-ANTONIO ZEGARRA
 
Cuadro comparativo de softwares de de metodos numericos
Cuadro comparativo de softwares de de metodos numericosCuadro comparativo de softwares de de metodos numericos
Cuadro comparativo de softwares de de metodos numericos
 
Valor esperado o media
Valor esperado o mediaValor esperado o media
Valor esperado o media
 
Tema 4 variables aleatorias continuas
Tema 4 variables aleatorias continuasTema 4 variables aleatorias continuas
Tema 4 variables aleatorias continuas
 
serie de taylor
 serie de taylor serie de taylor
serie de taylor
 
Variables aleatorias continuas1
Variables aleatorias continuas1Variables aleatorias continuas1
Variables aleatorias continuas1
 
Pestaña inicio
Pestaña inicioPestaña inicio
Pestaña inicio
 
Método de newton raphson Metodos Numericos
Método de newton raphson Metodos NumericosMétodo de newton raphson Metodos Numericos
Método de newton raphson Metodos Numericos
 
Coeficientes de correlacion de pearson y de sperman.
Coeficientes de correlacion de pearson y de sperman.Coeficientes de correlacion de pearson y de sperman.
Coeficientes de correlacion de pearson y de sperman.
 
Pruebas de bondad de ajuste y pruebas no parametricas
Pruebas de bondad de ajuste y pruebas no parametricasPruebas de bondad de ajuste y pruebas no parametricas
Pruebas de bondad de ajuste y pruebas no parametricas
 
Metodo de la regla falsa
Metodo de la regla falsaMetodo de la regla falsa
Metodo de la regla falsa
 
Metodo simplex
Metodo simplexMetodo simplex
Metodo simplex
 

Destaque

Estadística: Conceptos básicos
Estadística: Conceptos básicosEstadística: Conceptos básicos
Estadística: Conceptos básicosYris Bettiana
 
Estadistica graficos y medidas de tendencia central
Estadistica graficos y medidas de tendencia centralEstadistica graficos y medidas de tendencia central
Estadistica graficos y medidas de tendencia centraljavalencia
 
Enlaces iónicos y covalentes presentacion
Enlaces iónicos y covalentes presentacionEnlaces iónicos y covalentes presentacion
Enlaces iónicos y covalentes presentacionestudio en la espol
 
Literatura Prerrenacentista
Literatura PrerrenacentistaLiteratura Prerrenacentista
Literatura PrerrenacentistaAna Hdez Valls
 
Cómo calcular la amplitud de intervalo de un conjunto de datos numéricos
Cómo calcular la amplitud de intervalo de un conjunto de datos numéricosCómo calcular la amplitud de intervalo de un conjunto de datos numéricos
Cómo calcular la amplitud de intervalo de un conjunto de datos numéricosJoooseee
 
Media Mediana Y Moda de Datos Agrupados
Media Mediana Y Moda de Datos AgrupadosMedia Mediana Y Moda de Datos Agrupados
Media Mediana Y Moda de Datos AgrupadosEstadistica UTPL
 
Conceptos Básicos de la Estadística
Conceptos Básicos de la EstadísticaConceptos Básicos de la Estadística
Conceptos Básicos de la Estadísticahectorquintero
 
Estadistica, poblacion, muestra y variables
Estadistica, poblacion, muestra y variablesEstadistica, poblacion, muestra y variables
Estadistica, poblacion, muestra y variablesJuan Carlos Durand
 

Destaque (12)

Introducion a la estadística: conceptos generales
Introducion  a la estadística:  conceptos generalesIntroducion  a la estadística:  conceptos generales
Introducion a la estadística: conceptos generales
 
Regla sturges
Regla sturgesRegla sturges
Regla sturges
 
Estadística: Conceptos básicos
Estadística: Conceptos básicosEstadística: Conceptos básicos
Estadística: Conceptos básicos
 
Estadistica graficos y medidas de tendencia central
Estadistica graficos y medidas de tendencia centralEstadistica graficos y medidas de tendencia central
Estadistica graficos y medidas de tendencia central
 
Enlace ionico y covalente
Enlace ionico y covalenteEnlace ionico y covalente
Enlace ionico y covalente
 
Enlaces iónicos y covalentes presentacion
Enlaces iónicos y covalentes presentacionEnlaces iónicos y covalentes presentacion
Enlaces iónicos y covalentes presentacion
 
Literatura Prerrenacentista
Literatura PrerrenacentistaLiteratura Prerrenacentista
Literatura Prerrenacentista
 
Tabulación y análisis de encuestas.
Tabulación y análisis de encuestas.Tabulación y análisis de encuestas.
Tabulación y análisis de encuestas.
 
Cómo calcular la amplitud de intervalo de un conjunto de datos numéricos
Cómo calcular la amplitud de intervalo de un conjunto de datos numéricosCómo calcular la amplitud de intervalo de un conjunto de datos numéricos
Cómo calcular la amplitud de intervalo de un conjunto de datos numéricos
 
Media Mediana Y Moda de Datos Agrupados
Media Mediana Y Moda de Datos AgrupadosMedia Mediana Y Moda de Datos Agrupados
Media Mediana Y Moda de Datos Agrupados
 
Conceptos Básicos de la Estadística
Conceptos Básicos de la EstadísticaConceptos Básicos de la Estadística
Conceptos Básicos de la Estadística
 
Estadistica, poblacion, muestra y variables
Estadistica, poblacion, muestra y variablesEstadistica, poblacion, muestra y variables
Estadistica, poblacion, muestra y variables
 

Semelhante a Estadística breve

Estadistica introduccion
Estadistica introduccionEstadistica introduccion
Estadistica introduccionk4rol1n4
 
Estadística aplicada a la educación con actividades de aprendizaje
Estadística aplicada a la educación con actividades de aprendizajeEstadística aplicada a la educación con actividades de aprendizaje
Estadística aplicada a la educación con actividades de aprendizajejuan874
 
Antologia de-estadistica-22
Antologia de-estadistica-22Antologia de-estadistica-22
Antologia de-estadistica-22Oscar Cosme
 
Prog. estadística ii 1
Prog. estadística ii 1Prog. estadística ii 1
Prog. estadística ii 1Rafael Verde)
 
2017 Inicio del Curso Estadística y Probabilidad
2017 Inicio del Curso Estadística y Probabilidad2017 Inicio del Curso Estadística y Probabilidad
2017 Inicio del Curso Estadística y ProbabilidadZoraida Pérez S.
 
Sillabus de-bioestadística-2020
Sillabus de-bioestadística-2020Sillabus de-bioestadística-2020
Sillabus de-bioestadística-2020ElianaSalas12
 
Prog. Estadística II
Prog. Estadística IIProg. Estadística II
Prog. Estadística IIRafael Verde)
 
Población, muestra y datos. Presentación de datos: cuadros de distribución de...
Población, muestra y datos. Presentación de datos: cuadros de distribución de...Población, muestra y datos. Presentación de datos: cuadros de distribución de...
Población, muestra y datos. Presentación de datos: cuadros de distribución de...Naydu Moran Carmen
 
Desarrollo del taller Blog. Excel Avanzado. Métodos Estadísticos. 11-3.pdf
Desarrollo del taller Blog. Excel Avanzado. Métodos Estadísticos. 11-3.pdfDesarrollo del taller Blog. Excel Avanzado. Métodos Estadísticos. 11-3.pdf
Desarrollo del taller Blog. Excel Avanzado. Métodos Estadísticos. 11-3.pdfNicolasGiraldoPatio
 
Desarrollo del taller Blog. Excel Avanzado. Métodos Estadísticos. 11-3.pdf
Desarrollo del taller Blog. Excel Avanzado. Métodos Estadísticos. 11-3.pdfDesarrollo del taller Blog. Excel Avanzado. Métodos Estadísticos. 11-3.pdf
Desarrollo del taller Blog. Excel Avanzado. Métodos Estadísticos. 11-3.pdfByLauraVelasco
 
Desarrollo del taller Blog. Excel Avanzado. Métodos Estadísticos. 11-3.pdf
Desarrollo del taller Blog. Excel Avanzado. Métodos Estadísticos. 11-3.pdfDesarrollo del taller Blog. Excel Avanzado. Métodos Estadísticos. 11-3.pdf
Desarrollo del taller Blog. Excel Avanzado. Métodos Estadísticos. 11-3.pdfisabellapiedrahita5
 
Desarrollo del taller Blog. Excel Avanzado. Métodos Estadísticos. 11-3.pdf
Desarrollo del taller Blog. Excel Avanzado. Métodos Estadísticos. 11-3.pdfDesarrollo del taller Blog. Excel Avanzado. Métodos Estadísticos. 11-3.pdf
Desarrollo del taller Blog. Excel Avanzado. Métodos Estadísticos. 11-3.pdfNyobeMahechaDvila
 
Monografia 1: Escala de Medición. Juan Carlos Rengel.
Monografia 1: Escala de Medición. Juan Carlos Rengel. Monografia 1: Escala de Medición. Juan Carlos Rengel.
Monografia 1: Escala de Medición. Juan Carlos Rengel. JuanRengel2
 
Monografia 1: Escala de Medición. Juan Carlos Rengel.
Monografia 1: Escala de Medición. Juan Carlos Rengel. Monografia 1: Escala de Medición. Juan Carlos Rengel.
Monografia 1: Escala de Medición. Juan Carlos Rengel. JUNIORMARCANO1
 
Programa MatemáTica Aplicada 2010
Programa MatemáTica Aplicada 2010Programa MatemáTica Aplicada 2010
Programa MatemáTica Aplicada 2010Lucas Crotti
 
Monografia historia de la matematica 1
Monografia historia de la matematica 1Monografia historia de la matematica 1
Monografia historia de la matematica 1Sergio Mendoza
 

Semelhante a Estadística breve (20)

Estadistica introduccion
Estadistica introduccionEstadistica introduccion
Estadistica introduccion
 
Prog. Estadistica I
Prog. Estadistica IProg. Estadistica I
Prog. Estadistica I
 
Estadística aplicada a la educación con actividades de aprendizaje
Estadística aplicada a la educación con actividades de aprendizajeEstadística aplicada a la educación con actividades de aprendizaje
Estadística aplicada a la educación con actividades de aprendizaje
 
Estadística y Probabilidad
Estadística y ProbabilidadEstadística y Probabilidad
Estadística y Probabilidad
 
Antologia de-estadistica-22
Antologia de-estadistica-22Antologia de-estadistica-22
Antologia de-estadistica-22
 
Prog. estadística ii 1
Prog. estadística ii 1Prog. estadística ii 1
Prog. estadística ii 1
 
2017 Inicio del Curso Estadística y Probabilidad
2017 Inicio del Curso Estadística y Probabilidad2017 Inicio del Curso Estadística y Probabilidad
2017 Inicio del Curso Estadística y Probabilidad
 
Sillabus de-bioestadística-2020
Sillabus de-bioestadística-2020Sillabus de-bioestadística-2020
Sillabus de-bioestadística-2020
 
Prog. Estadística II
Prog. Estadística IIProg. Estadística II
Prog. Estadística II
 
1712
17121712
1712
 
Trabajo De Campo
Trabajo De CampoTrabajo De Campo
Trabajo De Campo
 
Población, muestra y datos. Presentación de datos: cuadros de distribución de...
Población, muestra y datos. Presentación de datos: cuadros de distribución de...Población, muestra y datos. Presentación de datos: cuadros de distribución de...
Población, muestra y datos. Presentación de datos: cuadros de distribución de...
 
Desarrollo del taller Blog. Excel Avanzado. Métodos Estadísticos. 11-3.pdf
Desarrollo del taller Blog. Excel Avanzado. Métodos Estadísticos. 11-3.pdfDesarrollo del taller Blog. Excel Avanzado. Métodos Estadísticos. 11-3.pdf
Desarrollo del taller Blog. Excel Avanzado. Métodos Estadísticos. 11-3.pdf
 
Desarrollo del taller Blog. Excel Avanzado. Métodos Estadísticos. 11-3.pdf
Desarrollo del taller Blog. Excel Avanzado. Métodos Estadísticos. 11-3.pdfDesarrollo del taller Blog. Excel Avanzado. Métodos Estadísticos. 11-3.pdf
Desarrollo del taller Blog. Excel Avanzado. Métodos Estadísticos. 11-3.pdf
 
Desarrollo del taller Blog. Excel Avanzado. Métodos Estadísticos. 11-3.pdf
Desarrollo del taller Blog. Excel Avanzado. Métodos Estadísticos. 11-3.pdfDesarrollo del taller Blog. Excel Avanzado. Métodos Estadísticos. 11-3.pdf
Desarrollo del taller Blog. Excel Avanzado. Métodos Estadísticos. 11-3.pdf
 
Desarrollo del taller Blog. Excel Avanzado. Métodos Estadísticos. 11-3.pdf
Desarrollo del taller Blog. Excel Avanzado. Métodos Estadísticos. 11-3.pdfDesarrollo del taller Blog. Excel Avanzado. Métodos Estadísticos. 11-3.pdf
Desarrollo del taller Blog. Excel Avanzado. Métodos Estadísticos. 11-3.pdf
 
Monografia 1: Escala de Medición. Juan Carlos Rengel.
Monografia 1: Escala de Medición. Juan Carlos Rengel. Monografia 1: Escala de Medición. Juan Carlos Rengel.
Monografia 1: Escala de Medición. Juan Carlos Rengel.
 
Monografia 1: Escala de Medición. Juan Carlos Rengel.
Monografia 1: Escala de Medición. Juan Carlos Rengel. Monografia 1: Escala de Medición. Juan Carlos Rengel.
Monografia 1: Escala de Medición. Juan Carlos Rengel.
 
Programa MatemáTica Aplicada 2010
Programa MatemáTica Aplicada 2010Programa MatemáTica Aplicada 2010
Programa MatemáTica Aplicada 2010
 
Monografia historia de la matematica 1
Monografia historia de la matematica 1Monografia historia de la matematica 1
Monografia historia de la matematica 1
 

Estadística breve

  • 1. CURSO BREVE DE ESTADÍSTICA COLECTIVO DE AUTORES: MSc. Manuel Ernesto Acosta Aguilera Prof. Asistente mernesto@fec.uh.cu MSc. Luis Piña León Prof. Auxiliar luisp@fec.uh.cu MSc. Daysi Espallargas Ibarra Prof. Auxiliar daysi@fec.uh.cu DPTO. ESTADÍSTICA - INFORMÁTICA FACULTAD DE ECONOMÍA UNIVERSIDAD DE LA HABANA 2008
  • 2. ÍNDICE INTRODUCCIÓN A LA ESTADÍSTICA ..................................................................................... 3 OBJETIVOS DEL CURSO ............................................................................................................ 4 TEMA I: MÉTODOS DESCRIPTIVOS......................................................................................... 5 1.1: Definición de población y muestra. Clasificación de las variables. Organización de los datos. Tablas de frecuencias. Gráficos...............................................................................................................5 1.2: Medidas descriptivas o estadígrafos. Estadígrafos de posición más usados: media, mediana y moda. Estadígrafos de dispersión más usados: varianza, desviación típica y coeficiente de variación.....................................................................................................................................................16 TEMA II: PROBABILIDADES. .................................................................................................. 28 2.1: Introducción a los fenómenos y experimentos aleatorios. Espacio muestral y sucesos. Clasificación de sucesos. Definición clásica de Probabilidad. Definición estadística de Probabilidad...............................................................................................................................................28 2.2: Axiomatización de la Probabilidad. Reglas de cálculo de probabilidades. Probabilidad condicional. Independencia de sucesos. ..............................................................................................35 TEMA III: DISTRIBUCIONES TEÓRICAS DE PROBABILIDAD.......................................... 41 3.1: Definición de variable aleatoria. Función de probabilidad univariada: casos discreto y continuo. Función de distribución. Media y varianza de variables aleatorias. ................................41 3.2: Distribución binomial: características y uso. Distribución de Poisson: características y uso. .....................................................................................................................................................................49 3.3: Distribución normal o de Gauss. Distribución chi-cuadrado. Distribución t de Student. Distribución F de Fisher...........................................................................................................................58 TEMA IV: MUESTREO Y ESTIMACIÓN ................................................................................. 74 4.1. Conceptos básicos: Población y Muestra. Muestreos aleatorios: Muestreo Aleatorio Simple. Uso de la tabla de números aleatorios para efectuar un muestreo aleatorio. ................................74 4.2 Estimadores. Propiedades deseables para un buen estimador. Estimación puntual. Distribución muestral. Distribución muestral de la media tanto con varianza (σ2) conocida como desconocida. Distribución muestral de las proporciones y de la varianza. .....................................80 4.3: Error máximo permisible y tamaño de muestra necesario para la estimación de μ y p. Estimación por intervalos de confianza. ...............................................................................................89 TEMA V: PRUEBAS DE HIPÓTESIS ........................................................................................ 98 5.1. Conceptos básicos. Desarrollo general de pruebas de hipótesis. Pruebas para medias en una población............................................................................................................................................98 5.2: Tamaño del error tipo II. Función de potencia. Tamaño de la muestra. ................................112 5.3: Pruebas no paramétricas: Prueba chi-cuadrado de la bondad de ajuste para verificar normalidad. Prueba chi-cuadrado para verificar el supuesto de independencia. Tablas de contingencia. ...........................................................................................................................................119 TEMA VI: ANÁLISIS DE VARIANZA.................................................................................... 129 6.1: Conceptos básicos del análisis de varianza. Modelo de clasificación simple. Supuestos del método. ....................................................................................................................................................129 BIBLIOGRAFÍA BÁSICA:........................................................................................................ 140 1
  • 3. PRESENTACIÓN A los estudiantes: Este texto ha sido elaborado por un colectivo de profesores de Estadística de la Facultad de Economía de la Universidad de La Habana, para contribuir a un mejor estudio de los temas correspondientes a esta asignatura en las carreras de perfil económico y social, en general, particularmente en la Licenciatura en Economía. El objetivo del estudio de la Estadística en cualquier carrera es dotar al alumno de algunos elementos que le servirán para trabajar con conjuntos de datos, describir situaciones de interés, hacer inferencias sobre la base de observaciones y evaluar hipótesis relacionadas con alguna circunstancia práctica; además, pueden iniciarse en el estudio de los fenómenos y experimentos aleatorios, estableciendo el vínculo entre los conocimientos y habilidades de los contenidos de la Estadística Descriptiva, la Teoría de las Probabilidades y la Estadística Inferencial. Debe señalarse que la Estadística es eminentemente práctica, sin embargo, se necesita del conocimiento de la teoría que la sustenta para la correcta aplicación de las fórmulas de cálculo y los modelos que intentan representar la realidad existente. En el texto se detallan los objetivos generales del curso y la distribución del mismo en los seis temas en que está subdividido. También se incluyen los objetivos específicos de cada una de las unidades didácticas que conforman los distintos temas. Además, se desarrolla sucintamente el contenido de la asignatura, el cual aparece disperso en otros textos que se refieren en la bibliografía básica. Finalmente, se brindan ejemplos demostrativos de todos los aspectos abrdados, y se han añadido ejercicios para que sirvan de autoevaluación. Es aspiración de los autores que estos apuntes para el estudio de Estadística sean de utilidad tanto para sus destinatarios iniciales como para estudiantes de otras carreras y modalidades de estudio. Los Autores. La Habana, 2008 2
  • 4. INTRODUCCIÓN A LA ESTADÍSTICA El vocablo “estadística” (con minúscula) se utiliza para denominar cualquier colección sistemática de datos, por ejemplo: natalidad o mortalidad en un país o provincia, resultados periódicos en cierto deporte, cifras de producción de una empresa, pasajeros transportados durante un período, enfermos recuperados con ciertos medicamentos Las estadísticas son tan antiguas como las sociedades humanas, pero la Estadística como ciencia (con mayúscula) surge en el siglo XVI paralelo al desarrollo de las probabilidades. La Estadística como ciencia puede definirse como un conjunto de principios y métodos que se han desarrollado para analizar datos numéricos, utilizando las probabilidades; sus métodos se clasifican en: • Métodos descriptivos (Estadística Descriptiva) Describen el comportamiento de los datos estadísticos, se ocupan de la recolección, organización, reducción, tabulación y presentación de la información. • Inferencia estadística (Estadística Inferencial) Estudia y concluye sobre un fenómeno basándose en el análisis e investigación de una parte del mismo, por lo que constituye una poderosa herramienta para la investigación científica. 3
  • 5. OBJETIVOS DEL CURSO 1. Clasificar las variables en cualitativas, cuantitativas discretas y cuantitativas continuas. Organizar los datos u observaciones de diferentes variables (discretas y continuas) en tablas de frecuencias. Construir gráficos de barras (histogramas) y polígonos de frecuencias. Calcular e interpretar los principales estadígrafos o medidas de posición y de dispersión. Aplicar e interpretar resultados obtenidos mediante algún paquete de cómputo estadístico. 2. Diferenciar entre determinismo y aleatoriedad. Definir el espacio muestral de un experimento o fenómeno aleatorio. Calcular la probabilidad de ocurrencia de un suceso utilizando la definición clásica y la estadística. Aplicar las propiedades o teoremas derivados de la definición axiomática de probabilidad. Aplicar las definiciones de probabilidad condicional e independencia. Aplicar e interpretar los fundamentos de la teoría de probabilidades en la solución de problemas. 3. Asociar a la noción de variable aleatoria (tanto discreta como continua), los conceptos de función de probabilidad, función de distribución o acumulación, y caracterizar estas funciones mediante la esperanza, valor esperado o media teórica, y la varianza teórica. Identificar y caracterizar las distribuciones probabilísticas: Binomial, Poisson, Normal, Chi-Cuadrado, t’ Student y F de Fisher. Calcular probabilidades asociadas a las distribuciones anteriores haciendo uso de las tablas correspondientes. 4. Identificar los conceptos básicos de población, muestra, muestreo, parámetro y estimador. Caracterizar el Muestreo Aleatorio Simple (MAS) y el Muestreo Irrestricto Aleatorio (MIA). Obtener muestras aleatorias simples mediante la tabla de números aleatorios. Aplicar la distribución muestral de la media, la varianza y la proporción en la estimación puntual y por intervalos de los parámetros correspondientes (μ, σ2 y p), así como también a la obtención de una medida probabilística del error y del tamaño de la muestra requerido para la estimación de los mismos. 5. Identificar los conceptos básicos asociados a las pruebas de hipótesis: hipótesis nula e hipótesis alternativa, región crítica o de rechazo y nivel de significación. Diferenciar entre los errores de tipo I y tipo II. Identificar y emplear distintas pruebas paramétricas para una población: de media (con varianza conocida y desconocida), de proporciones, y de varianza. Identificar y emplear las pruebas no paramétricas chi- cuadrado, tanto para probar normalidad, como para verificar independencia entre variables o criterios de clasificación. Verificar el supuesto de normalidad a través de la prueba Jarque-Bera, a partir de salidas del programa de cómputo EViews. 6. Aplicar el análisis estadístico para verificar la igualdad de tres o más medias poblacionales a través del análisis de varianza. Establecer los supuestos del análisis de varianza. 4
  • 6. TEMA I: MÉTODOS DESCRIPTIVOS Con este tema se inicia el estudio de la parte de la estadística que se ocupa de la recolección, organización, resumen y presentación de la información; cuestión esencial para cualquier investigación. El buen uso de los métodos descriptivos ahorra tiempo y esfuerzo, facilita la interpretación de resultados y sirve de base incuestionable para el desarrollo de métodos de inferencia y predicción: La información recogida durante el proceso de observación, medición, entrevista, etc., suele ser dispersa, y no es hasta que la misma se organiza, procesa y presenta adecuadamente que cobra real dimensión la misma y puede considerarse, más allá de un conjunto de datos, verdadera información. 1.1: Definición de población y muestra. Clasificación de las variables. Organización de los datos. Tablas de frecuencias. Gráficos. Ya se ha dicho que los métodos descriptivos se ocupan de la recolección, organización, reducción, tabulación y presentación de la información en un estudio o investigación dados. Durante este proceso siempre se hace referencia de alguna manera a conceptos básicos en el contexto de la Estadística, como son: Población: Colección de individuos o elementos que representan el objeto de interés (seres vivos o inanimados). Tamaño de la población: Cantidad de elementos que abarca la población. En casi todos los textos se representa con el símbolo “N”. Censo: Observación y estudio de todos los elementos que componen la población. Muestra: Cualquier subconjunto de la población tomado para su estudio. Muestreo: Procedimiento mediante el cuál se extrae una muestra. Tamaño de muestra: Cantidad de elementos contenidos en la muestra. En casi todos los textos se representa con el símbolo “n”. Variable o característica: Es el signo o detalle que interesa caracterizar en la población. Para organizar los datos muchas veces es útil conocer qué tipo de variables éstos miden. Con este fin, las variables pueden clasificarse en: Cualitativas: También llamadas atributos, y se refieren a cualidades tales como: calidad (bueno, regular, malo), sexo, color del pelo o de los ojos, estado civil, nivel escolaridad, etc. Cuantitativas: Se refieren a cantidades tales como costos, estaturas, pesos, ingresos, número de hijos, etc. A la vez, se distinguen dos tipos de datos o variables cuantitativos: • Variables Discretas: Son aquellas que tienen valores prohibidos dentro de su intervalo de definición, o sea, toman valores determinados, predefinido. Generalmente representan valores enteros asociados a observaciones susceptibles de conteo. 5
  • 7. Variables Continuas: Son aquellas que pueden tomar cualquier valor dentro de su intervalo de definición. Generalmente representan observaciones susceptibles de medición. Es importante tener en cuenta que la continuidad está dada por la propia naturaleza de variable, no porque ésta se exprese con valores decimales o no, pues esto es algo que depende de las unidades de medida utilizadas, de la precisión deseada o de costumbres al expresar una magnitud. TABULACIÓN DE DATOS (TABLAS DE FRECUENCIAS): Según la forma en que se presenta la información, se habla de: • Recolección simple o no organizada (datos no organizados): Es el listado de los datos presentados en su forma primaria, es decir, tal como fueron obtenidos durante el proceso observación o medición en la muestra o población. • Recolección organizada o tabulación (datos organizados): Es el ordenamiento de la información en tablas, denominadas tablas de frecuencias o distribuciones de frecuencias, a partir de los datos primarios. Cuando los datos se tabulan, o se organizan en las tablas de frecuencias, pueden estar no agrupados, es decir, de manera que se leen directamente los valores observados, o agrupados, esto es, se construyen intervalos para resumir la información observada. Se dice que los datos están organizados, pero no agrupados, cuando en las tablas de frecuencias se ponen, organizados, todos y cada uno de los valores que toma la variable; esto es, se colocan los datos en columnas que recogen los distintos valores de la variable y las frecuencias (las veces) con que han aparecido tales valores. Por su parte, se dice que los datos están organizados y agrupados cuando en la tabla se presentan éstos no con sus valores individuales, sino en agrupaciones parciales del recorrido de la variable, denominadas “clases” o “intervalos de clases”. Una clase se caracteriza por un valor que es su límite inferior y otro que es su límite superior. El promedio de los dos límites, que muchas veces se toma como el valor representativo de la clase, es llamado marca de clase. Y a la diferencia o distancia entre los límites de la clase se le llama ancho de clase: aunque no es obligatorio, es usual utilizar clases del mismo ancho siempre que es posible. (Si las clases no tienen el mismo ancho, no es la altura de las barras o rectángulos la que debe ser proporcional a las frecuencias representadas, sino su área.) La forma general de una tabla de frecuencias es la siguiente: Li-1 - Li Xi ni fi Ni Fi L0 - L1 X1 n1 f1 N1 F1 L1 - L2 X2 n2 f2 N2 F2 … … … … … … Lk-1 - Lk Xk nk fk Nk Fk ↑ ↑ ↑ ↑ sólo si hay clases frecuencias (datos agrupados) complementarias 6
  • 8. Los símbolos y definiciones correspondientes son: Xi : representa los valores individuales de la variable (en datos no agrupados) o las marcas de clase (en datos agrupados en clases) Li-1 - Li : representan las clases (si los datos se agruparon), delimitadas por los límites de clase, el inferior (Li-1) y el superior (Li) ni ( frecuencia absoluta ): número de veces que se repite el i-ésimo valor de la variable; donde ∑ ni = n n ( tamaño de la muestra ): cantidad de observaciones efectuadas, es decir, número de elementos contenidos en la muestra k: representa el número de valores diferentes observados (datos no agrupados) o la cantidad de clases creadas (datos agrupados) También pueden incorporarse a la tabla otras frecuencias, como: fi ( frecuencia relativa ): proporción de veces que se repite el i-ésimo valor de la variable (si se multiplica por cien constituye un porciento); se cumple que: fi = ni/n y donde ∑ fi = 1 Ni ( frecuencia absoluta acumulada ): Es el número de observaciones menores o iguales al i- ésimo valor de la variable, donde N1 = n1, N2 = n1 + n2, N3 = n1 + n2 + n3, y así sucesivamente hasta Nk = n. Así, se interpreta como el número de observaciones menores o iguales al i-ésimo valor de la variable. Fi ( frecuencia relativa acumulada ): es la proporción (o porciento) de observaciones menores o iguales al i-ésimo valor de la variable, siendo F1 = f1, F2 = f1 + f2, F3 = f1 + f2 + f3, y así sucesivamente hasta Fk = 1. Generalmente se agrupan las observaciones correspondientes a variables continuas, ya que estas son las que pueden tomar cualquier valor en un intervalo, y prácticamente es imposible considerar todos y cada uno de los valores que toma la variable, como sí ocurre con las variables discretas. No obstante no se puede decir rotundamente que no se agrupan en clases las variables discretas y sí las continuas, porque esto depende de la cantidad de datos que se tiene y del tipo de análisis que se va a hacer. Así, se podría presentar la situación de que se tiene una variable discreta que toma tantos valores diferentes que es necesario agruparla; o el caso de que se tiene una variable continua para la cual todas las observaciones constituyen valores enteros y se pueden recoger entonces en una tabla de frecuencia con datos no agrupados. Por todo ello, cuando se insiste en que las variables discretas se presentan en tablas de frecuencia sin agrupar, y las variables continuas en tablas de frecuencias agrupadas, esto es ante todo con fines metodológicos. 7
  • 9. PROPIEDADES DE LAS FRECUENCIAS: De la definición de las distintas frecuencias se deduce que éstas son siempre números no negativos, y pueden considerarse como propiedades de las mismas las siguientes: 1. ni ≥ 0 / Ni ≥ 0 6. Fk = 1 2. ∑ni = n 7. N1 = n1 3. ∑ fi = 1 8. F1 = f1 4. 0 ≤ fi ≤ 1 / 0 ≤ Fi ≤ 1 9. n1 = N1 ≤ N2 ≤ N3 ≤ ... ≤ Nk 5. Nk = n 10. f1 = F1 ≤ F2 ≤ F3 ≤ ... ≤ Fk AGRUPACIÓN DE LOS DATOS EN CLASES: La agrupación de datos en clases incluye muchas cuestiones subjetivas, como facilidad o conveniencias de agrupación, diversidad de criterios o necesidades de la investigación; e incluso puede depender de la propia naturaleza de los datos. Se debe considerar también que la agrupación de datos siempre conlleva un grado de pérdida de información, pues ya no se cuenta con todos y cada uno de los valores de la variable sino con los intervalos creados; no obstante, esta pérdida de información en general no es significativa para el análisis global. Algunas de las formas en que se presentan los intervalos de clases son: Caso A Caso B Caso C 10 14,9 10 15 10 15 15 19,9 15,1 20 15 20 20 24,9 20,1 25 20 25 Las variantes A y B se utilizan con el objetivo de que no se repita el mismo valor de un límite de clase, de manera que para una observación dada sea inequívoca (única) la pertenencia a una clase; pero en cualquiera de los dos casos hay infinitos valores posibles entre el cierre de una clase y el inicio de la otra, es decir, entre 14,9 y 15 (caso A) y lo mismo entre 15 y 15,1 (caso B). Por ello muchos autores e investigadores prefieren la variante C, donde el valor que cierra una clase es el mismo que abre la siguiente, y se suele recurrir al siguiente convenio: cuando una observación coincide con un límite de clase se incluye en la clase donde dicho límite es el límite superior, es decir, se consideran los intervalos de clase como abiertos al inicio y cerrados al final, así: ( Li-1 ; Li ] También existen los intervalos abiertos atendiendo al tipo de información que se puede presentar: 8
  • 10. Abierto en la Abierto en la Abierto en la primera y en la primera clase última clase última clase menos de 10 0 10 menos de 10 10 20 10 20 10 20 20 30 20 30 20 30 30 40 30 40 30 40 40 50 más de 50 más de 50 Es útil tener en cuenta además que no siempre los intervalos podrán ser de igual amplitud, sin embargo es recomendable que estos tengan el mismo ancho si es posible ello, para lograr mayor facilidad en las interpretaciones, representaciones y cálculos. Entre los métodos seguidos para crear las clases, dos son los más utilizados: 1. Definir, a partir del uso que se hará de la información, el ancho de clases que se empleará, y con esto ver cuántas clases surgen. 2. Definir, a partir de la cantidad de datos disponibles, la cantidad de clases que se crearán, y a partir de ahí calcular el ancho que deberán tener las mismas. Los pasos que se deben dar para agrupar los valores observados según el segundo método pueden resumirse como sigue: 1. Determinar el recorrido de la variable (R), definido como la diferencia entre el valor máximo y el mínimo de la variable: R = Xmax - Xmin 2. Definir el número de intervalos o clases (k): La práctica indica que menos de 4 ó 5 clases suele ser muy poco y que en general más de 20 clases puede ser excesivo, es decir, ni tan pocos, que se pierda demasiada información, ni tantos que parezca que no se han agrupados los datos ( 4 ≤ k ≤ 20 ) 3. Determinar la amplitud o ancho de estos intervalos (c), como el cociente del recorrido de los datos entre la cantidad de clases que se decidió usar, aproximado convenientemente y siempre por exceso: c ≈ R/k 4. Crear las clases, partiendo del valor mínimo observado (xmin) o un valor inferior, y sumando sucesivamente el ancho de clases (c) determinado. 5. Clasificar la variable en las distintas clases, para lo cual se puede hacer un tarjado, obteniendo las frecuencias absolutas correspondiente (ni). 6. Calcular las restantes frecuencias deseadas: relativas (fi), absolutas acumuladas (Ni) y relativas acumuladas (Fi). 7. Determinar las marcas de clases (Xi), valores que representarán a sus respectivas clases. REPRESENTACIÓN GRÁFICA DE LOS DATOS: Otra manera de presentar los datos de manera de que brinden información a primera vista es una representación gráfica de los mismos, y entre los gráficos más usados se encuentran: • Gráficos de barras o histogramas Constan de dos ejes; un eje horizontal, donde se distribuyen los valores observados de la variable (datos no agrupados) o sus límites de clases (datos agrupados), y un eje vertical 9
  • 11. donde se representan las frecuencias absolutas (ni) o relativas (fi) correspondientes. En el punto correspondiente a cada observación o clase se levanta una barra cuya altura indica el valor de la frecuencia observada. Si los datos están agrupados en clases las barras conforman rectángulos contiguos, y el gráfico suele ser denominado histograma. • Polígonos de frecuencias Son similares a los gráficos de barras, y tienen la misma función, aunque actualmente se utilizan menos que aquellos. Constan de también de dos ejes, con la diferencia de que en el eje horizontal, si los datos están agrupados en clases se distribuyen no sus límites de clase sino sus marcas de clase. En cualquier caso, sobre el punto correspondiente a cada observación o marca de clase se hace una marca a la altura de la frecuencia observada, y posteriormente estas marcas se unen con trazos rectos, formando una línea poligonal. • Gráficos circulares o de pastel Parten de subdividir un círculo en tantos sectores como valores distintos (datos no agrupados) o clases (datos agrupados en clases) se tiene, de manera que la amplitud angular del sector, y por tanto su área, es proporcional a la frecuencia absoluta correspondiente (y consecuentemente también a la relativa). EJEMPLO 1 (Datos no agrupados): Se tiene los datos recopilados acerca de la variable X: número de ausencias a clase que tienen los estudiantes de un grupo. 0 1 2 2 1 3 2 1 4 2 4 3 2 0 0 2 2 3 0 3 Datos en su forma primaria (sin organizar) ¿Qué tipo de variable es esta?: Variable cuantitativa discreta. Construcción de la tabla o distribución de frecuencias: Al tratarse de una variable discreta (un conteo siempre tomará valores enteros) y con pocos valores diferentes, no parece necesario crear clases para agrupar los datos. En este caso k = 5 (son cinco los valores distintos de X: 0, 1, 2, 3 y 4). Para facilitar el conteo de las observaciones se suele hacer algún tipo de marcas, a lo cual se le llama tarjado. número de cantidad de proporción de ausencias tarjado estudiantes estudiantes Xi ni fi Ni Fi 0 //// 4 0,20 4 0,20 1 /// 3 0,15 7 0,35 2 /////// 7 0,35 14 0,70 3 //// 4 0,20 18 0,90 4 // 2 0,10 20 1,00 n = 20 10
  • 12. Interpretación de las distintas frecuencias: • ni indica las veces que se repite el valor de la variable, así: n1 = 4 indica que hay 4 alumnos del grupo que no tienen ausencias. n3 = 7 indica que hay 7 estudiantes del grupo que tienen 2 ausencias. • fi indica el porciento de veces que se repite el valor de la variable, así: f4 = 0.20 indica que el 20% de los estudiantes tienen 3 ausencias f5= 0.10 indica que el 10% de los estudiantes tienen 4 ausencias • Ni indica el número de observaciones menores o iguales al valor de la variable, así: N2 = 7 indica que hay 7 estudiantes que tienen hasta (o como máximo) 1 ausencia N3 = 18 indica que hay 18 estudiantes que tienen hasta 3 ausencias • Fi indica el porciento de observaciones menores o iguales al valor de la variable, así: F2 = 0.35 indica que el 35% de los estudiantes tienen hasta 1 ausencia. F3 = 0.70 indica que el 70% de los estudiantes tienen hasta 2 ausencias. Representación gráfica: A partir de la tabla de frecuencias se puede construir cualquiera de los gráficos siguientes: gráfico de barras polígono de frecuencias ni ni 8 8 7 7 6 6 5 5 4 4 3 3 2 2 1 1 0 0 0 1 2 3 4 xi 0 1 2 3 4 xi diagrama circular 4 0 10% 20% 3 20% 1 2 15% 35% 11
  • 13. EJEMPLO 2 (Datos agrupados): Los siguientes valores corresponden al registro del consumo de gasolina de una flota de 50 taxis, en litros, un día dado: 46 39 34 33 32 36 41 26 32 36 43 28 30 27 32 42 30 31 34 41 28 30 26 21 37 39 25 33 47 28 26 23 30 43 40 36 21 38 31 38 29 30 48 47 23 31 24 38 35 36 ¿Qué tipo de variable es ésta? Aunque los datos observados son todos enteros la variable es continua, por su propia naturaleza (de hecho, un taxi podría haber consumido 24,75 litros de gasolina). • Se tiene n = 50 taxis (tamaño de la muestra). • Determinación del recorrido: R = Xmax - Xmin = 48 - 21 = 27 • Definición del número de clases a usar: Para 50 observaciones podrían usarse 5, 6, 7 u 8 clases, según decisión de quien va a organizar los datos. Sea en este caso k = 6. • Determinación del ancho de clases: c ≈ R/k R/k = 27/6 = 4,5 ≈ 5 c=5 (El valor R/k = 4,5 se redondea a 5 porque no tendría sentido en este caso hacer los intervalos de amplitud decimal, ya que complicaría, en vez de facilitar, la interpretación y el trabajo con la información; nótese que esta aproximación fue a un valor superior al verdadero cociente, es decir, por exceso.) • Creación de las clases: Se podría partir del valor Xmin = 21, pero resulta más cómodo comenzar ligeramente por debajo de él, en 20, de manera que la primera clase sea desde 20 a 20 + c (ya se tiene c = 5), o sea, de 20 a 25; la segunda de 25 a 30, sin incluir el 25 (límite inferior y extremo abierto) e incluyendo el 30 (límite superior y extremo cerrado), y así sucesivamente hasta la sexta clase (k = 6), que sería desde 45 (extremo abierto) a 50 (extremo cerrado). • Determinación de las marcas de clases (Xi): Siendo el promedio de los límites de clase se tiene que: Xi = (Li – Li-1)/2 Así: X1 = (20 + 25)/2 = 45/2 = 22,5 X2 = (25 + 30)/2 = 55/2 = 25,5 ó X2 = X1 + c Y así sucesivamente… • Clasificación de la variable y cálculo de las distintas frecuencias: Para ello se puede hacer previamente un tarjado… Se debe tener en cuenta, además, el convenio de que si una observación coincide con un límite de clase, se incluye en la clase donde dicho límite está como límite superior; así, 12
  • 14. todos los taxis que consumieron 30 litros de gasolina se incluyen en la clase de 25 a 30, no en la que va de 30 a 35. clases tarjado (Li-1; Li] Xi ni fi Ni Fi 20 - 25 22,5 ///// / 6 0,12 6 0,12 25 - 30 27,5 ///// ///// /// 13 0,26 19 0,38 30 - 35 32,5 ///// ///// / 11 0,22 30 0,60 35 - 40 37,5 ///// ///// / 11 0,22 41 0,82 40 - 45 42,5 ///// 5 0,10 46 0,92 45 - 50 47,5 //// 4 0,08 50 1,00 n = 50 1,00 Interpretación de las distintas frecuencias: • n2 = 13: indica que hay 13 taxis que consumieron entre 25 y 30 litros de gasolina, o que consumieron como promedio 27,5 litros (utilizando la marca de clases) • f3 = 0,22: indica que el 22% de los taxis consumieron entre 30 y 35 litros de gasolina, o que consumieron 32,5 litros como promedio. • N4 = 41: indica que 41 taxis consumieron HASTA 40 litros de gasolina, o un máximo de 40 litros. (Las frecuencias acumuladas se interpretan utilizando el límite superior del intervalo, nunca con la marca de clases.) • F5 = 0,92: indica que el 92% de los taxis consumió HASTA 45 litros de gasolina, o un máximo de 45 litros. Representación gráfica: ni histograma ni polígono de frecuencias 14 14 12 12 10 10 8 8 6 6 4 4 2 2 0 0 20 25 30 35 40 45 50 22,5 27,5 32,5 37,5 42,5 47,5 i X (clases) X EJERCICIOS DE AUTOEVALUACIÓN 1.- Ponga 3 ejemplos de variables discretas y 3 de variables continuas 2.- ¿Qué quiere decir organizar los datos? 3.- ¿Cómo se forma una tabla de frecuencias? 13
  • 15. 4.- A partir de los siguientes datos, que representan el número de habitaciones de 50 viviendas del municipio Plaza, que se están visitando para estudiar el grado de hacinamiento, construya una distribución de frecuencias e interprete 3 frecuencias absolutas y relativas simples y 3 frecuencias absolutas y relativas acumuladas. 3 2 3 4 3 5 2 1 3 2 4 3 2 1 1 2 5 2 3 1 2 3 2 1 2 2 2 3 3 4 3 2 2 3 4 1 1 5 2 3 4 4 3 3 2 2 2 1 1 2 5.- ¿Es absolutamente privativo de las variables discretas la organización de los datos directamente a partir de los valores observados, o considera que una variable continua también podría organizarse de esta forma? Explique. 6.- ¿Qué pasos se deben dar para conformar una tabla de frecuencia? 7.- ¿En casos de datos agrupados se cumple que: ∑ni = n y ∑fi = 1? Fundamente su respuesta. 8.- ¿Cómo se determina el recorrido de la variable? 9.- ¿Se agrupan en intervalos de clase sólo las variables continuas? 10.- ¿Cómo determinaría el número de intervalos o clases a considerar en una tabla de frecuencias? 11.- ¿En que casos utilizaría intervalos de amplitud diferentes? 12.- Si una observación le coincide con un límite de clases, ¿dónde la pondría y por qué? 13.- Investigados los precios por habitación de 50 hoteles del país se ha obtenido los siguientes resultados (en cientos de pesos): 7 3 5 4 5 7 4 7.5 8 5 5 7.5 3 7 10 15 5 7.5 12 8 4 5 3 5 10 3 4 5 7 5 3 4 7 4 7 5 4 7 10 7.5 7 8 7.5 7 7.5 8 7 7 12 8 a) Diga qué tipo de variable es. b) Construya la distribución de frecuencias para esta variable. 14.- Realizada una encuesta en una región del país, se han agrupados los establecimientos hoteleros por el número de cuartos, obteniéndose la siguiente distribución: cuartos # de hoteles 0 100 25 100 200 37 200 300 12 300 400 22 14
  • 16. 400 500 21 500 600 13 600 700 5 700 800 3 a.- Determine el número de establecimientos hoteleros con más de 300 cuartos. b.- Determine el porcentaje de establecimientos que tienen más de 100 cuartos y hasta 400. c.- Represente gráficamente la distribución. d.- ¿Que tipo de variable es ésta? e.- ¿Por qué, siendo ese el tipo de variable, la tabla de frecuencia es de esta forma? 15
  • 17. 1.2: Medidas descriptivas o estadígrafos. Estadígrafos de posición más usados: media, mediana y moda. Estadígrafos de dispersión más usados: varianza, desviación típica y coeficiente de variación. La organización de los datos y el análisis del comportamiento de los mismos mediante tablas o gráficos, aportan una información inicial sobre la población en estudio, pero no suelen ser suficiente para describir a la misma. Sin embargo, es posible la obtención de ciertas cantidades numéricas, denominadas estadígrafos o estadísticos, que caracterizan mejor el conjunto de datos. Un estadígrafo o estadístico es una medida descriptiva que resume alguna de las principales características de un conjunto de datos, como puede ser la tendencia central, la dispersión o la forma. Precisamente atendiendo al tipo de resumen que brindan los estadígrafos, éstos suelen clasificarse. Cuando un estadígrafo es calculado a partir de todos los datos poblacionales, es decir, no en una muestra sino en toda la población, se dice que es un parámetro poblacional. 1.2.1- ESTADÍGRAFOS O MEDIDAS DE POSICIÓN O TENDENCIA Los llamados estadígrafos de posición son medidas que informan sobre el centro de la distribución (tendencia central) o sobre valores significativos de ésta. La mayor parte de los conjuntos de datos muestran una tendencia a agruparse alrededor de un punto central y por lo general es posible encontrar algún tipo de valor promedio que describa todo el conjunto. Un valor típico descriptivo como ese, es una medida de tendencia central. Con frecuencia se utilizan, como las más importantes medidas de tendencia central, la media aritmética, la mediana, la moda y la media geométrica. No obstante, aunque menos usadas, también se recurre en muchos casos a otras estadígrafos de posición que no son medidas de tendencia central, como las cuantilas, entre las que se encuentran las cuartilas, las decilas y los percentiles, que son aquellos valores que dividen el conjunto de datos en cuatro, diez y cien partes iguales, respectivamente. MEDIA ARITMÉTICA (O MEDIA) La media aritmética, más frecuentemente denominada sólo media, es el promedio o medida de tendencia central que se utiliza con mayor frecuencia. Se define como la suma de todos los valores de la variable dividida entre el número de elementos, dicho en otras palabras, es lo que comúnmente se conoce como promedio. La media se representa: • en la muestra, por x • en la población, por μ (la letra griega miu) • en definiciones y demostraciones, por M(x) A partir de la propia definición se deduce que la media en una muestra puede calcularse como: 16
  • 18. ∑ xi 1 x= ó x= ∑ xi (definición) n n EJEMPLO: Sea X las calificaciones de un estudiante: X: 5 4 3 4 5 3 5 5 Su promedio es, por tanto: 1 1 34 x = ∑ x i = (5 + 4 + 3 + 4 + 5 + 3 + 5 + 5 ) = = 4,25 n 8 8 Al trabajar con datos tabulados debe tenerse en cuenta que cada valor de la variable (Xi) se repite una determinada cantidad de veces (ni), y por tanto, la expresión matemática derivada de la definición de la media debe modificarse, como se muestra, multiplicando cada valor por su respectiva frecuencia. ∑ x in i 1 x= ó x = n ∑ x in i ó x = ∑ x i f i (en datos tabulados) n EJEMPLO 1 (caso de datos no agrupados, continuación): Calcular el promedio de inasistencias para los 20 estudiantes del grupo analizado: Xi ni fi Ni Fi Xini 1 37 0 4 0,20 4 0,20 0 x= ∑ x in i = = 1,85 n 20 1 3 0,15 7 0,35 3 2 7 0,35 14 0,70 14 3 4 0,20 18 0,90 12 Nota: Es usual, cuando se efectúan cálculos utilizar 4 2 0,10 20 1,00 8 la propia tabla de frecuencia, creando columnas 37 auxiliares, como se ve, para facilitar los mismos. EJEMPLO 2 (caso de datos agrupados, continuación): Calcular el consumo promedio diario de gasolina de los 50 taxis de la flota. clases Xi ni fi Xini 20 - 25 22,5 6 0,12 135,0 25 - 30 27,5 13 0,26 357,5 1 1665 x= ∑ x in i = = 33,3 30 - 35 32,5 11 0,22 357,5 n 50 35 - 40 37,5 11 0,22 412,5 40 - 45 42,5 5 0,10 212,5 (O sea, el consumo promedio en el día fue 45 - 50 47,5 4 0,08 190,0 de 33,3 litros por auto.) 1665,0 Nota: Para los cálculos de la media en datos agrupados en clases se utilizan las marcas de clase, y salvo eso, la expresión matemática empleada no se diferencia del caso en que los 17
  • 19. datos no están agrupados. Algo a tener en cuenta en este sentido es que si existen intervalos abiertos, como a veces se presenta la primera o la última clase, la media no se puede calcular a menos que se modifiquen los mismos. PROPIEDADES Y CARACTERÍSTICAS DE LA MEDIA: Algunas propiedades importantes y con utilidad práctica de la media son: 1. M(k) = k (La media de una constante es igual a la propia constante.) 2. M(kx) = k M(x) (La media de una constante por una variable es igual a la constante por la media de la variable.) 3. M(k + x) = k + M(x) (La media de una constante más una variable es igual a la constante más la media de la variable.) 4. M(x1 + x2) = M(x1) + M(x2) (La media de la suma de dos variables es igual a la suma de las medias de ambas variables.) 5. M(x - x ) = 0 (La media de las desviaciones con respecto a la media es igual a cero.) 6. M(x - x )2 = mínimo. (La media del cuadrado de las desviaciones con respecto a la media al cuadrado es un mínimo.) Cabe especificar que se le llama desviaciones a la diferencia entre los valores de una variable y un valor fijo; cuando este valor fijo es la propia media de la variable, se le llama desviaciones con respecto a la media. De la quinta propiedad citada se deduce que la media es el centro de gravedad o el punto de equilibrio de la distribución, o sea, el valor que correspondería a una distribución equitativa para todas las observaciones. Una característica notable en la media es que ésta se ve afectada por la ocurrencia de valores extremos, esto quiere decir que si hay algunos valores atípicos en el conjunto, estos arrastran consigo el valor de la media; así, valores atípicos muy grandes conducirán a una media mayor que la real del conjunto, mientras que valores muy pequeños provocarán que la media sea menor que la real. MODA La moda se define como el valor mas frecuente en un conjunto de datos, es decir, el valor modal es el de mayor frecuencia. Se denota por Mo(x) y puede no existir en una distribución (distribución amodal), o existir más de una (distribución multimodal). La moda cobra especial importancia en datos de tipo cualitativo, pues en ellos es imposible calcular otros estadígrafos de posición, como la media. Esto no quita que también para datos cuantitativos suele ser de interés conocer el valor modal, que se utiliza en ocasiones como medida de tendencia central. 18
  • 20. Para determinar la moda a partir de datos primarios suele ser conveniente organizar primero estos, conformando lo que se llama un arreglo ordenado. EJEMPLO: Sean las calificaciones de tres estudiantes: A: 3 4 3 4 5 4 5 4 4 B: 3 4 5 4 5 4 5 5 4 C: 3 4 3 4 5 4 5 5 3 Organizando primeramente los datos se tiene: A: 3 3 4 4 4 4 4 5 5 Mo(A) = 4 (conjunto unimodal) B: 3 4 4 4 4 5 5 5 5 Mo(B) = { 4 ; 5 } (conjunto bimodal) C: 3 3 3 4 4 4 5 5 5 Mo(C) = Ø (conjunto amodal) Nota: Para el estudiante C ninguna nota es más frecuente que las demás, por eso no tiene valor modal. En datos tabulados es muy sencillo encontrar el valor o valores modales, pues son aquellos que presentan la máxima frecuencia absoluta. EJEMPLO 1 (caso de datos no agrupados, continuación): Determinar la moda de inasistencias para los 20 estudiantes del grupo analizado: Xi ni fi Ni Fi 0 4 0,20 4 0,20 nmod = 7 (frecuencia modal) 1 3 0,15 7 0,35 2 7 0,35 14 0,70 Mo(X) = 2 3 4 0,20 18 0,90 4 2 0,10 20 1,00 Nota: La frecuencia modal es 7, porque la cantidad de inasistencias que más ocurre, que son dos, se repite 7 veces en la muestra (o un 35% de las veces). Cuando se trabaja con datos agrupados en clases, es sencillo determinar la clase o clases modales existentes, y para muchos fines esto es suficiente. Pero si se quiere indicar un valor modal dentro de la clase modal, se ha determinado, atendiendo a cuestiones geométricas, que el mismo puede obtenerse a partir de la expresión: n mod − n mod −1 Mo ( x ) = L mod −1 + c ⋅ (n mod − n mod −1 ) + (n mod − n mod +1 ) Siendo: Lmod-1: el límite inferior de la clase modal c: el ancho de la clase modal (que en general es el de todas las clases) nmod: la frecuencia absoluta de la clase modal nmod-1: la frecuencia absoluta de la clase anterior a la modal 19
  • 21. nmod+1: la frecuencia absoluta de la clase siguiente a la EJEMPLO 2 (caso de datos agrupados, continuación): Calcular el valor modal para el consumo diario de gasolina de los 50 taxis de la flota. clases Xi ni fi 20 - 25 22,5 6 0,12 25 - 30 27,5 13 0,26 30 - 35 32,5 11 0,22 35 - 40 37,5 11 0,22 40 - 45 42,5 5 0,10 nmod = 13 45 - 50 47,5 4 0,08 clase modal: 25 - 30 Para determinar un valor modal puntual se parte de la clase modal: n mod − n mod −1 13 − 6 Mo ( x ) = L mod −1 + c ⋅ = 25 + 5 ⋅ (n mod − n mod −1 ) + (n mod − n mod +1 ) (13 − 6 ) + (13 − 11) 7 Mo ( x ) = 25 + 5 ⋅ = 25 + 3,89 = 28,89 9 CARACTERÍSTICAS DE LA MODA: A diferencia de la media, la moda no se afecta ante la presencia de valores extremos. La moda, como se ha visto, no tiene necesariamente que existir, ni tiene que ser única. Además, la moda puede ser definida en forma relativa, aunque es menos frecuente este uso, llamando valor modal a aquel donde exista un máximo relativo en la distribución de frecuencias, esto es, donde: ni – 1 < ni >ni + 1 MEDIANA La mediana se define como el valor central de un grupo de datos ordenados, o sea, como aquel valor que supera hasta un 50% de las observaciones y a la vez es superado por hasta un 50 % de las observaciones. Se denota por Me(x). Para calcular la mediana a partir de un conjunto de datos en su forma primaria, es necesario antes ordenarlos; después, se puede buscar la posición del valor mediano en el arreglo ordenado, atendiendo al número de observaciones, según las dos siguientes reglas: Regla 1: Si el tamaño de la muestra es un número impar, la mediana está representada por el valor numérico correspondiente a la posición del centro de las observaciones ordenadas. 20
  • 22. Regla 2: Si el tamaño de la muestra es un número par, entonces el valor mediano, será la semisuma o promedio de los dos valores centrales de las observaciones ordenadas. (Esto, estrictamente hablando, es un convenio adoptado, pues cualquier valor entre los dos valores centrales podría ser considerado como un valor mediano) EJEMPLO: Sean las calificaciones de un estudiante en dos semestres: SI: 5 3 5 4 4 5 5 SII: 5 3 5 4 4 5 5 4 Ordenando los datos, se tiene: SI: 3 4 4 5 5 5 5 Me(x) = 5 SII: 3 4 4 4 5 5 5 5 Me(x) = (4 + 5)/2 = 4,5 Para determinar la mediana en datos tabulados pero sin agrupar en clases se puede proceder de la siguiente manera: 1. Determinar la fracción n/2, que ubica el centro de la distribución. 2. Encontrar la denominada frecuencia mediana, que es la primera frecuencia absoluta acumulada que iguala o supera a n/2 (representada por Nmed); y entonces: • Si Nmed > n/2, Me(x) = Xmed (Es decir, si la frecuencia mediana encontrada supera a n/2, la mediana es el valor de X al que le corresponde dicha frecuencia en la tabla) • Si Nmed = n/2, Me(x) = (Xmed + Xmed+1)/2 (Es decir, si la frecuencia mediana encontrada coincide con n/2, la mediana es el promedio del valor de X al que le corresponde dicha frecuencia en la tabla con el valor de X siguiente) EJEMPLO 1 (caso de datos no agrupados, continuación): Determinar la mediana para las inasistencias de los 20 estudiantes del grupo analizado: Xi ni fi Ni Fi n/2 = 10 0 4 0,20 4 0,20 Nmed = 14 ( >10 ) 1 3 0,15 7 0,35 Me(X) = 2 2 7 0,35 14 0,70 3 4 0,20 18 0,90 Nota: La frecuencia mediana es 14, porque es la primera 4 2 0,10 20 1,00 frecuencia absoluta acumulada que sobrepasa a n/2 = 10. 21
  • 23. En el caso de datos agrupados en clases, se determina ante todo una clase mediana, como aquella cuya frecuencia absoluta acumulada sobrepasa a n/2; y si quiere un valor mediano, sobre esa clase se aplica la siguiente expresión: n −N med−1 Me( x ) = L med−1 + c ⋅ 2 nmed Siendo: Lmed-1: el límite inferior de la clase mediana c: el ancho de la clase modal (que en general es el de todas las clases) Nmed-1: la frecuencia absoluta acumulada hasta la clase anterior a la mediana nmed: la frecuencia absoluta de la clase mediana EJEMPLO 2 (caso de datos agrupados, continuación): Calcular el valor mediano para el consumo diario de gasolina de los 50 taxis de la flota. clases Xi ni Ni 20 - 25 22,5 6 6 25 - 30 27,5 13 19 30 - 35 32,5 11 30 35 - 40 37,5 11 41 Nmed = 30 40 - 45 42,5 5 46 clase mediana: 30 - 35 45 - 50 47,5 4 50 n − Nmed−1 25 − 19 6 Me( x ) = Lmed−1 + c ⋅ 2 = 30 + 5 ⋅ = 30 + 5 ⋅ = 30 + 2,73 = 32,73 nmed 11 11 CARACTERÍSTICAS DE LA MEDIANA: La mediana no se ve afectada por datos extremos, es por ello que cuando éstos existen ella es más representativa que la media como medida de tendencia central. 1.2.2- ESTADÍGRAFOS O MEDIDAS DE DISPERSIÓN A pesar de toda la información que brindan los estadígrafos de posición, no basta con ellos para caracterizar un conjunto de datos: Téngase por caso dos empresas que reportan el mismo promedio de recaudaciones mensuales, siendo que una de ellas esto se debe a que todos los meses ha recaudado esa misma cantidad, mientras que la otra ha oscilado bastante en sus recaudaciones alrededor de ese valor medio, habiendo recaudado unos meses mucho más que dicho valor, pero otros, mucho menos; de esta manera, no puede decirse que ambas empresas tiene el mismo comportamiento, a pesar de que han coincidido en el valor de la recaudación media mensual: la primera de ellas es mucho más estable en su comportamiento que la segunda… Esto sería útil conocerlo a través de alguna medida resumen, junto con el valor de la media. 22
  • 24. Precisamente, los estadígrafos de dispersión son medidas que describen cómo se distribuyen los datos alrededor de alguno de sus valores representativos, principalmente alrededor de su media. Por tanto, las medidas de posición no dicen mucho si no están acompañadas de medidas de dispersión o variabilidad, porque a través de estas últimas es que se puede determinar si la medida de posición es significativa o representativa de la distribución. Entre las medidas de dispersión más empleadas destacan la varianza, la desviación típica y el coeficiente de variación. VARIANZA La varianza de un conjunto de datos se define como la media o promedio del cuadrado de las desviaciones de la variable respecto a su media. Por sus propiedades, es la medida de dispersión más usada, y base para el cálculo de otras. La varianza se representa: • en la muestra, por S2 • en la población, por σ2 (la letra griega sigma, al cuadrado) • en definiciones y demostraciones, por V(x) De la definición de la varianza se desprende que ésta, en una muestra, puede calcularse como: ∑ (x i − x ) 2 1 ∑ (x i − x ) 2 S2 = ó S2 = (definición) n n EJEMPLO: Sea X las calificaciones de un estudiante: X: 5 4 3 4 5 3 El promedio es: x = 4 Por tanto, la varianza es: S2 = 1 n 2 1 6 [ ∑ (x i − x ) = (5 − 4 ) + (4 − 4 ) + (3 − 4 ) + (4 − 4 ) + (5 − 4 ) + (3 − 4 ) 2 2 2 2 2 2 ] 1 [ ] 4 S 2 = 12 + 0 2 + (− 1) + 0 2 + 12 + (− 1) = = 0,67 6 2 2 6 Al trabajar con datos tabulados debe tenerse en cuenta, al igual que en los cálculos de la media, que cada valor de la variable (Xi) se repite una determinada cantidad de veces (ni), y por tanto, la expresión matemática derivada de la definición debe modificarse, como se muestra: 23
  • 25. ∑ (x i − x ) n i 2 1 ∑ (x i − x ) n i ó S 2 = ∑ (x i − x ) fi 2 2 2 S = ó S2 = (en datos tabulados) n n EJEMPLO 1 (caso de datos no agrupados, continuación): Calcular la varianza en las inasistencias para los 20 estudiantes del grupo analizado: Xi ni fi Ni Fi (x i − x )2 ni Se tiene que: x = 1,85 0 4 0,20 4 0,2013,6900 Por tanto: 1 3 0,15 7 0,35 2,1675 2 7 0,35 14 0,70 0,1575 1 30,55 5,2900 S = n ∑ (x i − x ) n i = 20 = 1,53 2 2 3 4 0,20 18 0,90 4 2 0,10 20 1,00 9,2450 30,5500 Nota: Algunos cálculos se han organizado utilizando la propia tabla de frecuencias. EJEMPLO 2 (caso de datos agrupados, continuación): Calcularla varianza para el consumo diario de gasolina de los 50 taxis de la flota. clases Xi ni (x i − x )2 ni 20 - 25 22,5 6 703,7334 Se tiene que: x = 33,3 25 - 30 27,5 13 441,8557 30 - 35 32,5 11 7,5779 Por tanto: 35 - 40 37,5 11 191,2779 1 2568 ,045 ∑ (x i − x ) n i = 40 - 45 42,5 5 420,4445 S2 = 2 = 128 ,4 45 - 50 47,5 4 803,1556 n 50 n=50 2568,0450 PROPIEDADES Y CARACTERÍSTICAS DE LA VARIANZA: Algunas propiedades importantes y con utilidad práctica de la varianza son: 1. V(x) ≥ 0 (La varianza es un número no negativo.) 2. V(k) = 0 (La varianza de un grupo de datos constante es igual a cero.) 3. V(x ± k) = V(x) (La varianza de la suma de los valores de una variable más una constante es igual a la varianza de la variable.) 4. V(kx) = k2 V(x) (La varianza del producto de los valores de una variable por una constante es igual a la constante al cuadrado por la varianza de la variable.) La varianza, dada la manera en que se define y calcula, se expresa en unidades cuadráticas respecto a la variable de la que procede, y esto hace que no se le pueda dar una interpretación realista a dicho estadígrafo. 24
  • 26. No obstante, la varianza, por la misma forma en que se define y calcula, indica el grado de dispersión de los datos; se dice que es una medida de dispersión absoluta: mientras mayor es la varianza en un conjunto de observaciones, mayor es su dispersión; por el contrario, si una varianza nula indica que todas las observaciones coinciden en un mismo valor. DESVIACIÓN TÍPICA O ESTÁNDAR Puesto que la varianza pierde interpretación por estar su resultado en unidades cuadráticas, resulta conveniente contar con otro estadístico que basado en el valor de la varianza sirva para dar una medida de la dispersión en las mismas unidades o dimensiones en que están expresados los datos y este estadístico es la desviación típica. La desviación típica o desviación estándar se define como la raíz cuadrada positiva de la varianza. Se denota por S en la muestra y por σ en la población: S = S2 EJEMPLO: Sea X el precio de venta, en centavos, los distintos jabones de una marca dada: X: 40 35 45 50 40 1 40 + 35 + 45 + 50 + 40 El precio promedio para la marca es: x = ∑ xi = = 42 ¢ n 5 1 130 ∑ (x i − x ) = 2 La varianza es: S 2 = = 26 ¢ 2 n 5 Por tanto, la desviación estándar es: S = S 2 = 26 = 5,1¢ La desviación típica es una magnitud no negativa, y con el misma interpretación que la varianza en cuanto a medida de dispersión absoluta, pero no cumple las restantes propiedades matemáticas de aquella, pues la extracción de la raíz no lo permite. COEFICIENTE DE VARIACIÓN En ocasiones resulta necesario contar con un estadígrafo que refleje la dispersión sin depender de la magnitud de las observaciones, esto es que sea un valor relativo. Esta necesidad surge generalmente cuando se comparan las dispersiones entre varios conjuntos expresados en unidades diferentes, o incluso entre variables expresadas en las mismas unidades pero con diferencias significativas en sus valores medios. Este estadístico es el denominado coeficiente de variación. El coeficiente de variación se define como el cociente de la desviación típica entre la media. Se denota por CV(x), y en forma matemática puede expresarse: 25
  • 27. Sx CV( x ) = x Del coeficiente de variación se dice que es una medida de dispersión relativa, por carecer de unidades, o una medida de la variabilidad de los datos. Muchas veces su valor se multiplica por 100, para expresar el resultado en porciento. EJEMPLO: Sea cuenta con datos del peso y la estatura de un grupo de 20 niños entre 8 y 10 años, y se desea saber cuál de las dos variables tiene mayor variabilidad. X: estatura (cm) Y: peso (kg) X = 155 cm Y = 42 kg S2 X = 110 cm 2 S 2 = 20 kg2 Y S X = 10,5 cm S Y = 4,5 kg En este caso no tiene sentido decir que hay mayor dispersión en términos absolutos en la estatura, por el hecho de que la desviación estándar para dicha variable es 10,5 mientras que para el peso es 4,5, pues las unidades en que están expresadas ambas no son comparables. Aquí cobran especial importancia los coeficientes de variación, que quedan: 10,5 4,5 CV( X) = = 0,068 = 6,8% CV( Y ) = = 0,107 = 10,7% 155 42 De ello resulta que hay mayor variabilidad en el peso (10,7%) que en la estatura de los niños (6,8%). EJERCICIOS DE AUTOEVALUACIÓN 1.- ¿Qué indican las medidas de tendencia central? 2.- ¿Cómo se define la media aritmética? ¿Cuáles son sus propiedades? 3.- ¿Qué desventajas se le pudiera atribuir a la media? 4.- ¿Cómo se define la mediana? 5.- ¿Cuál de los dos estadísticos, media y mediana, considera que es mejor para representar el promedio? Explique su respuesta. 6.- ¿Cómo se define la moda? 7.- ¿En que casos considera útil utilizar la moda? 26
  • 28. 8.- ¿Qué indican las medidas de dispersión? 9.- ¿Cómo se define la varianza? Mencione algunas de sus propiedades. 10.- ¿Cómo interpretaría el resultado de la varianza? 11.- ¿Cómo se define la desviación típica? ¿Cómo la interpretaría en general? 12.- ¿Cuándo y porqué utilizaría la desviación típica en vez de la varianza? 13.- ¿Cómo se define el coeficiente de variación? ¿Cómo se interpreta este coeficiente? 14.- ¿Cuáles son las ventajas del coeficiente de variación sobre la desviación típica? 15.- Un fabricante de pilas para linternas tomó una muestra de 13 piezas de la producción de un día y las utilizó de forma continua hasta que comenzaron a fallar. El resultado en horas de funcionamiento fue: 342, 426, 317, 545, 264, 451, 1049, 631, 512, 266, 492, 562, 298 a.- Calcule la media, la mediana y la moda. ¿Qué medidas descriptivas parecen ser las mejores y cuales las peores? ¿Por que? b.- Calcule la varianza, la desviación típica y el coeficiente de variación. c.- Utilizando la información anterior ¿qué se aconsejaría al fabricante si él deseara anunciar que sus baterías duran 400 horas? 16.- Examinando los registros de cuentas mensuales de una empresa que vende Li-1 Li ni libros por correo, el auditor toma una muestra de 20 de esas cuentas no pagadas 10 15 4 (dadas en cientos de pesos). Los adeudos de la empresa eran: 15 20 6 a.- Calcule la media, la mediana y la moda. b.- Calcule la varianza y el coeficiente de variación e interprete los resultados. 20 25 7 c.- A que conclusión llegaría acerca de la empresa conociendo que tiene 370 25 30 2 facturas pendientes de pago. 30 35 1 27
  • 29. TEMA II: PROBABILIDADES. 2.1: Introducción a los fenómenos y experimentos aleatorios. Espacio muestral y sucesos. Clasificación de sucesos. Definición clásica de Probabilidad. Definición estadística de Probabilidad. La Teoría de las Probabilidades surge en el siglo XVII, relacionada con problemas de los juegos de azar, y entre sus principales precursores estuvo el matemático Pascal, junto con Fermat, Huygens y Bernoulli; algo después se sumó la importante contribución de De Moivre, Gauss, Laplace y Poisson. Esta teoría se encarga del estudio de las leyes que rigen el comportamiento de los fenómenos aleatorios, y es la base de la inferencia estadística, de ahí la necesidad de su estudio si se quiere pasar de la mera descripción al trazado de predicciones. Para desarrollar la teoría de las probabilidades es preciso establecer la barrera entre el determinismo y la necesario aleatoriedad o azar: Un fenómeno o experimento es determinista cuando se puede predecir con total exactitud el resultado del mismo a partir del conocimiento de las condiciones iniciales; así, los fenómenos y experimentos de que se ocupan ciencias exactas como la física y la química son deterministas. Un fenómeno o experimento es, por el contrario, aleatorio cuando no se puede predecir con exactitud el resultado del mismo aunque se conozcan las condiciones iniciales; esto es lo que por lo general ocurre en el campo de las ciencias económicas y sociales. Según lo dicho, si se va a dejar caer un dado desde una altura determinada, el hecho de que se conozca cuál es la altura permitiría determinar antes y con exactitud, sobre la base de leyes físicas, con qué velocidad llegará el dado al suelo, lo que hace de ésta una observación determinista; sin embargo, no sería posible predecir con total certeza qué cara del dado quedará hacia arriba, siendo esta otra una observación aleatoria. Se plantea que la estadística es la tecnología del método científico que proporciona instrumentos para la toma de decisiones, cuando estas se adoptan en ambiente de incertidumbre y siempre que pueda ser medida en términos de probabilidad. Luego es una ciencia que estudia los fenómenos aleatorios. La probabilidad, en una aproximación intuitiva, puede definirse como una medida cuantitativa de que las posibilidades pueden llegar a ser realidades. TERMINOLOGÍA ASOCIADA A LOS EXPERIMENTOS ALEATORIOS: Para llegar a una definición más rigurosa de lo que lo que es probabilidad resulta útil dominar algunos conceptos vinculados justamente con lo no medible con exactitud, con lo aleatorio: Espacio muestral: Es el conjunto formado por todos los posibles resultados de un experimento o fenómeno aleatorio. Se suele representar con “S”, mayúscula, y utilizando la notación de la Teoría de Conjuntos. La cantidad de elementos (puntos muestrales) que conforman el especio muestral es denominada “tamaño del espacio muestral”, y se representa como N(S). Ej. 1: Lanzamiento de una moneda... S: { C ; E } donde C: Cara E: Escudo 28
  • 30. N(S) = 2 Ej. 2: Lanzamiento de un dado... S: { 1, 2, 3, 4, 5, 6 } N(S) = 6 Cuando el experimento consta de observaciones sucesivas (a esto se le denomina experimento de muestreo), el espacio muestral es la combinación de los posibles resultados en cada una de las observaciones, y para determinar el mismo se pueden utilizar los llamados diagramas de árbol. En un diagrama de árbol se ordenan las diferentes observaciones y se establecen los posibles resultados para cada observación atendiendo a las observaciones anteriores. Ej. 3: Lanzamiento de dos monedas S: { CC ; CE ; EC ; CC } N(S) = 4 El espacio muestral puede ser finito o infinito según el conjunto tenga un número finito o infinito de elementos (puntos muestrales). Punto muestral: Es cada uno de los resultados posibles de un experimento o fenómeno aleatorio. Suceso o evento: Cualquier característica observada como resultado de un experimento o fenómeno, y es aleatorio si tiene tanto posibilidad de ocurrir o como de no ocurrir; o sea, es una colección cualquiera de puntos muestrales. Se utilizan letras mayúsculas para representarlos, exceptuando la S. Para establecer relaciones de sucesos con el espacio muestral o entre ellos mismos se utilizan los diagramas de Venn. En un diagrama de Venn se suele representar el espacio muestral como un rectángulo, y dentro de este, con círculos u otras formas geométricas los diferentes sucesos de interés, así: S A Ejemplos de sucesos, en el experimento del lanzamiento de un dado son: A: Que salga el 6. A={6} B: Que salga un número > 3 B = { 4; 5; 6 } C: Que salga un número ≤ 2 C = { 1; 2 } D: Que salga un número par D = { 2; 4; 6 } E: Que salga un número impar E = { 1; 3; 5 } F: Que salga un número primo F = { 1; 2; 3; 5 } G: Que salga un número < 10 G = { 1; 2; 3; 4; 5; 6 } (= S ) H: Que salga un número > 6 H = ø (conjunto vacío) 29
  • 31. Los sucesos pueden clasificarse atendiendo a diferentes criterios; así, en dependencia de la cantidad de puntos muestrales que lo constituyen se habla de sucesos simples y compuestos: Suceso simple: Es aquel que consta de un solo punto muestral. (En el ejemplo anterior, el suceso A.) Suceso compuesto: Es aquel que tiene dos o más puntos muestrales. (En el ejemplo anterior, los sucesos del B al G.) Atendiendo a su ocurrencia, se puede hablar de sucesos seguros o ciertos y de sucesos imposibles o nulos: Suceso seguro o cierto: Es aquel cuya ocurrencia es inevitable, que siempre va a ocurrir. (En el ejemplo anterior, el suceso G: al lanzar un dado siempre saldrá un número del 1 al 6.) Los sucesos seguros coinciden con el espacio muestral. Suceso imposible o nulo. Es aquel que nunca ocurrirá. (En el ejemplo anterior, el suceso H.) Los sucesos imposibles constituyen conjuntos vacíos. Además, en función del vínculo de un suceso o evento con otros existen las siguientes denominaciones: Subevento: A es un subevento o subsuceso de B si todos los puntos muestrales de A están incluidos en B, o sea, A ⊂ B. (En el ejemplo anterior: A ⊂ B, A ⊂ D, C ⊂ F, E ⊂ F.) A⊂B Sucesos complementarios: Un suceso es complementario de otro suceso A, si está formado por todos los puntos del espacio muestral que no están incluidos en A; se dice entonces que ese suceso es el complemento de A, y se denota por A' o Ac. (En el ejemplo anterior se tiene para A = { 6 } que el complemento es A’ = { 1; 2; 3; 4; 5}.) Sucesos excluyentes: Dos sucesos se dice que son mutuamente excluyentes si la ocurrencia de uno excluye la ocurrencia del otro, por lo tanto dichos sucesos no tienen puntos en común. (En el ejemplo anterior son excluyentes A y C, B y C, D y E.) 30
  • 32. Nota: Un caso particular de sucesos excluyentes son los complementarios. Todos los sucesos complementarios son excluyentes; lo contrario no necesariamente ocurre. Sucesos no excluyentes: Dos sucesos son no excluyentes si pueden ocurrir simultáneamente, es decir, si tienen puntos en común. (En el ejemplo anterior son no excluyentes A y B, C y D, B y D, C y E, etc.) Sucesos exhaustivos: Se dice que dos sucesos son colectivamente exhaustivos cuando la ocurrencia de ambos abarca el espacio muestral. (En el ejemplo anterior son no exhaustivos: D y E, D y F.) Nota: Un caso particular de sucesos exhaustivos son los complementarios. Todos los sucesos complementarios son exhaustivos; lo contrario no necesariamente ocurre. OPERACIONES ENTRE SUCESOS: Para establecer la relación entre diferentes sucesos se recurre a las operaciones definidas por el álgebra booleana en la propia Teoría de Conjuntos, entre ellas, las más usadas son: • Intersección o producto: La intersección de los sucesos A y B da como resultado un suceso que consiste en la ocurrencia simultánea de ambos, es decir, que contiene los puntos muestrales contenidos a la vez en A y en B. Se denota por A ∩ B ó AB. Ej.: En el lanzamiento del dado, siendo B = { 4; 5; 6 } (que salga un número mayor que 3) y D = { 2; 4; 6 } (que salga un número par), la intersección es el suceso dado por que salga un número par y mayor que tres, es decir: B ∩ D ≡ BD = { 4; 6 } B ∩ D ≡ BD 31
  • 33. Unión o suma: La unión de dos sucesos A y B da como resultado un suceso que consiste en la ocurrencia de al menos uno de los dos sucesos, es decir que contiene todos los puntos muestrales contenidos en A o en B (o en ambos). Se denota por A ∪ B ó A + B. Ej.: En el lanzamiento del dado, siendo B = { 4; 5; 6 } (que salga un número mayor que 3) y D = { 2; 4; 6 } (que salga un número par), la unión es el suceso dado por que salga un número par o mayor que tres, es decir: B ∪ D = { 2; 4; 5; 6 } B∪D • Complemento o negación: El complemento de un suceso A da como resultado su suceso complementario, es decir, que no ocurra A. Se denota como A’ ó Ac. Ej.: En el lanzamiento del dado, siendo C = { 1; 2 } (que salga un número menor o igual que 2), el complemento unión es el suceso dado por que salga un número mayor que 2, es decir: C’ = { 3; 4; 5; 6 } C’ ≡ Cc DEFINICIÓN CLÁSICA DE PROBABILIDAD: En el siglo XIX, concretamente en el año 1812, Laplace formula la que es conocida como definición clásica de probabilidad, que establece que: Si S es un espacio muestral finito y todos los puntos muestrales son equivalentes o igualmente representativos, entonces la probabilidad de ocurrencia de cualquier suceso A definido en S puede calcularse como el cociente del número de resultados favorables al suceso A (tamaño del suceso) entre el número de resultados posibles (tamaño del espacio muestral), así: N( A ) P( A ) = N(S) Ejemplos: La probabilidad de obtener el número 6 al lanzar un dado será: A: Que salga el 6. N(A) = 1 P(A) = 1/6 = 0,167 La probabilidad de obtener un número par será: D: Que salga un número par N(D) = 3 P(D) = 3/6 = 0,5 32
  • 34. La definición clásica también se conoce como definición a “priori” de probabilidad, porque no es necesario realizar el experimento para calcular la probabilidad de ocurrencia. Esta definición tiene las siguientes limitaciones: 1. No puede ser aplicada a espacios muestrales infinitos. 2. No puede ser aplicada cuando los puntos muestrales no son equiprobables, o lo que es lo mismo, igualmente probables. DEFINICIÓN ESTADÍSTICA DE PROBABILIDAD: Debido a las limitaciones que confronta la definición clásica de probabilidad, se comenzaron a realizar experimentos con los juegos de azar, surgiendo el concepto de regularidad estadística. Se le llama regularidad estadística a la estabilidad que presentan las frecuencias relativas asociadas a un suceso al considerar un gran número de veces un experimento bajo las mismas condiciones; por ejemplo, si una moneda se lanza un gran número de veces (500, 1000 veces), se observará que aproximadamente el 50% de estas veces sale cara, y mientras más lanzamientos se haga más tenderá este valor al 50%. A partir de la regularidad estadística, surge la definición estadística de probabilidad que plantea: Si el número de observaciones (n) tiende a infinito, la frecuencia relativa asociada a un suceso A (fA), alcanza un cierto valor límite o ideal, y entonces puede asociarse a un número P(A) equivalente a la probabilidad de ocurrencia de A, así: nA P( A ) = lim = lim f A n→ ∞ n n→ ∞ Ejemplo: Un arquero ha acertado 70 veces en un blanco de un total de 100 intentos, y se quiere conocer la probabilidad de que haga blanco en un nuevo tiro. Sea A: acertar en el blanco Se tiene que n = 100 y nA = 70. Entonces: P(A) = 70/100 = 0,70 O sea, se espera que el arquero haga blanco un 70% de las veces que tire. La definición estadística o frecuencial además se conoce como definición “a posteriori” de probabilidad, porque si no se realiza el experimento no se puede calcular la misma. Esta definición también tiene limitaciones, dadas por lo siguiente: No siempre es posible repetir un experimento un mismo número de veces bajo las mismas condiciones. PROPIEDADES DE LA PROBABILIDAD: La probabilidad, como medida de la posibilidad de ocurrencia de un suceso, cumple las siguientes propiedades: • P(A) ≥ 0 • P(S) = 1 33
  • 35. Lo anterior implica que: 0 ≤ P(A) ≤ 1 Nota: Es común multiplicar las probabilidades por 100 para expresarlas porcentualmente, y de esta forma, lógicamente, resultará un número (un valor porcentual) entre 0 y 100. EJERCICIOS DE AUTOEVALUACIÓN 1.- ¿Qué es un experimento aleatorio? 2.- ¿Puede calcularse probabilidad a partir de un experimento determinista?. Explique. 3.- ¿Cuáles son los sucesos mutuamente excluyentes? 4.- ¿Cuáles son los sucesos complementarios? 5.- Explique la diferencia entre unión e intersección y proporcione un ejemplo de cada uno. 6.- ¿Cómo se define la probabilidad clásicamente? ¿Bajo que condiciones puede aplicarse? 7.- ¿Cómo se define la probabilidad estadística o frecuencialmente? 8.- ¿Cuáles son las limitaciones de ambas definiciones? 9.- En una amplia red metropolitana se seleccionó una muestra de 500 entrevistados para determinar diversas informaciones relacionadas con el comportamiento del consumidor. Entre las preguntas hechas se encontraba: “¿disfruta ir de compras?”. De 240 hombres 136 contestaron que sí; de 260 mujeres 224 contestaron que sí. a.- De un ejemplo de un evento simple. b.- ¿Cuál es el complemento de disfrutar ir de compras? c.- ¿Cual es la probabilidad de que el entrevistado seleccionado en forma aleatoria ... c.1 sea hombre? c.2 disfrute ir de compras? c.3 sea mujer? c.4 no disfrute ir de compras? c.5 sea mujer y disfrute ir de compras? c.6 sea hombre y no disfrute ir de compras? c.7 sea hombre y disfrute ir de compras? c.8 sea mujer o disfrute ir de compras? c.9 sea hombre o no disfrute ir de compras? 34
  • 36. 2.2: Axiomatización de la Probabilidad. Reglas de cálculo de probabilidades. Probabilidad condicional. Independencia de sucesos. Existen múltiples situaciones complejas en las que es necesario o deseable conocer la probabilidad de ocurrencia de un determinado suceso, y donde la aplicación directa de alguna de las definiciones de este concepto parece prácticamente imposible; de ahí que la teoría en torno a las probabilidades continuase desarrollándose para encontrar solución a estos casos, dando lugar a numerosos teoremas y reglas. Dadas las limitaciones que presentan las dos definiciones previas, en 1933 se axiomatiza la probabilidad a partir de la formulación de tres axiomas básicos. Entonces, si S es un espacio muestral y A un suceso definido en S, se dirá, que todo suceso A definido en S está asociado a un numero real P(A), llamado probabilidad de A, el cual cumplirá con los siguientes axiomas: 1. P(A) ≥ 0 2. P(S) = 1 3. P(A1 ∪ A2 ∪ A3 ∪ ... ∪ Ak) = P(A1) + P(A2) + ... + P(Ak) si los k sucesos son excluyentes o lo que es lo mismo si para cada par Ai y Aj se tiene que AiAj = ø siendo i ≠ j. TEOREMAS ASOCIADOS AL CÁLCULO DE PROBABILIDADES: De los axiomas establecidos para la probabilidad se derivan algunos teoremas que encuentran aplicación directa en el cálculo de probabilidades, entre los más usados están: Teorema 1: La probabilidad de un suceso imposible o nulo es cero: P(∅) = 0 Teorema 2: Si A es un subconjunto de B entonces P(A) ≤ P(B) Teorema 3: La probabilidad del suceso complementario al suceso A es igual a la probabilidad del espacio muestral, que es igual a 1 ( P(S) = 1 ), menos la probabilidad de A. P(A') = 1 - P (A) Teorema 4: La probabilidad de que ocurra A y no ocurra B será: P(AB') = P(A) - P(AB) Teorema 5: La probabilidad de que ocurra la unión de dos sucesos, A y B, será: P(A ∪ B) = P(A) + P(B) - P(AB) Este teorema es conocido como “regla de la unión”. El mismo puede generalizarse para más de dos sucesos; por ejemplo, la regla de la unión referida a tres sucesos queda: 35
  • 37. P(A ∪ B ∪ C) = P(A) + P(B) + P(C) - P(AB) - P(AC) - P(BC) + P(ABC) Teorema 6: La probabilidad de que no ocurra ninguno de dos sucesos, A y B, será: P(A’B’) = 1 - P(A ∪ B) Ejemplo: De un grupo de 1000 habaneros: 420 leen Granma, 105 leen Juventud Rebelde y 45 leen ambos periódicos. a.- ¿Cuál es la probabilidad de seleccionar aleatoriamente un habanero del grupo y lea Granma o Juventud Rebelde. b.- ¿Qué probabilidad hay de que el habanero seleccionado no lea ninguno de los periódicos? c.- ¿Qué probabilidad hay de que lea sólo Granma? Sean los sucesos: G: leer Granma J: leer Juventud Rebelde. Se tiene: N(S) = 1000 N(G) = 420, por tanto: P(G) = 0,42 N(J) = 105, por tanto: P(J) = 0,105 N(GJ) = 45, por tanto: P(GJ) = 0,045 a.- P(G ∪ J) = P(G) + P(J) + P(GJ) = 0,42 + 0,105 - 0,045 = 0,48 b.- P(G ∪ J)' = 1 - P(G ∪ J) = 1 - 0,48 = 0,52 c.- P(GJ') = P(G) - P(GJ) = 0,42 - 0,045 = 0,385 PROBABILIDAD CONDICIONAL: Muchas veces surge la necesidad de calcular la probabilidad de ocurrencia de un suceso asumiendo la ocurrencia de otro, que puede ser llamado condicionante; esto quiere decir que ya no interesa la totalidad del espacio muestral, sino sólo aquella parte o subconjunto de aquel que coincide con la realización del suceso condicionante. La probabilidad así calculada se le llama probabilidad condicional. Para representar la probabilidad condicional de un suceso A respecto a otro B (condicionante o condición) se utiliza la el símbolo P(A/B), que se lee “probabilidad de A dado B”, o “probabilidad de A si ocurre B”. Matemáticamente se puede calcular la probabilidad condicional como el cociente de la probabilidad de intersección de los dos sucesos entre la probabilidad del suceso condicionante: 36
  • 38. P( AB) P( A / B) = P(B) También se puede calcular la probabilidad condicional directamente a partir del tamaño de los sucesos: N( AB) P( A / B) = N(B) Ejemplo: En una escuela de idiomas se ha visto que el 70% de los estudiantes termina bien el primer año de Inglés, y que un 59,5% termina bien los dos años de estudio. Se quiere determinar la probabilidad de que un estudiante termine bien el segundo año. Sean los sucesos: Se sabe que: A: terminar bien el 1er año de Inglés P(A)=0,70 B: terminar bien el 2do año de Inglés P(AB)=0,595 P( AB) 0,595 Entonces: P(B / A ) = = = 0,85 P( A ) 0,70 REGLA DEL PRODUCTO: Si A y B son sucesos definidos en S, la probabilidad de AB, de acuerdo a la definición de probabilidad condicional, se puede expresar como: P(AB) = P(A) P(B/A) P(AB) = P(B) P(A/B) De la misma forma: P(ABC) = P(A)P(B/A)P(C/AB) Luego la regla del producto expresa la probabilidad de que ocurran A y B en un orden determinado: P(AB)=P(A)P(B/A) que primero salga A y en segundo lugar salga B ó P(AB)=P(B)P(A/B) que primero salga B y en segundo lugar A Si no interesa el orden, sino que salga una vez A y una vez B, entonces se tienen que expresar las dos combinaciones posibles que hay: P(AB) = P(A1 B2 ) + P(B1 A2 ) Ejemplo. De una urna que contiene 4 esmeraldas y 1 brillante, se extraen 2 piedras, una a una, sin reposición. Calcule la siguiente probabilidad. a.- Que la 1ra piedra sea esmeralda y la 2da brillante. b.- Que las dos piedras sean esmeraldas c.- Solo una sea esmeralda. Solución: como es sin reposición las extracciones, entonces los sucesos son dependientes, además que piden orden. a.- P(E1 B2 )= P(E)P(B/E) = 4/5 . 1/4 = 4/20 = 1/5 = 0.20 b.- P(E1 E2)= 4/5 . 3/4 = 16/20 = 6/10 = 0.6 c.- P(E1 B2 ∪ B1 E2) = P(E)P(B/E) + P(B)P(E/B) 37
  • 39. = 4/5 . 1/4 + 1/5 . 4/4 = 4/20 + 4/20 = 8/20 = 4/10 = 0.4 INDEPENDENCIA DE SUCESOS: Dos sucesos A y B se llaman independientes, cuando la probabilidad de ocurrencia de uno de ellos, no depende de la ocurrencia o no del otro. Dos sucesos son independientes si se cumple alguna de las siguientes igualdades: 1. P(A/B) = P(A) 2. P(B/A) = P(B) 3. P(AB) = P(A) P(B) Se debe aclarar que sólo se puede comprobar independencia a través de esta última fórmula si se tienen las 3 probabilidades y comprobar si la intersección es igual al producto de la probabilidad de ambos sucesos. Un ejemplo de independencia es el siguiente: Si se lanza una moneda dos veces, la probabilidad de que salga cara en el primer lanzamiento, no depende de que salga cara o no en el segundo lanzamiento. Ejemplo: Si una caja contiene 100 piezas de las cuáles 20 son defectuosas y se extraen aleatoriamente 2 piezas una a una (con reposición). ¿Cuál será la probabilidad de obtener una pieza defectuosa en la primera extracción?: P=20/100=0.20 ¿Y cuál será la probabilidad, en la segunda extracción, de obtener también una pieza defectuosa? P=20/100=0.20, es decir exactamente igual, esto es debido a que se repuso la primera pieza. Por tanto, cuando las observaciones son con reposición se puede considerar que son independientes, pues lo que ocurre en la segunda extracción es independiente de lo que ocurre en la primera (y así con las sucesivas, si hay más). Pero si no se repone, es decir, se hacen las observaciones “sin reposición” la probabilidad de cada observación depende de las anteriores. Si de la caja de 100 piezas en la primera extracción sale una pieza defectuosa, la probabilidad de pieza defectuosa en la segunda extracción, sin reponer la primera pieza tomada, será 19/99; pero si lo que sale en la primera extracción es una pieza en buen estado, entonces la probabilidad de pieza defectuosa en la segunda extracción será 20/99. Generalmente para los juegos de azar, es fácil decidir si dos sucesos son independientes o no. Para otros experimentos aleatorios, se debe tener más cuidado. Ejemplo. Si se tienen 3 sucesos definidos en un espacio muestral S y se conoce que: P(A)=0.40 P(B)=0.42 P(C)=0.15 P(A/B)=0 P(A/C)=0 P(C/B)=0 38