1. Republica Bolivariana de Venezuela
Poder Popular Para la educación
I.U.P. Santiago Mariño
Sede Barcelona
Ing. Industrial
Barcelona, 07 de Julio de 2015
Estudiante:
Elianny González
C.I: 25389265
Profesor:
Pedro Beltrán
2. COEFICIENTE DE LA CORRELACIÓN DE PEARSON
• En estadistica, el coeficiente de correlación de Pearson es una medida
de la relación lineal entre dos variables aleatorias cuantitativas. A
diferencia de la con varianza, la correlación de Pearson es
independiente de la escala de medida de las variables.
De manera menos formal, podemos definir el coeficiente de correlación
de Pearson como un índice que puede utilizarse para medir el grado de
relación de dos variables siempre y cuando ambas sean cuantitativas.
3. En el caso de que se esté estudiando dos variables
aleatorias x e y sobre una población; el coeficiente de
correlación de Pearson se simboliza con la letra P{x,y},
siendo la expresión que nos permite calcularlo:
Donde:
O{XY} es la covarianza de (X,Y)
O{X} es la desviación típica de la variable X
O{Y} es la desviación típica de la variable Y
De manera análoga podemos calcular este coeficiente
sobre un estadístico muestral, denotado como P{xy} a:
Definición:
El valor del índice de correlación varía en el intervalo [-
1,1]:
Si r = 1, existe una correlación positiva perfecta. El índice
indica una dependencia total entre las dos variables
denominada relación directa: cuando una de ellas
aumenta, la otra también lo hace en proporción
constante.
Si 0 < r < 1, existe una correlación positiva.
Si r = 0, no existe relación lineal. Pero esto no
necesariamente implica que las variables son
independiente: pueden existir todavía relaciones no
lineales entre las dos variables.
Si -1 < r < 0, existe una correlación negativa.
Si r = -1, existe una correlación negativa perfecta. El
índice indica una dependencia total entre las dos
variables llamada relación inversa: cuando una de ellas
aumenta, la otra disminuye en proporción constante.
Interpretacion
4. VENTAJA DE PEARSON
• Una ventaja de este coeficiente consiste en la posibilidad de calcular
su distribución muestral y así poder determinar su error típico de estimación.
Esto origina una desventaja, dos coeficientes de contingencias no son
comparables, a menos que ellos sean calculados de tablas de contingencias del
mismo tamaño
5. CORRELACION RESPECTO A SPERMAN
• En estadística, el coeficiente de correlación de Spearman, ρ (rho) es una medida de la
correlación (la asociación o interdependencia) entre dos variables aleatorias continuas.
Para calcular ρ, los datos son ordenados y reemplazados por su respectivo orden.
• El estadístico ρ viene dado por la expresión:
donde D es la diferencia entre los correspondientes estadísticos de orden de x - y. N es el
número de parejas.
Se tiene que considerar la existencia de datos idénticos a la hora de ordenarlos, aunque si
éstos son pocos, se puede ignorar tal circunstancia
• Para muestras mayores de 20 observaciones, podemos utilizar la siguiente aproximación
a la distribución t de Student
La interpretación de coeficiente de Spearman es igual que la del coeficiente de correlación
de Pearson. Oscila entre -1 y +1, indicándonos asociaciones negativas o positivas
respectivamente, 0 cero, significa no correlación pero no independencia. La tau de Kendall
es un coeficiente de correlación por rangos, inversiones entre dos ordenaciones de una
distribución normal bivariante.
6. El primer paso es ordenar los datos de la primera
columna. Se agregan dos columnas 'orden(i)' y 'orden(t)'
Para el orden i, se corresponderán con el numero de fila
del cuadro, para 99, orden(i) =3 ya que ocupa el 3.er
lugar, ordenado de menor a mayor
para el orden t, se debe hacer lo mismo pero ordenando
por 'Horas de TV a la semana', para no hacer otro
cuadro, la secuencia ordenada quedaría
T = { 0, 7, 7, 12, 17, 20, 28, 28, 28, 50 }
para este caso, el orden sería para cada elemento,
respectivamente:
orden(t) = { 1, 2, 3, 4, 5, 6, 7, 8, 9, 10 }
sin embargo, el valor de orden esta dado por el valor
promedio de sus posiciones, así para:
7 aparece 2 veces, sumando sus posiciones = ( 2 + 3 ) / 2
= 2.5
28 aparece 3 veces, sumando sus posiciones = ( 7 + 8 + 9
) / 3 = 8
50 aparece 1 vez, sumando sus posiciones = 10 / 1 = 10
Después, se crean dos columnas más, una columna "d"
que muestra las diferencias entre las dos columnas de
orden y, otra columna "d2". Esta última es sólo la
columna "d" al cuadrado.
Después de realizar todo esto con los datos del ejemplo,
se debería acabar con algo como lo siguiente:
7. Nótese como el número de orden de los valores que son
idénticos es la media de los números de orden que les
corresponderían si no lo fueran.
Los valores de la columna d2 pueden ser sumados para
averiguar.
El valor de n es 10. Así que esos valores pueden ser
sustituidos en la fórmula.
De lo que resulta