SlideShare uma empresa Scribd logo
1 de 91
APRENDIZAJE NO SUPERVISADO
Facilitador:
Jairo Acosta Solano
APRENDIZAJE NO SUPERVISADO
Metas de formación:
• Conocer los detalles del aprendizaje no supervisado
y su importancia en los modelos de analítica de
datos.
• Aplicar algoritmos para la identificación de clústeres
que pueden convertirse en los atributos clase para
el aprendizaje supervisado.
APRENDIZAJE SUPERVISADO
Los modelos de aprendizaje supervisado son aquellos en
los que se aprenden funciones, relaciones que asocian
entradas con salidas, por lo que se ajustan a un conjunto
de ejemplos de los que conocemos la relación entre la
entrada y la salida deseada.
Este hecho incluso llega a proporcionar una de las
clasificaciones más habituales en el tipo de algoritmos
que se desarrollan, así, dependiendo del tipo de salida,
suele darse una subcategoría que diferencia entre
modelos de clasificación, si la salida es un valor
categórico (por ejemplo, una enumeración, o un conjunto
finito de clases) , y modelos de regresión, si la salida es un
valor de un espacio continuo.
APRENDIZAJE NO SUPERVISADO
Los modelos de aprendizaje no supervisado son aquellos
en los que no estamos interesados en ajustar pares
(entrada, salida), sino en aumentar el conocimiento
estructural de los datos disponibles (y posibles datos
futuros que provengan del mismo fenómeno), por
ejemplo:
• Dando una agrupación de los datos según su similaridad
(clustering),
• Simplificando las estructura de los mismos
manteniendo sus características fundamentales (como
en los procesos de reducción de la dimensionalidad),
• Extrayendo la estructura interna con la que se
distribuyen los datos en su espacio original (aprendizaje
topológico).
APRENDIZAJE NO SUPERVISADO
La mayor parte de las definiciones, resultados teóricos, y
algoritmos clásicos más importantes, se clasifican como
algoritmos supervisados y, sobre todo en el pasado,
muchos de los algoritmos no supervisados se reservaban
para tareas de preprocesamiento de datos integrados en
metodologías más amplias.
APRENDIZAJE NO SUPERVISADO
Este hecho se debe, principalmente, a un cadena de
factores.
Por una parte, el objetivo que dirige el aprendizaje
supervisado está mucho más claramente definido,
mientras que el no supervisado resulta más etéreo y
difuso. Esto no solo afecta a un desarrollo más amplio al
disponer de aplicaciones mejor definidas, sino que
también permite disponer de métricas que permiten
evaluar con mucha más claridad la bondad del
aprendizaje realizado (el rendimiento del algoritmo).
Por otra parte, y quizás como resultado de lo anterior, los
algoritmos no supervisados resultan ser muy costosos
porque requieren de más pruebas de ensayo y error,
haciendo que requieran de un aparataje teórico y
computacional mucho más elaborado.
APRENDIZAJE NO SUPERVISADO
Sin embargo, sobre todo recientemente, han ido
surgiendo nuevos algoritmos no supervisados
relacionados con lo que se conoce como Aprendizaje de
la Representación, que ha demostrado ser el núcleo del
Aprendizaje Automático, y donde líneas de trabajo como
el Deep Learning están tomando el peso de los avances
más interesantes que se están produciendo, hasta el
punto de considerarse que el futuro de la Inteligencia
Artificial se encuentra más cerca del aprendizaje no
supervisado que del supervisado.
APRENDIZAJE NO SUPERVISADO
Mientras que en el aprendizaje supervisado tenemos un
conjunto de variables que usamos para predecir una
determinada clase de salida (sube/baja, renuncia/no
renuncia), en el aprendizaje no supervisado no tenemos
clases de salida esperadas.
En el aprendizaje supervisado teníamos data de
entrenamiento y data de testeo que nos permitía validar
la efectividad del modelo por la cercanía a la clase
conocida.
En el aprendizaje no supervisado no tenemos output
predeterminado. Esto genera a su vez un gran reto
porque es muy difícil saber si ya culminamos con el
trabajo o podemos aun generar otro modelo con el que
nos sintamos más satisfechos.
APRENDIZAJE NO SUPERVISADO
Las principales aplicaciones del aprendizaje no
supervisado están relacionadas en el agrupamiento o
clustering de datos.
Aquí, el objetivo es encontrar subgrupos homogéneos
dentro de los datos. Estos algoritmos se basan en la
distancia entre observaciones. El ejemplo de la
segmentación de clientes sería un ejemplo de clustering.
APRENDIZAJE NO SUPERVISADO
El clustering (análisis de conglomerados), es una categoría
de técnicas de aprendizaje no supervisadas que nos
permite descubrir estructuras ocultas en los datos donde
no sabemos la respuesta correcta por adelantado. El
objetivo de la agrupación es encontrar una agrupación
natural en los datos para que los elementos del mismo
grupo sean más similares entre sí que a los de diferentes
grupos.
APRENDIZAJE NO SUPERVISADO
Dada su naturaleza exploratoria, la agrupación en
clústeres es puede ayudarnos a organizar los datos en
estructuras significativas:
• Encontrar centros de similitud utilizando el popular
algoritmo de k-means
• Adopción de un enfoque de abajo hacia arriba para
construir árboles de agrupamiento jerárquico.
• Identificar formas arbitrarias de objetos mediante un
enfoque de agrupamiento basado en densidad
ANALISIS DE
CONGLOMERADOS (CLUSTERS)
Contextualización
Métodos de Dependencia: Se asume que una variable (Y) depende de (es
causada o determinada por) otras variables (X1, X2 etc.)
Ejemplos: Regresión, ANOVA, Análisis Discriminante
Métodosde Independencia: No se asume que ninguna variable sea causada o
determinada por otras. Básicamente tenemos X1, X2 ….Xn (pero no Y)
Ejemplos: Análisis de Conglomerados, Análisis Factorial, etc.
Cuándo se usan métodos de independencia se deja que los datos
hablen por ellos mismos. No hay modelización previa.
Contextualización
Análisis Factorial: Cuando lo que interesa son agrupar variables.
Análisis Clúster: Cuando lo que interesa son agrupar observaciones.
Principio rector: Maximización de la homogeneidad intra grupos (conglomerados,
segmentos) y simultáneamente Maximización de la heterogeneidad inter grupos.
X1 X2 X3 X4 Cluster
Obs1 5 2 1 3 1
Obs2 3 3 4 2 2
Obs3 2 4 3 5 3
Obs4 5 3 2 4 1
Obs5 . . . . 2
Obs6 . . . . 3
Obs7 . . . . 3
Obs8 . . . . 1
Obs9 . . . . 3
Obs10 . . . . 2
Cluster 1
Cluster 2
Cluster 3
Resultado final: En el archivo de datos, una nueva variable que asigna
cada observación a un conglomerado específico.
Dos fases fundamentales. 1ª: Obtención de segmentos
Cluster 1 Cluster 2 Cluster 3
Edad 32 44 56
% Mujeres 31 54 46
Tamaño de la familia 1.4 2.9 2.1
Opinión 1 3.2 4.0 2.6
Opinión 2 2.1 3.4 3.2
Opinión 3 2.2 3.3 3.0
“Jóvenes solteros”
“Familia tradicional”
“Maduros felices”
Dos fases fundamentales. 2ª: Perfilado de segmentos
Resultado final: Una tabla de contingencia entre la variable de agrupamiento y una
serie de variables sociodemográficas o de otro tipo (distintas de las utilizadas para
establecer los conglomerados).
1
7
¿Cómo se construyen los conglomerados?
El análisis estadístico necesita:
1.Una MEDIDA para calcular la distancia entre dos sujetos, lo distintos
que son.
2. Un criterio, una regla, un MÉTODO PARA AGRUPARLOS y asignarlos a
cada conglomerado.
Eltipo de medida seleccionada muchas veces influye poco en los
resultados finales.
Y
*B(x2, y2)
y2-y1
(x
A *)
1, y1
x2-x1
X
d = (x -x )
2
+(y -y )
2
2 1 2 1
Otras distancias disponibles: City-Block (usa de distancias absolutas en vez de
la distancia al cuadrado de las coordenadas), Minkowski, Coseno, Chebychev,
Correlación de Pearson.
¿La medida? Distancia Euclídea
¿El método de agrupamiento? Hay muchos y muy diferentes
Nombre
1 Vinculación entre-grupos
2 Vinculación intra-grupos
3 Vecino más próximo
4 Vecino más lejano
5 Agrupación de centroides
6 Agrupación de medianas
7 Método de Ward
8 Conglomerado de k-means
9 Análisis Factorial
Jerárquicos Iterativos
Aglomerativos Divisivos
- Umbral secuencial
- Umbral paralelo
- Redes Neuronales
- Partición óptima (8)
Métodos sin solapamiento Métodos con solapamiento
- k-centroides con solapamiento
- k-means con solapamiento
- Análisis de Clases Latentes
- AC Borroso
- Factorial Tipo-Q (9)
Métodos de
vinculación
Métodos de
centroide
Métodos de
varianza
- Centroide (5)
- Mediana (6)
- Promedio
- Entre grupos (1)
- Intra grupos (2)
- Ponderado
- Único
- Ordinario (3)
- Densidad
- Dos fases
- Completo (4)
- Ward (7)
Principales tipologías de agrupamiento
Vinculación única:
Mínima distancia
* *
Vinculación completa:
Máxima distancia
* *
Vinculación media
(inter-grupos):
Distancia media
*
*
*
*
Método de Ward:
Minimización de la
varianza intragrupos
*
*
*
* ¤ *
* *
*
¤*
Método de centroide:
Distancia entre centros
*
* *
* *
*
¤ *
*
¤
*
*
Sin solapamiento Con solapamiento
Jerárquico No jerárquico
1a 1b
1c
1b
1b1
1b2
2
Aglomerativo Divisivo
1a
*G
*D
C *
¿CÓMO FUNCIONAN LOS PROCEDIMIENTOS JERÁRQUICOS (AGLOMERATIVOS)?
¿Qué par de elementos se unirán primero?
A* *B
*E
H*
*D
C *
Depende de la medida de distancia que utilicemos, pero supongamos
que A-B y D-E. Surgen así dos conglomerados.
*G
A* *B
*E
H*
C *
*D
El siguiente punto más próximo a estos dos conglomerados es C. ¿A
dónde será adscrito?
*G
A* *B
*E
H*
C *
*D
A dónde se encuentre más próximo (distancia euclídea), pero... EXISTEN
VARIAS POSIBILIDADES (métodos de agrupamiento).
*G
A* *B
*E
H*
10,5 8,5 7,0
8,5
9,0
12,0
11,0
C *
*D
A dónde se encuentre más próximo (distancia euclídea), pero... EXISTEN
VARIAS POSIBILIDADES (métodos de agrupamiento):
*G
A* *B
9,5
*E
H*
C *
*D
VECINO MÁS LEJANO (COMPLETE LINKAGE): Adscribe C al conglomerado
cuya distancia el caso más alejado de ese conglomerado es menor.
*G
A* *B
10,5
9,5
*E
H*
d(C;AB)=max(dCA;dCB)
8,5
*D
VECINO MÁS PRÓXIMO (SINGLE LINKAGE): Adscribe C al conglomerado
cuyo distancia al caso más cercano de ese conglomerado es menor.
*G
A* *B
7,0
d(C;AB)=min(dCA;dCB)
C *
Inconvenientes: Encadenamiento
Ventajas: Detecta muy bien “outliers”.
*E
H*
9,0
8,5
C *
*G
*D
MÉTODOS BASADOS EN PUNTUACIONES MEDIAS: Adscribe C al
conglomerado cuya promedio de distancias es menor.
A* *B
WARD y VINCULACIÓN INTERGRUPOS.
H* *E
• Vinculación Intragrupos
• Vinculación intergrupos
• Mediana
• Centroide
• Ward
Tienden a obtener conglomerados de
tamaño similar.
Preferibles al resto de jerárquicos, especialmente
MÉTODOS BASADOS EN PUNTUACIONES MEDIAS: Adscribe C al
conglomerado cuya distancia es menor a...
Vinculación INTERgrupos: Media de todas las distancias entre C y cada uno de
los elementos del conglomerado.
Vinculación INTRAgrupos: Incluye además las distancias dentro de cada
conglomerado, es decir, todas las posibles.
MÉTODOS BASADOS EN PUNTUACIONES MEDIAS: Adscribe C al
conglomerado cuya distancia es menor a...
Centroide: Centro de simetría del cluster, calculado como la media de las
distancias de todos sus elementos:
Mediana: Centroides calculados sólo con valores centrales.
Ward: Proporciona la menor suma de cuadrados intragrupos. Envez de utilizar
las distancias entre casos utiliza esta medida de variabilidad.
Todos estos métodos JERÁRQUICOS...
... como resultado de su proceso
aglomerativo, ofrecen un
DENDROGRAMA, una representación
gráfica en forma de árbol que
muestra:
1. Qué elementos se han ido
uniendo en cada paso.
2. Cómo se organizan los casos.
3. Cuántos conglomerados
podemos distinguir en los datos.
Paso 0:
Cada observación
Es considerada
como un
conglomerado
independiente
0,2 0,4 0,6 0,8 1,0
OBS 5 *
OBS 3 *
OBS 4 *
OBS 6 *
Medida de Distancia
¿CÓMO SE CREA EL DENDROGRAMA?
OBS 1 *
OBS 2 *
Paso 1:
Se agrupan los dos
casos más próximos
entre sí.
0,2 0,4 0,6 0,8 1,0
OBS 1 *
Cluster1
OBS 2 *
OBS 3 *
OBS 4 *
OBS 5 *
OBS 6 *
Paso 2:
Se agrupan los
siguientes casoscon
menores distancias
entre ellos.
OBS 1 *
Cluster1
OBS 2 *
OBS 3 *
OBS 4 *
OBS 5 *
Cluster 2
OBS 6 *
0,2 0,4 0,6 0,8 1,0
Paso 3:
El caso 3 se une al
clúster 1
OBS 1 *
Cluster1
OBS 2 *
OBS 3 *
OBS 4 *
OBS 5 *
Cluster 2
OBS 6 *
0,2 0,4 0,6 0,8 1,0
OBS 1 *
OBS 5 *
OBS 2 *
OBS 3 *
OBS 4 *
OBS 6 *
Cluster 1-2
Paso 4:
Se juntan los dos
clusters 1 y 2,
quedando un sólo
caso desparejado:
un outlier.
0,2 0,4 0,6 0,8 1,0
Ejemplos de dendrogramas
Un buen resultado:
2 conglomerados
claros
Un mal resultado:
No hay
conglomerados
claros
Un mal resultado:
Tenemos un outlier (caso 1017)
y el dendrograma muestra
encadenamiento
Dendrograma típico al emplear
Vecino Más Próximo
Ejemplos de dendrogramas
¿Y QUÉ HAY DE LOS MÉTODOS ITERATIVOS?
No agrupan los datos por similaridad entre ellos No crean un dendrograma.
Son métodos que van ajustando iterativamente los centroides de un número
fijo de conglomerados k a los datos.
• Cada paso de un método jerárquico va agrupando casos similares en un
mismo cluster.
• Cada paso de un método iterativo va recolocando los centroides para que
estén óptimamente posicionados en el centro real del conglomerado.
El algoritmo de los k vecinos más cercanos (k-NN, o k
Nearest Neighbour) es un algoritmo de clasificación
supervisado basado en criterios de vecindad.
En particular, k-NN se basa en la idea de que los nuevos
ejemplos serán clasificados con la misma clase que
tengan la mayor cantidad de vecinos más parecidos a
ellos del conjunto de entrenamiento.
Así pues, este algoritmo sigue un procedimiento que
seguimos cada uno de nosotros al ver un ejemplo nuevo:
vemos a qué se parece más de lo que conocemos, y lo
metemos en la misma bolsa.
Algoritmo K-NN
Obviamente, este algoritmo introduce ya una condición
que debe cumplirse entre los datos que tengamos, y es
que hemos de ser capaces de medir la similaridad entre
dos cualesquiera de ellos, por eso se considera que el
espacio de datos de entrada debe ser algo parecido a un
espacio métrico (es decir, un espacio donde haya una
distancia definida), por lo que muchas veces será común
pensar en los datos de entrada como si vinieran dados
por medio de vectores de un espacio vectorial numérico
estándar.
Algoritmo K-NN
Su versión más simple, el algoritmo del vecino más
cercano (aquel que asigna a una nueva muestra la
clasificación de la muestra más parecida) explora todo el
conocimiento almacenado en el conjunto de
entrenamiento para determinar cuál será la clase a la que
pertenece una nueva muestra, pero únicamente tiene en
cuenta el vecino más próximo (más similar) a ella, por lo
que es lógico pensar que es posible que no se esté
aprovechando de forma eficiente toda la información que
se podría extraer del conjunto de entrenamiento.
Algoritmo K-NN
Con el objetivo de resolver esta posible deficiencia surge
la generalización de los k vecinos más cercanos (k-NN), en
la que se utiliza la información suministrada por los k
ejemplos del conjunto de entrenamiento más cercanos al
que queremos clasificar.
Algoritmo K-NN
En problemas prácticos donde se aplica esta regla de
clasificación se acostumbra tomar un número, k, de
vecinos impar para evitar posibles empates (aunque esta
decisión solo resueve el problema en clasificaciones
binarias).
En otras ocasiones, en caso de empate, se selecciona la
clase que verifique que sus representantes tengan la
menor distancia media al nuevo ejemplo que se está
clasificando.
En última instancia, si también así se produce un empate,
siempre se puede decidir aleatoriamente entre las clases
con mayor representación.
Algoritmo K-NN
A partir de una idea tan simple es fácil introducir
variantes que se espera funcionen mejor, aunque suele
ser a cambio de introducir complejidad computacional, y
una posible variante de este algoritmo consiste en
ponderar la contribución de cada vecino de acuerdo a la
distancia entre él y la muestra a ser clasificada, dando
mayor peso a los vecinos más cercanos frente a los que
puedan estar más alejados.
Algoritmo K-NN
Por ejemplo, podemos ponderar el voto de cada vecino
de acuerdo al cuadrado inverso de sus distancias:
Si x es el ejemplo que queremos clasificar, V son las
posibles clases de clasificación, y {x1,…,xk} es el conjunto
de los k ejemplos de entrenamiento más cercanos,
definimos el peso de xi respecto a x como:
Algoritmo K-NN
y entonces la clase asignada a x es aquella que verifique
que la suma de los pesos de sus representantes sea
máxima, es decir:
Esta mejora es muy efectiva en muchos problemas
prácticos. Es robusto ante el ruido de los datos y
suficientemente efectivo en conjuntos de datos grandes.
Algoritmo K-NN
Algoritmo K-NN
En el algoritmo k-NN existe el problema de que requiere
de mucha memoria y tiempo de ejecución porque hay
que almacenar continuamente todos los datos que
definen el espacio de ejemplos inicial. Sin embargo, es
muy probable que muchas de las muestras iniciales no
sean necesarias para clasificar las demás, ya que su
información es redundante con las otras existentes.
Algunas variantes interesantes que intentan mitigar este
problema son:
• K-NN condensado
• K-NN Reducido
Algoritmo K-NN
k-NN Condensado: Dado un orden en los datos de entrada,
cada ejemplo del conjunto se clasifica por medio de k-NN
haciendo uso únicamente de los datos anteriores; si la
clasificación obtenida coincide con la real, ese ejemplo se
elimina de los datos, si no, permanece. Observa que depende
del orden dado a los datos y, además, tiene el problema de
conservar los datos que introducen ruido al sistema.
k-NN Reducido: es similar a la anterior, pero se comienza con
el conjunto completo de datos, y se eliminan aquellos que no
afectan a la clasificación del resto de datos de entrada. Al
revés de lo que ocurre con la condensación, este método es
capaz de eliminar las muestras que producen ruido, y guarda
aquellas que son críticas para la clasificación.
Algoritmo K-NN
Un problema fundamental que presenta este algoritmo es
que no proporciona un mecanismo independiente de los
datos, sino que precisa del conjunto de entrenamiento
completo para poder evaluar cualquier nuevo ejemplo. Lo
que significa que el algoritmo debe acompañarse de los
datos de aprendizaje para poder ser aplicado.
Si el conjunto de datos es muy grande, el algoritmo puede
llegar a ser muy ineficiente. Aunque hay variantes que
permiten optimizar el proceso y disminuir el conjunto de
datos para aligerar la dependencia de este conjunto, en
ningún caso se proporciona como resultado un algoritmo
libre de datos (en este sentido, se dice que este modelo
es no paramétrico).
Algoritmo K-NN
No paramétrico significa que no hace suposiciones
explícitas sobre la forma funcional de la función que está
intentando aproximar, evitando los peligros de modelar
mal la distribución subyacente de los datos. Por ejemplo,
supongamos que nuestros datos son altamente no
gausianos pero el modelo de aprendizaje que elegimos
asume una forma gaussiana. En ese caso, nuestro
algoritmo haría predicciones extremadamente pobres.
Algoritmo K-NN
El aprendizaje basado en instancias significa que nuestro
algoritmo no aprende explícitamente un modelo. En su
lugar, elige memorizar las instancias de entrenamiento
que posteriormente se utilizan como "conocimiento" para
la fase de predicción. Concretamente, esto significa que
sólo cuando se hace una consulta a nuestra base de datos
(es decir, cuando le pedimos que prediga una etiqueta a
la que se le ha dado una entrada), el algoritmo utilizará
las instancias de entrenamiento para devolver una
respuesta.
Algoritmo K-NN
En este punto, probablemente la pregunta esencial es
cómo elegir la variable k y cuáles son sus efectos en el
clasificador. Como la mayoría de los algoritmos de
aprendizaje, la k en k-NN es lo que se denomina un
hiperparámetro que el diseñador debe elegir para
obtener el mejor ajuste posible para el conjunto de datos.
Intuitivamente, se puede pensar que K controla la forma
de la frontera entre las distintas clases del problema (los
límites de decisión).
Algoritmo K-NN
Cuando k es pequeño, estamos restringiendo la región de
una predicción dada y forzando al clasificador a ser "más
ciego" a la distribución general. Un valor pequeño para k
proporciona el ajuste más flexible, que tendrá un sesgo
bajo pero una alta varianza.
Gráficamente, el límite de decisión será más dentado. Por
otro lado, un valor k más alto promedia más votantes en
cada predicción y por lo tanto es más resistente a valores
atípicos. Los valores más grandes de k tendrán límites de
decisión más suaves, lo que significa menor varianza pero
mayor sesgo.
Algoritmo K-NN
A pesar de todo lo anterior, es un algoritmo que está en
la caja de herramientas de cualquier profesional del
análisis de datos, ya que es tremendamente sencillo de
aplicar y proporciona unos primeros resultados que
permiten medir la eficiencia comparada de otros modelos
más elaborados.
k-NN se utiliza a menudo en aplicaciones de búsqueda en
las que se buscan elementos "similares"; es decir, cuando
la tarea es de alguna forma la de "encontrar elementos
similares a uno dado" (a veces, a esto se le llama una
búsqueda k-NN).
Algoritmo K-NN
La forma de medir la similitud es creando una
representación vectorial de los elementos, y luego
comparando los vectores utilizando una métrica de
distancia apropiada (como la distancia euclidiana, por
ejemplo).
Algoritmo K-NN
Así, algunos ejemplos concretos de búsqueda de k-NN:
Búsqueda de documentos semánticamente similares (es
decir, documentos que contienen temas similares):
Búsqueda por Conceptos. Se utiliza, por ejemplo, para
ayudar a las empresas a encontrar todos los correos
electrónicos, contratos, etc. que son relevantes para una
demanda.
Algoritmo K-NN
El mayor caso de uso de la búsqueda k-NN podría ser el
de los sistemas de recomendación. Si sabe que a un
usuario le gusta un artículo en particular, entonces el
objetivo es recomendarle artículos similares. Para
encontrar artículos similares, se compara el conjunto de
usuarios a los que les gusta cada artículo; si a un conjunto
similar de usuarios les gustan dos artículos diferentes,
entonces los artículos en sí son probablemente similares.
Esto se aplica a la recomendación de productos, a la
recomendación de medios de consumo o incluso a la
"recomendación" de anuncios para mostrar a un usuario.
Algoritmo K-NN
También se puede utilizar para clasificación. k-NN no es
popular como una red neuronal o una SVM, y por lo
general funciona más lentamente y tiene menor precisión
que estas otras aproximaciones, pero tiene algunas
buenas cualidades prácticas. Es fácil de entrenar (porque
no hay entrenamiento), fácil de usar, y es fácil de
entender los resultados.
De hecho, se utiliza más en la industria de lo que podría
pensarse inicialmente. Por ejemplo, algunas empresas
utilizan algoritmos de aprendizaje profundo para generar
vectores de características que representan los rostros de
las personas.
Algoritmo K-NN
Luego usan k-NN para identificar a una persona
comparando la cara con su lista de vigilancia. ¿La razón?
k-NN es lo suficientemente bueno y no sería práctico
entrenar un clasificador separado para cada persona de la
lista de vigilancia.
Hoy en día se usa una técnica similar para clasificar de
forma sencilla la huella digital de los usuarios de un
dispositivo.
Algoritmo K-NN
Algoritmo K-Mean
Agrupar objetos por similitud usando k-means
Uno de los algoritmos de agrupación en clústeres más
populares, k-means, que se usa ampliamente en el
mundo académico y en la industria.
El agrupamiento (o análisis de conglomerados) es una
técnica que nos permite encontrar grupos de objetos
similares, objetos que están más relacionados entre sí
que con objetos de otros grupos.
Los ejemplos de aplicaciones de agrupación en clústeres
orientadas a los negocios incluyen la agrupación de
documentos, música y películas por diferentes temas, o
encontrar clientes que compartan intereses similares
basados en comportamientos de compra comunes como
base para motores de recomendación.
El algoritmo de K-means intenta encontrar una partición
de las muestras en K agrupaciones, de forma que cada
ejemplo pertenezca a una de ellas, concretamente a
aquella cuyo centroide esté más cerca. El mejor valor de K
para que la clasificación separe lo mejor posible los
ejemplos no se conoce a priori, y depende
completamente de los datos con los que trabajemos.
Algoritmo K-Mean
La diferencia con un algoritmo supervisado: en este caso,
no tenemos un conocimiento a priori que nos indique
cómo deben agruparse ninguno de los datos de que
disponemos, es decir, no hay un protocolo externo que
nos indique lo bien o mal que vamos a realizar la tarea,
ningún criterio supervisa la bondad de nuestras
soluciones.
Algoritmo K-Mean
Pero eso no significa que nosotros no podamos introducir
una medida de bondad, aunque sea artificial y subjetiva.
En este caso, el algoritmo de las K-means va a intentar
minimizar la varianza total del sistema, es decir, si ci es el
centroide de la agrupación i-ésima, y {xi
j} es el conjunto
de ejemplos clasificados en esa agrupación, entonces
intentamos minimizar la función:
Algoritmo K-Mean
Intuitivamente, cuanto más pequeña sea esta cantidad,
más agrupados están los ejemplos en esas bolsas. Pero
observemos que el número de bolsas no viene dado por
el algoritmo, sino que hemos de decidirlo antes de
ejecutarlo.
A pesar de que el problema se plantea como una
optimización (minimización de un potencial) que puede
resultar relativamente compleja, existe un algoritmo muy
sencillo que devuelve el mismo resultado (en la mayoría
de las ocasiones).
Algoritmo K-Mean
Fijado K, los pasos que sigue el algoritmo son los
siguientes:
• Seleccionar al azar K puntos del conjunto de datos como
centros iniciales de los grupos.
• Asignar el resto de ejemplos al centro más cercano (ya
tenemos K agrupaciones iniciales).
• Calcular el centroide de los grupos obtenidos.
• Reasignar los centros a estos centroides.
• Repetir desde el paso 2 hasta que no haya reasignación
de centros (o los últimos desplazamientos estén por
debajo de un umbral y no haya cambios en las
agrupaciones obtenidas).
Algoritmo K-Mean
• Inicializar de forma aleatoria K centroides de
clusters 𝜇1, 𝜇2, … , 𝜇𝐾
• Repetir
• for i=1 to m
• 𝑐(𝑖) =indexar de 1 hasta K al clúster más
cercano a 𝑥(𝑖)
𝑚𝑖𝑛𝐾| 𝑥 𝑖
− 𝜇𝑘 |2
• For k=1 to K
• 𝜇𝑘 = promedio de los puntos asignados al
cluster k (centroides)
Algoritmo K-Mean
El algoritmo anterior es relativamente eficiente, y
normalmente se requieren pocos pasos para que el
proceso se estabilice pero, en contra, es necesario
determinar el número de agrupaciones a priori.
Además, como ocurre en muchos problemas de
optimización por aproximaciones sucesivas, el sistema es
sensible a la posición inicial de los K centros, haciendo
que no consigan un mínimo global, sino que se sitúe en
un mínimo local (algo muy común cuando se trabaja con
un problema de optimización no convexo).
Por desgracia, no existe un método teórico global que
permita encontrar el valor óptimo de grupos iniciales ni
las posiciones en las que debemos situar los centros, por
lo que se suele hacer una aproximación experimental
repitiendo el algoritmo con diversos valores y posiciones
de centros.
Algoritmo K-Mean
En general, un valor elevado de K hace que el error
disminuya, pero a cambio se tiene un sobre
entrenamiento que disminuye la cantidad de información
que la agrupación resultante da.
De hecho, si se toma K igual al tamaño del conjunto de
entrenamiento, es decir, tantas agrupaciones como
puntos, el potencial anterior resulta ser 0, y aunque es un
mínimo real del potencial, es poco informativo, ya que no
produce agrupamientos, sino que considera que cada
elemento es un grupo independiente.
Algoritmo K-Mean
Clúster K-Means
Clúster K-Means
¿CÓMO FUNCIONA K-MEANS?
Supongamos que el
número de grupos
k =3.
¿CÓMO FUNCIONA K-MEANS?
Iteración 0
Se comienza con una
posición aleatoria de los
centroides.
¿CÓMO FUNCIONA K-MEANS?
Iteración 1
Se asigna cada caso
al centroide más
próximo.
¿CÓMO FUNCIONA K-MEANS?
Iteración 2
Se recoloca el centroide
en el centro de los puntos
asignados.
¿CÓMO FUNCIONA K-MEANS?
Iteración 3
Se continúa iterativamente
hasta que:
1. La distancia entre
centroides es máxima.
2. La distancia caso-
centroide es mínima.
¿QUÉ MÉTODO ES PREFERIBLE?
VENTAJAS DE LOS JERÁRQUICOS
- Proporcionan una fotografía de cómo estan organizados los datos El investigador
puede ver cuántos conglomerados “existen” en los datos.
- Pueden calcularse los centros de esos conglomerados: centroides (medias).
- Vecino Más Próximo es especialmente bueno para localizar outliers.
- Ward y Vinculación INTERgrupos son los preferidos de entre los jerárquicos: estudios
de simulación han comprobado que adscriben cada elemento a su conglomerado
verdadero mejor que el resto (especialmente WARD). Tienden a ofrecer
conglomerados similares en tamaño y dispersión de sus elementos, de forma
redondeada.
DESVENTAJAS DE LOS JERÁRQUICOS
- Cualquiera de los métodos jerárquicos por separado funciona peor que k-means.
¿QUÉ MÉTODO ES PREFERIBLE?
VENTAJAS DE LOS ITERATIVOS
- K medias es el método más robusto respecto a presencia de outliers y errores en
las medidas de distancia.
DESVENTAJAS DE LOS ITERATIVOS
- Requiere que el investigador especifique previamente tanto el número de
conglomerados como sus centros iniciales.
¿SOLUCIÓN? Combinar ambos procedimientos, utilizando:
1. Jerárquico para eliminar outliers, determinar el numero de clusters y sus
centros iniciales.
2. k-means para obtener la solución conglomerativa final.
Descripción de los segmentos
Obtención de los segmentos
Etapas preliminares
1ª
FASE:
MÉTODOS
JERARQUICOS
PLANTEAMIENTO DEL PROBLEMA
SELECCIÓN DE VARIABLES
VECINO MÁS PRÓXIMO:
DETECCIÓN Y ELIMINACIÓN DE
OUTLIERS
WARD: OBTENCIÓN DEL NÚMERO
DE CONGLOMERADOS
VINCULACIÓN INTRAGRUPOS:
ANÁLISIS DE LA ESTABILIDAD
CREACIÓN DEL ARCHIVO DE MEDIAS
DE CADA CONGLOMERADO
PERFILADO DE LOS CONGLOMERADOS
2ª FASE: MÉTODO k-means:
OBTENCIÓN DE LA SOLUCIÓN
CONGLOMERATIVA FINAL
Fases a la hora de ejecutar un Análisis de Conglomerados
1ª
FASE:
MÉTODOS
JERARQUICOS
PLANTEAMIENTO DEL PROBLEMA
VECINO MÁS PRÓXIMO:
DETECCIÓN Y ELIMINACIÓN DE
OUTLIERS
SELECCIÓN DE VARIABLES
WARD: OBTENCIÓN DEL NÚMERO
DE CONGLOMERADOS
VINCULACIÓN INTRAGRUPOS:
ANÁLISIS DE LA ESTABILIDAD
CREACIÓN DEL ARCHIVO DE MEDIAS
DE CADA CONGLOMERADO
PERFILADO DE LOS
CONGLOMERADOS
2ª FASE: MÉTODO k-means:
OBTENCIÓN DE LA SOLUCIÓN
CONGLOMERATIVA FINAL
ETAPAS PRELIMINARES
CUESTIONES PREVIAS
 ¿Cuál es el objetivo de mi estudio?
 ¿Busco explorar datos o confirmar hipótesis?
 ¿Quiero encontrar segmentos o grupos?
SELECCIÓN DE VARIABLES
 Las variables deben ser independientes, no
correlacionadas. Si son ítems de un test
mejor hacer un análisis factorial antes.
 Debe tener sentido agruparlas
Rubbish in, rubbish out.
 El número de variables a introducir en el
análisis no es importante (Md =15).
 Sí debe mantenerse un número suficiente de
casos por variable, idealmente 2m(m =nº
variables).
 Por lo tanto, mejor muestras grandes y
representativas.
1ª
FASE:
MÉTODOS
JERARQUICOS
PLANTEAMIENTO DEL PROBLEMA
VECINO MÁS PRÓXIMO:
DETECCIÓN Y ELIMINACIÓN DE
OUTLIERS
SELECCIÓN DE VARIABLES
WARD: OBTENCIÓN DEL NÚMERO
DE CONGLOMERADOS
VINCULACIÓN INTRAGRUPOS:
ANÁLISIS DE LA ESTABILIDAD
CREACIÓN DEL ARCHIVO DE MEDIAS
DE CADA CONGLOMERADO
2ª FASE: MÉTODO k-means:
OBTENCIÓN DE LA SOLUCIÓN
CONGLOMERATIVA FINAL
OBTENCIÓN DE LOS SEGMENTOS
PERFILADO DE LOS
CONGLOMERADOS
Posibles outliers. El
número indica la posición
que ocupan en el
ARCHIVO. Se ocultan de
los análisis y se vuelve a
ejecutar este método
para comprobar el
efecto sobre el
dendrograma.
FASE:
MÉTODOS
ERARQUICOS
PLANTEAMIENTO DEL PROBLEMA
VECINO MÁS PRÓXIMO:
DETECCIÓN Y ELIMINACIÓN DE
OUTLIERS
SELECCIÓN DE VARIABLES
WARD: OBTENCIÓN DEL NÚMERO
DE CONGLOMERADOS
J
1 VINCULACIÓN INTRAGRUPOS:
ª
ANÁLISIS DE LA FIABILIDAD
ACIÓN DEL FICHERO DE MEDIAS
DE CADA CONGLOMERADO
2ª FASE: MÉTODO k-means:
OBTENCIÓN DE LA SOLUCIÓN
CONGLOMERATIVA FINAL
OBTENCIÓN DE LOS SEGMENTOS
Para determinar el número de
conglomerados “natural” existen criterios
numéricos y gráficos.
El dendrograma nos muestra 3 grupos
claros:
Para validar esta solución, se recomienda
utilizar, además, otro procedimiento
PERFILADO DE LOS
CONGLOMERADOS
1ª
FASE:
MÉTODOS
JERARQUICOS
PLANTEAMIENTO DEL PROBLEMA
SELECCIÓN DE VARIABLES
VECINO MÁS PRÓXIMO:
DETECCIÓN Y ELIMINACIÓN DE
OUTLIERS
WARD: OBTENCIÓN DEL NÚMERO
DE CONGLOMERADOS
VINCULACIÓN INTRAGRUPOS:
ANÁLISIS DE LA ESTABILIDAD
CREACIÓN DEL ARCHIVO DE MEDIAS
DE CADA CONGLOMERADO
2ª FASE: MÉTODO k-means:
OBTENCIÓN DE LA SOLUCIÓN
CONGLOMERATIVA FINAL
OBTENCIÓN DE LOS SEGMENTOS
El análisis del CAMBIO EN EL
COEFICIENTE DE CONGLOMERACIÓN
indica que 3 conglomerados es
además la opción mejor desde un
punto de vista estadístico.
PERFILADO DE LOS
CONGLOMERADOS
1ª
FASE:
MÉTODOS
JERARQUICOS
PLANTEAMIENTO DEL PROBLEMA
SELECCIÓN DE VARIABLES
VECINO MÁS PRÓXIMO:
DETECCIÓN Y ELIMINACIÓN DE
OUTLIERS
WARD: OBTENCIÓN DEL NÚMERO
DE CONGLOMERADOS
VINCULACIÓN INTRAGRUPOS:
ANÁLISIS DE LA ESTABILIDAD
CREACIÓN DEL ARCHIVO DE MEDIAS
DE CADA CONGLOMERADO
2ª FASE: MÉTODO k-means:
OBTENCIÓN DE LA SOLUCIÓN
CONGLOMERATIVA FINAL
OBTENCIÓN DE LOS SEGMENTOS
PERFILADO DE LOS
CONGLOMERADOS
1ª
FASE:
MÉTODOS
JERARQUICOS
PLANTEAMIENTO DEL PROBLEMA
SELECCIÓN DE VARIABLES
VECINO MÁS PRÓXIMO:
DETECCIÓN Y ELIMINACIÓN DE
OUTLIERS
WARD: OBTENCIÓN DEL NÚMERO
DE CONGLOMERADOS
VINCULACIÓN INTRAGRUPOS:
ANÁLISIS DE LA ESTABILIDAD
CREACIÓN DEL ARCHIVO DE MEDIAS
DE CADA CONGLOMERADO
2ª FASE: MÉTODO k-means:
OBTENCIÓN DE LA SOLUCIÓN
CONGLOMERATIVA FINAL
OBTENCIÓN DE LOS SEGMENTOS
PASOS
Se calculan las medias de cada variable para
cada uno de los 3 conglomerados.
Se copian los datos en un ARCHIVO de datos,
nombrando a las variables exactamente igual
e incluyendo una variable que se debe llamar
necesariamente cluster_
PERFILADO DE LOS
CONGLOMERADOS
1ª
FASE:
MÉTODOS
JERARQUICOS
PLANTEAMIENTO DEL PROBLEMA
VECINO MÁS PRÓXIMO:
DETECCIÓN Y ELIMINACIÓN DE
OUTLIERS
SELECCIÓN DE VARIABLES
WARD: OBTENCIÓN DEL NÚMERO
DE CONGLOMERADOS
VINCULACIÓN INTRAGRUPOS:
ANÁLISIS DE LA ESTABILIDAD
CREACIÓN DEL ARCHIVO DE MEDIAS
DE CADA CONGLOMERADO
2ª FASE: MÉTODO k-means:
OBTENCIÓN DE LA SOLUCIÓN
CONGLOMERATIVA FINAL
OBTENCIÓN DE LOS SEGMENTOS
En esta última fase final especificamos:
1. 3 como número de conglomerados.
2. ElARCHIVO de medias recién creado
como centros iniciales.
La variable que se crea en el archivo de datos
tras un k medias se reconoce bien respecto de un
método jerárquico.
Importante informar del %de casos reasignados a
PERFILADO DE LOS
CONGLOMERADOS
otro conglomerado.
1ª
FASE:
MÉTODOS
JERARQUICOS
PLANTEAMIENTO DEL PROBLEMA
VECINO MÁS PRÓXIMO:
DETECCIÓN Y ELIMINACIÓN DE
OUTLIERS
SELECCIÓN DE VARIABLES
WARD: OBTENCIÓN DEL NÚMERO
DE CONGLOMERADOS
VINCULACIÓN INTRAGRUPOS:
ANÁLISIS DE LA ESTABILIDAD
CREACIÓN DEL ARCHIVO DE MEDIAS
DE CADA CONGLOMERADO
2ª FASE: MÉTODO k-means:
OBTENCIÓN DE LA SOLUCIÓN
CONGLOMERATIVA FINAL
PERFILADO DE LOS SEGMENTOS
IMPORTANTÍSIM
A FASE
T
enemos ya los conglomerados form
ados…
pero ahora qué hacemos con ellos??
Debemos cruzarlos con otras variables del
cuestionario (no utilizadas para crear los
grupos) con el fin de perfilarlos, saber un
poco más de ellos.
Para ello se utilizan:
- Contrastes F si se cruza la variable de
conglomerados con una variable métrica.
- Contrastes X2 si se cruzan con una variable
categórica.
PERFILADO DE LOS
CONGLOMERADOS
1ª
FASE:
MÉTODOS
JERARQUICOS
PLANTEAMIENTO DEL PROBLEMA
SELECCIÓN DE VARIABLES
VECINO MÁS PRÓXIMO:
DETECCIÓN Y ELIMINACIÓN DE
OUTLIERS
WARD: OBTENCIÓN DEL NÚMERO
DE CONGLOMERADOS
VINCULACIÓN INTRAGRUPOS:
ANÁLISIS DE LA ESTABILIDAD
CREACIÓN DEL ARCHIVO DE MEDIAS
DE CADA CONGLOMERADO
2ª FASE: MÉTODO k-means:
OBTENCIÓN DE LA SOLUCIÓN
CONGLOMERATIVA FINAL
PERFILADO DE LOS SEGMENTOS
PERFILADO DE LOS
CONGLOMERADOS
Aprendizaje no supervisado

Mais conteúdo relacionado

Mais procurados

1.7. técnicas de agrupación
1.7.  técnicas de agrupación1.7.  técnicas de agrupación
1.7. técnicas de agrupación
ITCM
 
Tipos de atributos y tipos de relaciones
Tipos de atributos y tipos de relacionesTipos de atributos y tipos de relaciones
Tipos de atributos y tipos de relaciones
basilioj
 
Comandos básicos para bases de datos mysql y workbench
Comandos básicos para bases de datos mysql y workbenchComandos básicos para bases de datos mysql y workbench
Comandos básicos para bases de datos mysql y workbench
Robedgar MX
 

Mais procurados (20)

Informe técnico - Métodos de búsqueda Unidad 6 (Rubí Verónica)
Informe técnico - Métodos de búsqueda Unidad 6 (Rubí Verónica)Informe técnico - Métodos de búsqueda Unidad 6 (Rubí Verónica)
Informe técnico - Métodos de búsqueda Unidad 6 (Rubí Verónica)
 
1.7. técnicas de agrupación
1.7.  técnicas de agrupación1.7.  técnicas de agrupación
1.7. técnicas de agrupación
 
1.3 uso de tipos de datos abstractos
1.3 uso de tipos de datos abstractos1.3 uso de tipos de datos abstractos
1.3 uso de tipos de datos abstractos
 
8b Curso de POO en java - paso de diagrama clases a java 1
8b Curso de POO en java - paso de diagrama clases a java 18b Curso de POO en java - paso de diagrama clases a java 1
8b Curso de POO en java - paso de diagrama clases a java 1
 
Backtracking
BacktrackingBacktracking
Backtracking
 
Estructura de Datos - Unidad 6 Metodos de busqueda
Estructura de Datos - Unidad 6 Metodos de busquedaEstructura de Datos - Unidad 6 Metodos de busqueda
Estructura de Datos - Unidad 6 Metodos de busqueda
 
4.4 base y dimension de un espacio vectorial
4.4 base y dimension de un espacio vectorial4.4 base y dimension de un espacio vectorial
4.4 base y dimension de un espacio vectorial
 
Sintaxis del lenguaje c++
Sintaxis del lenguaje c++Sintaxis del lenguaje c++
Sintaxis del lenguaje c++
 
ESTRUCTURA DE DATOS Pilas y colas.pdf
ESTRUCTURA DE DATOS Pilas y colas.pdfESTRUCTURA DE DATOS Pilas y colas.pdf
ESTRUCTURA DE DATOS Pilas y colas.pdf
 
Normalización de la base de datos (3 formas normales)
Normalización de la base de datos (3 formas normales)Normalización de la base de datos (3 formas normales)
Normalización de la base de datos (3 formas normales)
 
Problemas de diseño de base de datos
Problemas de diseño de base de datosProblemas de diseño de base de datos
Problemas de diseño de base de datos
 
Sistema De Gestión De Base De Datos
Sistema De Gestión De Base De DatosSistema De Gestión De Base De Datos
Sistema De Gestión De Base De Datos
 
Sentencias condicionales
Sentencias condicionalesSentencias condicionales
Sentencias condicionales
 
Arreglos Unidimensionales - Java - NetBeans
Arreglos Unidimensionales - Java - NetBeansArreglos Unidimensionales - Java - NetBeans
Arreglos Unidimensionales - Java - NetBeans
 
Funciones del DBA, SA Y DA
Funciones del DBA, SA Y DAFunciones del DBA, SA Y DA
Funciones del DBA, SA Y DA
 
03 - Cadenas en Python 3
03 - Cadenas en Python 303 - Cadenas en Python 3
03 - Cadenas en Python 3
 
Regla de Cramer para Sistemas de Ecuaciones Lineales. Presentación diseñada ...
Regla de Cramer  para Sistemas de Ecuaciones Lineales. Presentación diseñada ...Regla de Cramer  para Sistemas de Ecuaciones Lineales. Presentación diseñada ...
Regla de Cramer para Sistemas de Ecuaciones Lineales. Presentación diseñada ...
 
Tipos de atributos y tipos de relaciones
Tipos de atributos y tipos de relacionesTipos de atributos y tipos de relaciones
Tipos de atributos y tipos de relaciones
 
Comandos básicos para bases de datos mysql y workbench
Comandos básicos para bases de datos mysql y workbenchComandos básicos para bases de datos mysql y workbench
Comandos básicos para bases de datos mysql y workbench
 
Ejercicios
EjerciciosEjercicios
Ejercicios
 

Semelhante a Aprendizaje no supervisado

Spss Tutorial 1
Spss Tutorial 1Spss Tutorial 1
Spss Tutorial 1
vinod
 
Cluster No Jerarquico
Cluster No JerarquicoCluster No Jerarquico
Cluster No Jerarquico
guest83cad74
 

Semelhante a Aprendizaje no supervisado (20)

Spss Tutorial 1
Spss Tutorial 1Spss Tutorial 1
Spss Tutorial 1
 
Técnicas de minería de datos
Técnicas de minería de datosTécnicas de minería de datos
Técnicas de minería de datos
 
Algoritmos de Clasificación
Algoritmos de ClasificaciónAlgoritmos de Clasificación
Algoritmos de Clasificación
 
Cluster No Jerarquico
Cluster No JerarquicoCluster No Jerarquico
Cluster No Jerarquico
 
Cluster No Jerarquico
Cluster No JerarquicoCluster No Jerarquico
Cluster No Jerarquico
 
Clustering
ClusteringClustering
Clustering
 
Clasificacion analisis de cluster (clustering)
Clasificacion analisis de cluster (clustering)Clasificacion analisis de cluster (clustering)
Clasificacion analisis de cluster (clustering)
 
Machine learning
Machine learningMachine learning
Machine learning
 
Métricas orientadas a la clase
Métricas orientadas a la claseMétricas orientadas a la clase
Métricas orientadas a la clase
 
Minería de datos
Minería de datosMinería de datos
Minería de datos
 
Análisis multivariante
Análisis multivarianteAnálisis multivariante
Análisis multivariante
 
Estructura del Análisis
Estructura del AnálisisEstructura del Análisis
Estructura del Análisis
 
Introducción a ciencia de datos para ingenieros en software
Introducción a ciencia de datos para ingenieros en softwareIntroducción a ciencia de datos para ingenieros en software
Introducción a ciencia de datos para ingenieros en software
 
Métodos predictivos y Descriptivos - MINERÍA DE DATOS
Métodos predictivos y Descriptivos - MINERÍA DE DATOSMétodos predictivos y Descriptivos - MINERÍA DE DATOS
Métodos predictivos y Descriptivos - MINERÍA DE DATOS
 
BigData 101 / Cursillo (Parte2)
BigData 101 / Cursillo (Parte2)BigData 101 / Cursillo (Parte2)
BigData 101 / Cursillo (Parte2)
 
Clasificacion Supervisada Y Algoritmos Evolutivos
Clasificacion Supervisada Y Algoritmos EvolutivosClasificacion Supervisada Y Algoritmos Evolutivos
Clasificacion Supervisada Y Algoritmos Evolutivos
 
Mineria de Datos.pdf
Mineria de Datos.pdfMineria de Datos.pdf
Mineria de Datos.pdf
 
analisis de conglomerados prctica en spss
analisis de conglomerados prctica en spssanalisis de conglomerados prctica en spss
analisis de conglomerados prctica en spss
 
Técnicas de minería de datos
Técnicas de minería de datosTécnicas de minería de datos
Técnicas de minería de datos
 
Lj espinoza analisisde_datosrecolectados_141219
Lj espinoza analisisde_datosrecolectados_141219Lj espinoza analisisde_datosrecolectados_141219
Lj espinoza analisisde_datosrecolectados_141219
 

Mais de Jairo Acosta Solano

Metodología CRISP-DM para la evaluación de modelos predictivos del rendimient...
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimient...Metodología CRISP-DM para la evaluación de modelos predictivos del rendimient...
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimient...
Jairo Acosta Solano
 
SISTEMA DE INFORMACIÓN PARA EL MANTENIMIENTO DEL PROCESO DE CARACTERIZACIÓN B...
SISTEMA DE INFORMACIÓN PARA EL MANTENIMIENTO DEL PROCESO DE CARACTERIZACIÓN B...SISTEMA DE INFORMACIÓN PARA EL MANTENIMIENTO DEL PROCESO DE CARACTERIZACIÓN B...
SISTEMA DE INFORMACIÓN PARA EL MANTENIMIENTO DEL PROCESO DE CARACTERIZACIÓN B...
Jairo Acosta Solano
 

Mais de Jairo Acosta Solano (20)

Visualización de Datos.pptx
Visualización de Datos.pptxVisualización de Datos.pptx
Visualización de Datos.pptx
 
Guía de Proyectos Académicos de Trabajo Colectivo final 2p2022 v1.docx
Guía de Proyectos Académicos de Trabajo Colectivo final 2p2022 v1.docxGuía de Proyectos Académicos de Trabajo Colectivo final 2p2022 v1.docx
Guía de Proyectos Académicos de Trabajo Colectivo final 2p2022 v1.docx
 
SISTEMAS DE RECOMENDACIÓN.pptx
SISTEMAS DE RECOMENDACIÓN.pptxSISTEMAS DE RECOMENDACIÓN.pptx
SISTEMAS DE RECOMENDACIÓN.pptx
 
Ejercicio clúster jerárquico
Ejercicio clúster jerárquicoEjercicio clúster jerárquico
Ejercicio clúster jerárquico
 
Ejercicio K-Means
Ejercicio K-MeansEjercicio K-Means
Ejercicio K-Means
 
Matriz de confusión
Matriz de confusiónMatriz de confusión
Matriz de confusión
 
Arboles y reglas
Arboles y reglasArboles y reglas
Arboles y reglas
 
Fundamentos IA
Fundamentos IAFundamentos IA
Fundamentos IA
 
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimient...
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimient...Metodología CRISP-DM para la evaluación de modelos predictivos del rendimient...
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimient...
 
Big Data: Análisis y Visualización de Datos Masivos
Big Data: Análisis y Visualización de Datos MasivosBig Data: Análisis y Visualización de Datos Masivos
Big Data: Análisis y Visualización de Datos Masivos
 
Acceso abierto: El derecho a investigar
Acceso abierto: El derecho a investigarAcceso abierto: El derecho a investigar
Acceso abierto: El derecho a investigar
 
Normas APA 6ta edición (Centro de Escritura Javeriana)
Normas APA 6ta edición (Centro de Escritura Javeriana)Normas APA 6ta edición (Centro de Escritura Javeriana)
Normas APA 6ta edición (Centro de Escritura Javeriana)
 
Presentación investigación IIp 2017
Presentación investigación IIp 2017Presentación investigación IIp 2017
Presentación investigación IIp 2017
 
SISTEMA DE INFORMACIÓN PARA EL MANTENIMIENTO DEL PROCESO DE CARACTERIZACIÓN B...
SISTEMA DE INFORMACIÓN PARA EL MANTENIMIENTO DEL PROCESO DE CARACTERIZACIÓN B...SISTEMA DE INFORMACIÓN PARA EL MANTENIMIENTO DEL PROCESO DE CARACTERIZACIÓN B...
SISTEMA DE INFORMACIÓN PARA EL MANTENIMIENTO DEL PROCESO DE CARACTERIZACIÓN B...
 
Presentación PAT Colectivo 2017
Presentación PAT Colectivo 2017Presentación PAT Colectivo 2017
Presentación PAT Colectivo 2017
 
Generalidades de los recursos y objetos digitales
Generalidades de los recursos y objetos digitalesGeneralidades de los recursos y objetos digitales
Generalidades de los recursos y objetos digitales
 
Contexto y circulación de textos científicos
Contexto y circulación de textos científicosContexto y circulación de textos científicos
Contexto y circulación de textos científicos
 
Guía proyecto de grado CURN 2016
Guía proyecto de grado CURN 2016Guía proyecto de grado CURN 2016
Guía proyecto de grado CURN 2016
 
Presentación investigación PAT IIP 2016 CURN
Presentación investigación PAT IIP 2016 CURNPresentación investigación PAT IIP 2016 CURN
Presentación investigación PAT IIP 2016 CURN
 
Educacion Inclusiva
Educacion InclusivaEducacion Inclusiva
Educacion Inclusiva
 

Último

Tipos de Valvulas para uso industrial y comercial
Tipos de Valvulas para uso industrial y comercialTipos de Valvulas para uso industrial y comercial
Tipos de Valvulas para uso industrial y comercial
macsal12345
 
analisis tecnologico( diagnostico tecnologico, herramienta de toma de deciones)
analisis tecnologico( diagnostico tecnologico, herramienta de toma de deciones)analisis tecnologico( diagnostico tecnologico, herramienta de toma de deciones)
analisis tecnologico( diagnostico tecnologico, herramienta de toma de deciones)
Ricardo705519
 
SESION 11 SUPERVISOR SSOMA SEGURIDAD Y SALUD OCUPACIONAL
SESION 11 SUPERVISOR SSOMA SEGURIDAD Y SALUD OCUPACIONALSESION 11 SUPERVISOR SSOMA SEGURIDAD Y SALUD OCUPACIONAL
SESION 11 SUPERVISOR SSOMA SEGURIDAD Y SALUD OCUPACIONAL
EdwinC23
 
UC Fundamentos de tuberías en equipos de refrigeración m.pdf
UC Fundamentos de tuberías en equipos de refrigeración m.pdfUC Fundamentos de tuberías en equipos de refrigeración m.pdf
UC Fundamentos de tuberías en equipos de refrigeración m.pdf
refrielectriccarlyz
 

Último (20)

DIAPOSITIVAS DE SEGURIDAD Y SALUD EN EL TRABAJO
DIAPOSITIVAS DE SEGURIDAD Y SALUD EN EL TRABAJODIAPOSITIVAS DE SEGURIDAD Y SALUD EN EL TRABAJO
DIAPOSITIVAS DE SEGURIDAD Y SALUD EN EL TRABAJO
 
Determinación de espacios en la instalación
Determinación de espacios en la instalaciónDeterminación de espacios en la instalación
Determinación de espacios en la instalación
 
libro de ingeniería de petróleos y operaciones
libro de ingeniería de petróleos y operacioneslibro de ingeniería de petróleos y operaciones
libro de ingeniería de petróleos y operaciones
 
Clasificación de Equipos e Instrumentos en Electricidad.docx
Clasificación de Equipos e Instrumentos en Electricidad.docxClasificación de Equipos e Instrumentos en Electricidad.docx
Clasificación de Equipos e Instrumentos en Electricidad.docx
 
27311861-Cuencas-sedimentarias-en-Colombia.ppt
27311861-Cuencas-sedimentarias-en-Colombia.ppt27311861-Cuencas-sedimentarias-en-Colombia.ppt
27311861-Cuencas-sedimentarias-en-Colombia.ppt
 
2. Cristaloquimica. ingenieria geologica
2. Cristaloquimica. ingenieria geologica2. Cristaloquimica. ingenieria geologica
2. Cristaloquimica. ingenieria geologica
 
“Análisis comparativo de viscosidad entre los fluidos de yogurt natural, acei...
“Análisis comparativo de viscosidad entre los fluidos de yogurt natural, acei...“Análisis comparativo de viscosidad entre los fluidos de yogurt natural, acei...
“Análisis comparativo de viscosidad entre los fluidos de yogurt natural, acei...
 
Video sustentación GA2- 240201528-AA3-EV01.pptx
Video sustentación GA2- 240201528-AA3-EV01.pptxVideo sustentación GA2- 240201528-AA3-EV01.pptx
Video sustentación GA2- 240201528-AA3-EV01.pptx
 
Tipos de Valvulas para uso industrial y comercial
Tipos de Valvulas para uso industrial y comercialTipos de Valvulas para uso industrial y comercial
Tipos de Valvulas para uso industrial y comercial
 
SESION 02-DENSIDAD DE POBLACION Y DEMANDA DE AGUA (19-03-2024).pdf
SESION 02-DENSIDAD DE POBLACION Y DEMANDA DE AGUA (19-03-2024).pdfSESION 02-DENSIDAD DE POBLACION Y DEMANDA DE AGUA (19-03-2024).pdf
SESION 02-DENSIDAD DE POBLACION Y DEMANDA DE AGUA (19-03-2024).pdf
 
[1LLF] UNIDADES, MAGNITUDES FÍSICAS Y VECTORES.pdf
[1LLF] UNIDADES, MAGNITUDES FÍSICAS Y VECTORES.pdf[1LLF] UNIDADES, MAGNITUDES FÍSICAS Y VECTORES.pdf
[1LLF] UNIDADES, MAGNITUDES FÍSICAS Y VECTORES.pdf
 
PostgreSQL on Kubernetes Using GitOps and ArgoCD
PostgreSQL on Kubernetes Using GitOps and ArgoCDPostgreSQL on Kubernetes Using GitOps and ArgoCD
PostgreSQL on Kubernetes Using GitOps and ArgoCD
 
FUNCION DE ESTADO EN LA TERMODINAMICA.pdf
FUNCION DE ESTADO EN LA TERMODINAMICA.pdfFUNCION DE ESTADO EN LA TERMODINAMICA.pdf
FUNCION DE ESTADO EN LA TERMODINAMICA.pdf
 
Presentación de Redes de alcantarillado y agua potable
Presentación de Redes de alcantarillado y agua potablePresentación de Redes de alcantarillado y agua potable
Presentación de Redes de alcantarillado y agua potable
 
metodos de fitomejoramiento en la aolicacion de plantas
metodos de fitomejoramiento en la aolicacion de plantasmetodos de fitomejoramiento en la aolicacion de plantas
metodos de fitomejoramiento en la aolicacion de plantas
 
analisis tecnologico( diagnostico tecnologico, herramienta de toma de deciones)
analisis tecnologico( diagnostico tecnologico, herramienta de toma de deciones)analisis tecnologico( diagnostico tecnologico, herramienta de toma de deciones)
analisis tecnologico( diagnostico tecnologico, herramienta de toma de deciones)
 
SESION 11 SUPERVISOR SSOMA SEGURIDAD Y SALUD OCUPACIONAL
SESION 11 SUPERVISOR SSOMA SEGURIDAD Y SALUD OCUPACIONALSESION 11 SUPERVISOR SSOMA SEGURIDAD Y SALUD OCUPACIONAL
SESION 11 SUPERVISOR SSOMA SEGURIDAD Y SALUD OCUPACIONAL
 
Six Sigma Process and the dmaic metodo process
Six Sigma Process and the dmaic metodo processSix Sigma Process and the dmaic metodo process
Six Sigma Process and the dmaic metodo process
 
UC Fundamentos de tuberías en equipos de refrigeración m.pdf
UC Fundamentos de tuberías en equipos de refrigeración m.pdfUC Fundamentos de tuberías en equipos de refrigeración m.pdf
UC Fundamentos de tuberías en equipos de refrigeración m.pdf
 
EFICIENCIA ENERGETICA-ISO50001_INTEC_2.pptx
EFICIENCIA ENERGETICA-ISO50001_INTEC_2.pptxEFICIENCIA ENERGETICA-ISO50001_INTEC_2.pptx
EFICIENCIA ENERGETICA-ISO50001_INTEC_2.pptx
 

Aprendizaje no supervisado

  • 2. APRENDIZAJE NO SUPERVISADO Metas de formación: • Conocer los detalles del aprendizaje no supervisado y su importancia en los modelos de analítica de datos. • Aplicar algoritmos para la identificación de clústeres que pueden convertirse en los atributos clase para el aprendizaje supervisado.
  • 3. APRENDIZAJE SUPERVISADO Los modelos de aprendizaje supervisado son aquellos en los que se aprenden funciones, relaciones que asocian entradas con salidas, por lo que se ajustan a un conjunto de ejemplos de los que conocemos la relación entre la entrada y la salida deseada. Este hecho incluso llega a proporcionar una de las clasificaciones más habituales en el tipo de algoritmos que se desarrollan, así, dependiendo del tipo de salida, suele darse una subcategoría que diferencia entre modelos de clasificación, si la salida es un valor categórico (por ejemplo, una enumeración, o un conjunto finito de clases) , y modelos de regresión, si la salida es un valor de un espacio continuo.
  • 4. APRENDIZAJE NO SUPERVISADO Los modelos de aprendizaje no supervisado son aquellos en los que no estamos interesados en ajustar pares (entrada, salida), sino en aumentar el conocimiento estructural de los datos disponibles (y posibles datos futuros que provengan del mismo fenómeno), por ejemplo: • Dando una agrupación de los datos según su similaridad (clustering), • Simplificando las estructura de los mismos manteniendo sus características fundamentales (como en los procesos de reducción de la dimensionalidad), • Extrayendo la estructura interna con la que se distribuyen los datos en su espacio original (aprendizaje topológico).
  • 5.
  • 6. APRENDIZAJE NO SUPERVISADO La mayor parte de las definiciones, resultados teóricos, y algoritmos clásicos más importantes, se clasifican como algoritmos supervisados y, sobre todo en el pasado, muchos de los algoritmos no supervisados se reservaban para tareas de preprocesamiento de datos integrados en metodologías más amplias.
  • 7. APRENDIZAJE NO SUPERVISADO Este hecho se debe, principalmente, a un cadena de factores. Por una parte, el objetivo que dirige el aprendizaje supervisado está mucho más claramente definido, mientras que el no supervisado resulta más etéreo y difuso. Esto no solo afecta a un desarrollo más amplio al disponer de aplicaciones mejor definidas, sino que también permite disponer de métricas que permiten evaluar con mucha más claridad la bondad del aprendizaje realizado (el rendimiento del algoritmo). Por otra parte, y quizás como resultado de lo anterior, los algoritmos no supervisados resultan ser muy costosos porque requieren de más pruebas de ensayo y error, haciendo que requieran de un aparataje teórico y computacional mucho más elaborado.
  • 8. APRENDIZAJE NO SUPERVISADO Sin embargo, sobre todo recientemente, han ido surgiendo nuevos algoritmos no supervisados relacionados con lo que se conoce como Aprendizaje de la Representación, que ha demostrado ser el núcleo del Aprendizaje Automático, y donde líneas de trabajo como el Deep Learning están tomando el peso de los avances más interesantes que se están produciendo, hasta el punto de considerarse que el futuro de la Inteligencia Artificial se encuentra más cerca del aprendizaje no supervisado que del supervisado.
  • 9. APRENDIZAJE NO SUPERVISADO Mientras que en el aprendizaje supervisado tenemos un conjunto de variables que usamos para predecir una determinada clase de salida (sube/baja, renuncia/no renuncia), en el aprendizaje no supervisado no tenemos clases de salida esperadas. En el aprendizaje supervisado teníamos data de entrenamiento y data de testeo que nos permitía validar la efectividad del modelo por la cercanía a la clase conocida. En el aprendizaje no supervisado no tenemos output predeterminado. Esto genera a su vez un gran reto porque es muy difícil saber si ya culminamos con el trabajo o podemos aun generar otro modelo con el que nos sintamos más satisfechos.
  • 10. APRENDIZAJE NO SUPERVISADO Las principales aplicaciones del aprendizaje no supervisado están relacionadas en el agrupamiento o clustering de datos. Aquí, el objetivo es encontrar subgrupos homogéneos dentro de los datos. Estos algoritmos se basan en la distancia entre observaciones. El ejemplo de la segmentación de clientes sería un ejemplo de clustering.
  • 11. APRENDIZAJE NO SUPERVISADO El clustering (análisis de conglomerados), es una categoría de técnicas de aprendizaje no supervisadas que nos permite descubrir estructuras ocultas en los datos donde no sabemos la respuesta correcta por adelantado. El objetivo de la agrupación es encontrar una agrupación natural en los datos para que los elementos del mismo grupo sean más similares entre sí que a los de diferentes grupos.
  • 12. APRENDIZAJE NO SUPERVISADO Dada su naturaleza exploratoria, la agrupación en clústeres es puede ayudarnos a organizar los datos en estructuras significativas: • Encontrar centros de similitud utilizando el popular algoritmo de k-means • Adopción de un enfoque de abajo hacia arriba para construir árboles de agrupamiento jerárquico. • Identificar formas arbitrarias de objetos mediante un enfoque de agrupamiento basado en densidad
  • 14. Contextualización Métodos de Dependencia: Se asume que una variable (Y) depende de (es causada o determinada por) otras variables (X1, X2 etc.) Ejemplos: Regresión, ANOVA, Análisis Discriminante Métodosde Independencia: No se asume que ninguna variable sea causada o determinada por otras. Básicamente tenemos X1, X2 ….Xn (pero no Y) Ejemplos: Análisis de Conglomerados, Análisis Factorial, etc. Cuándo se usan métodos de independencia se deja que los datos hablen por ellos mismos. No hay modelización previa.
  • 15. Contextualización Análisis Factorial: Cuando lo que interesa son agrupar variables. Análisis Clúster: Cuando lo que interesa son agrupar observaciones. Principio rector: Maximización de la homogeneidad intra grupos (conglomerados, segmentos) y simultáneamente Maximización de la heterogeneidad inter grupos.
  • 16. X1 X2 X3 X4 Cluster Obs1 5 2 1 3 1 Obs2 3 3 4 2 2 Obs3 2 4 3 5 3 Obs4 5 3 2 4 1 Obs5 . . . . 2 Obs6 . . . . 3 Obs7 . . . . 3 Obs8 . . . . 1 Obs9 . . . . 3 Obs10 . . . . 2 Cluster 1 Cluster 2 Cluster 3 Resultado final: En el archivo de datos, una nueva variable que asigna cada observación a un conglomerado específico. Dos fases fundamentales. 1ª: Obtención de segmentos
  • 17. Cluster 1 Cluster 2 Cluster 3 Edad 32 44 56 % Mujeres 31 54 46 Tamaño de la familia 1.4 2.9 2.1 Opinión 1 3.2 4.0 2.6 Opinión 2 2.1 3.4 3.2 Opinión 3 2.2 3.3 3.0 “Jóvenes solteros” “Familia tradicional” “Maduros felices” Dos fases fundamentales. 2ª: Perfilado de segmentos Resultado final: Una tabla de contingencia entre la variable de agrupamiento y una serie de variables sociodemográficas o de otro tipo (distintas de las utilizadas para establecer los conglomerados). 1 7
  • 18. ¿Cómo se construyen los conglomerados? El análisis estadístico necesita: 1.Una MEDIDA para calcular la distancia entre dos sujetos, lo distintos que son. 2. Un criterio, una regla, un MÉTODO PARA AGRUPARLOS y asignarlos a cada conglomerado.
  • 19. Eltipo de medida seleccionada muchas veces influye poco en los resultados finales. Y *B(x2, y2) y2-y1 (x A *) 1, y1 x2-x1 X d = (x -x ) 2 +(y -y ) 2 2 1 2 1 Otras distancias disponibles: City-Block (usa de distancias absolutas en vez de la distancia al cuadrado de las coordenadas), Minkowski, Coseno, Chebychev, Correlación de Pearson. ¿La medida? Distancia Euclídea
  • 20. ¿El método de agrupamiento? Hay muchos y muy diferentes Nombre 1 Vinculación entre-grupos 2 Vinculación intra-grupos 3 Vecino más próximo 4 Vecino más lejano 5 Agrupación de centroides 6 Agrupación de medianas 7 Método de Ward 8 Conglomerado de k-means 9 Análisis Factorial Jerárquicos Iterativos Aglomerativos Divisivos - Umbral secuencial - Umbral paralelo - Redes Neuronales - Partición óptima (8) Métodos sin solapamiento Métodos con solapamiento - k-centroides con solapamiento - k-means con solapamiento - Análisis de Clases Latentes - AC Borroso - Factorial Tipo-Q (9) Métodos de vinculación Métodos de centroide Métodos de varianza - Centroide (5) - Mediana (6) - Promedio - Entre grupos (1) - Intra grupos (2) - Ponderado - Único - Ordinario (3) - Densidad - Dos fases - Completo (4) - Ward (7)
  • 21. Principales tipologías de agrupamiento Vinculación única: Mínima distancia * * Vinculación completa: Máxima distancia * * Vinculación media (inter-grupos): Distancia media * * * * Método de Ward: Minimización de la varianza intragrupos * * * * ¤ * * * * ¤* Método de centroide: Distancia entre centros * * * * * * ¤ * * ¤ * * Sin solapamiento Con solapamiento Jerárquico No jerárquico 1a 1b 1c 1b 1b1 1b2 2 Aglomerativo Divisivo 1a
  • 22. *G *D C * ¿CÓMO FUNCIONAN LOS PROCEDIMIENTOS JERÁRQUICOS (AGLOMERATIVOS)? ¿Qué par de elementos se unirán primero? A* *B *E H*
  • 23. *D C * Depende de la medida de distancia que utilicemos, pero supongamos que A-B y D-E. Surgen así dos conglomerados. *G A* *B *E H*
  • 24. C * *D El siguiente punto más próximo a estos dos conglomerados es C. ¿A dónde será adscrito? *G A* *B *E H*
  • 25. C * *D A dónde se encuentre más próximo (distancia euclídea), pero... EXISTEN VARIAS POSIBILIDADES (métodos de agrupamiento). *G A* *B *E H*
  • 26. 10,5 8,5 7,0 8,5 9,0 12,0 11,0 C * *D A dónde se encuentre más próximo (distancia euclídea), pero... EXISTEN VARIAS POSIBILIDADES (métodos de agrupamiento): *G A* *B 9,5 *E H*
  • 27. C * *D VECINO MÁS LEJANO (COMPLETE LINKAGE): Adscribe C al conglomerado cuya distancia el caso más alejado de ese conglomerado es menor. *G A* *B 10,5 9,5 *E H* d(C;AB)=max(dCA;dCB)
  • 28. 8,5 *D VECINO MÁS PRÓXIMO (SINGLE LINKAGE): Adscribe C al conglomerado cuyo distancia al caso más cercano de ese conglomerado es menor. *G A* *B 7,0 d(C;AB)=min(dCA;dCB) C * Inconvenientes: Encadenamiento Ventajas: Detecta muy bien “outliers”. *E H*
  • 29. 9,0 8,5 C * *G *D MÉTODOS BASADOS EN PUNTUACIONES MEDIAS: Adscribe C al conglomerado cuya promedio de distancias es menor. A* *B WARD y VINCULACIÓN INTERGRUPOS. H* *E • Vinculación Intragrupos • Vinculación intergrupos • Mediana • Centroide • Ward Tienden a obtener conglomerados de tamaño similar. Preferibles al resto de jerárquicos, especialmente
  • 30. MÉTODOS BASADOS EN PUNTUACIONES MEDIAS: Adscribe C al conglomerado cuya distancia es menor a... Vinculación INTERgrupos: Media de todas las distancias entre C y cada uno de los elementos del conglomerado. Vinculación INTRAgrupos: Incluye además las distancias dentro de cada conglomerado, es decir, todas las posibles.
  • 31. MÉTODOS BASADOS EN PUNTUACIONES MEDIAS: Adscribe C al conglomerado cuya distancia es menor a... Centroide: Centro de simetría del cluster, calculado como la media de las distancias de todos sus elementos: Mediana: Centroides calculados sólo con valores centrales. Ward: Proporciona la menor suma de cuadrados intragrupos. Envez de utilizar las distancias entre casos utiliza esta medida de variabilidad.
  • 32. Todos estos métodos JERÁRQUICOS... ... como resultado de su proceso aglomerativo, ofrecen un DENDROGRAMA, una representación gráfica en forma de árbol que muestra: 1. Qué elementos se han ido uniendo en cada paso. 2. Cómo se organizan los casos. 3. Cuántos conglomerados podemos distinguir en los datos.
  • 33. Paso 0: Cada observación Es considerada como un conglomerado independiente 0,2 0,4 0,6 0,8 1,0 OBS 5 * OBS 3 * OBS 4 * OBS 6 * Medida de Distancia ¿CÓMO SE CREA EL DENDROGRAMA? OBS 1 * OBS 2 *
  • 34. Paso 1: Se agrupan los dos casos más próximos entre sí. 0,2 0,4 0,6 0,8 1,0 OBS 1 * Cluster1 OBS 2 * OBS 3 * OBS 4 * OBS 5 * OBS 6 *
  • 35. Paso 2: Se agrupan los siguientes casoscon menores distancias entre ellos. OBS 1 * Cluster1 OBS 2 * OBS 3 * OBS 4 * OBS 5 * Cluster 2 OBS 6 * 0,2 0,4 0,6 0,8 1,0
  • 36. Paso 3: El caso 3 se une al clúster 1 OBS 1 * Cluster1 OBS 2 * OBS 3 * OBS 4 * OBS 5 * Cluster 2 OBS 6 * 0,2 0,4 0,6 0,8 1,0
  • 37. OBS 1 * OBS 5 * OBS 2 * OBS 3 * OBS 4 * OBS 6 * Cluster 1-2 Paso 4: Se juntan los dos clusters 1 y 2, quedando un sólo caso desparejado: un outlier. 0,2 0,4 0,6 0,8 1,0
  • 38. Ejemplos de dendrogramas Un buen resultado: 2 conglomerados claros Un mal resultado: No hay conglomerados claros Un mal resultado: Tenemos un outlier (caso 1017) y el dendrograma muestra encadenamiento Dendrograma típico al emplear Vecino Más Próximo
  • 40. ¿Y QUÉ HAY DE LOS MÉTODOS ITERATIVOS? No agrupan los datos por similaridad entre ellos No crean un dendrograma. Son métodos que van ajustando iterativamente los centroides de un número fijo de conglomerados k a los datos. • Cada paso de un método jerárquico va agrupando casos similares en un mismo cluster. • Cada paso de un método iterativo va recolocando los centroides para que estén óptimamente posicionados en el centro real del conglomerado.
  • 41. El algoritmo de los k vecinos más cercanos (k-NN, o k Nearest Neighbour) es un algoritmo de clasificación supervisado basado en criterios de vecindad. En particular, k-NN se basa en la idea de que los nuevos ejemplos serán clasificados con la misma clase que tengan la mayor cantidad de vecinos más parecidos a ellos del conjunto de entrenamiento. Así pues, este algoritmo sigue un procedimiento que seguimos cada uno de nosotros al ver un ejemplo nuevo: vemos a qué se parece más de lo que conocemos, y lo metemos en la misma bolsa. Algoritmo K-NN
  • 42. Obviamente, este algoritmo introduce ya una condición que debe cumplirse entre los datos que tengamos, y es que hemos de ser capaces de medir la similaridad entre dos cualesquiera de ellos, por eso se considera que el espacio de datos de entrada debe ser algo parecido a un espacio métrico (es decir, un espacio donde haya una distancia definida), por lo que muchas veces será común pensar en los datos de entrada como si vinieran dados por medio de vectores de un espacio vectorial numérico estándar. Algoritmo K-NN
  • 43. Su versión más simple, el algoritmo del vecino más cercano (aquel que asigna a una nueva muestra la clasificación de la muestra más parecida) explora todo el conocimiento almacenado en el conjunto de entrenamiento para determinar cuál será la clase a la que pertenece una nueva muestra, pero únicamente tiene en cuenta el vecino más próximo (más similar) a ella, por lo que es lógico pensar que es posible que no se esté aprovechando de forma eficiente toda la información que se podría extraer del conjunto de entrenamiento. Algoritmo K-NN
  • 44. Con el objetivo de resolver esta posible deficiencia surge la generalización de los k vecinos más cercanos (k-NN), en la que se utiliza la información suministrada por los k ejemplos del conjunto de entrenamiento más cercanos al que queremos clasificar. Algoritmo K-NN
  • 45. En problemas prácticos donde se aplica esta regla de clasificación se acostumbra tomar un número, k, de vecinos impar para evitar posibles empates (aunque esta decisión solo resueve el problema en clasificaciones binarias). En otras ocasiones, en caso de empate, se selecciona la clase que verifique que sus representantes tengan la menor distancia media al nuevo ejemplo que se está clasificando. En última instancia, si también así se produce un empate, siempre se puede decidir aleatoriamente entre las clases con mayor representación. Algoritmo K-NN
  • 46. A partir de una idea tan simple es fácil introducir variantes que se espera funcionen mejor, aunque suele ser a cambio de introducir complejidad computacional, y una posible variante de este algoritmo consiste en ponderar la contribución de cada vecino de acuerdo a la distancia entre él y la muestra a ser clasificada, dando mayor peso a los vecinos más cercanos frente a los que puedan estar más alejados. Algoritmo K-NN
  • 47. Por ejemplo, podemos ponderar el voto de cada vecino de acuerdo al cuadrado inverso de sus distancias: Si x es el ejemplo que queremos clasificar, V son las posibles clases de clasificación, y {x1,…,xk} es el conjunto de los k ejemplos de entrenamiento más cercanos, definimos el peso de xi respecto a x como: Algoritmo K-NN
  • 48. y entonces la clase asignada a x es aquella que verifique que la suma de los pesos de sus representantes sea máxima, es decir: Esta mejora es muy efectiva en muchos problemas prácticos. Es robusto ante el ruido de los datos y suficientemente efectivo en conjuntos de datos grandes. Algoritmo K-NN
  • 50. En el algoritmo k-NN existe el problema de que requiere de mucha memoria y tiempo de ejecución porque hay que almacenar continuamente todos los datos que definen el espacio de ejemplos inicial. Sin embargo, es muy probable que muchas de las muestras iniciales no sean necesarias para clasificar las demás, ya que su información es redundante con las otras existentes. Algunas variantes interesantes que intentan mitigar este problema son: • K-NN condensado • K-NN Reducido Algoritmo K-NN
  • 51. k-NN Condensado: Dado un orden en los datos de entrada, cada ejemplo del conjunto se clasifica por medio de k-NN haciendo uso únicamente de los datos anteriores; si la clasificación obtenida coincide con la real, ese ejemplo se elimina de los datos, si no, permanece. Observa que depende del orden dado a los datos y, además, tiene el problema de conservar los datos que introducen ruido al sistema. k-NN Reducido: es similar a la anterior, pero se comienza con el conjunto completo de datos, y se eliminan aquellos que no afectan a la clasificación del resto de datos de entrada. Al revés de lo que ocurre con la condensación, este método es capaz de eliminar las muestras que producen ruido, y guarda aquellas que son críticas para la clasificación. Algoritmo K-NN
  • 52. Un problema fundamental que presenta este algoritmo es que no proporciona un mecanismo independiente de los datos, sino que precisa del conjunto de entrenamiento completo para poder evaluar cualquier nuevo ejemplo. Lo que significa que el algoritmo debe acompañarse de los datos de aprendizaje para poder ser aplicado. Si el conjunto de datos es muy grande, el algoritmo puede llegar a ser muy ineficiente. Aunque hay variantes que permiten optimizar el proceso y disminuir el conjunto de datos para aligerar la dependencia de este conjunto, en ningún caso se proporciona como resultado un algoritmo libre de datos (en este sentido, se dice que este modelo es no paramétrico). Algoritmo K-NN
  • 53. No paramétrico significa que no hace suposiciones explícitas sobre la forma funcional de la función que está intentando aproximar, evitando los peligros de modelar mal la distribución subyacente de los datos. Por ejemplo, supongamos que nuestros datos son altamente no gausianos pero el modelo de aprendizaje que elegimos asume una forma gaussiana. En ese caso, nuestro algoritmo haría predicciones extremadamente pobres. Algoritmo K-NN
  • 54. El aprendizaje basado en instancias significa que nuestro algoritmo no aprende explícitamente un modelo. En su lugar, elige memorizar las instancias de entrenamiento que posteriormente se utilizan como "conocimiento" para la fase de predicción. Concretamente, esto significa que sólo cuando se hace una consulta a nuestra base de datos (es decir, cuando le pedimos que prediga una etiqueta a la que se le ha dado una entrada), el algoritmo utilizará las instancias de entrenamiento para devolver una respuesta. Algoritmo K-NN
  • 55. En este punto, probablemente la pregunta esencial es cómo elegir la variable k y cuáles son sus efectos en el clasificador. Como la mayoría de los algoritmos de aprendizaje, la k en k-NN es lo que se denomina un hiperparámetro que el diseñador debe elegir para obtener el mejor ajuste posible para el conjunto de datos. Intuitivamente, se puede pensar que K controla la forma de la frontera entre las distintas clases del problema (los límites de decisión). Algoritmo K-NN
  • 56. Cuando k es pequeño, estamos restringiendo la región de una predicción dada y forzando al clasificador a ser "más ciego" a la distribución general. Un valor pequeño para k proporciona el ajuste más flexible, que tendrá un sesgo bajo pero una alta varianza. Gráficamente, el límite de decisión será más dentado. Por otro lado, un valor k más alto promedia más votantes en cada predicción y por lo tanto es más resistente a valores atípicos. Los valores más grandes de k tendrán límites de decisión más suaves, lo que significa menor varianza pero mayor sesgo. Algoritmo K-NN
  • 57. A pesar de todo lo anterior, es un algoritmo que está en la caja de herramientas de cualquier profesional del análisis de datos, ya que es tremendamente sencillo de aplicar y proporciona unos primeros resultados que permiten medir la eficiencia comparada de otros modelos más elaborados. k-NN se utiliza a menudo en aplicaciones de búsqueda en las que se buscan elementos "similares"; es decir, cuando la tarea es de alguna forma la de "encontrar elementos similares a uno dado" (a veces, a esto se le llama una búsqueda k-NN). Algoritmo K-NN
  • 58. La forma de medir la similitud es creando una representación vectorial de los elementos, y luego comparando los vectores utilizando una métrica de distancia apropiada (como la distancia euclidiana, por ejemplo). Algoritmo K-NN
  • 59. Así, algunos ejemplos concretos de búsqueda de k-NN: Búsqueda de documentos semánticamente similares (es decir, documentos que contienen temas similares): Búsqueda por Conceptos. Se utiliza, por ejemplo, para ayudar a las empresas a encontrar todos los correos electrónicos, contratos, etc. que son relevantes para una demanda. Algoritmo K-NN
  • 60. El mayor caso de uso de la búsqueda k-NN podría ser el de los sistemas de recomendación. Si sabe que a un usuario le gusta un artículo en particular, entonces el objetivo es recomendarle artículos similares. Para encontrar artículos similares, se compara el conjunto de usuarios a los que les gusta cada artículo; si a un conjunto similar de usuarios les gustan dos artículos diferentes, entonces los artículos en sí son probablemente similares. Esto se aplica a la recomendación de productos, a la recomendación de medios de consumo o incluso a la "recomendación" de anuncios para mostrar a un usuario. Algoritmo K-NN
  • 61. También se puede utilizar para clasificación. k-NN no es popular como una red neuronal o una SVM, y por lo general funciona más lentamente y tiene menor precisión que estas otras aproximaciones, pero tiene algunas buenas cualidades prácticas. Es fácil de entrenar (porque no hay entrenamiento), fácil de usar, y es fácil de entender los resultados. De hecho, se utiliza más en la industria de lo que podría pensarse inicialmente. Por ejemplo, algunas empresas utilizan algoritmos de aprendizaje profundo para generar vectores de características que representan los rostros de las personas. Algoritmo K-NN
  • 62. Luego usan k-NN para identificar a una persona comparando la cara con su lista de vigilancia. ¿La razón? k-NN es lo suficientemente bueno y no sería práctico entrenar un clasificador separado para cada persona de la lista de vigilancia. Hoy en día se usa una técnica similar para clasificar de forma sencilla la huella digital de los usuarios de un dispositivo. Algoritmo K-NN
  • 63. Algoritmo K-Mean Agrupar objetos por similitud usando k-means Uno de los algoritmos de agrupación en clústeres más populares, k-means, que se usa ampliamente en el mundo académico y en la industria. El agrupamiento (o análisis de conglomerados) es una técnica que nos permite encontrar grupos de objetos similares, objetos que están más relacionados entre sí que con objetos de otros grupos. Los ejemplos de aplicaciones de agrupación en clústeres orientadas a los negocios incluyen la agrupación de documentos, música y películas por diferentes temas, o encontrar clientes que compartan intereses similares basados en comportamientos de compra comunes como base para motores de recomendación.
  • 64. El algoritmo de K-means intenta encontrar una partición de las muestras en K agrupaciones, de forma que cada ejemplo pertenezca a una de ellas, concretamente a aquella cuyo centroide esté más cerca. El mejor valor de K para que la clasificación separe lo mejor posible los ejemplos no se conoce a priori, y depende completamente de los datos con los que trabajemos. Algoritmo K-Mean
  • 65. La diferencia con un algoritmo supervisado: en este caso, no tenemos un conocimiento a priori que nos indique cómo deben agruparse ninguno de los datos de que disponemos, es decir, no hay un protocolo externo que nos indique lo bien o mal que vamos a realizar la tarea, ningún criterio supervisa la bondad de nuestras soluciones. Algoritmo K-Mean
  • 66. Pero eso no significa que nosotros no podamos introducir una medida de bondad, aunque sea artificial y subjetiva. En este caso, el algoritmo de las K-means va a intentar minimizar la varianza total del sistema, es decir, si ci es el centroide de la agrupación i-ésima, y {xi j} es el conjunto de ejemplos clasificados en esa agrupación, entonces intentamos minimizar la función: Algoritmo K-Mean
  • 67. Intuitivamente, cuanto más pequeña sea esta cantidad, más agrupados están los ejemplos en esas bolsas. Pero observemos que el número de bolsas no viene dado por el algoritmo, sino que hemos de decidirlo antes de ejecutarlo. A pesar de que el problema se plantea como una optimización (minimización de un potencial) que puede resultar relativamente compleja, existe un algoritmo muy sencillo que devuelve el mismo resultado (en la mayoría de las ocasiones). Algoritmo K-Mean
  • 68. Fijado K, los pasos que sigue el algoritmo son los siguientes: • Seleccionar al azar K puntos del conjunto de datos como centros iniciales de los grupos. • Asignar el resto de ejemplos al centro más cercano (ya tenemos K agrupaciones iniciales). • Calcular el centroide de los grupos obtenidos. • Reasignar los centros a estos centroides. • Repetir desde el paso 2 hasta que no haya reasignación de centros (o los últimos desplazamientos estén por debajo de un umbral y no haya cambios en las agrupaciones obtenidas). Algoritmo K-Mean
  • 69. • Inicializar de forma aleatoria K centroides de clusters 𝜇1, 𝜇2, … , 𝜇𝐾 • Repetir • for i=1 to m • 𝑐(𝑖) =indexar de 1 hasta K al clúster más cercano a 𝑥(𝑖) 𝑚𝑖𝑛𝐾| 𝑥 𝑖 − 𝜇𝑘 |2 • For k=1 to K • 𝜇𝑘 = promedio de los puntos asignados al cluster k (centroides) Algoritmo K-Mean
  • 70. El algoritmo anterior es relativamente eficiente, y normalmente se requieren pocos pasos para que el proceso se estabilice pero, en contra, es necesario determinar el número de agrupaciones a priori. Además, como ocurre en muchos problemas de optimización por aproximaciones sucesivas, el sistema es sensible a la posición inicial de los K centros, haciendo que no consigan un mínimo global, sino que se sitúe en un mínimo local (algo muy común cuando se trabaja con un problema de optimización no convexo). Por desgracia, no existe un método teórico global que permita encontrar el valor óptimo de grupos iniciales ni las posiciones en las que debemos situar los centros, por lo que se suele hacer una aproximación experimental repitiendo el algoritmo con diversos valores y posiciones de centros. Algoritmo K-Mean
  • 71. En general, un valor elevado de K hace que el error disminuya, pero a cambio se tiene un sobre entrenamiento que disminuye la cantidad de información que la agrupación resultante da. De hecho, si se toma K igual al tamaño del conjunto de entrenamiento, es decir, tantas agrupaciones como puntos, el potencial anterior resulta ser 0, y aunque es un mínimo real del potencial, es poco informativo, ya que no produce agrupamientos, sino que considera que cada elemento es un grupo independiente. Algoritmo K-Mean
  • 74. ¿CÓMO FUNCIONA K-MEANS? Supongamos que el número de grupos k =3.
  • 75. ¿CÓMO FUNCIONA K-MEANS? Iteración 0 Se comienza con una posición aleatoria de los centroides.
  • 76. ¿CÓMO FUNCIONA K-MEANS? Iteración 1 Se asigna cada caso al centroide más próximo.
  • 77. ¿CÓMO FUNCIONA K-MEANS? Iteración 2 Se recoloca el centroide en el centro de los puntos asignados.
  • 78. ¿CÓMO FUNCIONA K-MEANS? Iteración 3 Se continúa iterativamente hasta que: 1. La distancia entre centroides es máxima. 2. La distancia caso- centroide es mínima.
  • 79. ¿QUÉ MÉTODO ES PREFERIBLE? VENTAJAS DE LOS JERÁRQUICOS - Proporcionan una fotografía de cómo estan organizados los datos El investigador puede ver cuántos conglomerados “existen” en los datos. - Pueden calcularse los centros de esos conglomerados: centroides (medias). - Vecino Más Próximo es especialmente bueno para localizar outliers. - Ward y Vinculación INTERgrupos son los preferidos de entre los jerárquicos: estudios de simulación han comprobado que adscriben cada elemento a su conglomerado verdadero mejor que el resto (especialmente WARD). Tienden a ofrecer conglomerados similares en tamaño y dispersión de sus elementos, de forma redondeada. DESVENTAJAS DE LOS JERÁRQUICOS - Cualquiera de los métodos jerárquicos por separado funciona peor que k-means.
  • 80. ¿QUÉ MÉTODO ES PREFERIBLE? VENTAJAS DE LOS ITERATIVOS - K medias es el método más robusto respecto a presencia de outliers y errores en las medidas de distancia. DESVENTAJAS DE LOS ITERATIVOS - Requiere que el investigador especifique previamente tanto el número de conglomerados como sus centros iniciales. ¿SOLUCIÓN? Combinar ambos procedimientos, utilizando: 1. Jerárquico para eliminar outliers, determinar el numero de clusters y sus centros iniciales. 2. k-means para obtener la solución conglomerativa final.
  • 81. Descripción de los segmentos Obtención de los segmentos Etapas preliminares 1ª FASE: MÉTODOS JERARQUICOS PLANTEAMIENTO DEL PROBLEMA SELECCIÓN DE VARIABLES VECINO MÁS PRÓXIMO: DETECCIÓN Y ELIMINACIÓN DE OUTLIERS WARD: OBTENCIÓN DEL NÚMERO DE CONGLOMERADOS VINCULACIÓN INTRAGRUPOS: ANÁLISIS DE LA ESTABILIDAD CREACIÓN DEL ARCHIVO DE MEDIAS DE CADA CONGLOMERADO PERFILADO DE LOS CONGLOMERADOS 2ª FASE: MÉTODO k-means: OBTENCIÓN DE LA SOLUCIÓN CONGLOMERATIVA FINAL Fases a la hora de ejecutar un Análisis de Conglomerados
  • 82. 1ª FASE: MÉTODOS JERARQUICOS PLANTEAMIENTO DEL PROBLEMA VECINO MÁS PRÓXIMO: DETECCIÓN Y ELIMINACIÓN DE OUTLIERS SELECCIÓN DE VARIABLES WARD: OBTENCIÓN DEL NÚMERO DE CONGLOMERADOS VINCULACIÓN INTRAGRUPOS: ANÁLISIS DE LA ESTABILIDAD CREACIÓN DEL ARCHIVO DE MEDIAS DE CADA CONGLOMERADO PERFILADO DE LOS CONGLOMERADOS 2ª FASE: MÉTODO k-means: OBTENCIÓN DE LA SOLUCIÓN CONGLOMERATIVA FINAL ETAPAS PRELIMINARES CUESTIONES PREVIAS  ¿Cuál es el objetivo de mi estudio?  ¿Busco explorar datos o confirmar hipótesis?  ¿Quiero encontrar segmentos o grupos? SELECCIÓN DE VARIABLES  Las variables deben ser independientes, no correlacionadas. Si son ítems de un test mejor hacer un análisis factorial antes.  Debe tener sentido agruparlas Rubbish in, rubbish out.  El número de variables a introducir en el análisis no es importante (Md =15).  Sí debe mantenerse un número suficiente de casos por variable, idealmente 2m(m =nº variables).  Por lo tanto, mejor muestras grandes y representativas.
  • 83. 1ª FASE: MÉTODOS JERARQUICOS PLANTEAMIENTO DEL PROBLEMA VECINO MÁS PRÓXIMO: DETECCIÓN Y ELIMINACIÓN DE OUTLIERS SELECCIÓN DE VARIABLES WARD: OBTENCIÓN DEL NÚMERO DE CONGLOMERADOS VINCULACIÓN INTRAGRUPOS: ANÁLISIS DE LA ESTABILIDAD CREACIÓN DEL ARCHIVO DE MEDIAS DE CADA CONGLOMERADO 2ª FASE: MÉTODO k-means: OBTENCIÓN DE LA SOLUCIÓN CONGLOMERATIVA FINAL OBTENCIÓN DE LOS SEGMENTOS PERFILADO DE LOS CONGLOMERADOS Posibles outliers. El número indica la posición que ocupan en el ARCHIVO. Se ocultan de los análisis y se vuelve a ejecutar este método para comprobar el efecto sobre el dendrograma.
  • 84. FASE: MÉTODOS ERARQUICOS PLANTEAMIENTO DEL PROBLEMA VECINO MÁS PRÓXIMO: DETECCIÓN Y ELIMINACIÓN DE OUTLIERS SELECCIÓN DE VARIABLES WARD: OBTENCIÓN DEL NÚMERO DE CONGLOMERADOS J 1 VINCULACIÓN INTRAGRUPOS: ª ANÁLISIS DE LA FIABILIDAD ACIÓN DEL FICHERO DE MEDIAS DE CADA CONGLOMERADO 2ª FASE: MÉTODO k-means: OBTENCIÓN DE LA SOLUCIÓN CONGLOMERATIVA FINAL OBTENCIÓN DE LOS SEGMENTOS Para determinar el número de conglomerados “natural” existen criterios numéricos y gráficos. El dendrograma nos muestra 3 grupos claros: Para validar esta solución, se recomienda utilizar, además, otro procedimiento PERFILADO DE LOS CONGLOMERADOS
  • 85. 1ª FASE: MÉTODOS JERARQUICOS PLANTEAMIENTO DEL PROBLEMA SELECCIÓN DE VARIABLES VECINO MÁS PRÓXIMO: DETECCIÓN Y ELIMINACIÓN DE OUTLIERS WARD: OBTENCIÓN DEL NÚMERO DE CONGLOMERADOS VINCULACIÓN INTRAGRUPOS: ANÁLISIS DE LA ESTABILIDAD CREACIÓN DEL ARCHIVO DE MEDIAS DE CADA CONGLOMERADO 2ª FASE: MÉTODO k-means: OBTENCIÓN DE LA SOLUCIÓN CONGLOMERATIVA FINAL OBTENCIÓN DE LOS SEGMENTOS El análisis del CAMBIO EN EL COEFICIENTE DE CONGLOMERACIÓN indica que 3 conglomerados es además la opción mejor desde un punto de vista estadístico. PERFILADO DE LOS CONGLOMERADOS
  • 86. 1ª FASE: MÉTODOS JERARQUICOS PLANTEAMIENTO DEL PROBLEMA SELECCIÓN DE VARIABLES VECINO MÁS PRÓXIMO: DETECCIÓN Y ELIMINACIÓN DE OUTLIERS WARD: OBTENCIÓN DEL NÚMERO DE CONGLOMERADOS VINCULACIÓN INTRAGRUPOS: ANÁLISIS DE LA ESTABILIDAD CREACIÓN DEL ARCHIVO DE MEDIAS DE CADA CONGLOMERADO 2ª FASE: MÉTODO k-means: OBTENCIÓN DE LA SOLUCIÓN CONGLOMERATIVA FINAL OBTENCIÓN DE LOS SEGMENTOS PERFILADO DE LOS CONGLOMERADOS
  • 87. 1ª FASE: MÉTODOS JERARQUICOS PLANTEAMIENTO DEL PROBLEMA SELECCIÓN DE VARIABLES VECINO MÁS PRÓXIMO: DETECCIÓN Y ELIMINACIÓN DE OUTLIERS WARD: OBTENCIÓN DEL NÚMERO DE CONGLOMERADOS VINCULACIÓN INTRAGRUPOS: ANÁLISIS DE LA ESTABILIDAD CREACIÓN DEL ARCHIVO DE MEDIAS DE CADA CONGLOMERADO 2ª FASE: MÉTODO k-means: OBTENCIÓN DE LA SOLUCIÓN CONGLOMERATIVA FINAL OBTENCIÓN DE LOS SEGMENTOS PASOS Se calculan las medias de cada variable para cada uno de los 3 conglomerados. Se copian los datos en un ARCHIVO de datos, nombrando a las variables exactamente igual e incluyendo una variable que se debe llamar necesariamente cluster_ PERFILADO DE LOS CONGLOMERADOS
  • 88. 1ª FASE: MÉTODOS JERARQUICOS PLANTEAMIENTO DEL PROBLEMA VECINO MÁS PRÓXIMO: DETECCIÓN Y ELIMINACIÓN DE OUTLIERS SELECCIÓN DE VARIABLES WARD: OBTENCIÓN DEL NÚMERO DE CONGLOMERADOS VINCULACIÓN INTRAGRUPOS: ANÁLISIS DE LA ESTABILIDAD CREACIÓN DEL ARCHIVO DE MEDIAS DE CADA CONGLOMERADO 2ª FASE: MÉTODO k-means: OBTENCIÓN DE LA SOLUCIÓN CONGLOMERATIVA FINAL OBTENCIÓN DE LOS SEGMENTOS En esta última fase final especificamos: 1. 3 como número de conglomerados. 2. ElARCHIVO de medias recién creado como centros iniciales. La variable que se crea en el archivo de datos tras un k medias se reconoce bien respecto de un método jerárquico. Importante informar del %de casos reasignados a PERFILADO DE LOS CONGLOMERADOS otro conglomerado.
  • 89. 1ª FASE: MÉTODOS JERARQUICOS PLANTEAMIENTO DEL PROBLEMA VECINO MÁS PRÓXIMO: DETECCIÓN Y ELIMINACIÓN DE OUTLIERS SELECCIÓN DE VARIABLES WARD: OBTENCIÓN DEL NÚMERO DE CONGLOMERADOS VINCULACIÓN INTRAGRUPOS: ANÁLISIS DE LA ESTABILIDAD CREACIÓN DEL ARCHIVO DE MEDIAS DE CADA CONGLOMERADO 2ª FASE: MÉTODO k-means: OBTENCIÓN DE LA SOLUCIÓN CONGLOMERATIVA FINAL PERFILADO DE LOS SEGMENTOS IMPORTANTÍSIM A FASE T enemos ya los conglomerados form ados… pero ahora qué hacemos con ellos?? Debemos cruzarlos con otras variables del cuestionario (no utilizadas para crear los grupos) con el fin de perfilarlos, saber un poco más de ellos. Para ello se utilizan: - Contrastes F si se cruza la variable de conglomerados con una variable métrica. - Contrastes X2 si se cruzan con una variable categórica. PERFILADO DE LOS CONGLOMERADOS
  • 90. 1ª FASE: MÉTODOS JERARQUICOS PLANTEAMIENTO DEL PROBLEMA SELECCIÓN DE VARIABLES VECINO MÁS PRÓXIMO: DETECCIÓN Y ELIMINACIÓN DE OUTLIERS WARD: OBTENCIÓN DEL NÚMERO DE CONGLOMERADOS VINCULACIÓN INTRAGRUPOS: ANÁLISIS DE LA ESTABILIDAD CREACIÓN DEL ARCHIVO DE MEDIAS DE CADA CONGLOMERADO 2ª FASE: MÉTODO k-means: OBTENCIÓN DE LA SOLUCIÓN CONGLOMERATIVA FINAL PERFILADO DE LOS SEGMENTOS PERFILADO DE LOS CONGLOMERADOS