Aprendizaje no supervisado

APRENDIZAJE NO SUPERVISADO
Facilitador:
Jairo Acosta Solano

Metas de formación:
• Conocer los detalles del aprendizaje no supervisado
y su importancia en los modelos de analítica de
datos.
• Aplicar algoritmos para la identificación de clústeres
que pueden convertirse en los atributos clase para
el aprendizaje supervisado.

APRENDIZAJE SUPERVISADO
Los modelos de aprendizaje supervisado son aquellos en
los que se aprenden funciones, relaciones que asocian
entradas con salidas, por lo que se ajustan a un conjunto
de ejemplos de los que conocemos la relación entre la
entrada y la salida deseada.
Este hecho incluso llega a proporcionar una de las
clasificaciones más habituales en el tipo de algoritmos
que se desarrollan, así, dependiendo del tipo de salida,
suele darse una subcategoría que diferencia entre
modelos de clasificación, si la salida es un valor
categórico (por ejemplo, una enumeración, o un conjunto
finito de clases) , y modelos de regresión, si la salida es un
valor de un espacio continuo.

Los modelos de aprendizaje no supervisado son aquellos
en los que no estamos interesados en ajustar pares
(entrada, salida), sino en aumentar el conocimiento
estructural de los datos disponibles (y posibles datos
futuros que provengan del mismo fenómeno), por
ejemplo:
• Dando una agrupación de los datos según su similaridad
(clustering),
• Simplificando las estructura de los mismos
manteniendo sus características fundamentales (como
en los procesos de reducción de la dimensionalidad),
• Extrayendo la estructura interna con la que se
distribuyen los datos en su espacio original (aprendizaje
topológico).

La mayor parte de las definiciones, resultados teóricos, y
algoritmos clásicos más importantes, se clasifican como
algoritmos supervisados y, sobre todo en el pasado,
muchos de los algoritmos no supervisados se reservaban
para tareas de preprocesamiento de datos integrados en
metodologías más amplias.

Este hecho se debe, principalmente, a un cadena de
factores.
Por una parte, el objetivo que dirige el aprendizaje
supervisado está mucho más claramente definido,
mientras que el no supervisado resulta más etéreo y
difuso. Esto no solo afecta a un desarrollo más amplio al
disponer de aplicaciones mejor definidas, sino que
también permite disponer de métricas que permiten
evaluar con mucha más claridad la bondad del
aprendizaje realizado (el rendimiento del algoritmo).
Por otra parte, y quizás como resultado de lo anterior, los
algoritmos no supervisados resultan ser muy costosos
porque requieren de más pruebas de ensayo y error,
haciendo que requieran de un aparataje teórico y
computacional mucho más elaborado.

Sin embargo, sobre todo recientemente, han ido
surgiendo nuevos algoritmos no supervisados
relacionados con lo que se conoce como Aprendizaje de
la Representación, que ha demostrado ser el núcleo del
Aprendizaje Automático, y donde líneas de trabajo como
el Deep Learning están tomando el peso de los avances
más interesantes que se están produciendo, hasta el
punto de considerarse que el futuro de la Inteligencia
Artificial se encuentra más cerca del aprendizaje no
supervisado que del supervisado.

Mientras que en el aprendizaje supervisado tenemos un
conjunto de variables que usamos para predecir una
determinada clase de salida (sube/baja, renuncia/no
renuncia), en el aprendizaje no supervisado no tenemos
clases de salida esperadas.
En el aprendizaje supervisado teníamos data de
entrenamiento y data de testeo que nos permitía validar
la efectividad del modelo por la cercanía a la clase
conocida.
En el aprendizaje no supervisado no tenemos output
predeterminado. Esto genera a su vez un gran reto
porque es muy difícil saber si ya culminamos con el
trabajo o podemos aun generar otro modelo con el que
nos sintamos más satisfechos.

Las principales aplicaciones del aprendizaje no
supervisado están relacionadas en el agrupamiento o
clustering de datos.
Aquí, el objetivo es encontrar subgrupos homogéneos
dentro de los datos. Estos algoritmos se basan en la
distancia entre observaciones. El ejemplo de la
segmentación de clientes sería un ejemplo de clustering.

El clustering (análisis de conglomerados), es una categoría
de técnicas de aprendizaje no supervisadas que nos
permite descubrir estructuras ocultas en los datos donde
no sabemos la respuesta correcta por adelantado. El
objetivo de la agrupación es encontrar una agrupación
natural en los datos para que los elementos del mismo
grupo sean más similares entre sí que a los de diferentes
grupos.

Dada su naturaleza exploratoria, la agrupación en
clústeres es puede ayudarnos a organizar los datos en
estructuras significativas:
• Encontrar centros de similitud utilizando el popular
algoritmo de k-means
• Adopción de un enfoque de abajo hacia arriba para
construir árboles de agrupamiento jerárquico.
• Identificar formas arbitrarias de objetos mediante un
enfoque de agrupamiento basado en densidad

ANALISIS DE
CONGLOMERADOS (CLUSTERS)

Contextualización
Métodos de Dependencia: Se asume que una variable (Y) depende de (es
causada o determinada por) otras variables (X1, X2 etc.)
Ejemplos: Regresión, ANOVA, Análisis Discriminante
Métodosde Independencia: No se asume que ninguna variable sea causada o
determinada por otras. Básicamente tenemos X1, X2 ….Xn (pero no Y)
Ejemplos: Análisis de Conglomerados, Análisis Factorial, etc.
Cuándo se usan métodos de independencia se deja que los datos
hablen por ellos mismos. No hay modelización previa.

Contextualización
Análisis Factorial: Cuando lo que interesa son agrupar variables.
Análisis Clúster: Cuando lo que interesa son agrupar observaciones.
Principio rector: Maximización de la homogeneidad intra grupos (conglomerados,
segmentos) y simultáneamente Maximización de la heterogeneidad inter grupos.

X1 X2 X3 X4 Cluster
Obs1 5 2 1 3 1
Obs2 3 3 4 2 2
Obs3 2 4 3 5 3
Obs4 5 3 2 4 1
Obs5 . . . . 2
Obs6 . . . . 3
Obs7 . . . . 3
Obs8 . . . . 1
Obs9 . . . . 3
Obs10 . . . . 2
Cluster 1
Cluster 2
Cluster 3
Resultado final: En el archivo de datos, una nueva variable que asigna
cada observación a un conglomerado específico.
Dos fases fundamentales. 1ª: Obtención de segmentos

Cluster 1 Cluster 2 Cluster 3
Edad 32 44 56
% Mujeres 31 54 46
Tamaño de la familia 1.4 2.9 2.1
Opinión 1 3.2 4.0 2.6
Opinión 2 2.1 3.4 3.2
Opinión 3 2.2 3.3 3.0
“Jóvenes solteros”
“Familia tradicional”
“Maduros felices”
Dos fases fundamentales. 2ª: Perfilado de segmentos
Resultado final: Una tabla de contingencia entre la variable de agrupamiento y una
serie de variables sociodemográficas o de otro tipo (distintas de las utilizadas para
establecer los conglomerados).
1
7

¿Cómo se construyen los conglomerados?
El análisis estadístico necesita:
1.Una MEDIDA para calcular la distancia entre dos sujetos, lo distintos
que son.
2. Un criterio, una regla, un MÉTODO PARA AGRUPARLOS y asignarlos a
cada conglomerado.

Eltipo de medida seleccionada muchas veces influye poco en los
resultados finales.
Y
*B(x2, y2)
y2-y1
(x
A *)
1, y1
x2-x1
X
d = (x -x )
2
+(y -y )
2
2 1 2 1
Otras distancias disponibles: City-Block (usa de distancias absolutas en vez de
la distancia al cuadrado de las coordenadas), Minkowski, Coseno, Chebychev,
Correlación de Pearson.
¿La medida? Distancia Euclídea

¿El método de agrupamiento? Hay muchos y muy diferentes
Nombre
1 Vinculación entre-grupos
2 Vinculación intra-grupos
3 Vecino más próximo
4 Vecino más lejano
5 Agrupación de centroides
6 Agrupación de medianas
7 Método de Ward
8 Conglomerado de k-means
9 Análisis Factorial
Jerárquicos Iterativos
Aglomerativos Divisivos
- Umbral secuencial
- Umbral paralelo
- Redes Neuronales
- Partición óptima (8)
Métodos sin solapamiento Métodos con solapamiento
- k-centroides con solapamiento
- k-means con solapamiento
- Análisis de Clases Latentes
- AC Borroso
- Factorial Tipo-Q (9)
Métodos de
vinculación
Métodos de
centroide
Métodos de
varianza
- Centroide (5)
- Mediana (6)
- Promedio
- Entre grupos (1)
- Intra grupos (2)
- Ponderado
- Único
- Ordinario (3)
- Densidad
- Dos fases
- Completo (4)
- Ward (7)

Principales tipologías de agrupamiento
Vinculación única:
Mínima distancia
* *
Vinculación completa:
Máxima distancia
* *
Vinculación media
(inter-grupos):
Distancia media
*
*
*
*
Método de Ward:
Minimización de la
varianza intragrupos
*
*
*
* ¤ *
* *
*
¤*
Método de centroide:
Distancia entre centros
*
* *
* *
*
¤ *
*
¤
*
*
Sin solapamiento Con solapamiento
Jerárquico No jerárquico
1a 1b
1c
1b
1b1
1b2
2
Aglomerativo Divisivo
1a

*G
*D
C *
¿CÓMO FUNCIONAN LOS PROCEDIMIENTOS JERÁRQUICOS (AGLOMERATIVOS)?
¿Qué par de elementos se unirán primero?
A* *B
*E
H*

*D
C *
Depende de la medida de distancia que utilicemos, pero supongamos
que A-B y D-E. Surgen así dos conglomerados.
*G
A* *B
*E
H*

C *
*D
El siguiente punto más próximo a estos dos conglomerados es C. ¿A
dónde será adscrito?
*G
A* *B
*E
H*

C *
*D
A dónde se encuentre más próximo (distancia euclídea), pero... EXISTEN
VARIAS POSIBILIDADES (métodos de agrupamiento).
*G
A* *B
*E
H*

10,5 8,5 7,0
8,5
9,0
12,0
11,0
C *
*D
A dónde se encuentre más próximo (distancia euclídea), pero... EXISTEN
VARIAS POSIBILIDADES (métodos de agrupamiento):
*G
A* *B
9,5
*E
H*

C *
*D
VECINO MÁS LEJANO (COMPLETE LINKAGE): Adscribe C al conglomerado
cuya distancia el caso más alejado de ese conglomerado es menor.
*G
A* *B
10,5
9,5
*E
H*
d(C;AB)=max(dCA;dCB)

8,5
*D
VECINO MÁS PRÓXIMO (SINGLE LINKAGE): Adscribe C al conglomerado
cuyo distancia al caso más cercano de ese conglomerado es menor.
*G
A* *B
7,0
d(C;AB)=min(dCA;dCB)
C *
Inconvenientes: Encadenamiento
Ventajas: Detecta muy bien “outliers”.
*E
H*

9,0
8,5
C *
*G
*D
MÉTODOS BASADOS EN PUNTUACIONES MEDIAS: Adscribe C al
conglomerado cuya promedio de distancias es menor.
A* *B
WARD y VINCULACIÓN INTERGRUPOS.
H* *E
• Vinculación Intragrupos
• Vinculación intergrupos
• Mediana
• Centroide
• Ward
Tienden a obtener conglomerados de
tamaño similar.
Preferibles al resto de jerárquicos, especialmente

conglomerado cuya distancia es menor a...
Vinculación INTERgrupos: Media de todas las distancias entre C y cada uno de
los elementos del conglomerado.
Vinculación INTRAgrupos: Incluye además las distancias dentro de cada
conglomerado, es decir, todas las posibles.

conglomerado cuya distancia es menor a...
Centroide: Centro de simetría del cluster, calculado como la media de las
distancias de todos sus elementos:
Mediana: Centroides calculados sólo con valores centrales.
Ward: Proporciona la menor suma de cuadrados intragrupos. Envez de utilizar
las distancias entre casos utiliza esta medida de variabilidad.

Todos estos métodos JERÁRQUICOS...
... como resultado de su proceso
aglomerativo, ofrecen un
DENDROGRAMA, una representación
gráfica en forma de árbol que
muestra:
1. Qué elementos se han ido
uniendo en cada paso.
2. Cómo se organizan los casos.
3. Cuántos conglomerados
podemos distinguir en los datos.

Paso 0:
Cada observación
Es considerada
como un
conglomerado
independiente
0,2 0,4 0,6 0,8 1,0
OBS 5 *
OBS 3 *
OBS 4 *
OBS 6 *
Medida de Distancia
¿CÓMO SE CREA EL DENDROGRAMA?
OBS 1 *
OBS 2 *

Paso 1:
Se agrupan los dos
casos más próximos
entre sí.
0,2 0,4 0,6 0,8 1,0
OBS 1 *
Cluster1
OBS 2 *
OBS 3 *
OBS 4 *
OBS 5 *
OBS 6 *

Paso 2:
Se agrupan los
siguientes casoscon
menores distancias
entre ellos.
OBS 1 *
Cluster1
OBS 2 *
OBS 3 *
OBS 4 *
OBS 5 *
Cluster 2
OBS 6 *
0,2 0,4 0,6 0,8 1,0

Paso 3:
El caso 3 se une al
clúster 1
OBS 1 *
Cluster1
OBS 2 *
OBS 3 *
OBS 4 *
OBS 5 *
Cluster 2
OBS 6 *
0,2 0,4 0,6 0,8 1,0

OBS 1 *
OBS 5 *
OBS 2 *
OBS 3 *
OBS 4 *
OBS 6 *
Cluster 1-2
Paso 4:
Se juntan los dos
clusters 1 y 2,
quedando un sólo
caso desparejado:
un outlier.
0,2 0,4 0,6 0,8 1,0

Ejemplos de dendrogramas
Un buen resultado:
2 conglomerados
claros
Un mal resultado:
No hay
conglomerados
claros
Un mal resultado:
Tenemos un outlier (caso 1017)
y el dendrograma muestra
encadenamiento
Dendrograma típico al emplear
Vecino Más Próximo

¿Y QUÉ HAY DE LOS MÉTODOS ITERATIVOS?
No agrupan los datos por similaridad entre ellos No crean un dendrograma.
Son métodos que van ajustando iterativamente los centroides de un número
fijo de conglomerados k a los datos.
• Cada paso de un método jerárquico va agrupando casos similares en un
mismo cluster.
• Cada paso de un método iterativo va recolocando los centroides para que
estén óptimamente posicionados en el centro real del conglomerado.

El algoritmo de los k vecinos más cercanos (k-NN, o k
Nearest Neighbour) es un algoritmo de clasificación
supervisado basado en criterios de vecindad.
En particular, k-NN se basa en la idea de que los nuevos
ejemplos serán clasificados con la misma clase que
tengan la mayor cantidad de vecinos más parecidos a
ellos del conjunto de entrenamiento.
Así pues, este algoritmo sigue un procedimiento que
seguimos cada uno de nosotros al ver un ejemplo nuevo:
vemos a qué se parece más de lo que conocemos, y lo
metemos en la misma bolsa.
Algoritmo K-NN

Obviamente, este algoritmo introduce ya una condición
que debe cumplirse entre los datos que tengamos, y es
que hemos de ser capaces de medir la similaridad entre
dos cualesquiera de ellos, por eso se considera que el
espacio de datos de entrada debe ser algo parecido a un
espacio métrico (es decir, un espacio donde haya una
distancia definida), por lo que muchas veces será común
pensar en los datos de entrada como si vinieran dados
por medio de vectores de un espacio vectorial numérico
estándar.
Algoritmo K-NN

Su versión más simple, el algoritmo del vecino más
cercano (aquel que asigna a una nueva muestra la
clasificación de la muestra más parecida) explora todo el
conocimiento almacenado en el conjunto de
entrenamiento para determinar cuál será la clase a la que
pertenece una nueva muestra, pero únicamente tiene en
cuenta el vecino más próximo (más similar) a ella, por lo
que es lógico pensar que es posible que no se esté
aprovechando de forma eficiente toda la información que
se podría extraer del conjunto de entrenamiento.
Algoritmo K-NN

Con el objetivo de resolver esta posible deficiencia surge
la generalización de los k vecinos más cercanos (k-NN), en
la que se utiliza la información suministrada por los k
ejemplos del conjunto de entrenamiento más cercanos al
que queremos clasificar.
Algoritmo K-NN

En problemas prácticos donde se aplica esta regla de
clasificación se acostumbra tomar un número, k, de
vecinos impar para evitar posibles empates (aunque esta
decisión solo resueve el problema en clasificaciones
binarias).
En otras ocasiones, en caso de empate, se selecciona la
clase que verifique que sus representantes tengan la
menor distancia media al nuevo ejemplo que se está
clasificando.
En última instancia, si también así se produce un empate,
siempre se puede decidir aleatoriamente entre las clases
con mayor representación.
Algoritmo K-NN

A partir de una idea tan simple es fácil introducir
variantes que se espera funcionen mejor, aunque suele
ser a cambio de introducir complejidad computacional, y
una posible variante de este algoritmo consiste en
ponderar la contribución de cada vecino de acuerdo a la
distancia entre él y la muestra a ser clasificada, dando
mayor peso a los vecinos más cercanos frente a los que
puedan estar más alejados.
Algoritmo K-NN

Por ejemplo, podemos ponderar el voto de cada vecino
de acuerdo al cuadrado inverso de sus distancias:
Si x es el ejemplo que queremos clasificar, V son las
posibles clases de clasificación, y {x1,…,xk} es el conjunto
de los k ejemplos de entrenamiento más cercanos,
definimos el peso de xi respecto a x como:
Algoritmo K-NN

y entonces la clase asignada a x es aquella que verifique
que la suma de los pesos de sus representantes sea
máxima, es decir:
Esta mejora es muy efectiva en muchos problemas
prácticos. Es robusto ante el ruido de los datos y
suficientemente efectivo en conjuntos de datos grandes.
Algoritmo K-NN

En el algoritmo k-NN existe el problema de que requiere
de mucha memoria y tiempo de ejecución porque hay
que almacenar continuamente todos los datos que
definen el espacio de ejemplos inicial. Sin embargo, es
muy probable que muchas de las muestras iniciales no
sean necesarias para clasificar las demás, ya que su
información es redundante con las otras existentes.
Algunas variantes interesantes que intentan mitigar este
problema son:
• K-NN condensado
• K-NN Reducido
Algoritmo K-NN

k-NN Condensado: Dado un orden en los datos de entrada,
cada ejemplo del conjunto se clasifica por medio de k-NN
haciendo uso únicamente de los datos anteriores; si la
clasificación obtenida coincide con la real, ese ejemplo se
elimina de los datos, si no, permanece. Observa que depende
del orden dado a los datos y, además, tiene el problema de
conservar los datos que introducen ruido al sistema.
k-NN Reducido: es similar a la anterior, pero se comienza con
el conjunto completo de datos, y se eliminan aquellos que no
afectan a la clasificación del resto de datos de entrada. Al
revés de lo que ocurre con la condensación, este método es
capaz de eliminar las muestras que producen ruido, y guarda
aquellas que son críticas para la clasificación.
Algoritmo K-NN

Un problema fundamental que presenta este algoritmo es
que no proporciona un mecanismo independiente de los
datos, sino que precisa del conjunto de entrenamiento
completo para poder evaluar cualquier nuevo ejemplo. Lo
que significa que el algoritmo debe acompañarse de los
datos de aprendizaje para poder ser aplicado.
Si el conjunto de datos es muy grande, el algoritmo puede
llegar a ser muy ineficiente. Aunque hay variantes que
permiten optimizar el proceso y disminuir el conjunto de
datos para aligerar la dependencia de este conjunto, en
ningún caso se proporciona como resultado un algoritmo
libre de datos (en este sentido, se dice que este modelo
es no paramétrico).
Algoritmo K-NN

No paramétrico significa que no hace suposiciones
explícitas sobre la forma funcional de la función que está
intentando aproximar, evitando los peligros de modelar
mal la distribución subyacente de los datos. Por ejemplo,
supongamos que nuestros datos son altamente no
gausianos pero el modelo de aprendizaje que elegimos
asume una forma gaussiana. En ese caso, nuestro
algoritmo haría predicciones extremadamente pobres.
Algoritmo K-NN

El aprendizaje basado en instancias significa que nuestro
algoritmo no aprende explícitamente un modelo. En su
lugar, elige memorizar las instancias de entrenamiento
que posteriormente se utilizan como "conocimiento" para
la fase de predicción. Concretamente, esto significa que
sólo cuando se hace una consulta a nuestra base de datos
(es decir, cuando le pedimos que prediga una etiqueta a
la que se le ha dado una entrada), el algoritmo utilizará
las instancias de entrenamiento para devolver una
respuesta.
Algoritmo K-NN

En este punto, probablemente la pregunta esencial es
cómo elegir la variable k y cuáles son sus efectos en el
clasificador. Como la mayoría de los algoritmos de
aprendizaje, la k en k-NN es lo que se denomina un
hiperparámetro que el diseñador debe elegir para
obtener el mejor ajuste posible para el conjunto de datos.
Intuitivamente, se puede pensar que K controla la forma
de la frontera entre las distintas clases del problema (los
límites de decisión).
Algoritmo K-NN

Cuando k es pequeño, estamos restringiendo la región de
una predicción dada y forzando al clasificador a ser "más
ciego" a la distribución general. Un valor pequeño para k
proporciona el ajuste más flexible, que tendrá un sesgo
bajo pero una alta varianza.
Gráficamente, el límite de decisión será más dentado. Por
otro lado, un valor k más alto promedia más votantes en
cada predicción y por lo tanto es más resistente a valores
atípicos. Los valores más grandes de k tendrán límites de
decisión más suaves, lo que significa menor varianza pero
mayor sesgo.
Algoritmo K-NN

A pesar de todo lo anterior, es un algoritmo que está en
la caja de herramientas de cualquier profesional del
análisis de datos, ya que es tremendamente sencillo de
aplicar y proporciona unos primeros resultados que
permiten medir la eficiencia comparada de otros modelos
más elaborados.
k-NN se utiliza a menudo en aplicaciones de búsqueda en
las que se buscan elementos "similares"; es decir, cuando
la tarea es de alguna forma la de "encontrar elementos
similares a uno dado" (a veces, a esto se le llama una
búsqueda k-NN).
Algoritmo K-NN

La forma de medir la similitud es creando una
representación vectorial de los elementos, y luego
comparando los vectores utilizando una métrica de
distancia apropiada (como la distancia euclidiana, por
ejemplo).
Algoritmo K-NN

Así, algunos ejemplos concretos de búsqueda de k-NN:
Búsqueda de documentos semánticamente similares (es
decir, documentos que contienen temas similares):
Búsqueda por Conceptos. Se utiliza, por ejemplo, para
ayudar a las empresas a encontrar todos los correos
electrónicos, contratos, etc. que son relevantes para una
demanda.
Algoritmo K-NN

El mayor caso de uso de la búsqueda k-NN podría ser el
de los sistemas de recomendación. Si sabe que a un
usuario le gusta un artículo en particular, entonces el
objetivo es recomendarle artículos similares. Para
encontrar artículos similares, se compara el conjunto de
usuarios a los que les gusta cada artículo; si a un conjunto
similar de usuarios les gustan dos artículos diferentes,
entonces los artículos en sí son probablemente similares.
Esto se aplica a la recomendación de productos, a la
recomendación de medios de consumo o incluso a la
"recomendación" de anuncios para mostrar a un usuario.
Algoritmo K-NN

También se puede utilizar para clasificación. k-NN no es
popular como una red neuronal o una SVM, y por lo
general funciona más lentamente y tiene menor precisión
que estas otras aproximaciones, pero tiene algunas
buenas cualidades prácticas. Es fácil de entrenar (porque
no hay entrenamiento), fácil de usar, y es fácil de
entender los resultados.
De hecho, se utiliza más en la industria de lo que podría
pensarse inicialmente. Por ejemplo, algunas empresas
utilizan algoritmos de aprendizaje profundo para generar
vectores de características que representan los rostros de
las personas.
Algoritmo K-NN

Luego usan k-NN para identificar a una persona
comparando la cara con su lista de vigilancia. ¿La razón?
k-NN es lo suficientemente bueno y no sería práctico
entrenar un clasificador separado para cada persona de la
lista de vigilancia.
Hoy en día se usa una técnica similar para clasificar de
forma sencilla la huella digital de los usuarios de un
dispositivo.
Algoritmo K-NN

Algoritmo K-Mean
Agrupar objetos por similitud usando k-means
Uno de los algoritmos de agrupación en clústeres más
populares, k-means, que se usa ampliamente en el
mundo académico y en la industria.
El agrupamiento (o análisis de conglomerados) es una
técnica que nos permite encontrar grupos de objetos
similares, objetos que están más relacionados entre sí
que con objetos de otros grupos.
Los ejemplos de aplicaciones de agrupación en clústeres
orientadas a los negocios incluyen la agrupación de
documentos, música y películas por diferentes temas, o
encontrar clientes que compartan intereses similares
basados en comportamientos de compra comunes como
base para motores de recomendación.

El algoritmo de K-means intenta encontrar una partición
de las muestras en K agrupaciones, de forma que cada
ejemplo pertenezca a una de ellas, concretamente a
aquella cuyo centroide esté más cerca. El mejor valor de K
para que la clasificación separe lo mejor posible los
ejemplos no se conoce a priori, y depende
completamente de los datos con los que trabajemos.
Algoritmo K-Mean

La diferencia con un algoritmo supervisado: en este caso,
no tenemos un conocimiento a priori que nos indique
cómo deben agruparse ninguno de los datos de que
disponemos, es decir, no hay un protocolo externo que
nos indique lo bien o mal que vamos a realizar la tarea,
ningún criterio supervisa la bondad de nuestras
soluciones.
Algoritmo K-Mean

Pero eso no significa que nosotros no podamos introducir
una medida de bondad, aunque sea artificial y subjetiva.
En este caso, el algoritmo de las K-means va a intentar
minimizar la varianza total del sistema, es decir, si ci es el
centroide de la agrupación i-ésima, y {xi
j} es el conjunto
de ejemplos clasificados en esa agrupación, entonces
intentamos minimizar la función:
Algoritmo K-Mean

Intuitivamente, cuanto más pequeña sea esta cantidad,
más agrupados están los ejemplos en esas bolsas. Pero
observemos que el número de bolsas no viene dado por
el algoritmo, sino que hemos de decidirlo antes de
ejecutarlo.
A pesar de que el problema se plantea como una
optimización (minimización de un potencial) que puede
resultar relativamente compleja, existe un algoritmo muy
sencillo que devuelve el mismo resultado (en la mayoría
de las ocasiones).
Algoritmo K-Mean

Fijado K, los pasos que sigue el algoritmo son los
siguientes:
• Seleccionar al azar K puntos del conjunto de datos como
centros iniciales de los grupos.
• Asignar el resto de ejemplos al centro más cercano (ya
tenemos K agrupaciones iniciales).
• Calcular el centroide de los grupos obtenidos.
• Reasignar los centros a estos centroides.
• Repetir desde el paso 2 hasta que no haya reasignación
de centros (o los últimos desplazamientos estén por
debajo de un umbral y no haya cambios en las
agrupaciones obtenidas).
Algoritmo K-Mean

• Inicializar de forma aleatoria K centroides de
clusters 𝜇1, 𝜇2, … , 𝜇𝐾
• Repetir
• for i=1 to m
• 𝑐(𝑖) =indexar de 1 hasta K al clúster más
cercano a 𝑥(𝑖)
𝑚𝑖𝑛𝐾| 𝑥 𝑖
− 𝜇𝑘 |2
• For k=1 to K
• 𝜇𝑘 = promedio de los puntos asignados al
cluster k (centroides)
Algoritmo K-Mean

El algoritmo anterior es relativamente eficiente, y
normalmente se requieren pocos pasos para que el
proceso se estabilice pero, en contra, es necesario
determinar el número de agrupaciones a priori.
Además, como ocurre en muchos problemas de
optimización por aproximaciones sucesivas, el sistema es
sensible a la posición inicial de los K centros, haciendo
que no consigan un mínimo global, sino que se sitúe en
un mínimo local (algo muy común cuando se trabaja con
un problema de optimización no convexo).
Por desgracia, no existe un método teórico global que
permita encontrar el valor óptimo de grupos iniciales ni
las posiciones en las que debemos situar los centros, por
lo que se suele hacer una aproximación experimental
repitiendo el algoritmo con diversos valores y posiciones
de centros.
Algoritmo K-Mean

En general, un valor elevado de K hace que el error
disminuya, pero a cambio se tiene un sobre
entrenamiento que disminuye la cantidad de información
que la agrupación resultante da.
De hecho, si se toma K igual al tamaño del conjunto de
entrenamiento, es decir, tantas agrupaciones como
puntos, el potencial anterior resulta ser 0, y aunque es un
mínimo real del potencial, es poco informativo, ya que no
produce agrupamientos, sino que considera que cada
elemento es un grupo independiente.
Algoritmo K-Mean

¿CÓMO FUNCIONA K-MEANS?
Supongamos que el
número de grupos
k =3.

Iteración 0
Se comienza con una
posición aleatoria de los
centroides.

Iteración 1
Se asigna cada caso
al centroide más
próximo.

Iteración 2
Se recoloca el centroide
en el centro de los puntos
asignados.

Iteración 3
Se continúa iterativamente
hasta que:
1. La distancia entre
centroides es máxima.
2. La distancia caso-
centroide es mínima.

¿QUÉ MÉTODO ES PREFERIBLE?
VENTAJAS DE LOS JERÁRQUICOS
- Proporcionan una fotografía de cómo estan organizados los datos El investigador
puede ver cuántos conglomerados “existen” en los datos.
- Pueden calcularse los centros de esos conglomerados: centroides (medias).
- Vecino Más Próximo es especialmente bueno para localizar outliers.
- Ward y Vinculación INTERgrupos son los preferidos de entre los jerárquicos: estudios
de simulación han comprobado que adscriben cada elemento a su conglomerado
verdadero mejor que el resto (especialmente WARD). Tienden a ofrecer
conglomerados similares en tamaño y dispersión de sus elementos, de forma
redondeada.
DESVENTAJAS DE LOS JERÁRQUICOS
- Cualquiera de los métodos jerárquicos por separado funciona peor que k-means.

¿QUÉ MÉTODO ES PREFERIBLE?
VENTAJAS DE LOS ITERATIVOS
- K medias es el método más robusto respecto a presencia de outliers y errores en
las medidas de distancia.
DESVENTAJAS DE LOS ITERATIVOS
- Requiere que el investigador especifique previamente tanto el número de
conglomerados como sus centros iniciales.
¿SOLUCIÓN? Combinar ambos procedimientos, utilizando:
1. Jerárquico para eliminar outliers, determinar el numero de clusters y sus
centros iniciales.
2. k-means para obtener la solución conglomerativa final.

Descripción de los segmentos
Obtención de los segmentos
Etapas preliminares
1ª
FASE:
MÉTODOS
JERARQUICOS
PLANTEAMIENTO DEL PROBLEMA
SELECCIÓN DE VARIABLES
VECINO MÁS PRÓXIMO:
DETECCIÓN Y ELIMINACIÓN DE
OUTLIERS
WARD: OBTENCIÓN DEL NÚMERO
DE CONGLOMERADOS
VINCULACIÓN INTRAGRUPOS:
ANÁLISIS DE LA ESTABILIDAD
CREACIÓN DEL ARCHIVO DE MEDIAS
DE CADA CONGLOMERADO
PERFILADO DE LOS CONGLOMERADOS
2ª FASE: MÉTODO k-means:
OBTENCIÓN DE LA SOLUCIÓN
CONGLOMERATIVA FINAL
Fases a la hora de ejecutar un Análisis de Conglomerados

1ª
FASE:
MÉTODOS
JERARQUICOS
OUTLIERS
DE CONGLOMERADOS
PERFILADO DE LOS
CONGLOMERADOS
ETAPAS PRELIMINARES
CUESTIONES PREVIAS
 ¿Cuál es el objetivo de mi estudio?
 ¿Busco explorar datos o confirmar hipótesis?
 ¿Quiero encontrar segmentos o grupos?
 Las variables deben ser independientes, no
correlacionadas. Si son ítems de un test
mejor hacer un análisis factorial antes.
 Debe tener sentido agruparlas
Rubbish in, rubbish out.
 El número de variables a introducir en el
análisis no es importante (Md =15).
 Sí debe mantenerse un número suficiente de
casos por variable, idealmente 2m(m =nº
variables).
 Por lo tanto, mejor muestras grandes y
representativas.

1ª
FASE:
MÉTODOS
JERARQUICOS
OUTLIERS
DE CONGLOMERADOS
OBTENCIÓN DE LOS SEGMENTOS
PERFILADO DE LOS
CONGLOMERADOS
Posibles outliers. El
número indica la posición
que ocupan en el
ARCHIVO. Se ocultan de
los análisis y se vuelve a
ejecutar este método
para comprobar el
efecto sobre el
dendrograma.

FASE:
MÉTODOS
ERARQUICOS
OUTLIERS
DE CONGLOMERADOS
J
1 VINCULACIÓN INTRAGRUPOS:
ª
ANÁLISIS DE LA FIABILIDAD
ACIÓN DEL FICHERO DE MEDIAS
Para determinar el número de
conglomerados “natural” existen criterios
numéricos y gráficos.
El dendrograma nos muestra 3 grupos
claros:
Para validar esta solución, se recomienda
utilizar, además, otro procedimiento
PERFILADO DE LOS
CONGLOMERADOS

1ª
FASE:
MÉTODOS
JERARQUICOS
OUTLIERS
DE CONGLOMERADOS
El análisis del CAMBIO EN EL
COEFICIENTE DE CONGLOMERACIÓN
indica que 3 conglomerados es
además la opción mejor desde un
punto de vista estadístico.
PERFILADO DE LOS
CONGLOMERADOS

1ª
FASE:
MÉTODOS
JERARQUICOS
OUTLIERS
DE CONGLOMERADOS
PERFILADO DE LOS
CONGLOMERADOS

1ª
FASE:
MÉTODOS
JERARQUICOS
OUTLIERS
DE CONGLOMERADOS
PASOS
Se calculan las medias de cada variable para
cada uno de los 3 conglomerados.
Se copian los datos en un ARCHIVO de datos,
nombrando a las variables exactamente igual
e incluyendo una variable que se debe llamar
necesariamente cluster_
PERFILADO DE LOS
CONGLOMERADOS

1ª
FASE:
MÉTODOS
JERARQUICOS
OUTLIERS
DE CONGLOMERADOS
En esta última fase final especificamos:
1. 3 como número de conglomerados.
2. ElARCHIVO de medias recién creado
como centros iniciales.
La variable que se crea en el archivo de datos
tras un k medias se reconoce bien respecto de un
método jerárquico.
Importante informar del %de casos reasignados a
PERFILADO DE LOS
CONGLOMERADOS
otro conglomerado.

1ª
FASE:
MÉTODOS
JERARQUICOS
OUTLIERS
DE CONGLOMERADOS
PERFILADO DE LOS SEGMENTOS
IMPORTANTÍSIM
A FASE
T
enemos ya los conglomerados form
ados…
pero ahora qué hacemos con ellos??
Debemos cruzarlos con otras variables del
cuestionario (no utilizadas para crear los
grupos) con el fin de perfilarlos, saber un
poco más de ellos.
Para ello se utilizan:
- Contrastes F si se cruza la variable de
conglomerados con una variable métrica.
- Contrastes X2 si se cruzan con una variable
categórica.
PERFILADO DE LOS
CONGLOMERADOS

1ª
FASE:
MÉTODOS
JERARQUICOS
OUTLIERS
DE CONGLOMERADOS
PERFILADO DE LOS SEGMENTOS
PERFILADO DE LOS
CONGLOMERADOS

Aprendizaje no supervisado

Recomendados

Recomendados

Mais conteúdo relacionado

Mais procurados

Mais procurados (20)

Semelhante a Aprendizaje no supervisado

Semelhante a Aprendizaje no supervisado (20)

Mais de Jairo Acosta Solano

Mais de Jairo Acosta Solano (20)

Último

Último (20)

Aprendizaje no supervisado