Stanford MOOC MMD W5

Quinta semana del MOOC Mining Massive Datasets. Pocos videos esta semana y el tema abordado fue el de clustering.

MMDS logo

Formalmente, el tema de agrupamiento es aquel en el que con base en una noción de distancia, un conjunto de puntos es dividido (o agrupado si es que este conjunto es visto meramente como puntos sueltos en un espacio; cuestión de enfoques), en grupos de tal forma que los elementos de estos grupos sean similares (o cercanos) a cada uno  y diferentes (alejados) de los miembros de otros grupos (clusters).

Cluster Analysis in Data Mining logoAsí que la noción de distancia es importante, así como la del espacio en la que se da (euclideano o no) y las dimensiones consideradas) y esto determina mucho de la técnica de clustering a emplear.

Los métodos jerárquicos pueden ser aglomerativos o divisores. En los primeros, es importante determinar la representación de un grupo de varios puntos para así determinar que tan cercano uno de estos grupos está con respecto a otros.

Dendrograma

En estos casos se recurre a la noción del centroide, el cual es un punto al que los puntos del grupo son equidistantes en promedio. Así, con base en este punto central (que no creo sea necesariamente geométrico,… habría que revisarlo… es buena pregunta), es posible determinar la cercanía de los diferentes “clusters”. Con base en esto se procede a ir agrupando los grupos ya identificados en otros más grandes.

k-Means clustering animation

Para el caso de un espacio no euclideano, la noción equivalente recibe el nombre de “clustroide“. A diferencia del centroide, el clustroide es un punto del conjunto de datos, “el más cercano” a los demás, en promedio. Y por “el más cercano”,  debe ser establecido por un criterio definido por las reglas y características del espacio no euclideano (distancia mínimos a toso los demás puntos, distancia promedio, la más pequeña suma de los cuadrados de las distancias a otros puntos).k-Means clustering animation

Una de las video lecturas fue dedicada a la revisión del algoritmo K-Means como introducción a variantes que ofrecen algunas mejoras (tanto en procedimiento como en uso de recursos del computador) como el Bradley-Fayyad-Reina o el CURE.

k-Means clustering animation

Finalmente se presentaron también el concepto de “algoritmo en línea” (online algorithm), y el “AdWords problem“,

Además de las animaciones sobre k-Means que he usado para ilustrar el texto, dejo algunas más que encontré y ya no encontraron lugar arriba.

 kmeans04

k-Means clustering animationk-Means clustering animation

Anuncios

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s