UIUC MOOC CADM W3

Tercer semana del curso Cluster Analysis in Data Mining. Esto se está poniendo pesado. En esta semana se revisaron varios conceptos.

Cluster Analysis in Data Mining logo

La primer parte de las lecturas estuvieron dedicadas al aspecto de la calidad del agrupamiento (del clustering).

  • Métodos para validación de agrupamiento.
    • Medición de calidad.
    • Medidas externas:
      • Matching-based.
      • Entropy-based.
      • Pairwise (jaccard coefficient, rand coefficient).
      • Medidas de correlación.
    • Medidas internas:
      • Cortes normalizados y modularidad.
      • La medida Beta-CV.
    • Medidas relativas:
      • Silhouette coefficient.
    • Estabilidad de agrupamiento.
    • Tendencias de agrupamiento.

 La segunda parte se dedicó al tema del agrupamiento de datos de alta dimensionalidad (clustering high-dimensional data) y se discutieron los aspectos clave que dificultan el tratamiento de datos con un alto grado de dimensionalidad:  optimización, efecto de la concentración de distancias, atributos irrelevantes atributos correlacionados, y la escasez de datos (“escasez” en el sentido de su poca concentración).

De la 1era a la 5ta dimensión

Sobre los métodos para tratar datos de alta dimensionalidad, tenemos: los catalogados como agrupamiento de subspacio (supspace-clustering) y aquellos enfocados a la reducción de dimensionalidad.

Dimensionality

Finalmente, para la tercer parte se revisó el tema del agrupamiento basado en restricciones (constraint-based clustering).

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s