Stanford MOOC MMD W2

mmds_logoLa segunda semana del MOOC Mining Massive Datasets inició con las lecturas de Jeffrey Ullman. Si consideramos a las lecturas de la semana previa como más orientadas a la recopilación o generación de datos, las de esta semana se verán como más enfocadas propiamente a la minería de datos.

La primer lectura se enfocó al análisis de conjuntos de datos, buscando la similitud de estos conjuntos identificando patrones en los datos. Para atacar este problema el primer paso es la identificación de los elementos que pertenecerán a dicho conjunto (en caso de no haberlo hecho). Por ejemplo, en el caso de textos y documentos inicia con el shingling (lo conocemos como n-gramas en NLP), continua con el minhashing (como su nombre lo indica, el uso de funciones de hash para llevar a cabo el minado de datos) y finalmente realizar un análisis de sensitividad y localidad basado en los resultados de las funciones de hash.

Asociado  lo anterior está la identificación de duplicados y su diferenciación, esencialmente por distancia euclidiana o no euclideana (Manhattan, Jacquard, Hamming, por modificación o edición, y en espacios vectoriales por medida del coseno).

Finalmente, las últimas lecturas estuvieron dedicadas a:

  • Método de vecinos cercanos.
  • Elementos frecuentes en conjuntos.
  • Los algoritmos “a-priori”, Park-Chen-Yu, Multistage, Multihash, Savasere-Omiecinski-Navathe y el de Toivonen.

 

Anuncios

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s