Stanford MOOC MMD W7

Séptima semana del MOOC Mining Massive Datasets. He de confesar que en este momento me encuentro desubicado. El panorama de los temas que se habían venido revisando me quedaban claros sobre su posición y utilidad al respecto de la minería de conjuntos de datos masivos. Sin embargo, los temas de esta semana (13 lecturas que suman unas 2 horas) han iniciado de forma que me han dejado algo perplejo, como que no hubo un antecedente adecuado al llegar a esta parte.

MMDS logo

La primera y segunda lecturas se dedicaron a la familia de funciones hash LSH. Además de abstracta, me parece que la lectura es un enorme salto de aquello de lo que se había venido hablando en la semana pasada. El asunto me ha tomado por sorpresa. Entiendo por supuesto que esto tiene que ver y hay una aplicación de ello en la minería de grandes volúmenes de datos pero no veo los antecedentes del asunto. Para dejar claro el porqué de mi duda, por ejemplo, antes de llegar a exponer el tema MapReduce, se dieron los antecedentes de la complejidad de trabajar con grandes volúmenes de datos (en equipos y computacionalmente hablando) para después presentar cómo esto es atacado y resuelto mediante MapReduce. Aquí sin embargo, no sólo se aborda el tema de las “funciones de picadillo” (como algunas fuentes apuntan a la posible traducción) sino que es de cierta familia en particular, algo a lo que se llega de forma directa sin haber expuesto el problema que estamos solucionando. La segunda lectura profundizó aún más en la medición de distancias (aleatoria y por coseno), hiperplanos y distancia euclideana.

Some hash functions

Las tercera, cuarta, quinta y sexta lecturas se enfocaron a la presentación de métodos de indexación por sufijos, prefijos y longitud. En las séptima, octava y novena lectura se pasó a algunos temas avanzados sobre PageRank. Al igual que en los temas pasados, el brinco al tema me ha parecido algo brusco. La décima video lectura se enfocó en el análisis de ligas en redes.

La undécima video lectura giró en torno al “web spam“. La lectura inició estableciendo que el criterio de “web spam” es debatible, ya que anunciantes y gente trabajando en “search engine optimization” (SEO) buscarán que una página posea un “rankeo” más alto y así buscarán afectar esta medición. Dentro de las técnicas mencionadas estuvieron: term spam y links spam (a través de spam farms).

Term spam puede ser combatido a través de métodos de análisis estadístico de textos. Link spam requiere se se identifiquen las estructuras de spam farms para su bloqueo y esto es más difícil. Una solución propuesta para este último problema es la de TrustRank. Se inicia con un conjunto de página confiables y la “confianza” se propaga a través de las ligas.

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s