UIUC MOOC CC W5

Cloud Computing at CourseraLa última semana del curso Cloud Computing en Coursera, ofrecido por la University of Illinois at Urbana-Champaign. Las lecturas ya no fueron muchas y sólo la primera fue larga.

Las lecturas iniciaron con el tema de graph processing (no graphic, sino el procesamiento por unidades de procesamiento interconectados— grafo; una red al final pero en este caso enfocadas a una tarea u organizadas bajo una topología específica) y apoyado por una base de datos NoSQL, en este caso una BD capaz de implementar un modelo de grafo.

Graf

El cómputo por grafos toma en cuenta la adyacencia de los vértices de la gráfica para de forma natural agregar de o propagar a otros nodos, datos.

Algunas cifras interesantes relacionadas con la visión de varios sistemas como grafos:

  • En 2002 Yahoo! estimaba a la web en 1,413 millones de vértices con 6,636 millones de enlaces con un tamaño de 120GB.
  • Twitter, no hace mucho se estimaba en 42 millones de nodos y 1,470 millones de arcos (unos 24GB). Actualmente se estima que una red social puede fácilmente llegar a mil millones de nodos y 100 mil millones de arcos. Generaría una lista de adyacencia de 2.92TB. La web se estima que tiene unos 50 mil millones de nodos y 1billon de arcos (29.5TB para su lista de adyacencia).
  • Sobre el proyecto de generar simulaciones del cerebro, se estima que se necesitan 100 mil miliones de nodos y unos 100 billones de arcos. Una lista de adyacencia de 2.84PB. Las supercomputadoras actuales, las mas avanzadas, llegarán a unos 3PB.

En lo que respecta al procesamiento distribuido que el modelo provee, el algoritmo de MapReduce resulta ineficiente para el procesamiento en grafos. Dentro de las soluciones propuestas está Pregel, que no fue una iniciativa open source, por lo que Apache Foundation inicio el suyo basado en Pregel con el nombre Giraph, como framework de desarrollo, y como módulo de graph processing para Apache Spark a GraphX.

También se revisó MLlib, una bliblioteca de aprendizaje automático de Apache Spark. Los métodos que implementa (modelos lineales, naïve Bayes, árboles de decisión, random forests y árboles impulsados por gradiente —gradient-boosted). Clustering (K-Means, gaussian mixture, power iteration, clustering, LDA, streaming K-Means), single value decomposition, y principal component analysis. El resto de las lecturas fue dedicado a revisar el tema del aprendizaje automático aplicado al Big Data. Al tocar Mahout, se describió grosso modo la implementación de K-Means, naïve Bayes, y frequent pattern mining. Finalmente, la última lectura fue dedicada a a dar un resumen y revisión general de los tópicos revisados y de las aplicaciones que el cloud computing implica.

Cuando este post sea publicado la quinta semana habrá terminado hace semana y media (es decir, correspondió a la semana del 21 de septiembre). Como ya he escrito, la oferta de otros MOOC ha convergido con éste. Los ejercicios prácticos han requerido más trabajo del esperado y la ejecución del ambiente virtual de Hadoop es lento. Perdí algunos deadlines, por lo que he resultado sancionado en algunas calificaciones, aunque logré lo necesario para obtener un crédito de USD$50.00 en AWS, En tres días es el deadline del examen final y me restan dos programming assignments aún. No sé si alcanzaré a aprobar. Ya veremos.

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s