JHU MOOC PML W1

JHU Data Science Specialization logoContinuando con la línea de especialización en ciencia de datos que la Johns Hopkins University ofrece a través de Coursera, el octavo curso lleva por nombre “Practical Machine Learning“. Como su nombre lo indica, pareciera que el curso está dedicado a presentar un aspecto práctico del aprendizaje automático, aunque no dudo que se presentarán los fundamentos matemáticos del tema. Inició la segunda semana de septiembre, y escribo esta entrada en mi blog al final de ésta. Como ya he mencionado en otros posts, me atrasé algo escribiendo estos registros. Si bien ya me he puesto al corriente, me ha parecido más adecuado ir publicando poco a poco todos estos (tengo en este momento 12 publicaciones calendarizadas), por lo que los posts de este curso serán publicados en la última semana del mes.

Practical Machine Learning course at Coursera

Las video lecturas iniciaron presentando, más que el aspecto práctico, una visión comercial de lo que el aprendizaje automático repre$enta y lo que vale. Esto no sólo representa una enorme cantidad de dinero en investigación y desarrollo sino también una enorme cantidad de dinero en ganancias. Importante también ver el actual posicionamiento del machine learning en el hype cycle de Gartner.

Hype Cycle, emerging technologies 2015. Fuente: Gartner, Inc.

La tercer video lectura presentó una cita que me llamó la atención.

“The combination of some data and an aching desire for an answer does not ensure that a reasonable answer can be extracted from a given body of data”

— John Tukey

Creo que muchos lo interpretarán como el famoso “garbage in, garbage out” del que se habla mucho en la industria informática pero que en realidad pocos cuidan de no incurrir en dicho error o problema. Me llamó la atención, sin embargo, porque existen muchos profesionales que creen que por el simple hecho de ordenar algo, eso ocurrirá y creo que esa es una dimensión adicional que esta cita incluye y no será evidente para la mayoría. Por ejemplo, y creo que será muy común para muchos que lean esto, imaginen que como responsables de un sitio web les piden mejorar sus tiempos de respuesta, tratando de llegar a lo que su competencia tiene (o mejorarlo). Imaginen que su competencia tiene un tiempo de respuesta de 4 segundos y ustedes 19 segundos. Muchos aceptarán la tarea de mejorar el tiempo de respuesta, pensando que sólo deben reducir 15 segundos al menos el tiempo de respuesta.

Sin embargo, independientemente de lo que pueda ser la causa, no se trata de disminuir una decena (o un poco más) de segundos. Aquí hablamos de mejorar el comportamiento de un sistema de información en un grado de magnitud (de decenas a unidades). En un sistema adecuadamente desarrollado y mantenido debe ser considerado como un reto importante y no una mejora trivial.

Pasando al curso, en esta primera semana las lecturas se dedicaron a la definición de ciertos conceptos clave:

  • Predicción
  • Tipos de errores y su interpretación.
  • El diseño de un estudio o análisis que busca obtener un modelo predictivo.
  • Receiver Operating Characteristic curves.
  • Precisión y medidas relacionadas.
  • Validación cruzada.
  • Selección del conjunto de datos.

Creo que es importante señalar que esta primera sesión se ha enfocado a estas definiciones para saber qué y cómo debe interpretarse y validarse apropiadamente los resultados de un algoritmo de aprendizaje automático.

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s