JHU MOOC RR W1

JHU Data Science Specialization logoContinuando con el objetivo propuesto de adquirir conocimiento (con miras a una especialización en el tema) en la ciencia de los datos, he iniciado el quinto curso, “Reproducible Research,” quinto curso de la especialización ofrecida en Coursera, “Reproducible Research,” de la serie de cursos de “Data Science Specialization.”

La presentación de la primera semana hace énfasis en el hecho de la reproducibilidad, no sólo de una investigación sino de cualquier trabajo. Algo que muchas veces no se enseña explícitamente (fuera de disciplinas enteramente formales y experimentales). Profesionalmente, puedo dar cuenta de la “muy sucia” forma de trabajar de muchos profesionales que, contrariamente a lo que pudiera esperarse, trabajan de forma que lo menos que pueden lograr, incluyéndose a sí mismos, es reproducir aquello que les ha llevado a “resultados y conclusiones.” Y no me excluyo de esto.

Reproducible Research at Coursera

“Reproducibilidad”, por supuesto, habla de poder recrear un problema, seguir los pasos en una posible solución propuesta, y obtener los mismo resultados que el proponente a fin de determinar si uno está de acuerdo o no, apoyar o refutar la idea, incluyendo mejoras a procedimientos y resultados. Así entonces, ¿qué elementos serían los mínimos requeridos buscando reproducibilidad? Grosso modo son cuatro:

  • Descripción del problema.- La definición del problema que se declara y pretende resolver de forma que todos (lectores y otro investigadores) entiendan.
  • Datos.- Desde la fuente, forma en la que se obtendrán los datos, la manipulación que sobre éstos se hagan (limpieza, preparación) y la forma en que se usarán (por muestras o en su totalidad) o fueron usados (documentando cada una de estas etapas y acciones), poniendo hasta donde sea posible (en algunos casos cuestiones de privacidad o seguridad podrían impedirlo) el conjunto de datos necesario y documentación descriptiva para reproducir y revisar resultados.
  • Métodos.- La forma en la que los datos fueron manejados y tratados en busca de un resultado, la forma en la que ha herramienta se empleó y la interpretación de resultados. El uso de herramientas computacionales (programas y lenguajes) pueden quedar incluidos aquí.
  • Infraestructura.- La descripción de los elementos físicos y lógicos que fungieron como herramientas y entorno en el que los datos fueron manejados para llegar a los resultados descritos. Incluye el uso de herramientas computacionales (programas y lenguajes).
Anuncios

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s