JHU MOOC RR W3

En la tercer semana de “Reproducible Research“…

Reproducible Research at Coursera

Las lecturas iniciaron dedicadas a revisar cómo comunicar resultados y la reproducibilidad. Sobre lo primero, el instructor indica que líderes y administradores siempre están ocupados y conviene presentar cosas breves. Aunque estas presentaciones y consejos vienen de gente en el medio científico, aplican también (y muy bien) en el mundo profesional/práctico/tecnológico pero hay ciertas diferencias. Por experiencia profesional comento lo siguiente.

La mayoría de los administradores en el entorno profesional, es gente que:

a) Es tecnológicamente incompetente, pero socialmente apta. Han escalado los peldaños empresariales porque saben tratar a la gente, cosa que la gente técnica puede tener dificultades con ello. Y aunque no entiendan lo que están administrando, su administración es necesaria (una buena administración por supuesto, de lo contrario el administrador sólo es un estorbo que busca “salir en la foto final”).

b) Pueden ser gente técnica pero después de un tiempo, la gente que se ha convertido en administradora comienza a olvidar ese conocimiento y, sobre todo, a distanciarse del avance tecnológico. Los buenos administradores (aquellos del inciso a) sobreviven a esto porque saber hacer uso de las habilidades y conocimiento de quienes los poseen.

La única diferencia que creo puede darse entre el entorno científico y el profesional es el que los científicos están acostumbrados a leer y  a tratar con cosa detalladas. Los profesionales se vuelven flojos y cada vez prefieren leer menos (quizás por las cargas de trabajo).

Regresando a lo presentado en las video lecturas, se mencionan algunos elementos clave de ciertos documentos. Para el caso de un “research paper“, debe contener:

  • Título/autores.
  • Resumen/abstract.
  • Cuerpo del documento.
  • Detalles de materiales suplementarios.
  • Énfasis en los detalle sobresalientes, el código y datos.

Para un correo electrónico:

  • El título del correo.
  • Cuerpo del correo.
  • Breve descripción del problema/contexto.
  • Si se requieren acciones, proponerlas lo más concreto que sea posible.
  • Si se requieren plantear preguntas, hacerlas para ser respuestas de un sí o no.
  • Adjuntos.
  • Ligas a materiales suplementarios.

Se menciona el servicio RPubs.com, que provee una infraestructura interesante para la publicación desde R Studio. Así como también una idea general de un checklist que uno debe tener para publicar algo:

  • Hacer ciencia correctamente
  • Recordar que “basura entra, basura sale.”
  • Hacerse o hacer las preguntas de investigación coherentes y enfocadas
  • Considerar que trabajar con buenos colaboradores refuerza las buenas prácticas.
  • Evitar hacer las cosas a mano. Si pueden automatizarse, aunque sean usadas sólo por una vez, garantiza su reproducibilidad. Las cosas hechas a mano deben ser documentadas ampliamente.
  • Limpiar hojas de cálculo (para quienes les gusta hacer uso de éstas).
  • Evitar editar tablas o gráficas. Que sean resultado de un comando o proceso.
  • Descargar datos de un sitio web e indicar cómo hacerlo.
  • Evitar mover y “reformatear” datos en la computadora.
  • Evitar instrucciones de “apuntar y click, ” no son reproducibles a menos que sean debidamente documentadas.
  • Si se quiere reproducibilidad debe buscarse que la computadora lo haga y así otros podrán hacerlo con sus equipos también.
  • Hacer uso de los administradores de versión.
  • Mantener un registro de configuración, software, hardware, sistema operativo, utilerías infraestructura, dependencias y versiones.
  • El comando sessionInfo() de R provee información útil para otros.
  • Evitar guardar salidas innecesarias, mejor datos y código que sólo las salida. Archivos intermedios están bien mientras esté documentado de donde vinieron. Salidas que no pueden se reconstruidas no sirven de mucho.
  • Si se use un generador de números aleatorios debe saberse que semilla se usó, sobre todo para cuestiones de reproducibilidad.
  • Pensar en el el flujo completo (entire pipeline):

Datos-> Preproceso -> Procesamiento -> Análisis -> Reporte

  •  Como se llega al final es más importante que el final en sí.
  •  La replicación permite validar las aseveraciones hechas. Muy importante para algo científico.
  • La reproducibilidad  se enfoca en la validez del análisis de datos; sería el mínimo de calidad para un estudio científico. Importante cuando la replicación no es  posible.
  • En pipelines largos es más fácil que errores sean introducidos.
  • Difícil confiar en análisis complicados.

Reproducibilidad permite dar y validar:

  • Transparencia.
  • Disponibilidad de datos.
  • Disponibilidad de software y métodos.
  • Mejora la transferencia de conocimiento.
  • Un análisis puede ser reproducible y estar equivocado.
  • El que uno pueda reproducir algo no implica que sea una validación de que está bien; sólo permite ver que todos juegan con las mismas reglas y alcanzan el mismo resultado.

Para que la reproducibilidad sea efectiva como un medio de verificación de validez se requiere que:

  • El análisis se repita y los resultados concuerden.
  • Verificar el código por errores y bugs.
  • Probar alternativas y validar sensitividad.
  • Análisis secundarios son inevitablemente impregnados con otros intereses y objetivos.
  • Análisis de datos basados en evidencia deben justificar la aplicación de un método.
  • Crear pipelines analíticos de componentes basados en evidencia.
  • Hacer uso del concepto de una “máquina estadística determinística.”
  • Una vez que el pipeline está establecido uno debe evitar meter mano.
  • Se reduzcan los grados de libertad del investigador para que éste no agregue cosas y el procedimiento se siga completamente.

 

 

 

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s