De pitones, serpientes y lombrices (1)

Python logoContra todo pronóstico no he usado nada de Python realmente para el asunto de la investigación doctoral. Una búsqueda en el blog dará cuenta de lo que he escrito al respecto de mi preparación e intentos de usar Python.

AWKK book coverBelieved or not, por el momento lo que tengo al respecto de la extracción de la extracción de tweets (conexión a Twitter, descarga del archivo JSON), preparación (extracción de texto, extracción de entidades de Twitter), normalización (substitución, preparación, limpieza) de entidades, preparativos para la creación de diccionarios y pipeline de procesamiento, lo tengo todo en scripts de BASH, jq y AWK.

3D Twitter logoY tal vez me hubiera seguido en con AWK de no ser que, históricamente, éste fue concebido para trabajar con archivos ASCII y lo de hoy en día es Unicode, y uno debe lidiar con los correspondientes “encodings“. En mi caso UTF-8 pues es el seleccionado por Twitter. Aquí el obstáculo de continuación han sido los emojis.

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s