OS X Lion Windows 7 logo
Acerca de este sitio Freeling es una suite de analizadores lingüísticos desarrollados y mantenidos por el TALP Research Center de la Universitat Politècnica de Catalunya. Estas notas son un registro de la experiencia personal en el proceso de instalación y uso de esta herramienta.

Índice

  1. Instalación
    1. Windows.
    2. OS X.
  2. Uso
    1. Particularidades

I. Instalación

La librería Freeling puede ser instalada en varios sistemas operativos y versiones de éstos. Esencialmente, salvo Windows, la instalación consiste en la recompilación de las librerías para poder hacer uso de ésta. En el caso de Windows, la distribución incluye una versión binaria (compilada, ejecutable) del programa de muestra. El registro de instalaciones descritas en este sitio son sólo experiencias personales, consultar cada caso según corresponda. Consultar la página de Freeling para la instalación en otros sistemas operativos y versiones no indicadas aquí.

II. Uso

1. Particularidades

Existen algunas consideraciones que deben tenerse presente o particularidades en el uso de la herramienta dependiendo del sistema operativo.

Windows 7 logoEsquema de codificación en Windows

El esquema de codificación (encoding, locale) puede ser un dolor de cabeza. Considérese el siguiente caso ocurrido en Windows 7. El archivo de texto de entrada es creado como cualquier otro texto ASCII (en este caso empleando Vim, con el contenido:

El gato brincó sobre la reja.

pero al ver el contenido del archivo en pantalla se muestra (un 3/4 en lugar de ó):

C:\Freeling>type input.txt
El gato brinc¾ sobre la reja.

 y la ejecución del programa analizador de muestra nos presenta (la cuarta línea de la salida muestra signos de interrogación y la tercer línea una palabra incompleta):

C:\Freeling>%FREELINGBIN%\analyzer -f es.cfg <input.txt
El el DA0MS0 1
gato gato NCMS000 1
brinc brinc NC00000 0.538028
� � Fz 1
sobre sobre SPS00 0.997091
la el DA0FS0 0.972269
reja reja NCFS000 1
. . Fp 1

La ejecución del comando chcp nos indica:

C:\Freeling>chcp
Página de códigos activa: 850

por lo que es de suponerse que el esquema de codificación de caracteres es la causa.

Empatar la codificación del archivo con el usado en la línea de comandos (por ejemplo usando Notepad++ para convertir el archivo al esquema OEM 850 o similar, y guardarlo así— pudiendo requerir cambiar los caracteres que no se muestran apropiadamente) sólo permite ver el contenido del archivo apropiadamente

C:\Freeling>type input.txt
El gato brincó sobre la reja.

pero no así su reconocimiento, que seguirá mostrando equivocadamente el reconocimiento del texto. Para evitar esto, es necesario que el archivo de guarde como UTF-8, preferentemente sin BOM (el BOM no será reconocido por Freeling y sería marcado como un elemento sin reconocer). En este caso, mientras que el reconocimiento será el apropiado

C:\Freeling>%FREELINGBIN%\analyzer -f es.cfg <input.txt
El el DA0MS0 1
gato gato NCMS000 1
brincó brincar VMIS3S0 1
sobre sobre SPS00 0.997091
la el DA0FS0 0.972269
reja reja NCFS000 1
. . Fp 1

mostrar el contenido en pantalla no.

C:\Freeling>type input.txt
El gato brinc├│ sobre la reja.

Para arreglar esto último es necesario que el código de caracteres de la sesión sea el esquema número 65001 y que el font de la consola sea Lucida Console o Consolas.

C:\Freeling>chcp 65001
Página de códigos activa: 65001
C:\Users\Piso1\Documents\Programas\Freeling>type input.txt
El gato brincó sobre la reja.
C:\Freeling>%FREELINGBIN%\analyzer -f es.cfg <input.txt
El el DA0MS0 1
gato gato NCMS000 1
brincó brincar VMIS3S0 1
sobre sobre SPS00 0.997091
la el DA0FS0 0.972269
reja reja NCFS000 1
. . Fp 1