El programa LUISA en pleno funcionamiento

 SE LANZARÁ UNA NUEVA CAMPAÑA PARA LA UTILIZACIÓN DE LA PLATAFORMA

Luisa: la ciencia al servicio de los derechos humanos

A un año de presentada la plataforma Luisa (Leyendo Unidos para Interpretar loS Archivos), científicos de la Facultad de Ingeniería de la Udelar trabajan en la creación de herramientas informáticas que mejoren el procesamiento de la información contenida en los archivos del pasado reciente.

24 MAYO, 2020 

La plataforma informática Luisa (Leyendo Unidos para Interpretar loS Archivos) fue creada por investigadores de la facultades de Ingeniería y de Información y Comunicación de la Universidad de la República (Udelar), con el apoyo de la organización Madres y Familiares de Detenidos Desaparecidos y el Grupo de Trabajo por Verdad y Justicia. La herramienta fue desarrollada en el marco del proyecto Cruzar, del Sistema de Información de Archivos del Pasado Reciente.

Con el objetivo principal de procesar los documentos contenidos en el archivo Berrutti, hallado en dependencias militares en el año 2006, que suma casi cuatro millones de imágenes individuales de documentos de la dictadura, se solicitó el trabajo científico de integrantes de los institutos de Computación e Ingeniería Eléctrica de la Facultad de Ingeniería de la Udelar. El desafío era crear herramientas para transcribir documentos que, por su mal estado o dificultosa legibilidad, no pudieran ser procesados digitalmente. Es así que en abril de 2019 comenzó a funcionar la plataforma Luisa, llamada así en homenaje a Luisa Cuesta, referente de la lucha por la búsqueda de los detenidos desaparecidos.

El doctor Gregory Randall, profesor titular y coordinador del Instituto de Ingeniería Eléctrica de la Facultad de Ingeniería de la Udelar, contó a Caras y Caretas que el objetivo es obtener información contenida en millones de imágenes que son el resultado de la digitalización de microfilmes de documentos de archivos militares en diferentes estados de conservación. Randall dijo que el trabajo se centró en buscar la manera de procesar, clasificar, transcribir e interpretar esos documentos.

“Lo primero que se hizo desde la Facultad de Ingeniería fue pensar en una base de datos para los documentos y en el cruzamiento de información entre uno y otro. Pero para poder lograr ese objetivo es necesario transcribirlos, convertirlos de foto a documentos de texto. Hay muchas formas de hacer eso, y estamos tratando de abordarlas todas. Una de ellas es el llamado OCR, procedimiento mediante el cual se lee automáticamente una foto y se convierte a texto. El problema aquí es que muchos de estos documentos están muy degradados, escritos a mano o con máquinas de escribir muchas veces sobreentintadas o con poca tinta. Y es en esos casos cuando utilizamos la herramienta Luisa, porque mandamos a esta plataforma los ‘bloquecitos’ de documentos más difíciles”, detalló.

Esos ‘bloquecitos’ se generan cuando los programas automáticos detectan manchas que no pueden procesar, que en el 90% de la veces son palabras que hay que traducir.

Utilizando el concepto del crowdsourcing (esfuerzo colectivo para un mismo fin), el programa Luisa toma esos bloques y los envía a los usuarios que ingresan a la plataforma para que identifiquen las palabras escritas en la imagen, ofreciéndoles también el contexto, o sea, un fragmento del documento que contiene esas palabras.

La idea del programa es aprovechar la capacidad del ser humano para el reconocimiento de patrones. El equipo de profesionales creó Luisa para que cada bloque sea llenado por siete o diez personas, obteniendo así varias interpretaciones de la misma parte del texto a descifrar. Randall aclaró que si bien transcribir estos documentos llevará años, desde la Facultad se está trabajando en otras iniciativas para acelerar el proceso.

“Estamos trabajando en otras ideas sobre lo que la gente hace en Luisa. Como mencioné, este programa envía ‘bloquecitos’ de texto a los usuarios, que a su vez escriben lo que ven. Por lo tanto, tenemos varias interpretaciones de las mismas partes. Estamos explorando un proyecto muy interesante basado en el trabajo del primer año de la plataforma, porque con lo ya procesado hemos logrado una base de texto de la época, de ese tipo tan específico de escritura. Esto nos permitirá, por medio de lo que ahora se llama inteligencia artificial, entrenar máquinas y utilizar sistemas de reconocimiento automático que se adapten a ese tipo de escritura e interpreten este tipo de imágenes degradadas. Se trata de un programa más específico que permitirá mejores resultados en la interpretación automática. Este es un tipo de texto bastante particular; no es cualquier tipo de texto.

También estamos haciendo otras cosas. Hay otro grupo que trabaja sobre las reglas de lenguaje natural. Cuando el resultado de algún algoritmo da una palabra inexistente, sabemos a qué palabra se parece y en el contexto de la oración podemos saber cuál podría ser. Sucede algo parecido a cuando el diccionario del celular propone una palabra a medida que vamos escribiendo. Queremos ver cómo aplicar esa tecnología sobre los resultados de los algoritmos automáticos. Es un trabajo que lleva su tiempo, pero está avanzando”, explicó.

El científico contó que con Luisa, hasta el momento, se han procesado cerca de 2.000 documentos formados por 88.083 bloques de texto, algo que dice que es poco para un año que lleva la plataforma, aunque remarcó que están muy conformes con el trabajo realizado.

Randall también enfatizó en la necesidad de contar con financiamiento, ya que el trabajo es realizado de forma honoraria.

“En un universo enorme de varios millones, hay mucha gente que ha colaborado, pero no hemos logrado en Luisa una masividad  suficiente como para que el resultado sea sustantivo; 2.000 documentos en un año es poco. Algunas veces hemos llegado al pico de 10.000 accesos, y una vez tuvimos 13.000. Nosotros no controlamos quién se conecta; este es un sistema totalmente anónimo. Lo que sí sabemos es cuando la conexión se hace desde máquinas diferentes, pero no podemos saber si se hace desde un celular, una computadora o una tablet. Tampoco si se trata de una persona que se conecta varias veces, o de varias que lo hacen desde un mismo equipo.

Hemos tenido momentos ‘pico’, como por ejemplo cuando se lanzó esta herramienta o cuando encontraron los restos de Eduardo Bleier. Tenemos un promedio de 100 bloques por día de personas que utilizan la plataforma”, detalló.

El experto agregó que vienen trabajando estos días para “mudar” el servidor de Luisa con el fin de mejorar su funcionamiento, ya que, debido a la pandemia del SARS CoV-2, los sistemas informáticos de la Universidad están sobrecargados por los cursos online. “Estamos haciendo unos ajustes técnicos; vamos a migrar el servidor de Luisa a otro lugar para dar a mucha gente la oportunidad de entrar sin que colapse el sistema o se vea afectada la plataforma por el alto tráfico que hay ahora. En pocos días, lanzaremos una nueva campaña”, anunció.

En la plataforma Luisa hay una encuesta de opinión en la que se pregunta a los usuarios respecto a la facilidad de uso, la velocidad de respuesta, la hora del día en que se ingresó y el tipo de conexión. Al ser consultado sobre sus resultados, Randall dijo que en los últimos meses esta encuesta no fue muy respondida, pero que existe, en cambio, un feedback muy importante en la página de Facebook de la plataforma.

“La respuesta ha sido muy buena; se ha creado un intercambio muy lindo. La gente comparte experiencias de cosas que han encontrado. Inclusive, hicieron un diccionario de palabras que aparecen con frecuencia. A veces, también hay quejas y nos señalan aspectos a mejorar, pero la página de Facebook ha sido un buen mecanismo de comunicación”, concluyó.

 

 

 

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.