Hay gran cantidad de textos antiguos repartidos en bibliotecas, archivos públicos, monasterios o colecciones privadas alrededor de todo el mundo. Uno de estos lugares es la Biblioteca de la Abadía de St. Gall, Suiza, que alberga aproximadamente 160.000 volúmenes de manuscritos literarios e históricos que datan del siglo VIII d.C., en pergamino, algunos en idiomas prácticamente extinguidos.
Para saber qué dice cada uno de ellos se requiere mucho tiempo y esfuerzo pero si no se los estudia ese tesoro bibliográfico terminará desapareciendo. La digitalización de estos textos escaneados no garantiza la comprensión de su contenido. Es necesaria una herramienta de interpretación y entendimiento: la inteligencia artificial.
Una parte significativa de estas colecciones está disponible para el público en general a través de imágenes digitales, pero los expertos dicen que hay una cantidad extraordinaria de material que nunca ha sido leída, un tesoro de información sobre la historia del mundo escondido en su interior. Si bien la digitalización está ayudando a salvaguardar buena parte de ese legado, sería conveniente descifrar su significado.

Cabe señalar que la inteligencia artificial (IA) es la combinación de algoritmos planteados con el propósito de crear máquinas que presenten las mismas capacidades que el ser humano. Se trata de una tecnología que todavía resulta lejana y misteriosa para muchos, pero que desde hace unos años está presente en el día a día, a todas horas.
El desarrollo de una IA para esta función, teniendo en cuenta diversos factores condicionantes de los textos, como florituras, adornos y particularidades propias de cada autor, no resulta una tarea sencilla. Esta semana, la revista Transactions on Pattern Analysis and Machine Intelligence publicó un estudio de investigadores de la Universidad de Notre Dame (Estados Unidos) en el que presentan una red neuronal artificial capaz de leer escritura antigua compleja basándose en la percepción humana para mejorar las capacidades de transcripción de la IA.
Uno de los autores del artículo explica cómo se realiza el proceso de entendimiento del texto por parte de la máquina. "Estamos tratando con documentos históricos escritos en estilos que han pasado de moda hace mucho tiempo, hechos muchos siglos atrás, y en idiomas como el latín, que ya casi nunca se usan", dijo Walter Scheirer, profesor asociado al Departamento de Ciencias de la Computación e Ingeniería de Notre Dame. "Se puede obtener hermosas fotos de estos materiales, pero lo que nos propusimos hacer es automatizar la transcripción de una manera que imite la percepción de la página a través de los ojos del lector experto y proporcione una lectura rápida y de búsqueda del texto", agregó.

El equipo de Scheirer estudió manuscritos latinos digitalizados que fueron escritos por escribas en el Claustro de San Galo en el siglo IX. Los profesionales cargaron las transcripciones de expertos en la materia a un software y midieron los tiempos de reacción durante la misma carga para comprender las palabras, los caracteres y los párrafos que resultaban más difíciles; de este modo se consiguió una inteligencia artificial que hiciera una lectura más precisa y realista del texto.
Otra de las autoras resaltó que el uso del aprendizaje profundo para transcribir textos antiguos es algo de gran interés para los estudiosos de las humanidades. "Hay una diferencia entre simplemente tomar las fotos para luego leerlas, y tener un programa que proporcione una lectura que se pueda buscar", dijo Hildegund Müller, profesora asociada del Departamento de Clásicos de Notre Dame. Y añadió: "Si se consideran los textos utilizados en este estudio (manuscritos del siglo IX), vemos que es una etapa temprana de la Edad Media. Es mucho antes de la imprenta. Es una época en la que se produjo una enorme cantidad de manuscritos. Hay todo tipo de información oculta en ellos, textos no identificados que nadie ha visto antes”.
Si el deseo de entender los millones de textos antiguos prevalece será necesario diseñar inteligencias artificiales capaces de facilitar las labores más difíciles de la interpretación, como los requiebros del lenguaje y la caligrafía del autor, como así también la traducción precisa de idiomas antiguos. "En el campo literario podría ser realmente útil. Toda buena obra literaria está rodeada de una gran cantidad de documentos históricos, pero donde realmente será útil es en la investigación de archivos históricos", dijo Müller. "Existe una gran necesidad de promover las humanidades digitales. Cuando se habla de la Edad Media y los primeros tiempos modernos, si se desea comprender los detalles y las consecuencias de los eventos históricos, se debe revisar el material escrito, y estos textos son lo único que tenemos. El problema puede ser aún mayor fuera del mundo occidental. Piénsese en idiomas que están desapareciendo en culturas amenazadas. En primer lugar, debemos preservar estas obras, hacerlas accesibles y, en algún momento, incorporar traducciones para hacerlas parte de los procesos culturales que aún están en marcha, y estamos compitiendo contra el tiempo”, finalizó.