Noticias del español

| Agencia EFE

Una nueva herramienta hará la transcripción automática de escritos de Lope de Vega

Un proyecto europeo, en el que participan investigadores de la Universidad Politécnica de Valencia (UPV), ha desarrollado nuevas herramientas que permitirán la transcripción automática de documentos antiguos como manuscritos de Lope de Vega o correspondencia de los hermanos Grimm.


Se trata del proyecto europeo READ, financiado por el programa Horizonte 2020 y realizado a través del centro Pattern Recognition and Human Language Technologies (PHRLT) de la UPV, para desarrollar avanzadas herramientas para la transcripción de manuscritos y documentos del siglo XIV hasta la actualidad.

Este proyecto, que se extenderá hasta junio de 2019, permitirá acceder a la transcripción de documentos «llamativos» como los manuscritos de Lope de Vega pertenecientes a la colección de la Biblioteca Nacional; correspondencia de los Hermanos Grimm, del Archivo Estatal de Marburgo (Alemania), o gran cantidad de documentos de la historia de Venecia recopilados desde hace cientos de años.

Sin embargo, el investigador de la PRHLT Joan Andreu Sánchez ha explicado a EFE que su objetivo va más allá para poner «al alcance de investigadores, historiadores, lingüistas, genealogistas y del público una gran cantidad de documentos civiles, como registros matrimoniales, partidas de nacimiento o defunción o sentencias judiciales, de gran valor para estudios demográficos y genealógicos».

El proyecto trabaja con documentos procedentes de países como España, Italia, Alemania, Reino Unido, Países Bajos o Finlandia, entre otros y permitirá transcribir originales escritos en latín, alemán, holandés, inglés, castellano, italiano y, finlandés.

«La idea es que, en el futuro, las bibliotecas y los archivos sean capaces de facilitar el acceso a los contenidos para que la gente pueda buscar dentro de los documentos, y no con los metadatos únicamente, tal como se hace actualmente» ha apuntado.

Según Sánchez uno de los problemas de los documentos antiguos es la ausencia de unos patrones de escritura y edición estándar, por lo que la variabilidad es enorme.

Dichos documentos no pueden ser transcritos por técnicas de OCR, puesto que los caracteres no se pueden aislar automáticamente y por ello, el reconocimiento debe basarse en técnicas holísticas que reconocen caracteres, palabras y frases como «un todo».

«Hay documentos con anotaciones en los márgenes, palabras interlinea, tachones, textos con muchísimas abreviaturas, y gran variabilidad en el tipo de escritura. El proyecto lo que se plantea es procesar esta heterogeneidad y hacer accesible toda la información, bien transcribiéndola, bien indexándola haciendo uso de nuevas herramientas», ha añadido.

Los socios de READ trabajan ya en nuevas soluciones de Reconocimiento de Textos Manuscritos (HTR, siglas en inglés de Handwritten Text Recognition), que se incorporarán a Transkribus, el software libre desarrollado en el marco de otro proyecto europeo denominado Transcriptorium.

«READ coge el testigo de este proyecto y va un paso más allá: en Transcriptorium nos encargamos de madurar la tecnología HTR y darla a conocer a los proveedores de contenidos: archivos y bibliotecas. En READ, el propósito es extender el uso de esta tecnología a gran escala y dar servicio a los principales proveedores», ha detallado.

El trabajo de la UPV en este proyecto se centra en el módulo de reconocimiento e indexación de Transkribus, según el investigador, que ha resaltado que la clave de las herramientas en las que trabaja READ es su capacidad de obtener modelos que aprenden automáticamente a partir de ejemplos.

Dichos modelos necesitan una cantidad de datos de aprendizaje relativamente pequeña para obtener resultados muy satisfactorios y «una vez aprendidos los modelos, se utilizan técnicas muy eficientes de transcripción que emplean lo que se denominan redes de estados finitos».

Las herramientas permiten editar y corregir posibles errores de la transcripción automática mediante técnicas interactivas y una de las aplicaciones en READ permitirá indexar grandes colecciones de documentos sin necesidad de obtener la transcripción del documento.

Además, en un futuro y de forma gratuita, los usuarios podrán subir una colección de imágenes y solicitar que el sistema proporcione una transcripción.

¡Hola!

¿Has buscado tu duda en nuestra web?

Si no la encuentras, rellena este formulario:

Los campos con * son obligatorios