Según ha informado la Biblioteca Nacional de España (BNE), «MarIA» está disponible en abierto para que cualquier desarrollador, empresa o entidad pueda utilizarlo sin coste, y sus posibles aplicaciones van desde los correctores o predictores del lenguaje, hasta las aplicaciones de resúmenes automáticos, chatbots, búsquedas inteligentes, motores de traducción y subtitulación automática, entre otros.
Eso sí, los ficheros de datos que han servido para entrenar a «MarIA» no están en dominio público y por lo tanto, «no están accesibles en internet».
Se trata de los llamados ficheros resultantes del rastreo y archivado de la web española, que la Biblioteca Nacional de España conserva como patrimonio documental. El Centro Nacional de Supercomputación ha podido utilizarlos para entrenar al sistema gracias a la participación de ambas instituciones en el Plan de Tecnologías del Lenguaje.
Según han destacado desde la BNE, «MarIA» es el «primer modelo» de inteligencia artificial masivo de la lengua española.
«Es un conjunto de modelos del lenguaje o, dicho de otro modo, redes neuronales profundas que han sido entrenadas para adquirir una comprensión de la lengua, su léxico y sus mecanismos para expresar el significado y escribir a nivel experto. Logran trabajar con interdependencias cortas y largas y son capaces de entender, no solo conceptos abstractos, sino también el contexto de los mismos», añaden.
En este sentido, para crear el corpus de «MarIA» se han utilizado 59 terabytes (equivale a 59 000 gigabytes) del archivo web de la BNE. Posteriormente, estos archivos se procesaron para eliminar todo aquello que no fuera texto bien formado (números de páginas, gráficos, oraciones que no terminan, codificaciones erróneas, oraciones duplicadas u otros idiomas) y se guardaron solamente los textos bien formados en la lengua española, tal y como se utiliza realmente.
Para este cribado y su posterior compilación, explican desde la BNE, fueron necesarias 6 910 000 horas de procesadores del superordenador MareNostrum y los resultados fueron 201 080 084 documentos limpios que ocupan un total de 570 gigabytes de texto limpio y sin duplicidades.
Una vez creado el corpus, los investigadores del CNS utilizaron una tecnología de redes neuronales (basada en la arquitectura Transformer), que ha demostrado «excelentes resultados» en el inglés y que se entrenó para aprender a utilizar la lengua.
En este sentido, explican, las redes neuronales multicapa son una tecnología de inteligencia artificial y los entrenamientos consisten, entre otras técnicas, en presentar a la red textos con palabras ocultas, para que aprenda a adivinar cuál es la palabra ocultada dado su contexto.
Para este entrenamiento han sido necesarias 184 000 horas de procesador.
Según Marta Villegas, responsable del proyecto y líder del grupo de minería de textos del CNS, las nuevas tecnologías de inteligencia artificial están «transformando completamente» el campo del procesamiento del lenguaje natural.
Este proyecto se ha financiado con fondos del Plan de Tecnologías del Lenguaje de la Secretaría de Estado de Digitalización e Inteligencia Artificial del Ministerio de Asuntos Económicos y Agenda Digital y del Future Computing Center.
Y con él, la BNE explora «nuevas vías» de explotación de los datos y las colecciones que conserva; también busca «impulsar la reutilización, nuevos proyectos de investigación y mejorar el acceso de los ciudadanos a la información».
El Barcelona Supercomputing Center (BSC) es la oficina técnica del Plan de las Tecnologías del Lenguaje (Plan-TL) de la Secretaría de Estado de Digitalización e Inteligencia Artificial (SEDIA).
Como tal, su misión es facilitar el desarrollo de sistemas del lenguaje más competitivos a la sociedad, compañías y grupos de investigación, haciendo públicos modelos de lenguaje tanto generales como específicos —para dominios como la biomedicina o la legal— y liberando conjuntos de texto para entrenar y evaluar nuevos modelos, según el BSC.