Noticias del español

Boletín de recomendaciones

Suscríbete

Deseo recibir las recomendaciones de FundéuRAE:

¿Quieres recibir la recomendación diaria de FundéuRAE?

Completa este formulario para que te enviemos la recomendación diaria de FundéuRAE.

Los campos con * son obligatorios.

31/07/2021 |

Agencia EFE

«MarIA», primer sistema de inteligencia artificial experto en lengua española

«MarIA» es el nombre del sistema creado en el Centro Nacional de Supercomputación de Barcelona y entrenado en el superordenador MareNostrum con archivos de datos de la BNE y que permitirá a los desarrolladores de aplicaciones disponer del primer método de inteligencia artificial «experto en comprender y escribir castellano».

Escuchar

Según ha informado la Biblioteca Nacional de España (BNE), «MarIA» está disponible en abierto para que cualquier desarrollador, empresa o entidad pueda utilizarlo sin coste, y sus posibles aplicaciones van desde los correctores o predictores del lenguaje, hasta las aplicaciones de resúmenes automáticos, chatbots, búsquedas inteligentes, motores de traducción y subtitulación automática, entre otros.

Eso sí, los ficheros de datos que han servido para entrenar a «MarIA» no están en dominio público y por lo tanto, «no están accesibles en internet».

Se trata de los llamados ficheros resultantes del rastreo y archivado de la web española, que la Biblioteca Nacional de España conserva como patrimonio documental. El Centro Nacional de Supercomputación ha podido utilizarlos para entrenar al sistema gracias a la participación de ambas instituciones en el Plan de Tecnologías del Lenguaje.

Según han destacado desde la BNE, «MarIA» es el «primer modelo» de inteligencia artificial masivo de la lengua española.

«Es un conjunto de modelos del lenguaje o, dicho de otro modo, redes neuronales profundas que han sido entrenadas para adquirir una comprensión de la lengua, su léxico y sus mecanismos para expresar el significado y escribir a nivel experto. Logran trabajar con interdependencias cortas y largas y son capaces de entender, no solo conceptos abstractos, sino también el contexto de los mismos», añaden.

En este sentido, para crear el corpus de «MarIA» se han utilizado 59 terabytes (equivale a 59 000 gigabytes) del archivo web de la BNE. Posteriormente, estos archivos se procesaron para eliminar todo aquello que no fuera texto bien formado (números de páginas, gráficos, oraciones que no terminan, codificaciones erróneas, oraciones duplicadas u otros idiomas) y se guardaron solamente los textos bien formados en la lengua española, tal y como se utiliza realmente.

Para este cribado y su posterior compilación, explican desde la BNE, fueron necesarias 6 910 000 horas de procesadores del superordenador MareNostrum y los resultados fueron 201 080 084 documentos limpios que ocupan un total de 570 gigabytes de texto limpio y sin duplicidades.

Una vez creado el corpus, los investigadores del CNS utilizaron una tecnología de redes neuronales (basada en la arquitectura Transformer), que ha demostrado «excelentes resultados» en el inglés y que se entrenó para aprender a utilizar la lengua.

En este sentido, explican, las redes neuronales multicapa son una tecnología de inteligencia artificial y los entrenamientos consisten, entre otras técnicas, en presentar a la red textos con palabras ocultas, para que aprenda a adivinar cuál es la palabra ocultada dado su contexto.

Para este entrenamiento han sido necesarias 184 000 horas de procesador.

Según Marta Villegas, responsable del proyecto y líder del grupo de minería de textos del CNS, las nuevas tecnologías de inteligencia artificial están «transformando completamente» el campo del procesamiento del lenguaje natural.

Este proyecto se ha financiado con fondos del Plan de Tecnologías del Lenguaje de la Secretaría de Estado de Digitalización e Inteligencia Artificial del Ministerio de Asuntos Económicos y Agenda Digital y del Future Computing Center.

Y con él, la BNE explora «nuevas vías» de explotación de los datos y las colecciones que conserva; también busca «impulsar la reutilización, nuevos proyectos de investigación y mejorar el acceso de los ciudadanos a la información».

El Barcelona Supercomputing Center (BSC) es la oficina técnica del Plan de las Tecnologías del Lenguaje (Plan-TL) de la Secretaría de Estado de Digitalización e Inteligencia Artificial (SEDIA).

Como tal, su misión es facilitar el desarrollo de sistemas del lenguaje más competitivos a la sociedad, compañías y grupos de investigación, haciendo públicos modelos de lenguaje tanto generales como específicos —para dominios como la biomedicina o la legal— y liberando conjuntos de texto para entrenar y evaluar nuevos modelos, según el BSC.

Noticias del español

«MarIA», primer sistema de inteligencia artificial experto en lengua española

El Corpus de Referencia del Gallego Actual reconoce el seseo y la geada

El Instituto de la Lengua reafirma su apuesta por el estudio y la difusión del español

Un libro de las glosas de la Fundación San Millán, premio Nacional de Edición Universitaria

El Senado de Brasil aprueba una reforma educativa que obliga a la enseñanza del idioma español

Llega la «Guía de redacción de los Juegos Olímpicos 2024»

Dos libros y una corbata, el legado de Francisco Rico a la Caja de las Letras

La UIB acoge un congreso internacional sobre la variación geográfica y social del español

España y Turquía firman un memorando para fomentar la cultura y lengua española en el país

El escritor Javier Cercas, elegido para ocupar la silla «R» de la RAE

¡Hola!

¿Has buscado tu duda en nuestra web?

Noticias del español

Comparte en

¡Hola!

¿Has buscado tu duda en nuestra web?