Noticias del español

| | | | | |

| La Voz de Galicia.es, España
Miércoles 27 de mayo del 2009

PARA LA INVESTIGACIÓN Y LA LEXICOGRAFÍA SON NECESARIOS LOS CORPUS TEXTUALES

Los corpus son conjuntos de textos útiles para investigaciones e imprescindibles en la elaboración de diccionarios.


La web de la Academia Española permite el acceso a dos. El Corpus Diacrónico del Español (Corde) recoge textos de todas las épocas y lugares donde se habló español. Es una gigantesca base de 250 millones de formas que permite estudiar las palabras y la gramática a través del tiempo. Reúne todo tipo de textos, desde documentos notariales hasta libros, pasando por periódicos, obras científicas, religiosas, etcétera.

El Corpus de Referencia del Español Actual (CREA) cuenta con 160 millones de formas del español recogidas desde 1975 en todos los países de habla hispana. Su origen son documentos impresos, no impresos y orales.

Base lexicográfica

En la web del Institut d'Estudis Catalans puede consultarse el Corpus Textual Informatitzat de la Llengua Catalana (CTILC), inicialmente diseñado para ser utilizado como fuente principal en la elaboración del Diccionari descriptiu de la llengua catalana. Es, sin embargo, una herramienta útil para cualquiera que desee estudiar algún aspecto del catalán escrito. Contiene 52 millones de palabras analizables, procedentes de textos de entre 1832 y 1988, literarios y no literarios.

Desde la web de Euskaltzaindia puede accederse a un corpus del euskera, menos extenso que los anteriores, con unos cinco millones de registros.

En general, los corpus informatizados, dotados de filtros y otros instrumentos para depurar las búsquedas, son herramientas que pueden entrañar alguna dificultad de manejo para el usuario sin experiencia que se acerque a ellas por primera vez.

Los gallegos

La Academia Galega no tiene un corpus del gallego. Cubren esta laguna otras instituciones, como el Centro Ramón Piñeiro para a Investigación en Humanidades con el Corpus de Referencia do Galego Actual (Corga) (corpus.cirp.es/corga/index.html), con textos posteriores a 1975 (437 diarios, 86 revistas y 390 libros: novela, ensayo, relato corto y teatro). Alcanza los 23 millones de formas, casi 400.000 diferentes. Ha sido construido por un equipo dirigido por Guillermo Rojo. Su acceso está limitado a usuarios registrados.

Existen otros tres corpus del gallego. El Corpus Lingüístico da Universidade de Vigo (Cluvi) tiene varias secciones y un corpus técnico que agrupa las respuestas por materias, como derecho, ecología, economía, etcétera. El Instituto da Lingua Galega tiene dos: el Tesouro Informatizado da Lingua Galega (TILG), con textos desde 1612 hasta la actualidad, hecho por un equipo dirigido por Antón Santamarina; y el Tesouro Medieval Informatizado da Lingua Galega (TMILG), para usuarios registrados. Este último, obra de un equipo dirigido por Xavier Varela Barreiro, integra textos medievales de Galicia y Portugal, que en un alto porcentaje son documentos notariales.

¡Hola!

¿Has buscado tu consulta?

Si no la encuentras, rellena nuestro formulario: