«Modus operandi»


Una vez escogidas las hemerotecas de los periódicos y seleccionados los ejemplares para el estudio, el modus operandi del proyecto Aracne ha consistido en:

I. Obtención de los ejemplares seleccionados para el estudio en formato imagen digital.

II. Procesamiento mediante tecnología OCR para extracción del texto del ejemplar.

III. Supervisión humana (asistida por ordenador mediante el uso de macros, corrección semiautomática y expresiones regulares) de los textos producidos por el OCR para garantizar una calidad aceptable, separación del texto continuo que produce el OCR y conformación del ejemplar del periódico en artículos.

IV. Procesamiento lingüístico de los textos mediante tecnología de procesamiento de lenguaje natural (PLN).

V. Medición de los rasgos de variación léxica (TTR), densidad y complejidad de los textos.

VI. Agregación de datos.

VII. Visualización de los datos, análisis y conclusiones.

VIII. Recopilación de las curiosidades históricas y lingüísticas de los recortes de prensa encontrados, confección de la página web, redacción de la memoria y publicación.

La unidad mínima de la que disponemos al comienzo del procesamiento es el texto producido por el OCR, es decir, la unidad de partida es el ejemplar de periódico como un todo indivisible. Durante la revisión humana de los textos producidos por el OCR, ese todo continuo es fragmentado en artículos independientes (en la sección de Recortes históricos recopilamos algunas de las curiosidades dignas de mención que hemos encontrado durante el proceso de revisión de los textos). Son esos artículos independientes (convenientemente identificados por fecha y periódico de procedencia) los que entran en el engranaje del procesamiento lingüístico para ser separados en oraciones (splitting), que, a su vez, serán lematizadas y analizadas morfológicamente usando la tecnología de Molino de Ideas. La lematización es la técnica que permite asignar a cada palabra de una frase su lema, es decir, la forma canónica bajo la que nos la encontraríamos en un diccionario. Esto nos permite agrupar correctamente todas las formas conjugadas de un mismo infinitivo o las diversas variaciones de género y número de sustantivos y adjetivos. Gracias a la lematización, en el proyecto podremos contabilizar voy, iremos o hubierais ido como apariciones del verbo ir, o tanto españoles y españolas como formas de español. La lematización aplicada además tiene en cuenta el contexto sintáctico de la palabra, lo que permite desambiguar categorialmente las palabras homónimas, como meses, que será apropiadamente etiquetada como sustantivo en una oración como los meses del año y como verbo en que te meses las barbas. Los resultados obtenidos de la lematización nos han servido para poder hacer los cálculos de variación léxica y densidad. 

Hemos calculado dos índices para la variación léxica, ambos inspirados en la relación types/tokens (TTR), pero ligeramente modificados para adaptarlos mejor al propósito del proyecto Aracne. La primera cuestión fundamental que vimos al hablar de las limitaciones teóricas del TTR es que no debemos bajo ningún concepto comparar valores de TTR entre textos de distinta extensión. En consecuencia, las mediciones y comparaciones de nuestros índices TTR (o sus modificaciones) se han hecho sobre textos de extensión semejante. Por otro lado, también discutimos en las consideraciones teóricas las limitaciones de partida que tiene el TTR al aplicarlo a lenguas flexivas como el español, ya que la medición tradicional del TTR considera como tipos distintos (types) formas distintas (plurales, femeninos, conjugaciones) de una misma palabra. Nuestro cálculo del TTR, por lo tanto, lo hemos hecho considerando las formas lematizadas de las palabras, no la diferenciación tradicional de types y tokens. Es decir, hemos considerado como types el número de lemas distintos de un texto y como tokens, el número de palabras totales. Mientras que el TTR tradicional considera que en «Donde dije digo, digo Diego», tanto digo como dije son dos tipos independientes (dije con una aparición, digo con dos), nosotros consideramos que ambas son formas del lema decir, por lo tanto en esta frase nuestro cálculo del TTR computaría un único lema distinto (decir) para las tres apariciones (digo, digo y dije). Consideramos que esta aproximación es más apropiada que la convencional porque recoge de una manera más fiel el funcionamiento morfológico del español y lo que se considera variación léxica.

El segundo índice TTR que hemos calculado consiste en una variante aún más restrictiva que esta primera propuesta de TTR que acabamos de ver. En este segundo índice, el TTR se ha calculado incluyendo en el cómputo (tanto de types como de tokens, o, en nuestro caso, tanto de formas como de lemas) solo aquellas palabras consideradas semánticamente plenas, es decir, sustantivos, adjetivos, verbos y adverbios terminados en –mente. Puesto que las palabras semánticamente vacías (preposiciones, conjunciones, artículos…) no añaden variaciones a la riqueza léxica y engordan artificialmente el recuento de formas (son palabras ineludibles para construir un discurso coherente, pero la mayoría de ellas aparecerán al comienzo del texto y después solo se repetirán), y dado que disponemos de la categoría morfológica de las palabras gracias al procesamiento lingüístico previo, hemos optado por hacer este segundo cálculo solo con las palabras que verdaderamente aportan variación léxica. La comparación de los resultados de medir esta variante semántica del TTR se ha hecho también sobre textos de longitud semejante. A esta segunda propuesta sobre el TTR la llamaremos TTR semántico.

Tanto el cálculo del TTR lematizado como del TTR semántico se han hecho tomando el artículo como unidad de análisis. En ambos casos, los valores del TTR oscilan entre 0 y 1, aproximándose a 1 cuanto mayor es la variación (más igualada está la variación entre lemas diferentes y palabras totales) o a 0 según resulta más repetitivo léxicamente el texto.

El proceso de lematización y categorización morfológica es lo que también nos ha permitido calcular la segunda variable relacionada con la riqueza: la densidad léxica. Hemos medido la densidad como la relación entre el número de palabras con categoría semántica (nombres, adjetivos, verbos, adverbios acabados en –mente) entre palabras totales del texto. Los valores de la densidad léxica también oscilan entre 0 y 1, tendiendo a 1 los textos muy densos (es decir, con una alta proporción de palabras semánticamente plenas) y a 0 aquellos en los que aparecen muchas palabras más gramaticales o estructurales.

Por último, la última variable que hemos medido para determinar la riqueza léxica de los textos ha sido la complejidad o sofisticación. Para ello, hemos recurrido a la tecnología lingüística de Molino de Ideas. Un programa informático que evalúa distintos grados de dificultad lingüística ha analizado cada artículo y les ha asignado una puntuación del 0 al 10, siendo 10 la puntuación otorgada a los textos más sencillos y 0 a los textos más complejos. Entre los rasgos analizados por este programa están la sofisticación del vocabulario, la longitud de las oraciones, la estructura oracional, los tiempos verbales y el grado de referencialidad y abstracción. Hay que tener en cuenta que esta medición es cuestionable en un aspecto fundamental: la complejidad del vocabulario se tiene en cuenta a partir de la frecuencia de una palabra. Sin embargo, la frecuencia de uso de una palabra está ligada a una época histórica. Es posible que hoy consideremos como muy infrecuentes palabras que eran absolutamente habituales en su momento. Para solventar este problema necesitaríamos contar con mediciones de frecuencia para las distintas épocas que cubre el corpus de Aracne. A pesar de esta limitación (que solo afecta a una de las múltiples variables que evalúa el programa), hemos decidido analizar igualmente este rasgo, asumiendo que lo que se considera complejo o infrecuente puede variar con el transcurso del tiempo.

Continuar leyendo: Interpretación de los datos y conclusiones.

Volver a la portada del proyecto Aracne

¡Hola!

¿Has buscado tu duda en nuestra web?

Si no la encuentras, rellena este formulario:

Los campos con * son obligatorios