Con el proyecto Aracne pretendemos observar y medir cómo ha cambiado el lenguaje de la prensa española en los últimos cien años, analizando con especial atención los rasgos de riqueza.
Pero ¿cómo se mide la riqueza? ¿Qué manifestaciones objetivas y medibles podemos estudiar en los textos para evaluar la riqueza? En definitiva, para medir la riqueza lingüística y su variación a lo largo de los años necesitamos definir qué vamos a considerar riqueza lingüística, y que esa definición se fundamente no sobre apreciaciones subjetivas o consideraciones personales, sino sobre rasgos objetivos, imparciales, mensurables y, sobre todo, comparables.
Tradicionalmente, en los estudios sobre riqueza lingüística se ha tomado como parámetro primordial la variación léxica, es decir, la cantidad de palabras diferentes que contiene un texto. Esta medición se ha expresado habitualmente como la relación entre el número de palabras diferentes que contiene un texto dividido entre las palabras totales de ese texto. Esta relación ha venido a llamarse en la literatura especializada type-token ratio (TTR), siendo type el repertorio de palabras distintas y token el número de palabras totales.
TTR=Types/Tokens
Por ejemplo, una oración como
Frío rigurosísimo, con cielo casi completamente despejado.
tendría un TTR de 1, ya que las siete palabras de esta oración son diferentes (ninguna se repite), por lo que 7/7=1. Mientras que, siguiendo la definición tradicional del TTR, una oración como
El comisario señor Flores, con el inspector señor Homar,
ordenó fuera acompañado a la Casa de Socorro.
tendría un TTR de 0.88, ya que de las diecisiete palabras totales de la oración, quince son diferentes (el y señor aparecen dos veces).
Los valores posibles del TTR oscilan necesariamente entre 0 y 1: sea cual sea el número total de palabras del texto (es decir, sea cual sea el valor que tome la variable tokens del denominador y que podemos llamar n), el número de palabras distintas de un texto será como mínimo 1 (habrá al menos una palabra distinta en el texto) y como máximo será n, es decir, será igual al valor de palabras totales (como hemos visto en el primer caso). Por lo tanto, como mínimo el valor del parámetro TTR será 1/n y como máximo será n/n (es decir, 1).
Las limitaciones del TTR
El TTR cuantifica de una manera simple la noción de riqueza como uso de palabras distintas dentro de un texto. Como medición de la riqueza léxica, resulta bastante intuitivo y simple de calcular. Sin embargo, presenta tres inconvenientes importantes que sesgan o limitan la observación y a los que hemos tenido que enfrentarnos en el proyecto Aracne para corregir o compensar.
El primer inconveniente del TTR es que el resultado está influido por la longitud del texto que se mide. En una frase muy corta de unas pocas palabras es muy posible que todas las palabras sean distintas. Sin embargo, según vaya aumentando la extensión del texto, lo esperable es que haya palabras que se repitan. Cuanto más largo se va haciendo un texto, menos probable será que aparezcan palabras que no hayan salido antes. El grueso de palabras distintas de un texto suele manifestarse en las primeras líneas. Este hecho se ve más claro si pensamos que buena parte de los textos están constituidos por artículos, preposiciones, conjunciones y otras palabras que forman parte de conjuntos cerrados sin significado pleno y con una función más gramatical que semántica. Estas palabras son ineludibles en la redacción de los textos (son los elementos que nos permiten dotar de coherencia gramatical a la expresión) y se repiten mucho, lo que disminuye notablemente el valor de la variable types al calcular el TTR. Por lo tanto, los textos de mayor longitud tenderán a verse injustamente penalizados con TTR menores, simplemente por el hecho de ser más largos, no por ser verdaderamente menos ricos.
El segundo inconveniente del TTR es que considera como palabras distintas aquellas formas de un mismo lema que son diferentes. Esto se debe a que el TTR nace como medida para caracterizar textos en inglés, que es un idioma con una variación morfológica limitada. Pensemos, por ejemplo, en el artículo determinado the, que en español consta de cuatro formas (el, la, los, las) cuando en inglés solo tiene una. De un modo semejante, un adjetivo tan sencillo y ubicuo como good es invariable en inglés, pero en español lo podemos encontrar como bueno, buena, buenos o buenas, según lo exija la concordancia gramatical. Siguiendo estrictamente la manera de contar que propone el TTR, estas cuatro formas serían contabilizadas como palabras distintas. Esta lógica no parece muy adecuada para una lengua flexiva como el castellano.
Por último, el TTR es una aproximación útil para cuantificar uno de los rasgos habitualmente percibidos como riqueza: el de que mayor diversidad léxica conlleva mayor riqueza lingüística. Sin embargo, la diversidad léxica parece ser solo uno de los aspectos que determinan la riqueza lingüística de un texto. En los últimos años, a la diversidad léxica se le han empezado a sumar otras características textuales que pueden ayudarnos a evaluar la riqueza lingüística de una manera más completa.
- La sofisticación lingüística, por ejemplo, evalúa el grado de complejidad de un texto a partir del nivel de dificultad del vocabulario empleado o la elaboración de la sintaxis.
- La densidad léxica mide la relación numérica entre el número de palabras de categoría semánticamente plena (sustantivos, adjetivos, verbos) frente al número total de palabras de un texto.
- La existencia de erratas.
La propuesta de Aracne
Vistas estas consideraciones teóricas, nuestro planteamiento a la hora de abordar el proyecto Aracne ha tenido en cuenta los siguientes puntos:
- Las mediciones de riqueza (TTR o similares) deben hacerse teniendo en cuenta la longitud de los textos medidos para que sean comparables.
- Conocer la categoría de las palabras es un factor importante para medir la riqueza: las palabras sin carga semántica son, en parte, causantes de la penalización en el TTR que sufren los textos largos; por lo tanto, resultará interesante poder hacer mediciones que distingan la categoría gramatical de las palabras. Además, podemos asumir que la carga semántica del texto recae sobre sustantivos, adjetivos y verbos, por lo que conocer la categoría gramatical de las palabras puede sernos de gran utilidad.
- Dadas las particularidades morfológicas del español, podremos afinar los resultados y obtener mejores cálculos del TTR si agrupamos las diversas formas de una misma palabra bajo su lema, es decir, que bueno, buena, buenos, buenas sean considerados en nuestros cálculos como cuatro formas (cuatro tokens) de una única palabra (un type). Por tanto, nuestras mediciones del TTR tendrán en cuenta el análisis gramatical de la palabra y su lematización.
- Además de calcular los índices del TTR (con las matizaciones y adaptaciones que se derivan de lo que acabamos de ver), nuestro estudio sobre la riqueza no se limitará solo a la evaluación de la diversidad léxica, sino que también tendrá en cuenta otros aspectos como son la densidad léxica y la complejidad.
Continuar leyendo: Creación del corpus de Aracne.