Interpretación de los datos y conclusiones


En el apartado Visualización de datos están disponibles las gráficas que muestran los resultados obtenidos del proyecto Aracne. Hemos distinguido tres grupos de resultados en función de la cuestión que tratan.

Riqueza

En el apartado Riqueza se muestran los datos relativos a las mediciones de riqueza. Tal y como se mencionaba en el apartado Modus operandi, han sido tres las variables analizadas:

  • La relación TTR en nuestras particulares adaptaciones lematizada y semántica: lemas distintos entre palabras totales (primera gráfica) y lemas distintos con categoría semántica entre palabras totales con categoría semántica (segunda gráfica). Los valores en ambos casos oscilan entre 0 y 1.
  • La densidad léxica: palabras con categoría semántica (nombres, adjetivos, verbos, adverbios acabados en –mente) entre palabras totales. Los valores oscilan entre 0 y 1.
  • La complejidad del texto, calculada como el valor medio ponderado sobre distintos rasgos de sofisticación lingüística del texto (complejidad sintáctica, tiempos y modos verbales, dificultad de las palabras utilizadas, referencialidad y abstracción). Los valores oscilan entre 0 y 10 (siendo 10 la máxima sencillez, 0 la máxima complejidad).

Las cuatro gráficas que se derivan de estas mediciones se han representado siguiendo una estructura común. Por un lado, dada la naturaleza de la variable TTR y el sesgo que produce (véase el apartado Consideraciones teóricas sobre la riqueza léxica), la agregación de datos se ha hecho teniendo en cuenta la longitud de los textos. Es decir, la comparación de los valores de riqueza se ha hecho entre artículos de longitud semejante. Se distinguen así siete grupos en función del número de palabras del artículo (indicado en el eje horizontal de la gráfica). Si bien esta restricción sobre extensión de los textos y comparabilidad es solo propia de la medición del TTR (y sus derivados), hemos optado por mantenerla también en la comparación de la densidad y la complejidad para comprobar si hay diferencias reseñables en los valores obtenidos según la longitud del texto (y evitar posibles sesgos inesperados).

Por otro lado, los datos de riqueza se han agrupado en intervalos de veinte años. Es decir, hemos fraccionado el intervalo de años entre 1914 y 2014 en cinco épocas, y la información de riqueza sobre esos cinco bloques son los que hemos agregado. Cada una de las barras verticales representadas en las gráficas corresponde a un intervalo de años. Esta agrupación ha sido la que mostraba una representación más homogénea, más comparable y permitía una visualización de datos eficaz. No obstante, los valores en bruto sin agregar están disponibles para descargar para quien quiera volver sobre ellos o analizarlos individualmente. Sobre las mediciones representadas por las barras verticales se ha trazado una línea que representa el valor medio de la variable analizada sobre el total del corpus de Aracne, es decir, el cómputo de la media global sin distinción de épocas. De este modo, podemos observar si los valores obtenidos para una determinada extensión en una época concreta están por encima o por debajo de la media global.

Las cuatro gráficas obtenidas de la medición de las tres variables referidas a la riqueza revelan datos muy homogéneos. Las dos gráficas relativas al TTR muestran un descenso de los índices de variación a medida que los textos se hacen más largos, siendo más acusado el descenso en la primera gráfica. La espectacularidad de este descenso no debe ni alarmarnos ni desviarnos de nuestro análisis de resultados, puesto que forma parte del resultado esperable. Como comentamos en las consideraciones teóricas sobre la riqueza, los índices de variación léxica tienden a disminuir según aumenta la extensión del texto analizado porque la probabilidad de que aparezcan palabras nuevas que no hayan aparecido antes disminuye según se alarga el texto. La segunda gráfica (correspondiente a nuestra adaptación del TTR semántico) muestra, por tanto, un descenso menos pronunciado porque se han excluido del cómputo las preposiciones, artículos, conjunciones y otras palabras gramaticales que no aportan variación léxica.

Lo que debemos comparar, por consiguiente, son las diferencias entre las cinco épocas (las cinco barras verticales) en cada uno de los valores de extensión del texto (y no las diferencias de riqueza entre textos de distinta longitud, puesto que ya sabemos que esa comparación está sesgada por la propia naturaleza de la variable TTR). Lo que se observa es que los valores se mantienen en general muy estables, con diferencias mínimas entre épocas. Los valores además están muy concentrados, las diferencias respecto a la media nunca superan el 10 % y se mantienen sorprendentemente uniformes en todas las épocas y para todas las longitudes.   

Por otro lado, los valores relativos a la densidad muestran también una constancia reseñable para textos de extensión superior a las cien palabras. La densidad media oscila en torno al 0.5 para todas las épocas en textos de más de cien palabras, con variaciones mínimas en la segmentación por épocas. Es interesante observar lo que ocurre con la densidad para los textos de menos de cien palabras. En este caso, la densidad es notablemente más alta en todas las épocas y muestra un máximo absoluto llamativo para los textos de menos de diez palabras de época reciente (1994-2014): 0.926, cuando el resto de épocas tiene una densidad para esa extensión rondando el 0.67. La mayor densidad léxica que muestran todas las épocas en los textos de menos de cien palabras puede achacarse a la redacción tan particular que tienen los titulares y las entradillas breves (que son los textos periodísticos que encontramos con esta extensión). La naturaleza casi telegráfica en la redacción de breves y titulares pueden explicar que resulten tan densos. Es decir, estos microtextos periodísticos caracterizados por la elisión de artículos (Manifestaciones en toda España) y de palabras que sean poco relevantes para el titular sobresalen en lo que a proporción de sustantivos, adjetivos, verbos y adverbios acabados en –mente se refiere. Esta tendencia se observa más acusada en el máximo absoluto que muestra la gráfica en época reciente. Podemos aventurar un motivo que justifique esta observación: esta densidad tan alta podría deberse quizá a la proliferación de entradas y titulares sintéticos en la primera plana de los periódicos de nuestro tiempo. Si observamos la primera página de un ejemplar antiguo, veremos que la primera plana ya contiene columnas y artículos completos, mientras que en los últimos veinte años, la primera página de los periódicos se ha convertido casi en un índice de avances informativos en forma de titular y texto mínimo que adelantan lo que se detalla en el interior del periódico ya en forma de noticia desarrollada. Es decir, en los últimos veinte años, se puede haber producido una telegraficación de titulares y breves en la prensa.

En cualquier caso, lo que sí podemos asegurar es que la densidad del texto también está influida por su extensión (algo que ya sabíamos que ocurría en las mediciones del TTR, pero no afectaría también a otros índices), ya que todas las épocas muestran densidades superiores cuando los textos son más cortos, aunque a partir de las cien palabras se estabilizan en una proporción de una palabra semánticamente plena por cada dos palabras totales. Es decir, la proporción entre palabras semánticas y gramaticales no es uniforme, sino que, a la luz de lo que muestran los resultados de Aracne, es más alta en textos más cortos. Cuanto más corto es un texto, más denso tiende a ser. Como hemos visto, es posible que esta observación esté relacionada con el formato mismo de la prensa y sea, por tanto, propia del lenguaje periodístico y concretamente achacable a los cambios en la maquetación de los periódicos, por lo que, aunque pueda parecer una conclusión lógica, no podemos asegurar que esta observación sea extrapolable al conjunto de la lengua en general. Consideramos, por tanto, que para poder confirmar nuestras sospechas, sería interesante profundizar en la naturaleza de las mediciones de densidad en otros tipos de textos para poder comprobar si, efectivamente, nos encontramos ante una variable lingüística que cambia según la extensión del texto (sea cual sea el tipo de texto) o si se ha modificado en concreto en la lengua de la prensa a causa del formato. De ser así, podríamos estudiar qué otros cambios de formato han producido variaciones lingüísticas y si el último gran cambio hacia la digitalización de la prensa sigue esta tendencia.

La gráfica de complejidad confirma la innegable estabilidad que presenta la riqueza lingüística. Los valores para todos los intervalos temporales y en todas las extensiones son muy homogéneos. Consideramos esta gráfica particularmente relevante. Las mediciones de variación léxica y densidad tienen dos limitaciones importantes: el sesgo que experimentan en relación con la longitud del texto analizado, y que, en realidad, analizan la noción de riqueza desde una aproximación exclusivamente cuantitativa, cuando, desde nuestra experiencia como hablantes, la riqueza es percibida como una noción fundamentalmente cualitativa, es decir, relacionado con el nivel de elaboración de un texto. Con toda la limitación que la medición de la complejidad conlleva (y que expusimos en el apartado Modus operandi), estos valores son los que verdaderamente nos permiten acercarnos a la composición del texto, entendiendo la riqueza como un valor asociado a la naturaleza y calidad del contenido, y no solo a un recuento léxico y categorial que, si bien es interesantísimo e insustituible, resulta parcial. La estabilidad que nos revela la gráfica de la complejidad confirma que, más allá de las consideraciones personales o las impresiones subjetivas, la riqueza y complejidad de los textos periodísticos se ha mantenido notablemente estable en los últimos cien años.

 

Estilo y léxico

Si bien el objetivo fundamental del proyecto Aracne ha sido el estudio de la evolución de la riqueza, no podemos resistirnos a mostrar otros rasgos fascinantes relativos a la evolución lingüística de la prensa que, aunque no estén directamente relacionados con la riqueza, han aparecido durante el estudio y están disponibles en el apartado de Visualización de datos.

En el apartado sobre estilo, creemos que merece la pena no perderse la evolución que han sufrido los adjetivos en grado superlativo (-ísimo) en el lenguaje de la prensa. El análisis de datos vino a confirmar esta extinción que, a primera vista, en la supervisión manual ya nos llamó la atención. Se observa un uso del superlativo notable en los primeros años que cubre el estudio, uso que se desploma según avanza el siglo. Es posible que esta extinción sea propia del lenguaje de la prensa, no necesariamente del español en general. El superlativo tiene una connotación que hoy resulta excesivamente subjetiva para la neutralidad del lenguaje periodístico, así que es posible que según se fue afianzando el estilo periodístico, este tipo de adjetivos fueran resultando menos apropiados.  

Es digna de mención también la evolución del modo subjuntivo. Si bien es cierto que presenta un máximo absoluto en la primera década del estudio (1914-1923), parece mantenerse con ciertas oscilaciones pero bastante viveza. Habrá que seguir observando la evolución del lenguaje de la prensa para poder asegurar que el subjuntivo está en retroceso como afirman algunas voces. Si lo está, desde luego sus tiempos de evolución son superiores a los cien años considerados en el proyecto Aracne.

También hemos incluido en esta sección las evoluciones de los tratamientos de persona don y señor (con una espectacular caída en el transcurso del siglo) y la frecuencia relativa de algunos de los anglicismos (tanto en forma cruda como en forma adaptada) propios del mundo de la prensa y que contaban con suficientes apariciones en la muestra como para poder observar su evolución.

En la sección dedicada al léxico, mostramos las gráficas de evolución de la frecuencia relativa a diferentes términos ligados al contexto histórico (agrupados por temática) y la combinatoria léxica de las palabras guerra y trabajador a lo largo del tiempo. Hemos escogido mostrar estas palabras y no otras porque, dada su presencia constante en el corpus de Aracne, permiten hacer un interesante viaje a través de la problemática social e histórica de los últimos cien años. Podemos asomarnos, pues, en estas gráficas al perfil léxico que cada época emana en Aracne. Los picos y valles que dibuja la frecuencia relativa de palabras como guerra, peseta, fanega, comunismo, alemán, nuclear o europeo nos invitan a viajar por la historia del último siglo y a atisbar cómo era la sociedad que producía y redactaba estas noticias. No obstante, ante las gráficas de frecuencias relativas y los cuadros de combinatoria léxica, es necesario recordar que el análisis de los campos semánticos no ha sido el objetivo primordial del proyecto Aracne, sino un feliz descubrimiento colateral que no podemos dejar de compartir. Sin embargo, por muy disfrutable que sea este subproducto de Aracne, no debemos olvidar que, puesto que con la selección de ejemplares se pretendía en todo momento conseguir una muestra representativa y válida para el estudio de la riqueza, no podemos presuponerle la misma representatividad para mostrar de forma fiable el léxico y la variación en los campos semánticos.

 

Continuar leyendo: Reflexiones finales e hilos para seguir tejiendo.

Volver a la portada del proyecto Aracne

¡Hola!

¿Has buscado tu duda en nuestra web?

Si no la encuentras, rellena este formulario:

Los campos con * son obligatorios