Creación del corpus de Aracne

Escuchar

Con el proyecto Aracne queremos observar cómo ha evolucionado el lenguaje de la prensa desde 1914 hasta 2014. Pero ¿por dónde empezar? ¿Qué textos considerar? El primer paso del proyecto consiste en confeccionar un corpus. Un corpus no es más que una colección de textos reales más o menos numerosa. En nuestro caso, necesitaremos confeccionar un corpus que cubra el intervalo temporal que queremos analizar (1914-2014) para que sirva de muestra de la lengua periodística de la época. Necesitaremos que, en conjunto, nuestro corpus resulte lo más representativo y equilibrado posible para que el análisis sea fiable.

La selección del corpus del proyecto Aracne nos ha suscitado muchas cuestiones que, más allá de los retos concretos que suponían para nuestro proyecto, nos han dado pie a reflexionar sobre la naturaleza del lenguaje y la evolución del idioma.

La selección de periódicos

La primera cuestión ineludible es acotar qué características deben cumplir los periódicos candidatos para ser incluidos en nuestra selección. No podemos analizar exclusivamente ejemplares de un solo periódico porque las mediciones entonces resultarían sesgadas: no sabríamos si nuestras observaciones se deben a características propias del periódico escogido o si son verdaderamente generalizables al conjunto del lenguaje periodístico de una época. Por lo tanto, nuestro corpus deberá estar conformado por ejemplares de distintos periódicos.

Otra condición irrenunciable es que las fuentes han de tener orígenes diversos. La variación geográfica es uno de los rasgos diferenciadores de la lengua. Si bien este hecho es más acusado en la oralidad, no debemos perderlo de vista y hemos de considerar periódicos procedentes de distintos puntos de la península para tener más pluralidad y variedad lingüística regional.

Los periódicos escogidos han de ser generalistas para que la variedad léxica sea lo más completa posible. Si introducimos en el estudio periódicos de temática muy concreta (economía, deportes…), estaremos comparando ejemplares de vocabulario muy específico con ejemplares generalistas (previsiblemente de vocabulario más variado) lo que podría acarrear sesgos en la medición de variaciones en la riqueza.

Por último, nos encontramos con una restricción insalvable puramente material: solo podremos considerar para nuestro estudio aquellos periódicos que cuenten con ejemplares digitalizados disponibles. Esta condición nos limita enormemente la selección, pero resulta inevitable, puesto que el procesamiento del texto será automático. No es difícil dar con hemerotecas digitalizadas de periódicos posteriores a los años 70. Sin embargo, acceder a digitalizaciones que cubran el intervalo de años entre 1914 y 1970 es mucho más complicado.

Con estas condiciones de partida, hemos procedido a seleccionar los periódicos que tendríamos en cuenta para el estudio. Queremos agradecer a El Norte de Castilla, El Correo, Las Provincias, al Diario de Mallorca, Diario La Rioja, Heraldo de Aragón, ABC y a la Biblioteca Nacional su colaboración imprescindible en esta parte del proceso. Finalmente, por motivos de accesibilidad, estado de la digitalización, disponibilidad de ejemplares, cobertura temporal y equilibrio del corpus han sido seleccionados ejemplares de El Norte de Castilla, El Correo de Mallorca, La Almudaina, del Diario de Mallorca, Heraldo de Aragón y de La Vanguardia, repartidos homogéneamente a lo largo del tiempo.

Que la selección de periódicos se mantenga constante a lo largo del tiempo nos asegura una homogeneidad en la composición muy valiosa de cara al análisis de los datos. No obstante, esta decisión conlleva una desviación ideológica que, sin saber con certeza si causa sesgos en el estudio, no queremos dejar de mencionar: necesariamente, los periódicos que han perdurado desde 1914 hasta 2014 son aquellos que sobrevivieron al franquismo, y, por tanto, conllevan una inclinación ideológica difícil de obviar. No perdamos de vista el objetivo final del estudio: la medición de la riqueza léxica. Si bien parece legítimo asumir que la ideología puede sesgar el vocabulario de un texto (usando unas palabras, eliminando otras) no sabemos hasta qué punto es achacable a motivos ideológicos diferencias en la riqueza (esto es, en la variación y la sofisticación de un texto, no en el repertorio del léxico). Consideramos importante mencionar esta cuestión, no solo ya como parte de la descripción del corpus de Aracne, sino también con la intención de lanzar un guante para quien quiera recogerlo e investigar sobre la relación entre ideología y riqueza léxica.

La selección de ejemplares

Una vez que ya tenemos la selección de periódicos que van a formar parte del estudio, es necesario decidir qué ejemplares vamos a incorporar al corpus. ¿Cuántos ejemplares cogeremos? ¿Repartidos de qué manera a lo largo del tiempo?

Lo deseable hubiera sido incorporar al estudio las hemerotecas completas de los periódicos seleccionados. Lamentablemente, la digitalización de los periódicos se encuentra en formato imagen, no en formato textual. Para poder analizar la lengua de los periódicos necesitamos disponer de los textos de los ejemplares, lo que conlleva necesariamente el procesamiento de las imágenes escaneadas mediante un sistema de reconocimiento óptico de caracteres (OCR, Optical Character Recognition) para obtener los textos de los periódicos. La tecnología del OCR dista mucho de ser perfecta. Sin desmerecer la inestimable ayuda que nos ofrece, es habitual encontrar errores de reconocimiento en los textos producidos por el OCR, sobre todo en ejemplares antiguos, donde la calidad de la imagen es más deficiente. Nuestro afán por observar de manera rigurosa y pormenorizada la variación léxica de la prensa no puede permitirse sustentar un estudio sobre una inmensa cantidad de textos defectuosos. Por lo tanto, nos vemos obligados a que los textos producidos por el OCR sean supervisados por un revisor humano que garantice una calidad aceptable antes de ser incorporados al estudio. En consecuencia, la cantidad de ejemplares para seleccionar se ve acotada por una nueva restricción: debemos limitarnos a un número que pueda ser revisado manualmente en un tiempo razonable y ajustándonos a los recursos humanos de los que dispone el estudio.

Puesto que no podemos procesar las hemerotecas completas de los periódicos seleccionados, sino solo una parte de ellas, necesitamos decidir los ejemplares vamos a incluir. Una variable fundamental del estudio es el tiempo. A fin de cuentas, lo que pretendemos medir es cómo ha cambiado la riqueza en unos años concretos. Surge entonces la cuestión de cómo debemos distribuir los ejemplares que seleccionemos a lo largo del tiempo para poder medir variaciones. Es decir, si lo que queremos saber es cómo y cuánto ha cambiado la lengua en un período determinado, tendremos que tomar fotografías lingüísticas de la prensa en distintos momentos del intervalo de años que queremos estudiar y compararlas después. Esto entraña una pregunta de difícil solución: ¿cuándo hacer esas fotografías? ¿Cada cuántos años tomar muestras? ¿Cuál es la unidad de tiempo en lo que a cambio lingüístico se refiere?

Ante esta cuestión, hemos barajado dos posibilidades. Una opción pasa por seleccionar unas pocas muestras muy concentradas en unos años muy concretos, estudiar la lengua de esas muestras y asumir que las observaciones hechas para esos años serán extrapolables a otros ejemplares la época. Por ejemplo: podríamos hacer tres muestras pormenorizadas, una de 1914, otra de 1964 y otra de 2014, y estudiar con detalle la lengua de cada uno de esos años. Siguiendo esta forma de proceder, asumiríamos que las diferencias encontradas entre las observaciones de la muestra de 1914 y de 2014 se deben a tendencias globales que afectan a la lengua de cada época. Esta modalidad de catas escasas y profundas tiene la ventaja de que caracteriza con gran definición la lengua de un año concreto, pero tiene como contraparte que sesga enormemente la observación. Pensemos, por ejemplo, en la muestra que correspondería al año 1914: la Guerra Mundial fue un tema fundamental en los periódicos de ese año, lo cual desvía el léxico hacia campos semánticos muy concretos. No podemos asumir que el análisis léxico de un año concreto (con toda la desviación temática que eso conlleva) pueda representar fielmente el perfil léxico de un conjunto de años. Esta aproximación, además, conlleva catas muy espaciadas en el tiempo e intervalos de años muy largos sin datos, dando por sentado que las variaciones entre una cata y otra serán homogéneas y graduales. Es decir, si nos encontrásemos unos índices de riqueza muy elevados en 1914 y más bajos hacia 1964, ¿podríamos asumir que la caída se ha producido de forma gradual y escalonada en esos cincuenta años? ¿O quizá los índices de riqueza son más inestables y lo que asumiríamos como variaciones graduales esconden en realidad picos y valles? La historia de la lengua nos enseña, además, que si bien los cambios gramaticales suelen ser lentos y se extienden durante generaciones, las variaciones léxicas están muy relacionadas con los cambios culturales e históricos y estos son notablemente más rápidos. Por lo tanto, hemos optado por descartar esta primera aproximación.

Descartada esta distribución de catas muy concentradas, muy espaciadas en el tiempo y muy pormenorizadas, hemos optado por una distribución temporal de ejemplares más extendida. Hemos seleccionado ejemplares de todo el período, desde 1914 hasta 2014, para acumular después los datos en intervalos de diez años cuando las mediciones son cualitativas (rasgos léxicos) y de veinte años para las cuantitativas (densidad y variación). Esto quiere decir que los datos que extraigamos de la observación de 1914 irán diluidos en el agregado de datos que representan la década desde 1914 hasta 1923. Esta disolución nos asegura que los sesgos temporales, temáticos, históricos o azarosos estarán compensados por el resto de observaciones de la década, que además pertenecerán a otros años para no sesgar históricamente la observación.

Hemos seleccionado la década como unidad temporal léxica por ser un intervalo lo suficientemente amplio como para poder observar los cambios históricos, culturales y sociales que se reflejan en el lenguaje periodístico, pero suficientemente corto como para que las variaciones que midamos sean progresivas y no enmascaren picos. En cuanto a las mediciones cuantitativas (densidad y variación), la acumulación de datos en intervalos de veinte años es la que permite observar con mayor claridad la variación. Esta aproximación conlleva necesariamente que todas las décadas estén representadas y que lo estén de una manera más o menos homogénea para después poder comparar unas con otras. En un primer momento, esto nos llevó a hacer una selección constante de ejemplares por década, pero nos encontramos con una nueva disyuntiva: los periódicos de principio de siglo son significativamente más cortos y se van alargando según avanzan los años. Esto quiere decir que si lo que mantenemos constante es el número de ejemplares por década, tendremos algunas décadas representadas con más artículos y más palabras que otras. En aras de una representación homogénea en número de artículos y palabras, el número de ejemplares por década es más alto a principio de siglo y disminuye a medida que avanza el siglo y los periódicos van siendo más extensos.

Con estas cuestiones resueltas, solo queda decidir qué fechas concretas serán las seleccionadas. Esto plantea otras preguntas interesantes que aquí esbozamos y sobre las que consideramos que merecería la pena profundizar: teniendo como principal objetivo la comparabilidad entre épocas, ¿es preferible seleccionar unas fechas concretas en las que seleccionar los ejemplares para minimizar la variación estacional que pudiera existir? Es decir, si lo que queremos es ver cómo varía la riqueza a lo largo del tiempo, tendremos que intentar minimizar los cambios que puedan venir causados por otras variables, como, por ejemplo, la época del año. ¿Es posible que la riqueza léxica varíe con los meses y, por lo tanto, sea tramposo comparar la riqueza de ejemplares de febrero con los de septiembre? ¿Sería interesante seleccionar una fecha anodina sobre la que tomemos todos los ejemplares a lo largo de los cien años para ver cómo varía la riqueza, con iguales condiciones estacionales? Aunque esta vía es tentadora, una vez más, la restricción de variación en aras de la comparabilidad nos sesgaría el estudio. Pensemos que si seleccionáramos ejemplares de verano, tendríamos una sobrerrepresentación de campos léxicos muy concretos (mayor temática de ocio, probablemente menor de vida política) y, consecuentemente, de determinadas palabras. Algo parecido ocurre con la selección del día de la semana. ¿Existen diferencias léxicas relevantes según el día de la semana en que esté publicado el artículo? Aunque a primera vista esta cuestión pueda parecer baladí, tiene su intríngulis: y es que en domingo probablemente haya más artículos de corte editorial (es decir, textos de opinión), mientras que los viernes suelen publicarse reseñas y críticas de espectáculos y ocio.

Por lo tanto, tras estas reflexiones que acabamos de exponer, la selección de ejemplares se ha hecho:

considerando la década la unidad temporal mínima sobre la que vamos a trabajar, si bien los distintos ejemplares que representen a una década habrán de ser de años distintos;
primando la homogeneidad en el número de palabras, no en el número de ejemplares;
seleccionando aleatoriamente las fechas concretas para garantizar variación tanto en los meses como en los días de la semana representados.

En la sección Aracne en cifras se exponen el perfil numérico de artículos, oraciones, palabras y clasificación por categoría morfológica del corpus sobre el que se sustenta el proyecto Aracne.

Continuar leyendo: Modus operandi.

Volver a la portada del proyecto Aracne

Creación del corpus de Aracne

¡Hola!

¿Has buscado tu duda en nuestra web?

ENLACES DE INTERÉS