En la tipografía manual la división quedaba en manos de los cajistas, que pacientemente aplicaban una serie de reglas asentadas en las imprentas y que continúan vigentes en gran medida. Hoy, sin embargo, esta tarea se delega en los programas, que necesitan algún algoritmo para decidir cuáles son los puntos adecuados para dividir una palabra al final de una línea.
Este artículo trata sobre uno de esos sistemas, aunque antes conviene explicar la reglas básicas para el guionizado.
Las reglas
La división de palabras en español en relativamente simple, pues gracias a su estructura morfológica y ortográfica se puede sistematizar con facilidad. Tanto es así que en lo más básico (y excluyendo algunos casos especiales, como los relacionados con la hache) se reduce a una única regla:
• Solo se puede dividir justo antes de un grupo de consonante (+ r o l líquida si la hubiera) + vocal.
Se puede comprobar en cons-trui-ría-mos: los dos últimos guiones van ante rí y mo, respectivamente, y el primero va ante tru, que tiene una líquida intercalada.
En la práctica editorial, sin duda por razones de legibilidad, ha sido habitual tratar de modo especial los llamados prefijos productivos (es decir, los que sirven para crear palabras con facilidad, como des– o anti-) y ciertas palabras compuestas (como ciudadrealeño). La ortografía académica valida esta opción, que se sigue aplicando de modo casi universal. La idea básica expuesta queda, por tanto, supeditada a la siguiente:
• Con prefijos productivos, se divide entre el prefijo y la base.
Así, podemos tener sub-lunar, pos-operatorio y pre-europeo en lugar de su-blunar, po-soperatorio y preeu-ropeo.
Naturalmente, la división no resulta tan mecánica como podría deducirse de lo expuesto, que es una simplificación un tanto extrema. Por ejemplo, ¿cómo se divide desalar, que puede ser ‘quitar las alas’ (des-alar) o ‘quitar la sal’ (de-salar)? Sería tentador considerar que el comienzo subl– lleva siempre guion entre la b y la l, pero sublime nos muestra que no siempre es así. Estos casos son los que más claramente requerían antaño la pericia de los correctores para identificar esos puntos alternativos y en los que las reglas han de ser pensadas con más detenimiento para su traslado a un sistema automático.
La división automática
La llegada de la fotocomposición al mundo de la edición no solo permitió que este tipo de divisiones fuera automático, sino que en cierto modo incluso lo impuso. Los primeros sistemas aparecidos se basaban bien en un diccionario, por lo que se limitaba a cierto número de palabras, bien en algoritmos no muy elaborados que fallaban con frecuencia.
No fue hasta la llegada en los años 80 del sistema de composición TeX cuando se introdujo, gracias a una idea ingeniosa de Franklin M. Liang, un algoritmo tan simple como efectivo que sigue siendo, décadas después, el preferido en muchos programas.
Este mecanismo se basa en un número relativamente reducido de patrones que se van aplicando, con ciertas prioridades, a grupos de letras concretas. Por ejemplo, ‘a2a’ indica que no se puede dividir entre esas dos vocales, mientras que ‘m3br’ indica que es posible hacerlo tras la primera letra. Al hablar de un número reducido hay que entenderlo de modo relativo, pues pueden ser necesarios varios miles de patrones, pero con ellos se puede dividir una cantidad indeterminada de términos (cientos de miles e incluso millones).
Los patrones
Aunque el principio en que se basa este método sea simple, el desarrollo del conjunto de reglas no siempre es fácil en lenguas basadas en una escritura morfológica, como en inglés. Por ello, cuando se desarrolló el algoritmo se creó también un programa denominado patgen, que permitía crear patrones a partir de una lista de palabras ya divididas.
Este enfoque, sin embargo, resulta inadecuado en español por un doble motivo: 1) su ortografía se basa en criterios distintos, ya resumidos arriba; 2) no existe en español, al contrario que en otras lenguas, una lista de esas características (las que hay han sido creadas, precisamente, usando algún algoritmo automático).
Por ello, se ha optado por otra vía: partir de medio millar de patrones según las reglas básicas y complementarlo con reglas específicas para un buen número de prefijos productivos, lo que expande la lista a 4600 patrones. A continuación, se ha pulido mediante una revisión manual de los resultados, a la antigua usanza, con la ayuda de una lista de unas 700 000 palabras que tiene como principales fuentes el programa ispell, el diccionario académico, el de Moliner, la Fundéu y herramientas personales para el rastreo en Internet de términos.
No es el propósito de estos patrones el purismo, por lo que la lista de palabras incluye cierto número de extranjerismos de uso común e incluso algún que otro error frecuente, como paraolímpico. También se ha tenido cuidado en incluir nuevos elementos como narco-, euro-, ciber– o cripto-.
Con este procedimiento, el número de posibles divisiones impropias no llega al 0,1 % y, si tenemos en cuenta la frecuencia de uso de las palabras y el hecho de que solo se divide una proporción muy reducida de ellas, es probable que los errores en un texto no lleguen al 0,001 %, lo cual es una cifra bastante razonable.
Estos patrones están publicados en GitHub con licencia MIT, muy poco restrictiva, y están vinculados al proyecto tex-hyphen, la colección de patrones para sistemas basados en este algoritmo (TeX, Mozilla, Kindle, FOP, etc.).