#EscribirEnInternet

Procesamiento del lenguaje natural

En las últimas semanas se está hablando mucho de Knowledge Graph, un nuevo proyecto de Google. Como probablemente ya habremos visto en sus vídeos de presentación, parece que su objetivo es organizar la información de personas, lugares, instituciones u otras entidades de manera más estructurada, similar a como los biólogos ordenan en ontologías a los seres vivos y sus características.
Por fin el buscador de buscadores trata de ir más allá de las palabras clave y las cadenas de caracteres y aborda el significado de las cosas. Mientras esperamos a poder trastear con el nuevo juguete, haremos bien en recordar que el significado ha sido el centro de interés (y también de problemas) de muchos enfoques y disciplinas.

Uno de estos enfoques es la web semántica o internet 3.0, la tierra que la informática nos prometió hace más de una década y que sigue siendo eso, una promesa. Para ello se crearon lenguajes informáticos con estructuras más humanas y se subrayó la importancia de la metainformación y la etiquetación semántica. Es decir, como las máquinas no saben interpretar los textos, las personas tenían que ponérselo fácil y dejar marcados con etiquetas los conceptos importantes.

Sin embargo este enfoque dejó sin cubrir aspectos clave del significado: las relaciones complejas entre palabras (¿cómo delimitamos exactamente amigo, noviete, pareja, novio, amante…?), la sinonimia (listo e inteligente significan lo mismo: ¿pongo las dos como etiquetas?), la perífrasis (listo significa ‘no ser tonto’, ¿pongo los dos como etiquetas?), la sinonimia parcial (botón e interruptor pueden ser sinónimos, pero mi camisa no tiene interruptores) o la polisemia (¿cuántas cosas significa la palabra caña? ¿Tiene sentido que la use como etiqueta?).

No solo eso, sino que además olvidaron la importancia que tienen otros aspectos de la lengua que también influyen en el significado: fui es una palabra, también es una forma del verbo ir así como del verbo ser; todas esas relaciones son tratadas por la morfología. Las oraciones «mi hijo no estudia en la Universidad» y «mi hijo sí estudia en la Universidad» contienen la misma cantidad de palabras y coinciden casi todas, sin embargo significan lo contrario; la negación debe ser analizada también por la sintaxis…

Frente a las ontologías de origen filosófico y utilizadas por la biología, o frente a la solución rápida de la web semántica, desde hace años se desarrolla el procesamiento del lenguaje natural, o, como lo llamamos los que trabajamos en él, PLN. Este enfoque de investigación, intersección entre la lingüística, la informática, la estadística y la inteligencia artificial, ha tratado de buscar soluciones a cada parte de la lengua. Para cada una de ellas desarrolla diferentes tipos de herramientas: transcriptores, que convierten las cadenas de texto en representaciones del sonido; conjugadores, que consiguen flexionar los verbos a todas sus formas; lematizadores, que tratan de agrupar las diferentes formas de una palabra en un solo lema; parsers, que analizan la sintaxis de las oraciones; o diccionarios, que estructuran las palabras y relacionan sus significados.

Y todo esto, ¿para qué? De eso hablaremos en nuestro siguiente artículo.

Valora esta recomendación

1 Star2 Stars3 Stars4 Stars5 Stars

¡Hola!

¿Has buscado tu duda en nuestra web?

Si no la encuentras, rellena este formulario:

Los campos con * son obligatorios