La investigación, liderada por científicos de la Universidad de California (EE. UU.), mejora las prestaciones de otros dispositivos comunicativos que recurren al llamado interfaz cerebro-computador (BCI, sus siglas en inglés).
De hecho, el trabajo de los expertos Gopala K. Anumanchipalli, Josh Chartier y Edward F. Chang es un avance hacia el desarrollo de un BCI que, en el futuro, podría restaurar la función del habla en personas con algún tipo de desorden neurológico, como una apoplejia o la esclerosis lateral amiotrófica (ELA), o cuyo tracto vocal está dañado por un cáncer.
«Queremos crear tecnologías que reproduzcan el habla directamente a partir de la actividad cerebral humana. Este estudio ofrece una prueba de concepto de que sí es posible», explica Chang en un charla con los medios de comunicación, en la que el neurocirujano precisa que aún quedan muchos retos por superar para lograr su «viabilidad clínica» en pacientes reales.
En los casos de sujetos con, por ejemplo, parálisis, un BCI puede «leer» sus intenciones directamente del cerebro y usar esa información para controlar dispositivos externos o para mover las extremidades paralizadas, recuerdan los autores.
De una manera similar, el desarrollo de los BCI para la comunicación se ha centrado, sobre todo, en dispositivos que registran movimientos no verbales, como los de los ojos o la cabeza, para controlar un cursor que selecciona letras y las convierte en palabras, a un ritmo de hasta ocho o diez por minuto.
Estos avances han mejorado enormemente la calidad de vida de muchas personas, pero aún están lejos de emular una comunicación más fluida y natural, cuyo ritmo oscila entre las 120 y 150 palabras por minuto.
Para superar esta traba, los tres investigadores han creado un dispositivo que sintetiza la voz de una persona a partir de la descodificación de las señales cerebrales que controlan los movimientos de la laringe, los labios, la lengua y la mandíbula.
«Hemos combinado los métodos más modernos de la neurociencia, del aprendizaje profundo y la lingüística para sintetizar un discurso que suene natural a partir de la actividad cerebral de participantes que no tenían impedimentos de habla», expone Chang.
En primer lugar, detallan, registraron la activad cortical de los cinco sujetos que tomaron parte en este estudio mientras enunciaban centenares de frases sencillas en voz alta.
A partir de estas grabaciones, los autores diseñaron un sistema que identifica y descodifica las señales cerebrales responsables de los movimientos individuales del tracto vocal, ya sea en los labios, la laringe, la lengua o la mandíbula.
Después pudieron sintetizar un discurso con los movimientos descodificados y reproducir 101 frases, que fueron escuchadas y transcritas con éxito por sujetos en pruebas siguientes.
«Demostramos que, al usar la actividad cerebral para controlar una versión computarizada que simula el tracto vocal de los participantes, se puede generar un habla sintético más exacto y natural que al intentar extraer directamente sonidos de habla del cerebro. Esos eran nuestros objetivos», destaca Chang.
Esto es así, prosigue, porque los patrones de la actividad cerebral «en los centros del habla» están específicamente diseñados para «coordinar los movimientos de los tractos vocales», mientras que solo están «indirectamente ligados a los mismos sonidos del habla».
«Estamos trabajando con las partes del cerebro que controlan los movimientos y por eso estamos intentando descodificar movimientos para crear sonidos, en vez de descodificar sonidos directamente», reitera Chang.
Al ser preguntados por la adaptación de este novedoso descodificador a otros idiomas, Chartier celebra que puede ser general para cualquier lengua, dado que «todos los seres humanos tenemos el mismo tracto vocal».
«Entre un idioma y otro, los movimientos podrían ser diferentes para crear ciertos sonidos. Para adaptarlo a otra lengua necesitaríamos datos de esas lenguas y de los movimientos que crean los sonidos”, concluye.
En otros experimentos, los expertos también pidieron a los participantes que enunciaran primero frases en voz alta y que las repitiesen después solo con gestos de mímica, imitando los mismos movimientos articulados, pero sin sonido.
Aunque la reproducción sintetizada de la parte mímica era inferior a la del discurso audible, los autores constataron que también es posible descodificar características del habla que nunca se enuncian de manera audible.