Lee mis labios
El desarrollo del reconocimiento digital de la voz podría depender más de la visión que de la audición.
Por: Redacción Gestion.pe
“Si se comprueba que no funciona adecuadamente, no tendríamos más remedio que desconectarlo”. En la película de Stanley Kubrick “2001: Odisea del espacio” (1968), el astronauta Frank Poole, interpretado por Gary Lockwood, pondera qué debe hacerse con HAL, la computadora homicida a cargo de la nave.
Pero HAL se entera que sus amos humanos planean desenchufarlo porque puede leer sus labios, a través del vidrio de una ventana. Esta es una idea que los investigadores y las compañías digitales están cerca de convertir en realidad, aunque su objetivo no tiene que ver con robots que pilotan naves espaciales sino con mejorar el desempeño de dispositivos controlados por la voz tales como las aplicaciones Siri (de Apple) y Cortana (de Microsoft).
No obstante, aunque el software para el reconocimiento de la voz continúe mejorando, siempre dependerá de su entorno sonoro. Por ejemplo, pídale a su asistente digital que marque un número en una oficina silenciosa y escuchará los números correctos, haga lo mismo cerca de una calle atestada de tráfico o en una fiesta y probablemente quedará decepcionado. Qué bueno sería si los teléfonos pudiesen leer los labios.
Ahmad Hassanat, investigador de inteligencia artificial de la Universidad Mu’tah en Jordania, ha estado intentando enseñarle a una computadora a hacer precisamente eso. Los ensayos previos se han enfocado, comprensiblemente, en la forma y movimiento de los labios cuando construyen fonemas (sonidos individuales como “b”, “ng” o “th”).
Esas formaciones de sonido se llaman “visemas” y el problema es que solamente existe una docena para los 40 a 50 fonemas del idioma inglés. Por ejemplo, “pan” y “ban” se ven notoriamente similares para un lector de labios, lo cual hace que sea agotador reconocer palabras a partir de los visemas.
Es por ello que, a lo largo de los últimos años, Hassanat ha probado con la detección de marcas visuales de palabras completas, utilizando no solo el movimiento de los labios sino también el de la lengua y la posición de los dientes.
Este método ha logrado ciertos avances. En un artículo de investigación publicado el año pasado, Hassanat describe cómo capacitó a su sistema computarizado mediante la filmación de diez mujeres y 16 hombres de diferentes etnicidades leyendo pasajes de un texto. Primero, la computadora comparó dichas filmaciones con un texto que conocía y luego trató de deducir lo que estas personas decían en un segundo video.
Cuando la computadora utilizó el texto leído por cada persona para detectar lo que cada una decía en su respectivo segundo video, fue bastante precisa —detectó alrededor del 75%, en promedio, de las palabras pronunciadas por las 26 personas y hasta el 97% en el caso de una de ellas—.
Pero cuando el video inicial fue excluido del análisis, como si se tratase de asistentes digitales sin entrenamiento previo, la precisión del programa cayó a 33% en promedio y hasta 15% en algunos casos (al parecer, los bigotes y las barbas son especialmente confusos para el sistema).
Otra idea para desarrollar la lectura digital de labios es no enfocarse en la boca. El 2013, el ingeniero Yasuhiro Oikawa de la Universidad Waseda en Japón, usó una cámara de alta velocidad con capacidad para capturar 10,000 fotogramas por segundo. Se filmó la garganta de una persona mientras hablaba y se pudo medir las pequeñas y fugaces vibraciones en la piel ocasionadas por el acto de hablar.
En principio, las frecuencias precisas presentes en las vibraciones pueden ser utilizadas para reconstruir la palabra que está siendo pronunciada. Por ahora, sin embargo, el equipo de Oikawa solo ha logrado mapear las vibraciones visuales de una palabra (en japonés).
Los mejores resultados son obtenidos cuando un sistema hace más que observar pasivamente. La startup israelí VocalZoom tiene la idea de dirigir un rayo láser de baja potencia a las mejillas para medir las vibraciones, y utilizarlas para inferir las frecuencias del habla.
El sistema combina esos resultados con el audio de una voz emitido por un micrófono, sustrayendo el ruido ambiental o el generado por otras personas, dejando solamente las frecuencias que produce el movimiento de las mejillas.
En enero, la firma presentó su tecnología a la feria tecnológica CES en Las Vegas e impresionó a la prensa especializada. Pero este sistema todavía no está listo para el mercado masivo y, además, el prototipo aún es más grande que los smartphones en los que se pretende incluirlo.
No será fácil tentar a los fabricantes de estos aparatos para que añadan nuevos componentes cuando están en carrera para producir teléfonos cada vez más delgados y livianos.
VocalZoom podría tener más suerte si destina su tecnología a los autos, otro rubro cuya dependencia en el control de la voz está en aumento. La firma dice que está en conversaciones preliminares con una gran compañía automotriz. Quizá algún día podrá incorporar sus equipos de lectura de la voz a vehículos que surquen el espacio.
Traducido para Gestión por Antonio Yonz Martínez
© The Economist Newspaper Ltd,
London, 2015