Bitácora de Arturo: Síntesis de voz

martes, junio 15, 2004

Síntesis de voz

Tengo un reloj despertador que a las 6:30am hace sonar la alarma con el sonido de un gallo y, paralelamente, una monótona voz femenina dice: "Son las 6 y 30 minutos"... con el correr de los meses las pequeñas baterías de Litio LR-44 se van descargando y los sonidos comienzan a tornarse odiosos... el hecho de tener el reloj lejos de mi alcance no deja más opción que levantarme rápido... Lo que siempre me pregunté es por qué los fabricantes no grabaron una voz femenina con un timbre mas sensual y cálido... una voz ronquita como la de Anabelí Rodrigo, la ex-radio 99 ó dulce y juguetona como la de Cameron Diaz... es que ese registro no es más que la simple reproducción de una lectura...analógica. Es el mismo sistema que se emplean en los sistemas de audio-respuesta de las centrales telefónicas.

Un poco más avanzado es el sistema de voz que utiliza Stephen Hawking, el célebre científico autor de "Breve Historia del Tiempo" que generó mucha polémica por sus implicancias (ya lei el libro y honestamente debo re-leerlo) y que sufre de una penosa enfermedad degenerativa del sistema nervioso llamada Esclerosis Lateral Amiotrófica que lo ha condenado a vivir postrado en una silla de ruedas casi cuadrapléjico y que sin embargo, su enorme fuerza de voluntad lo ha llevado a desarrollar métodos que le permiten seguir en contacto con la realidad... su procesador de voz resultar muy práctica en la medida de ser una aplicación específica pero dista mucho de ser una solución comercial por su marcado acento robótico.

Hace 4 años los laboratorios de AT&T, introdujeron al mercado una tecnología de síntesis de voz llamada Voces Naturales tan avanzada que, cuando son "speechs" cortos, resulta muy dificil distinguir si es humana o no. Las "voces" pertenecen a varios cyber-personajes creados para distintos idiomas, así tenemos a Rosa, Myke, Crystal, Reiner, Klara, Alain, Charles y Audrey (este nombre me encanta porque me recuerda una hermosa canción del grupo Bread) a los que podemos escuchar leyendo el texto que introduzcamos aquí.

Aunque esto ya no es novedad pues ya hay varias aplicaciones en el mercado,,--tengo un chat que me "lee" todo lo que me escriben-- lo importante es que la base de esta tecnología no está en imitar o reproducir la voz humana partiendo de la nada sino que, grabando secuencias de voz se diseñaron programas para descomponer las frases en fonemas para que re-ensamblándolas posteriormente se pudiese decir cualquier palabra que se quisiera... esto honró ese famoso dicho que dice "no hay por qué reinventar la pólvora" .. así, un pequeño destello de simplicidad re-enfocó la síntesis de la mecánica acústica en un asunto de matemáticas combinatorias.

Gracias a eso desde hace un tiempo atrás tenemos a Mike leyendo las direcciones que se le pidan en MapQuest, la lectura del correo electrónico de AOL y Yahoo, la lectura de los pronósticos del Servicio Nacional del Clima de USA ó a Crystal suministrando su voz para la nave espacial de la película "El planeta Rojo".... aplicaciones hay muchas.. por ejemplo, pienso grabar la voz de Rosa para reproducirla y llamar a alguien que tiene la mala costumbre de no constestar el teléfono sino oir sólo los mensajes de su contestadora, para que ella le diga que me siento muy indispuesto y que no podré acudir a una reunión... etc..

El problema que aún queda es como evitar esa tonalidad plana de los textos. Esto es algo que felizmente aún no se ha resuelto y espero que jamás lo logren La Síntesis de Las Emociones ... mmm.. aunque conozco gente que no le vendría nada mal una reprogramación de su sensibilidad.