Archivo por meses: octubre 2022

Introducción a la síntesis de voz

La forma más sencilla de generar sonidos de voz consiste en grabar cada una de las unidades fundamentales de la voz (conocidas como fonemas) y concatenarlas para dar lugar a una palabra. Se diseña una enorme base de datos con el audio de una misma voz (por ejemplo la de un actor de doblaje) y se categoriza cada uno de los posibles sonidos existentes en un idioma. Sin embargo, aunque esta metodología puede llegar a funcionar muy bien, está restringida a los sonidos exclusivamente presentes en nuestra base de datos. Además, la generación se ve limitada a esta voz concreta y a una potencial constante falta de naturalidad (por ejemplo, en la prosodia de una palabra).

Los modelos que recrean un tracto vocal articulado son capaces de simular el comportamiento del sistema vocal humano, que a su vez son capaces de generar voz, además de cualquier otro sonido humano (bostezo, tos, silbido). En general, podemos considerar el tracto vocal como un resonador acústico en el que ciertas características físicas alteran constantemente sus parámetros, y que combinados con una generación de sonido proviniente de la glotis producen una señal percibida como voz.

Es decir, un modelo físico del tracto vocal será capaz de adaptarse y acomodarse dinámicamente a cambios. Ello permite una conexión entre diferentes fonemas de forma suave que potencialmente pueden representar correctamente una palabra. Por ejemplo, en la palabra “poste”, el modelo deberá ser capaz de producir una explosión en los labios para el sonido “p”, unirla con una generación de la glotis y posición de la lengua para articular la vocal “o”, que a su vez conectará con el sonido gutural de la “s”. De manera equivalente se representaría el resto de la palabra “te”. Si el modelo físico es representativo de la realidad, podrá generar palabras que prácticamente serán indistinguibles de sonidos reales.

About Mateo Cámara Largo

Soy estudiante de doctorado y Ayudante de profesor en el Grupo de Aplicaciones del Procesado de Señal en la Universidad Politécnica de Madrid. Mi área de estudio está relacionada con el sonido, su transformación, su generación, su síntesis y su auralización. Utilizo las técnicas más avanzadas basadas en aprendizaje profundo como base de mi investigación.