Introducción a la síntesis de voz

La forma más sencilla de generar sonidos de voz consiste en grabar cada una de las unidades fundamentales de la voz (conocidas como fonemas) y concatenarlas para dar lugar a una palabra. Se diseña una enorme base de datos con el audio de una misma voz (por ejemplo la de un actor de doblaje) y se categoriza cada uno de los posibles sonidos existentes en un idioma. Sin embargo, aunque esta metodología puede llegar a funcionar muy bien, está restringida a los sonidos exclusivamente presentes en nuestra base de datos. Además, la generación se ve limitada a esta voz concreta y a una potencial constante falta de naturalidad (por ejemplo, en la prosodia de una palabra).

Los modelos que recrean un tracto vocal articulado son capaces de simular el comportamiento del sistema vocal humano, que a su vez son capaces de generar voz, además de cualquier otro sonido humano (bostezo, tos, silbido). En general, podemos considerar el tracto vocal como un resonador acústico en el que ciertas características físicas alteran constantemente sus parámetros, y que combinados con una generación de sonido proviniente de la glotis producen una señal percibida como voz.

Es decir, un modelo físico del tracto vocal será capaz de adaptarse y acomodarse dinámicamente a cambios. Ello permite una conexión entre diferentes fonemas de forma suave que potencialmente pueden representar correctamente una palabra. Por ejemplo, en la palabra “poste”, el modelo deberá ser capaz de producir una explosión en los labios para el sonido “p”, unirla con una generación de la glotis y posición de la lengua para articular la vocal “o”, que a su vez conectará con el sonido gutural de la “s”. De manera equivalente se representaría el resto de la palabra “te”. Si el modelo físico es representativo de la realidad, podrá generar palabras que prácticamente serán indistinguibles de sonidos reales.

About Mateo Cámara Largo

Soy estudiante de doctorado y Ayudante de profesor en el Grupo de Aplicaciones del Procesado de Señal en la Universidad Politécnica de Madrid. Mi área de estudio está relacionada con el sonido, su transformación, su generación, su síntesis y su auralización. Utilizo las técnicas más avanzadas basadas en aprendizaje profundo como base de mi investigación.

Amplitud en la señal de audio digital

Una señal sonora digital está formada por una secuencia de números. Cada uno de estos números es conocido como muestra y matemáticamente se define como x[n] donde n es el índice de la muestra (por ejemplo, para n=100, estaríamos tomando el valor de la señal sonora en su muestra número 100). El valor n es discreto, por lo que toma valores enteros dentro de un rango (que puede estar definido, o ser infinito).

Por otro lado, el valor de la señal x[n] puede tomar cualquier número real. Una de las señales más importantes del procesamiento de audio digital es la señal sinusoidal:

x[n] = a cos(n + Φ)

Donde a es la Amplitud de la señal, es la Frecuencia Angular y es la Fase Inicial (valor de la fase de la señal en el instante n=0). Cada uno de estos parámetros define la forma que tendrá nuestra señal. La señal sinusoidal es clave en el procesamiento digital de audio. Precisamente porque un movimiento hacia la izquierda o a la derecha de la señal produce una nueva señal sinusoidal. Es decir, aunque cambiemos el momento en el que observamos la señal por primera vez, esta seguirá siendo una señal sinusoidal. Esta propiedad hace que sea sencillo calcular el efecto de toda clase de operaciones (suma, resta, multiplicación…). Además, el sistema auditivo humano posee está misma propiedad en la manera en la que percibe los sonidos, por lo que resultará más fácil generar efectos musicales sonoros armoniosos (que no suenen mal). En la siguiente figura se observa el dibujo de una señal sinusoidal:

La amplitud en la señal sonora digital

Una de las propiedades fundamentales de la señal de audio digital es la amplitud. Desafortunadamente, no existe una definición canónica de lo que es la amplitud. Intuitivamente, podemos pensar en esta propiedad como lo alta o baja que es una señal (cuando lo comparamos con otra señal de audio). Es decir, cuanta mayor amplitud más energía tiene la señal y cuanta menor, menos. Escuchar dos señales iguales con diferente amplitud implicaría que se detectaría una de las secuencias como si tuviera más volumen que la otra. 

Matemáticamente, se utilizan dos medidas para conocer la amplitud: la amplitud pico y la amplitud RMS. Estas no tienen por qué referirse a toda la señal sonora, sino a un pequeño intervalo de muestras (M muestras de un total de N muestras de toda la señal). Esto se conoce como enventanado de la señal.

La amplitud pico consiste en tomar la muestra con el valor más alto dentro de la ventana que estemos considerando:

Apeak{x[n]} = max |x[n]|     n=M, …, M+N-1

La amplitud RMS consiste en tomar la raíz cuadrada de la potencia media de la señal, definida como:

ARMS{x[n]} = raiz(P{x[n]})

P{x[n]} = (1 / N) * (|x[M]|2+ … +|x[M + N -1]|2)

Es importante notar que ni la amplitud pico ni la amplitud RMS pueden ser negativas. Además, solo pueden ser cero si toda la señal es cero (silencio absoluto). Por otro lado, la amplitud RMS puede llegar a ser igual que la amplitud pico, pero nunca excederla. También puede llegar a ser 1/sqrt(N) veces más pequeña que la amplitud pico, pero nunca menor. Es decir, la amplitud RMS tiene unas cotas superiores e inferiores con respecto de la amplitud pico.

Pregunta: ¿Cuál es la amplitud pico y la amplitud RMS de la siguiente señal?

Respuesta:

Tomando como ventana M = N = 30

Apeak = 2,5

P = (1 / 30) * (15 * |2,5|2+15 * |1|2) = 3,625  

ARMS = 1,903

Bonus: es bastante habitual que la amplitud RMS dividida por la raíz de dos de un valor similar a la amplitud pico. Comprobamos:

ARMS / raiz(2) = 2,563 

About Mateo Cámara Largo

Soy estudiante de doctorado y Ayudante de profesor en el Grupo de Aplicaciones del Procesado de Señal en la Universidad Politécnica de Madrid. Mi área de estudio está relacionada con el sonido, su transformación, su generación, su síntesis y su auralización. Utilizo las técnicas más avanzadas basadas en aprendizaje profundo como base de mi investigación.