Amplitud en la señal de audio digital

Una señal sonora digital está formada por una secuencia de números. Cada uno de estos números es conocido como muestra y matemáticamente se define como x[n] donde n es el índice de la muestra (por ejemplo, para n=100, estaríamos tomando el valor de la señal sonora en su muestra número 100). El valor n es discreto, por lo que toma valores enteros dentro de un rango (que puede estar definido, o ser infinito).

Por otro lado, el valor de la señal x[n] puede tomar cualquier número real. Una de las señales más importantes del procesamiento de audio digital es la señal sinusoidal:

x[n] = a cos(n + Φ)

Donde a es la Amplitud de la señal, es la Frecuencia Angular y es la Fase Inicial (valor de la fase de la señal en el instante n=0). Cada uno de estos parámetros define la forma que tendrá nuestra señal. La señal sinusoidal es clave en el procesamiento digital de audio. Precisamente porque un movimiento hacia la izquierda o a la derecha de la señal produce una nueva señal sinusoidal. Es decir, aunque cambiemos el momento en el que observamos la señal por primera vez, esta seguirá siendo una señal sinusoidal. Esta propiedad hace que sea sencillo calcular el efecto de toda clase de operaciones (suma, resta, multiplicación…). Además, el sistema auditivo humano posee está misma propiedad en la manera en la que percibe los sonidos, por lo que resultará más fácil generar efectos musicales sonoros armoniosos (que no suenen mal). En la siguiente figura se observa el dibujo de una señal sinusoidal:

La amplitud en la señal sonora digital

Una de las propiedades fundamentales de la señal de audio digital es la amplitud. Desafortunadamente, no existe una definición canónica de lo que es la amplitud. Intuitivamente, podemos pensar en esta propiedad como lo alta o baja que es una señal (cuando lo comparamos con otra señal de audio). Es decir, cuanta mayor amplitud más energía tiene la señal y cuanta menor, menos. Escuchar dos señales iguales con diferente amplitud implicaría que se detectaría una de las secuencias como si tuviera más volumen que la otra. 

Matemáticamente, se utilizan dos medidas para conocer la amplitud: la amplitud pico y la amplitud RMS. Estas no tienen por qué referirse a toda la señal sonora, sino a un pequeño intervalo de muestras (M muestras de un total de N muestras de toda la señal). Esto se conoce como enventanado de la señal.

La amplitud pico consiste en tomar la muestra con el valor más alto dentro de la ventana que estemos considerando:

Apeak{x[n]} = max |x[n]|     n=M, …, M+N-1

La amplitud RMS consiste en tomar la raíz cuadrada de la potencia media de la señal, definida como:

ARMS{x[n]} = raiz(P{x[n]})

P{x[n]} = (1 / N) * (|x[M]|2+ … +|x[M + N -1]|2)

Es importante notar que ni la amplitud pico ni la amplitud RMS pueden ser negativas. Además, solo pueden ser cero si toda la señal es cero (silencio absoluto). Por otro lado, la amplitud RMS puede llegar a ser igual que la amplitud pico, pero nunca excederla. También puede llegar a ser 1/sqrt(N) veces más pequeña que la amplitud pico, pero nunca menor. Es decir, la amplitud RMS tiene unas cotas superiores e inferiores con respecto de la amplitud pico.

Pregunta: ¿Cuál es la amplitud pico y la amplitud RMS de la siguiente señal?

Respuesta:

Tomando como ventana M = N = 30

Apeak = 2,5

P = (1 / 30) * (15 * |2,5|2+15 * |1|2) = 3,625  

ARMS = 1,903

Bonus: es bastante habitual que la amplitud RMS dividida por la raíz de dos de un valor similar a la amplitud pico. Comprobamos:

ARMS / raiz(2) = 2,563 

About Mateo Cámara Largo

Soy estudiante de doctorado y Ayudante de profesor en el Grupo de Aplicaciones del Procesado de Señal en la Universidad Politécnica de Madrid. Mi área de estudio está relacionada con el sonido, su transformación, su generación, su síntesis y su auralización. Utilizo las técnicas más avanzadas basadas en aprendizaje profundo como base de mi investigación.