Autor: Álvaro Nieto Illescas
Tutor: Nicolás Sáenz Lechón
Directores externos: Elena Burdiel, Andreas Niedermeier, Bernd Edler (Fraunhofer IIS)
Fecha de lectura: 19 de septiembre de 2022
Los modelos psicoacústicos se utilizan ampliamente en los codificadores de audio por transformación. Aprovechan las propiedades del sistema auditivo humano y, por tanto, pueden utilizarse para controlar las decisiones del codificador con el fin de maximizar la calidad perceptiva y minimizar la demanda de bits.
Motivado por el trabajo presentado en [1], el objetivo de esta tesis fue implementar y evaluar un modelo psicoacústico. El procesado se realiza en el dominio espectral utilizando la MDCT y su transformada inversa. Se implementó un banco de filtros gamma para modelar las propiedades de descomposición en frecuencia de la cóclea. La descomposición de frecuencias se realizó en base a la escala ERB. El cuantificador está basado en AAC [17] y opera en un bucle controlado por umbral. El bucle evalúa la relación de potencias entre el ruido de cuantificación y el enmascarador, controlada por un valor umbral. También se calcula la entropía perceptual de cada frame de la señal [19].
El modelo se evaluó con el método estándar PEAQ [6] utilizando seis archivos con diferentes características de señal (habla, música, transitorios) de la base de datos CD SQAM de la EBU [26]. Los valores de ODG proporcionados por PEAQ se calcularon para tres valores diferentes de la relación de umbral de distorsión-máscara.