Tever
ES

Definición

Polifonía (audio y AMT)

También conocido como: polyphony · señal polifónica · mezcla polifónica

Simultaneidad de múltiples fuentes sonoras o notas musicales en una señal de audio; principal dificultad técnica de la transcripción automática de música.

En teoría musical, polifonía designa la escritura de varias voces independientes que suenan a la vez. En el contexto del análisis computacional de audio, el término adquiere un significado técnico más preciso: una señal es polifónica cuando contiene varios sonidos simultáneos cuyos armónicos se superponen en la misma onda. El problema que esto plantea es el de la separación de fuentes: recuperar cada voz o instrumento a partir de la mezcla.

Para la transcripción automática de música (AMT), la polifonía es el obstáculo central. En una señal monofónica —una voz sola, un instrumento que toca una nota cada vez— la detección de altura es relativamente tratable. En una señal polifónica, los armónicos de una nota Do pueden coincidir en frecuencia con la fundamental de otra nota Sol, y el modelo debe decidir qué energía espectral pertenece a cada fuente. La dificultad crece con el número de voces simultáneas.

La gaita asturiana es un instrumento nativamente polifónico: el punteiro —el tubo melódico— y el roncón —el bordón de bajo— suenan siempre a la vez mientras el gaitero sopla. No hay versión monofónica de la gaita en condiciones reales de interpretación. Esto hace que cualquier corpus de grabaciones de gaita asturiana sea intrínsecamente polifónico desde la primera nota, lo que añade dificultad al trabajo de AMT sobre este instrumento respecto a corpus construidos sobre instrumentos de una sola voz.

Abordar la polifonía requiere técnicas de separación de fuentes —modelos de mezcla, redes neuronales de separación ciega— o diseñar el sistema de AMT para que tolere y modele directamente la presencia simultánea de varias alturas en el espectrograma.