Definición

Aprendizaje automático aplicado al audio

También conocido como: machine learning para audio · deep learning para audio · ML audio · audio machine learning

Rama del aprendizaje automático que desarrolla modelos capaces de reconocer, clasificar, generar o transformar señales de audio musical sin programación explícita de reglas acústicas.

El aprendizaje automático aplicado al audio cubre el conjunto de técnicas que permiten a un ordenador aprender patrones en señales sonoras a partir de ejemplos, sin que nadie le programe explícitamente qué es un ataque de nota, qué es ruido o cómo suena un acorde mayor. En MIR y AMT estos modelos han desplazado en gran parte a los métodos clásicos basados en reglas acústicas.

Los tipos de modelo más habituales en este campo son las redes neuronales convolucionales (CNN), que tratan el espectrograma como una imagen y aprenden filtros espectrales; las redes recurrentes (RNN/LSTM), que modelan la dependencia temporal entre fotogramas sucesivos del audio; y, más recientemente, los Transformers, que aprenden relaciones de largo alcance en la secuencia y han establecido el estado del arte en muchas tareas de reconocimiento de voz y AMT. La elección de arquitectura depende de la tarea y del tamaño del corpus disponible.

La calidad de cualquier modelo de aprendizaje automático depende en gran medida del corpus con el que se entrena: cantidad de ejemplos, diversidad de condiciones acústicas y calidad de las anotaciones de referencia (ground truth). Este es el nudo del problema para instrumentos minoritarios: los corpus públicos más grandes del MIR —como MAPS para piano o MedleyDB para mezclas multitímbricas— no contienen gaita asturiana. Entrenar un modelo robusto para este instrumento requiere construir o ampliar un corpus propio con grabaciones anotadas manualmente, lo que supone un trabajo previo considerable antes de entrenar el primer modelo.

Esa escasez de datos anotados para la gaita asturiana no es un detalle menor: condiciona qué arquitecturas son viables —modelos grandes necesitan datos masivos; modelos pequeños con buenos features acústicos pueden funcionar con menos— y es parte central del planteamiento de la investigación en este sitio.