---
title: "Aprendizaje automático aplicado al audio"
slug: aprendizaje-automatico-audio
definition: "Rama del aprendizaje automático que desarrolla modelos capaces de reconocer, clasificar, generar o transformar señales de audio musical sin programación explícita de reglas acústicas."
synonyms: ["machine learning para audio", "deep learning para audio", "ML audio", "audio machine learning"]
publishedAt: 2026-06-21
---
El **aprendizaje automático aplicado al audio** cubre el conjunto de técnicas que permiten a un ordenador aprender patrones en señales sonoras a partir de ejemplos, sin que nadie le programe explícitamente qué es un ataque de nota, qué es ruido o cómo suena un acorde mayor. En MIR y AMT estos modelos han desplazado en gran parte a los métodos clásicos basados en reglas acústicas.

Los tipos de modelo más habituales en este campo son las **redes neuronales convolucionales** (CNN), que tratan el espectrograma como una imagen y aprenden filtros espectrales; las **redes recurrentes** (RNN/LSTM), que modelan la dependencia temporal entre fotogramas sucesivos del audio; y, más recientemente, los **Transformers**, que aprenden relaciones de largo alcance en la secuencia y han establecido el estado del arte en muchas tareas de reconocimiento de voz y AMT. La elección de arquitectura depende de la tarea y del tamaño del corpus disponible.

La calidad de cualquier modelo de aprendizaje automático depende en gran medida del **corpus** con el que se entrena: cantidad de ejemplos, diversidad de condiciones acústicas y calidad de las anotaciones de referencia (*ground truth*). Este es el nudo del problema para instrumentos minoritarios: los corpus públicos más grandes del MIR —como MAPS para piano o MedleyDB para mezclas multitímbricas— no contienen gaita asturiana. Entrenar un modelo robusto para este instrumento requiere construir o ampliar un corpus propio con grabaciones anotadas manualmente, lo que supone un trabajo previo considerable antes de entrenar el primer modelo.

Esa escasez de datos anotados para la **gaita asturiana** no es un detalle menor: condiciona qué arquitecturas son viables —modelos grandes necesitan datos masivos; modelos pequeños con buenos features acústicos pueden funcionar con menos— y es parte central del planteamiento de la investigación en este sitio.