Definición
Corpus musical
También conocido como: dataset musical · corpus de audio · audio dataset · music dataset
Colección curada de grabaciones o partituras, con metadatos y anotaciones de referencia, usada para entrenar y evaluar modelos de MIR y AMT.
Un corpus musical es una colección de material sonoro o simbólico organizada y documentada para la investigación. No basta con reunir grabaciones: lo que hace valioso a un corpus es la calidad de sus anotaciones —las etiquetas de referencia que indican qué notas suenan, cuándo, con qué instrumento, a qué tempo—. Esas anotaciones son el ground truth contra el que se evalúan los modelos: sin ellas no es posible medir si un sistema de AMT funciona bien o mal.
Los corpus más utilizados en MIR se construyeron sobre instrumentos de amplia difusión en la música occidental: piano (MAPS, MAESTRO), guitarra (GuitarSet), voz (MIR-1K) o mezclas multitímbricas (MedleyDB, RWC). Esta elección no es neutral: los modelos entrenados sobre esos corpus generalizan mal a instrumentos con características acústicas distintas —afinación no temperada, timbre inusual, comportamiento polifónico diferente.
La gaita asturiana está prácticamente ausente de los corpus públicos existentes. Es un instrumento minoritario fuera del noroeste peninsular, con una afinación que no corresponde al temperamento igual estándar y con la particularidad de que el bordón (roncón) suena siempre simultáneamente al punteiro. Estas características hacen que ningún corpus de piano o guitarra sirva directamente para entrenar un modelo de AMT adaptado a este instrumento.
La construcción o ampliación de un corpus de gaita asturiana con anotaciones de calidad es por tanto un objetivo de investigación en sí mismo, previo al entrenamiento de cualquier modelo. Ese corpus es también un recurso para la comunidad: un instrumento bien representado en datos abiertos es un instrumento más visible para la investigación en informática musical y para la preservación de la música tradicional asturiana.