Cómo construyir un corpus d'audiu pa investigación musical

Un corpus d’audiu nun ye una playlist. Una playlist ye una secuencia d’escucha; un corpus ye una coleición con estructura, etiquetes y unes condiciones de grabación conocíes que permiten reproducir l’esperimentu. La diferencia importa porque un sistema de MIR (Music Information Retrieval) —yá seya de transcripción, detección de tonalidá o clasificación d’instrumentos— solo ye tan buenu como los datos con los que lu entrenes o evalúes.

Equí esplico cómo se monta un corpus dende cero con ferramientes accesibles, y qué decisiones estremen una coleición de ficheros d’un recursu que otra persona pueda reutilizar.

Infografía del fluxu de construcción d'un corpus d'audiu: de la partitura a la digitalización, al audiu (forma d'onda y espectrograma), a l'anotación con metadatos y al corpus estructuráu final. L'exemplu usa una grabación de dominiu públicu de Beethoven. Los rótulos de la figura tán en castellán. — El percorríu completu d’un corpus d’audiu, de la partitura al datu estructuráu. L’exemplu —la Sonata n.º 14 de Beethoven nuna grabación histórica de dominiu públicu (Schnabel, 1932)— amuesa cómo cada grabación va acompañada de metadatos que la faen filtrable, comparable y reproducible.

Qué define un corpus (y qué lu diferencia d’una coleición)

Tres propiedaes distinguen un corpus d’una carpeta con ficheros WAV:

Estructura: los ficheros tan organizaos con criteriu. Nun importa si ye por instrumentu, por intérprete, por contestu de grabación o por xera d’análisis — lo que importa ye que’l criteriu ta esplícitu y ye consistente.
Etiquetes: cada ficheru va acompañáu de metadatos que describen lo que contién. Ensin etiquetes, el corpus nun puede servir de datu d’entrenamiento nin de referencia pa evaluación.
Reproducibilidá: daquién que nun seis vós debería poder usar el corpus y llograr los mesmos resultaos. Esto implica documentar cómo se grabó, con qué equipu y baxo qué condiciones.

Si falta cualquiera de les tres, tienes material, no corpus.

Equipu mínimu viable

Nun fai falta un estudiu de grabación. Fai falta control sobre’l ruíu.

Lo mínimu que funciona pa empezar:

Un micrófonu de condensador d’entrada media (o, nel so defeutu, un móvil modernu grabando a 44.1 kHz / 16 bit WAV, ensin compresión). La calidá de la cápsula importa más qu’a marca del interface.
Una grabadora de campu — el formatu H4n o similar — si vas a grabar fuera del estudiu o en contestos d’actuación en vivo. El rexistru en tarxeta SD evita la latencia de USB y el ruíu del ventilador d’un ordenador.
Silenciu controláu: un cuartu ensin reverb artificial, ensin HVAC audible, ensin tráficu de fondu. El ruíu que entra na grabación nun se puede sacar del too en postprocesu.

La regla práutica: graba en WAV ensin comprimir dende’l principiu. El MP3 descarta información que quiciabes necesites pa análisis espectral.

Software: de la grabación a la anotación

Audacity ye la puerta d’entrada llóxica. Ye llibre, multiplataforma y permite grabar, recortar, normalizar y esportar nos formatos que necesita cualquier pipeline de MIR. Pa un corpus inicial, ye suficiente.

Cuando l’análisis se vuelve más esixente, Sonic Visualiser entra en escena. Nun graba, pero permite visualizar espectrogrames, añader capes d’anotación temporal (onset, pitch, segmentación) y esportalas en formatos estándar como CSV o .svl. Ye la ferramienta que uso pa la anotación temporal fina.

Pa corpus más grandes, con anotaciones collaboratives o control de versiones del dataset, ferramientes como Label Studio o Praat (esti últimu orientáu a fonética pero útil pa análisis de pitch) cubren necesidaes que Audacity nun algama.

Metadatos: qué rexistrar pa que’l corpus seya útil

Los metadatos son la metá del trabayu. Ensin ellos, les grabaciones nun se pueden filtrar, reproducir nin comparar. Como mínimu:

Campu	Descripción
`instrument`	Nome canónicu del instrumentu grabáu
`performer`	Identificador del intérprete (puede anonimizase)
`context`	Estudiu / campu / actuación en vivo
`date`	Fecha de grabación (ISO 8601)
`recorder`	Dispositivu y micrófonu usaos
`sample_rate`	Frecuencia de muestreo en Hz
`bit_depth`	Profundidá de bit (16 / 24)
`duration_s`	Duración en segundos
`annotation`	Ruta al ficheru d’anotación si esiste

Más campos añádense según la xera: si el corpus ye pa detección de melodía, necesites la transcripción de referencia; si ye pa identificación d’instrumentu, el instrumentu yá ye la etiqueta.

Organización de ficheros

Una estructura plana nun escala. Una estructura que funciona:

corpus/
  metadata.csv          # tabla maestra (una fila por grabación)
  recordings/
    <id>_<context>.wav  # ficheros d'audiu con ID consistente
  annotations/
    <id>.csv            # anotaciones temporales por ficheru
  README.md             # protocolu de grabación y criterios

El README.md del corpus ye tan importante como los datos: ha esplicar quién grabó, cuándo, con qué equipu y baxo qué protocolu. Ensin ese documentu, el corpus nun ye reproducible.

Empezar pequeñu

L’error más común al montar un corpus ye buscar exhaustividá dende’l principiu. Nun fai falta. Un conxuntu inicial pequeñu pero bien anotáu —con criterios claros de qué se graba, cómo y por qué— val más que miles de ficheros ensin etiquetar. La pregunta que guía’l diseñu nun ye «cuántu audiu puedo axuntar», sinón «qué quiero poder evaluar con estos datos».

Esi ye’l cruce ente’l cacharreo del llaboratoriu y el rigor de la investigación: construyir el datu que nun esiste pa poder facese la pregunta que nun se puede responder ensin él.

Bibliografía

Les referencies nes que s’apoya esti artículu y per ónde siguir lleendo:

Müller, M. (2015). Fundamentals of Music Processing: Audio, Analysis, Algorithms, Applications. Springer.
Cannam, C., Landone, C. y Sandler, M. (2010). «Sonic Visualiser: An Application for Viewing and Analysing Music Audio Files». En Proceedings of the ACM Multimedia International Conference.
Wilkinson, M. D. et al. (2016). «The FAIR Guiding Principles for scientific data management and stewardship». Scientific Data, 3, 160018.
Ferramientes llibres: Audacity · Sonic Visualiser.