Guía · Llaboratoriu DIY
Cómo construyir un corpus d'audiu pa investigación musical
Un corpus d'audiu nun ye una playlist: ye una coleición estructurada, etiquetada y reproducible. Qué fai falta pa que sirva de verdá en investigación MIR y cómo empezar con ferramientes accesibles.
Un corpus d’audiu nun ye una playlist. Una playlist ye una secuencia d’escucha; un corpus ye una coleición con estructura, etiquetes y unes condiciones de grabación conocíes que permiten reproducir l’esperimentu. La diferencia importa porque un sistema de MIR (Music Information Retrieval) —yá seya de transcripción, detección de tonalidá o clasificación d’instrumentos— solo ye tan buenu como los datos con los que lu entrenes o evalúes.
Equí esplico cómo se monta un corpus dende cero con ferramientes accesibles, y qué decisiones estremen una coleición de ficheros d’un recursu que otra persona pueda reutilizar.

El percorríu completu d’un corpus d’audiu, de la partitura al datu estructuráu. L’exemplu —la Sonata n.º 14 de Beethoven nuna grabación histórica de dominiu públicu (Schnabel, 1932)— amuesa cómo cada grabación va acompañada de metadatos que la faen filtrable, comparable y reproducible.
Qué define un corpus (y qué lu diferencia d’una coleición)
Tres propiedaes distinguen un corpus d’una carpeta con ficheros WAV:
- Estructura: los ficheros tan organizaos con criteriu. Nun importa si ye por instrumentu, por intérprete, por contestu de grabación o por xera d’análisis — lo que importa ye que’l criteriu ta esplícitu y ye consistente.
- Etiquetes: cada ficheru va acompañáu de metadatos que describen lo que contién. Ensin etiquetes, el corpus nun puede servir de datu d’entrenamiento nin de referencia pa evaluación.
- Reproducibilidá: daquién que nun seis vós debería poder usar el corpus y llograr los mesmos resultaos. Esto implica documentar cómo se grabó, con qué equipu y baxo qué condiciones.
Si falta cualquiera de les tres, tienes material, no corpus.
Equipu mínimu viable
Nun fai falta un estudiu de grabación. Fai falta control sobre’l ruíu.
Lo mínimu que funciona pa empezar:
- Un micrófonu de condensador d’entrada media (o, nel so defeutu, un móvil modernu grabando a 44.1 kHz / 16 bit WAV, ensin compresión). La calidá de la cápsula importa más qu’a marca del interface.
- Una grabadora de campu — el formatu H4n o similar — si vas a grabar fuera del estudiu o en contestos d’actuación en vivo. El rexistru en tarxeta SD evita la latencia de USB y el ruíu del ventilador d’un ordenador.
- Silenciu controláu: un cuartu ensin reverb artificial, ensin HVAC audible, ensin tráficu de fondu. El ruíu que entra na grabación nun se puede sacar del too en postprocesu.
La regla práutica: graba en WAV ensin comprimir dende’l principiu. El MP3 descarta información que quiciabes necesites pa análisis espectral.
Software: de la grabación a la anotación
Audacity ye la puerta d’entrada llóxica. Ye llibre, multiplataforma y permite grabar, recortar, normalizar y esportar nos formatos que necesita cualquier pipeline de MIR. Pa un corpus inicial, ye suficiente.
Cuando l’análisis se vuelve más esixente, Sonic Visualiser entra en escena.
Nun graba, pero permite visualizar espectrogrames, añader capes d’anotación
temporal (onset, pitch, segmentación) y esportalas en formatos estándar como
CSV o .svl. Ye la ferramienta que uso pa la anotación temporal fina.
Pa corpus más grandes, con anotaciones collaboratives o control de versiones del dataset, ferramientes como Label Studio o Praat (esti últimu orientáu a fonética pero útil pa análisis de pitch) cubren necesidaes que Audacity nun algama.
Metadatos: qué rexistrar pa que’l corpus seya útil
Los metadatos son la metá del trabayu. Ensin ellos, les grabaciones nun se pueden filtrar, reproducir nin comparar. Como mínimu:
| Campu | Descripción |
|---|---|
instrument | Nome canónicu del instrumentu grabáu |
performer | Identificador del intérprete (puede anonimizase) |
context | Estudiu / campu / actuación en vivo |
date | Fecha de grabación (ISO 8601) |
recorder | Dispositivu y micrófonu usaos |
sample_rate | Frecuencia de muestreo en Hz |
bit_depth | Profundidá de bit (16 / 24) |
duration_s | Duración en segundos |
annotation | Ruta al ficheru d’anotación si esiste |
Más campos añádense según la xera: si el corpus ye pa detección de melodía, necesites la transcripción de referencia; si ye pa identificación d’instrumentu, el instrumentu yá ye la etiqueta.
Organización de ficheros
Una estructura plana nun escala. Una estructura que funciona:
corpus/
metadata.csv # tabla maestra (una fila por grabación)
recordings/
<id>_<context>.wav # ficheros d'audiu con ID consistente
annotations/
<id>.csv # anotaciones temporales por ficheru
README.md # protocolu de grabación y criterios
El README.md del corpus ye tan importante como los datos: ha esplicar
quién grabó, cuándo, con qué equipu y baxo qué protocolu. Ensin ese documentu,
el corpus nun ye reproducible.
Empezar pequeñu
L’error más común al montar un corpus ye buscar exhaustividá dende’l principiu. Nun fai falta. Un conxuntu inicial pequeñu pero bien anotáu —con criterios claros de qué se graba, cómo y por qué— val más que miles de ficheros ensin etiquetar. La pregunta que guía’l diseñu nun ye «cuántu audiu puedo axuntar», sinón «qué quiero poder evaluar con estos datos».
Esi ye’l cruce ente’l cacharreo del llaboratoriu y el rigor de la investigación: construyir el datu que nun esiste pa poder facese la pregunta que nun se puede responder ensin él.
Bibliografía
Les referencies nes que s’apoya esti artículu y per ónde siguir lleendo:
- Müller, M. (2015). Fundamentals of Music Processing: Audio, Analysis, Algorithms, Applications. Springer.
- Cannam, C., Landone, C. y Sandler, M. (2010). «Sonic Visualiser: An Application for Viewing and Analysing Music Audio Files». En Proceedings of the ACM Multimedia International Conference.
- Wilkinson, M. D. et al. (2016). «The FAIR Guiding Principles for scientific data management and stewardship». Scientific Data, 3, 160018.
- Ferramientes llibres: Audacity · Sonic Visualiser.