¿Cuántas grabaciones hacen falta para empezar un corpus de audio útil?

No hay un número mágico. Un corpus funcional para un primer experimento AMT puede partir de 20-50 grabaciones si están bien etiquetadas y el protocolo de grabación es consistente. Lo que penaliza no es el tamaño sino la heterogeneidad no documentada: mezclar micrófonos, salas y condiciones de grabación sin registrarlo hace que el corpus sea difícil de reproducir. La estrategia de construcción paso a paso está en Cómo construir un corpus de audio para investigación musical.

Cómo construyir un corpus d'audiu pa investigación musical

Un corpus d’audiu nun ye una playlist. Una playlist ye una secuencia d’escucha; un corpus ye una coleición con estructura, etiquetes y unes condiciones de grabación conocíes que permiten reproducir l’esperimentu. La diferencia importa porque un sistema de MIR (Music Information Retrieval) —yá seya de transcripción, detección de tonalidá o clasificación d’instrumentos— solo ye tan buenu como los datos con los que lu entrenes o evalúes.

Equí esplico cómo se monta un corpus dende cero con ferramientes accesibles, y qué decisiones estremen una coleición de ficheros d’un recursu que otra persona pueda reutilizar.

Infografía del fluxu de construcción d'un corpus d'audiu: de la partitura a la digitalización, al audiu (forma d'onda y espectrograma), a l'anotación con metadatos y al corpus estructuráu final. L'exemplu usa una grabación de dominiu públicu de Beethoven. Los rótulos de la figura tán en castellán. — El percorríu completu d’un corpus d’audiu, de la partitura al datu estructuráu. L’exemplu —la Sonata n.º 14 de Beethoven nuna grabación histórica de dominiu públicu (Schnabel, 1932)— amuesa cómo cada grabación va acompañada de metadatos que la faen filtrable, comparable y reproducible.

Qué define un corpus (y qué lu diferencia d’una coleición)

Tres propiedaes distinguen un corpus d’una carpeta con ficheros WAV:

Estructura: los ficheros tan organizaos con criteriu. Nun importa si ye por instrumentu, por intérprete, por contestu de grabación o por xera d’análisis — lo que importa ye que’l criteriu ta esplícitu y ye consistente.
Etiquetes: cada ficheru va acompañáu de metadatos que describen lo que contién. Ensin etiquetes, el corpus nun puede servir de datu d’entrenamiento nin de referencia pa evaluación.
Reproducibilidá: daquién que nun seis vós debería poder usar el corpus y llograr los mesmos resultaos. Esto implica documentar cómo se grabó, con qué equipu y baxo qué condiciones.

Si falta cualquiera de les tres, tienes material, no corpus.

Equipu mínimu viable

Nun fai falta un estudiu de grabación. Fai falta control sobre’l ruíu.

Lo mínimu que funciona pa empezar:

Un micrófonu de condensador d’entrada media (o, nel so defeutu, un móvil modernu grabando a 44.1 kHz / 16 bit WAV, ensin compresión). La calidá de la cápsula importa más qu’a marca del interface.
Una grabadora de campu — el formatu H4n o similar — si vas a grabar fuera del estudiu o en contestos d’actuación en vivo. El rexistru en tarxeta SD evita la latencia de USB y el ruíu del ventilador d’un ordenador.
Silenciu controláu: un cuartu ensin reverb artificial, ensin HVAC audible, ensin tráficu de fondu. El ruíu que entra na grabación nun se puede sacar del too en postprocesu.

La regla práutica: graba en WAV ensin comprimir dende’l principiu. El MP3 descarta información que quiciabes necesites pa análisis espectral.

Software: de la grabación a la anotación

Audacity ye la puerta d’entrada llóxica. Ye llibre, multiplataforma y permite grabar, recortar, normalizar y esportar nos formatos que necesita cualquier pipeline de MIR. Pa un corpus inicial, ye suficiente.

Cuando l’análisis se vuelve más esixente, Sonic Visualiser entra en escena. Nun graba, pero permite visualizar espectrogrames, añader capes d’anotación temporal (onset, pitch, segmentación) y esportalas en formatos estándar como CSV o .svl. Ye la ferramienta que uso pa la anotación temporal fina.

Pa corpus más grandes, con anotaciones collaboratives o control de versiones del dataset, ferramientes como Label Studio o Praat (esti últimu orientáu a fonética pero útil pa análisis de pitch) cubren necesidaes que Audacity nun algama.

Metadatos: qué rexistrar pa que’l corpus seya útil

Los metadatos son la metá del trabayu. Ensin ellos, les grabaciones nun se pueden filtrar, reproducir nin comparar. Como mínimu:

Campu	Descripción
`instrument`	Nome canónicu del instrumentu grabáu
`performer`	Identificador del intérprete (puede anonimizase)
`context`	Estudiu / campu / actuación en vivo
`date`	Fecha de grabación (ISO 8601)
`recorder`	Dispositivu y micrófonu usaos
`sample_rate`	Frecuencia de muestreo en Hz
`bit_depth`	Profundidá de bit (16 / 24)
`duration_s`	Duración en segundos
`annotation`	Ruta al ficheru d’anotación si esiste

Más campos añádense según la xera: si el corpus ye pa detección de melodía, necesites la transcripción de referencia; si ye pa identificación d’instrumentu, el instrumentu yá ye la etiqueta.

Organización de ficheros

Una estructura plana nun escala. Una estructura que funciona:

corpus/
  metadata.csv          # tabla maestra (una fila por grabación)
  recordings/
    <id>_<context>.wav  # ficheros d'audiu con ID consistente
  annotations/
    <id>.csv            # anotaciones temporales por ficheru
  README.md             # protocolu de grabación y criterios

El README.md del corpus ye tan importante como los datos: ha esplicar quién grabó, cuándo, con qué equipu y baxo qué protocolu. Ensin ese documentu, el corpus nun ye reproducible.

Empezar pequeñu

L’error más común al montar un corpus ye buscar exhaustividá dende’l principiu. Nun fai falta. Un conxuntu inicial pequeñu pero bien anotáu —con criterios claros de qué se graba, cómo y por qué— val más que miles de ficheros ensin etiquetar. La pregunta que guía’l diseñu nun ye «cuántu audiu puedo axuntar», sinón «qué quiero poder evaluar con estos datos».

Esi ye’l cruce ente’l cacharreo del llaboratoriu y el rigor de la investigación: construyir el datu que nun esiste pa poder facese la pregunta que nun se puede responder ensin él.

Bibliografía

Les referencies nes que s’apoya esti artículu y per ónde siguir lleendo:

Müller, M. (2015). Fundamentals of Music Processing: Audio, Analysis, Algorithms, Applications. Springer.
Cannam, C., Landone, C. y Sandler, M. (2010). «Sonic Visualiser: An Application for Viewing and Analysing Music Audio Files». En Proceedings of the ACM Multimedia International Conference.
Wilkinson, M. D. et al. (2016). «The FAIR Guiding Principles for scientific data management and stewardship». Scientific Data, 3, 160018.
Ferramientes llibres: Audacity · Sonic Visualiser.

Para un corpus de investigación la regla es sin pérdida siempre que sea posible.

WAV es el estándar de facto: sin compresión, reproducible bit a bit en cualquier herramienta. Ocupa más espacio pero no introduce artefactos. FLAC ofrece compresión sin pérdida (reduce el tamaño un 40-60 % respecto a WAV) y es igualmente reproducible; es una buena opción cuando el almacenamiento importa pero no se puede sacrificar la integridad de la señal.

MP3 y OGG son formatos con pérdida: el codificador descarta información que considera imperceptible para el oído humano. Eso puede ser aceptable para distribución de contenido, pero en un corpus AMT puede introducir artefactos —smearing espectral, pre-echo— que interfieren con los modelos. Si ya tienes grabaciones en MP3 y no hay fuente original disponible, documéntalo explícitamente en los metadatos del corpus.

Una nota práctica: normalizar a una frecuencia de muestreo única (22050 Hz o 44100 Hz) desde el inicio simplifica mucho el preprocesado posterior. La estrategia completa de construcción está en Cómo construir un corpus de audio para investigación musical.