---
title: "Cómo construyir un corpus d'audiu pa investigación musical"
slug: construir-corpus-audio.ast
kind: guide
summary: "Un corpus d'audiu nun ye una playlist: ye una coleición estructurada, etiquetada y reproducible. Qué fai falta pa que sirva de verdá en investigación MIR y cómo empezar con ferramientes accesibles."
publishedAt: 2026-06-22
updatedAt: 2026-06-22
---
import { Image } from "astro:assets";
import infografiaCorpus from "../../assets/blog/posts/infografias/infografia-corpus-audio.jpg";

Un corpus d'audiu nun ye una playlist. Una playlist ye una secuencia d'escucha;
un corpus ye una coleición con estructura, etiquetes y unes condiciones de
grabación conocíes que permiten reproducir l'esperimentu. La diferencia importa
porque un sistema de **MIR** (Music Information Retrieval) —yá seya de
transcripción, detección de tonalidá o clasificación d'instrumentos— solo ye
tan buenu como los datos con los que lu entrenes o evalúes.

Equí esplico cómo se monta un corpus dende cero con ferramientes accesibles,
y qué decisiones estremen una coleición de ficheros d'un recursu que otra
persona pueda reutilizar.

<figure>
  <Image
    src={infografiaCorpus}
    alt="Infografía del fluxu de construcción d'un corpus d'audiu: de la partitura a la digitalización, al audiu (forma d'onda y espectrograma), a l'anotación con metadatos y al corpus estructuráu final. L'exemplu usa una grabación de dominiu públicu de Beethoven. Los rótulos de la figura tán en castellán."
    widths={[480, 768, 1200]}
    sizes="(min-width: 760px) 680px, 92vw"
    loading="lazy"
  />
  <figcaption>
    El percorríu completu d'un corpus d'audiu, de la partitura al datu
    estructuráu. L'exemplu —la Sonata n.º 14 de Beethoven nuna grabación
    histórica de dominiu públicu (Schnabel, 1932)— amuesa cómo cada grabación
    va acompañada de metadatos que la faen filtrable, comparable y reproducible.
  </figcaption>
</figure>

## Qué define un corpus (y qué lu diferencia d'una coleición)

Tres propiedaes distinguen un corpus d'una carpeta con ficheros WAV:

- **Estructura**: los ficheros tan organizaos con criteriu. Nun importa si ye
  por instrumentu, por intérprete, por contestu de grabación o por xera
  d'análisis — lo que importa ye que'l criteriu ta esplícitu y ye consistente.
- **Etiquetes**: cada ficheru va acompañáu de metadatos que describen lo que
  contién. Ensin etiquetes, el corpus nun puede servir de datu d'entrenamiento
  nin de referencia pa evaluación.
- **Reproducibilidá**: daquién que nun seis vós debería poder usar el corpus y
  llograr los mesmos resultaos. Esto implica documentar cómo se grabó, con qué
  equipu y baxo qué condiciones.

Si falta cualquiera de les tres, tienes material, no corpus.

## Equipu mínimu viable

Nun fai falta un estudiu de grabación. Fai falta control sobre'l ruíu.

Lo mínimu que funciona pa empezar:

- **Un micrófonu de condensador d'entrada media** (o, nel so defeutu, un móvil
  modernu grabando a 44.1 kHz / 16 bit WAV, ensin compresión). La calidá de la
  cápsula importa más qu'a marca del interface.
- **Una grabadora de campu** — el formatu H4n o similar — si vas a grabar fuera
  del estudiu o en contestos d'actuación en vivo. El rexistru en tarxeta SD
  evita la latencia de USB y el ruíu del ventilador d'un ordenador.
- **Silenciu controláu**: un cuartu ensin reverb artificial, ensin HVAC audible,
  ensin tráficu de fondu. El ruíu que entra na grabación nun se puede sacar del
  too en postprocesu.

La regla práutica: graba en WAV ensin comprimir dende'l principiu. El MP3
descarta información que quiciabes necesites pa análisis espectral.

## Software: de la grabación a la anotación

**Audacity** ye la puerta d'entrada llóxica. Ye llibre, multiplataforma y
permite grabar, recortar, normalizar y esportar nos formatos que necesita cualquier
pipeline de MIR. Pa un corpus inicial, ye suficiente.

Cuando l'análisis se vuelve más esixente, **Sonic Visualiser** entra en escena.
Nun graba, pero permite visualizar espectrogrames, añader capes d'anotación
temporal (onset, pitch, segmentación) y esportalas en formatos estándar como
CSV o `.svl`. Ye la ferramienta que uso pa la anotación temporal fina.

Pa corpus más grandes, con anotaciones collaboratives o control de versiones
del dataset, ferramientes como **Label Studio** o **Praat** (esti últimu
orientáu a fonética pero útil pa análisis de pitch) cubren necesidaes que
Audacity nun algama.

## Metadatos: qué rexistrar pa que'l corpus seya útil

Los metadatos son la metá del trabayu. Ensin ellos, les grabaciones nun se
pueden filtrar, reproducir nin comparar. Como mínimu:

| Campu | Descripción |
|---|---|
| `instrument` | Nome canónicu del instrumentu grabáu |
| `performer` | Identificador del intérprete (puede anonimizase) |
| `context` | Estudiu / campu / actuación en vivo |
| `date` | Fecha de grabación (ISO 8601) |
| `recorder` | Dispositivu y micrófonu usaos |
| `sample_rate` | Frecuencia de muestreo en Hz |
| `bit_depth` | Profundidá de bit (16 / 24) |
| `duration_s` | Duración en segundos |
| `annotation` | Ruta al ficheru d'anotación si esiste |

Más campos añádense según la xera: si el corpus ye pa detección de melodía,
necesites la transcripción de referencia; si ye pa identificación d'instrumentu,
el instrumentu yá ye la etiqueta.

## Organización de ficheros

Una estructura plana nun escala. Una estructura que funciona:

```
corpus/
  metadata.csv          # tabla maestra (una fila por grabación)
  recordings/
    <id>_<context>.wav  # ficheros d'audiu con ID consistente
  annotations/
    <id>.csv            # anotaciones temporales por ficheru
  README.md             # protocolu de grabación y criterios
```

El `README.md` del corpus ye tan importante como los datos: ha esplicar
quién grabó, cuándo, con qué equipu y baxo qué protocolu. Ensin ese documentu,
el corpus nun ye reproducible.

## Empezar pequeñu

L'error más común al montar un corpus ye buscar exhaustividá dende'l principiu. Nun
fai falta. Un conxuntu inicial pequeñu pero bien anotáu —con criterios claros de qué
se graba, cómo y por qué— val más que miles de ficheros ensin etiquetar. La pregunta
que guía'l diseñu nun ye «cuántu audiu puedo axuntar», sinón «qué quiero poder
evaluar con estos datos».

Esi ye'l cruce ente'l cacharreo del llaboratoriu y el rigor de la investigación:
construyir el datu que nun esiste pa poder facese la pregunta que nun se puede
responder ensin él.

## Bibliografía

Les referencies nes que s'apoya esti artículu y per ónde siguir lleendo:

- Müller, M. (2015). [*Fundamentals of Music Processing: Audio, Analysis, Algorithms, Applications*](https://doi.org/10.1007/978-3-319-21945-5). Springer.
- Cannam, C., Landone, C. y Sandler, M. (2010). [«Sonic Visualiser: An Application for Viewing and Analysing Music Audio Files»](https://doi.org/10.1145/1873951.1874248). En *Proceedings of the ACM Multimedia International Conference*.
- Wilkinson, M. D. et al. (2016). [«The FAIR Guiding Principles for scientific data management and stewardship»](https://doi.org/10.1038/sdata.2016.18). *Scientific Data*, 3, 160018.
- Ferramientes llibres: [Audacity](https://www.audacityteam.org) · [Sonic Visualiser](https://www.sonicvisualiser.org).