Tever
FR

Guide · Labo DIY

Comment construire un corpus audio pour la recherche musicale

Un corpus audio n'est pas une playlist : c'est une collection structurée, étiquetée et reproductible. Ce qu'il faut pour qu'il soit réellement utile en recherche MIR, et comment commencer avec des outils accessibles.

Comment construire un corpus audio pour la recherche musicale

Un corpus audio n’est pas une playlist. Une playlist est une séquence d’écoute ; un corpus est une collection avec une structure, des étiquettes et des conditions d’enregistrement documentées qui permettent de reproduire une expérience. Cette différence compte, parce qu’un système de MIR (Music Information Retrieval) — qu’il s’agisse de transcription, de détection de tonalité ou de classification d’instruments — ne vaut que ce que valent les données sur lesquelles on l’entraîne ou on l’évalue.

J’explique ici comment monter un corpus de zéro avec des outils accessibles, et quelles décisions séparent un dossier de fichiers d’une ressource qu’une autre personne peut réellement réutiliser.

Infographie du pipeline d'un corpus audio : de la partition à la numérisation, à l'audio (forme d'onde et spectrogramme), à l'annotation par métadonnées, jusqu'au corpus structuré. L'exemple utilise un enregistrement de Beethoven du domaine public. Les libellés de la figure sont en espagnol.

Le parcours complet d’un corpus audio, de la partition à la donnée structurée. L’exemple —la Sonate nº 14 de Beethoven dans un enregistrement historique du domaine public (Schnabel, 1932)— montre comment chaque enregistrement est accompagné de métadonnées qui le rendent filtrable, comparable et reproductible.

Ce qui définit un corpus (et ce qui le distingue d’une collection)

Trois propriétés distinguent un corpus d’un dossier rempli de fichiers WAV :

  • Structure : les fichiers sont organisés selon un critère explicite. Que ce critère soit l’instrument, l’interprète, le contexte d’enregistrement ou la tâche d’analyse importe peu — ce qui compte, c’est qu’il soit énoncé et appliqué de façon cohérente.
  • Étiquettes : chaque fichier est accompagné de métadonnées décrivant son contenu. Sans étiquettes, un corpus ne peut servir ni de données d’entraînement ni de référence pour l’évaluation.
  • Reproductibilité : quelqu’un d’autre doit pouvoir utiliser le corpus et obtenir les mêmes résultats. Cela implique de documenter comment chaque enregistrement a été réalisé, avec quel matériel et dans quelles conditions.

Si l’une des trois manque, on a du matériel, pas un corpus.

Matériel minimal viable

Il ne faut pas un studio d’enregistrement. Il faut le contrôle du bruit.

Le minimum qui fonctionne :

  • Un microphone à condensateur d’entrée de gamme (ou, à défaut, un smartphone récent enregistrant en WAV 44,1 kHz / 16 bits, sans compression). La qualité de la capsule compte plus que la marque de l’interface.
  • Un enregistreur de terrain — du type H4n — si l’on enregistre hors studio ou en contexte de concert. L’enregistrement sur carte SD évite la latence USB et le bruit du ventilateur d’ordinateur.
  • Un espace calme et contrôlé : une pièce sans réverbération artificielle notable, sans ventilation audible, sans bruit de fond de circulation. Le bruit qui entre dans l’enregistrement ne peut pas être entièrement retiré en post-traitement.

La règle pratique : enregistrer en WAV non compressé dès le début. Le MP3 supprime des informations dont on peut avoir besoin pour l’analyse spectrale.

Logiciel : de l’enregistrement à l’annotation

Audacity est le point de départ naturel. Il est libre, multiplateforme, et permet d’enregistrer, découper, normaliser et exporter dans les formats qu’exige tout pipeline MIR. Pour un corpus initial, c’est suffisant.

Quand l’analyse devient plus exigeante, Sonic Visualiser entre en jeu. Il n’enregistre pas, mais il permet d’afficher des spectrogrammes, d’ajouter des couches d’annotation temporelle (onset, hauteur, segmentation) et de les exporter dans des formats standards comme CSV ou .svl. C’est l’outil que j’utilise pour l’annotation temporelle fine.

Pour des corpus plus importants, avec annotation collaborative ou versionnage du jeu de données, des outils comme Label Studio ou Praat (ce dernier orienté phonétique mais utile pour l’analyse de hauteur) couvrent des besoins qu’Audacity n’atteint pas.

Métadonnées : quoi enregistrer pour que le corpus soit utile

Les métadonnées représentent la moitié du travail. Sans elles, les enregistrements ne peuvent être filtrés, reproduits ni comparés. Au minimum :

ChampDescription
instrumentNom canonique de l’instrument enregistré
performerIdentifiant de l’interprète (peut être anonymisé)
contextStudio / terrain / concert en direct
dateDate d’enregistrement (ISO 8601)
recorderAppareil et microphone utilisés
sample_rateFréquence d’échantillonnage en Hz
bit_depthProfondeur de bit (16 / 24)
duration_sDurée en secondes
annotationChemin vers le fichier d’annotation s’il existe

D’autres champs s’ajoutent selon la tâche : un corpus pour la détection de mélodie a besoin d’une transcription de référence ; un corpus pour l’identification d’instrument utilise l’instrument lui-même comme étiquette.

Organisation des fichiers

Une structure plate ne passe pas à l’échelle. Une structure qui fonctionne :

corpus/
  metadata.csv          # table maîtresse (une ligne par enregistrement)
  recordings/
    <id>_<context>.wav  # fichiers audio avec un schéma d'ID cohérent
  annotations/
    <id>.csv            # annotations temporelles par fichier
  README.md             # protocole d'enregistrement et critères

Le README.md du corpus est aussi important que les données elles-mêmes : il doit expliquer qui a enregistré, quand, avec quel matériel et selon quel protocole. Sans ce document, le corpus n’est pas reproductible.

Commencer petit

L’erreur la plus courante en montant un corpus est de viser l’exhaustivité dès le départ. Ce n’est pas nécessaire. Un ensemble initial réduit mais bien annoté — avec des critères clairs sur ce qui est enregistré, comment et pourquoi — vaut mieux que des milliers de fichiers non étiquetés. La question qui doit guider la conception n’est pas « combien d’audio puis-je rassembler » mais « que veux-je pouvoir évaluer avec ces données ».

C’est l’intersection entre le bricolage de laboratoire et la rigueur de la recherche : construire la donnée qui n’existe pas pour pouvoir poser la question à laquelle on ne peut pas répondre sans elle.

Références

Les références sur lesquelles s’appuie cet article, et par où poursuivre la lecture :

Questions fréquentes

  • ¿Cuántas grabaciones hacen falta para empezar un corpus de audio útil?

    No hay un número mágico. Un corpus funcional para un primer experimento AMT puede partir de 20-50 grabaciones si están bien etiquetadas y el protocolo de grabación es consistente. Lo que penaliza no es el tamaño sino la heterogeneidad no documentada: mezclar micrófonos, salas y condiciones de grabación sin registrarlo hace que el corpus sea difícil de reproducir. La estrategia de construcción paso a paso está en Cómo construir un corpus de audio para investigación musical.

  • ¿Qué formatos de audio son mejores para un corpus de investigación?

    Para un corpus de investigación la regla es sin pérdida siempre que sea posible.

    WAV es el estándar de facto: sin compresión, reproducible bit a bit en cualquier herramienta. Ocupa más espacio pero no introduce artefactos. FLAC ofrece compresión sin pérdida (reduce el tamaño un 40-60 % respecto a WAV) y es igualmente reproducible; es una buena opción cuando el almacenamiento importa pero no se puede sacrificar la integridad de la señal.

    MP3 y OGG son formatos con pérdida: el codificador descarta información que considera imperceptible para el oído humano. Eso puede ser aceptable para distribución de contenido, pero en un corpus AMT puede introducir artefactos —smearing espectral, pre-echo— que interfieren con los modelos. Si ya tienes grabaciones en MP3 y no hay fuente original disponible, documéntalo explícitamente en los metadatos del corpus.

    Una nota práctica: normalizar a una frecuencia de muestreo única (22050 Hz o 44100 Hz) desde el inicio simplifica mucho el preprocesado posterior. La estrategia completa de construcción está en Cómo construir un corpus de audio para investigación musical.