Tever
FR

Essai · Informatique musicale

Qu'est-ce que la transcription musicale automatique

Transformer un enregistrement en partition semble trivial jusqu'à ce qu'on essaie. Ce qu'est la transcription musicale automatique (AMT), pourquoi elle reste un problème ouvert et où elle se situe sur le chemin de l'audio au symbole.

Infographie sur fond bleu foncé avec trois panneaux reliés par des flèches orange : à gauche, une forme d'onde audio en gris ; au centre, un spectrogramme violet et orange avec des bandes harmoniques horizontales ; à droite, un piano roll avec un clavier vertical et des notes en blocs sur une grille. Elle montre le flux de la transcription : audio → fréquence → symbole.

Quand j’explique à quoi se consacre une partie de mes recherches, j’emploie souvent une phrase qui paraît simple : « j’essaie qu’un ordinateur écoute un enregistrement et écrive la partition ». La réponse est presque toujours la même — « et ce n’est pas déjà résolu ? ». Ça ne l’est pas. Cette tâche a un nom, transcription musicale automatique, et elle reste depuis des décennies l’un des problèmes ouverts les plus tenaces de l’informatique musicale.

Qu’est-ce que la transcription musicale automatique

La transcription musicale automatique — AMT, selon le sigle anglais — est la tâche consistant à convertir un enregistrement audio en une représentation symbolique : quelles notes sonnent, quand elles commencent, combien de temps elles durent et à quelle hauteur. Le résultat peut être une partition, un fichier MIDI ou un piano roll, cette grille de notes que l’on voit dans n’importe quel éditeur musical.

Autrement dit : AMT est le chemin inverse de celui d’un synthétiseur. Un synthétiseur part d’instructions et produit du son ; la transcription part du son et tente de retrouver les instructions qui l’ont engendré. Et c’est là que se cache le piège, car ce chemin de retour n’est ni unique ni propre.

Le problème : de l’air à la partition

Un enregistrement est un signal continu : une seule onde qui mêle tout ce qui sonnait à cet instant. La partition, en revanche, est discrète et structurée : des notes séparées, avec leur hauteur et leur rythme. AMT doit franchir cet abîme, et le fait généralement sur deux plans.

Le premier est celui du signal. Avant de parler de notes, il faut regarder les fréquences qui composent le son, et pour cela l’instrument de base est la transformée de Fourier : elle décompose l’onde en ses fréquences et permet de tracer un spectrogramme, une carte de l’énergie présente à chaque fréquence au fil du temps.

Le second est le plan symbolique : à partir de cette carte, décider où commence une note, quelle hauteur elle a et quand elle se termine. C’est le saut de « il y a de l’énergie autour de 440 Hz » à « c’est un la qui dure une noire ». Ce saut est le cœur — et la difficulté — de la transcription.

Pourquoi c’est plus difficile qu’il n’y paraît

Si une seule note sonne à la fois, le problème est presque abordable. La complexité explose avec la polyphonie : quand plusieurs notes sonnent simultanément, leurs fréquences se chevauchent dans le spectre. Une note grave et une note aiguë peuvent partager des harmoniques, de sorte que le système ne sait pas s’il voit deux notes ou une seule avec sa série harmonique. Séparer ce mélange est un problème mal posé : de nombreuses combinaisons de notes produisent presque le même spectre.

À cela s’ajoute tout ce qu’un musicien fait sans y penser et qu’une machine ne sait pas lire :

DéfiPourquoi il complique la transcription
PolyphonieFréquences qui se chevauchent ; harmoniques partagées entre notes
TimbreUn même la sonne différemment sur une cornemuse, un piano ou une voix
AccordageToute la musique n’utilise pas le tempérament égal à 12 notes
OrnementationOrnements, glissements et vibratos qui ne sont pas des « notes » nettes
Rythme flexibleLe tempo humain fluctue ; il n’entre pas dans une grille parfaite

C’est pourquoi AMT n’est pas considérée comme résolue. Les systèmes actuels transcrivent raisonnablement bien le piano — très étudié et doté de corpus énormes — et se compliquent avec les instruments moins représentés et avec la musique qui n’entre pas dans le moule occidental.

Où se situe AMT

La transcription n’est pas une île. C’est l’une des tâches du Music Information Retrieval (MIR), le domaine qui étudie comment extraire l’information musicale de l’audio. Et elle dépend entièrement de quelque chose de peu glamour mais décisif : les données. Un système moderne de transcription apprend à partir d’exemples — des paires d’audio et de leur transcription correcte —, si bien que sans un corpus bien étiqueté il n’y a rien à apprendre. C’est précisément la raison pour laquelle je consacre tant d’efforts à construire des corpus audio : la qualité de la donnée fixe le plafond de ce que le modèle peut atteindre.

Pourquoi cela compte pour moi

Il y a une raison personnelle derrière tout cela. En 2005 Guitar Hero est sorti et m’a fasciné. Même si ce n’était qu’un jeu, cette guitare en plastique fonctionnant comme interface vers le système a allumé une idée que je poursuis depuis : la connexion entre instrument et système. Je trouve que c’est un défi énorme de trouver le chemin qui relie les instruments de musique à des ordinateurs capables d’exploiter toute l’information émise lorsqu’on joue.

Ce croisement entre instrument et système est, pour moi, là où l’informatique musicale et la racine musicale se rencontrent vraiment. Non pour remplacer le musicien — une transcription ne capture jamais tout à fait ce qui se passe dans une interprétation —, mais pour disposer d’un outil de plus avec lequel étudier, archiver et comprendre un répertoire qui mérite d’être documenté.

Références

Les références sur lesquelles s’appuie cet article, et par où poursuivre la lecture :

Questions fréquentes