Essai · Informatique musicale
Qu'est-ce que la transcription musicale automatique
Transformer un enregistrement en partition semble trivial jusqu'à ce qu'on essaie. Ce qu'est la transcription musicale automatique (AMT), pourquoi elle reste un problème ouvert et où elle se situe sur le chemin de l'audio au symbole.
Quand j’explique à quoi se consacre une partie de mes recherches, j’emploie souvent une phrase qui paraît simple : « j’essaie qu’un ordinateur écoute un enregistrement et écrive la partition ». La réponse est presque toujours la même — « et ce n’est pas déjà résolu ? ». Ça ne l’est pas. Cette tâche a un nom, transcription musicale automatique, et elle reste depuis des décennies l’un des problèmes ouverts les plus tenaces de l’informatique musicale.
Qu’est-ce que la transcription musicale automatique
La transcription musicale automatique — AMT, selon le sigle anglais — est la tâche consistant à convertir un enregistrement audio en une représentation symbolique : quelles notes sonnent, quand elles commencent, combien de temps elles durent et à quelle hauteur. Le résultat peut être une partition, un fichier MIDI ou un piano roll, cette grille de notes que l’on voit dans n’importe quel éditeur musical.
Autrement dit : AMT est le chemin inverse de celui d’un synthétiseur. Un synthétiseur part d’instructions et produit du son ; la transcription part du son et tente de retrouver les instructions qui l’ont engendré. Et c’est là que se cache le piège, car ce chemin de retour n’est ni unique ni propre.
Le problème : de l’air à la partition
Un enregistrement est un signal continu : une seule onde qui mêle tout ce qui sonnait à cet instant. La partition, en revanche, est discrète et structurée : des notes séparées, avec leur hauteur et leur rythme. AMT doit franchir cet abîme, et le fait généralement sur deux plans.
Le premier est celui du signal. Avant de parler de notes, il faut regarder les fréquences qui composent le son, et pour cela l’instrument de base est la transformée de Fourier : elle décompose l’onde en ses fréquences et permet de tracer un spectrogramme, une carte de l’énergie présente à chaque fréquence au fil du temps.
Le second est le plan symbolique : à partir de cette carte, décider où commence une note, quelle hauteur elle a et quand elle se termine. C’est le saut de « il y a de l’énergie autour de 440 Hz » à « c’est un la qui dure une noire ». Ce saut est le cœur — et la difficulté — de la transcription.
Pourquoi c’est plus difficile qu’il n’y paraît
Si une seule note sonne à la fois, le problème est presque abordable. La complexité explose avec la polyphonie : quand plusieurs notes sonnent simultanément, leurs fréquences se chevauchent dans le spectre. Une note grave et une note aiguë peuvent partager des harmoniques, de sorte que le système ne sait pas s’il voit deux notes ou une seule avec sa série harmonique. Séparer ce mélange est un problème mal posé : de nombreuses combinaisons de notes produisent presque le même spectre.
À cela s’ajoute tout ce qu’un musicien fait sans y penser et qu’une machine ne sait pas lire :
| Défi | Pourquoi il complique la transcription |
|---|---|
| Polyphonie | Fréquences qui se chevauchent ; harmoniques partagées entre notes |
| Timbre | Un même la sonne différemment sur une cornemuse, un piano ou une voix |
| Accordage | Toute la musique n’utilise pas le tempérament égal à 12 notes |
| Ornementation | Ornements, glissements et vibratos qui ne sont pas des « notes » nettes |
| Rythme flexible | Le tempo humain fluctue ; il n’entre pas dans une grille parfaite |
C’est pourquoi AMT n’est pas considérée comme résolue. Les systèmes actuels transcrivent raisonnablement bien le piano — très étudié et doté de corpus énormes — et se compliquent avec les instruments moins représentés et avec la musique qui n’entre pas dans le moule occidental.
Où se situe AMT
La transcription n’est pas une île. C’est l’une des tâches du Music Information Retrieval (MIR), le domaine qui étudie comment extraire l’information musicale de l’audio. Et elle dépend entièrement de quelque chose de peu glamour mais décisif : les données. Un système moderne de transcription apprend à partir d’exemples — des paires d’audio et de leur transcription correcte —, si bien que sans un corpus bien étiqueté il n’y a rien à apprendre. C’est précisément la raison pour laquelle je consacre tant d’efforts à construire des corpus audio : la qualité de la donnée fixe le plafond de ce que le modèle peut atteindre.
Pourquoi cela compte pour moi
Il y a une raison personnelle derrière tout cela. En 2005 Guitar Hero est sorti et m’a fasciné. Même si ce n’était qu’un jeu, cette guitare en plastique fonctionnant comme interface vers le système a allumé une idée que je poursuis depuis : la connexion entre instrument et système. Je trouve que c’est un défi énorme de trouver le chemin qui relie les instruments de musique à des ordinateurs capables d’exploiter toute l’information émise lorsqu’on joue.
Ce croisement entre instrument et système est, pour moi, là où l’informatique musicale et la racine musicale se rencontrent vraiment. Non pour remplacer le musicien — une transcription ne capture jamais tout à fait ce qui se passe dans une interprétation —, mais pour disposer d’un outil de plus avec lequel étudier, archiver et comprendre un répertoire qui mérite d’être documenté.
Références
Les références sur lesquelles s’appuie cet article, et par où poursuivre la lecture :
- Benetos, E., Dixon, S., Duan, Z., & Ewert, S. (2019). Automatic Music Transcription: An Overview. IEEE Signal Processing Magazine, 36(1), 20–30.
- Benetos, E., Dixon, S., Giannoulis, D., Kirchhoff, H., & Klapuri, A. (2013). Automatic music transcription: challenges and future directions. Journal of Intelligent Information Systems, 41(3), 407–434.
- Müller, M. (2015). Fundamentals of Music Processing: Audio, Analysis, Algorithms, Applications. Springer.
- Klapuri, A., & Davy, M. (Eds.). (2006). Signal Processing Methods for Music Transcription. Springer.
Questions fréquentes
-
¿En qué formato entrega los resultados un sistema de AMT?
Un sistema de AMT no devuelve audio, sino una representación simbólica de lo que ha “escuchado”. El formato depende del uso: MIDI si se quiere reproducir o secuenciar, MusicXML si se busca una partitura editable e imprimible, o un piano roll para visualizar y corregir. Lo habitual es que el resultado pase siempre por una revisión humana, porque ninguna transcripción automática es perfecta. Más contexto en ¿Qué es la transcripción automática de música?.
-
¿Por qué la polifonía complica la transcripción automática?
Si solo suena una nota cada vez, el problema es abordable. Con varias notas simultáneas —polifonía— sus frecuencias y armónicos se solapan en el espectro: una nota grave y otra aguda pueden compartir parciales, así que el sistema no sabe si ve dos notas o una sola con su serie armónica. Como muchas combinaciones distintas producen casi el mismo espectro, separar la mezcla está mal definido. Es una de las razones por las que la AMT sigue sin estar resuelta, sobre todo en instrumentos con bordón como la gaita. Lo desarrollo en ¿Qué es la transcripción automática de música?.