Ensayo · Informática Musical
Qué es la transcripción automática de música
Convertir una grabación en partitura suena trivial hasta que lo intentas. Qué es la transcripción automática de música (AMT), por qué sigue siendo un problema abierto y dónde encaja en el camino del audio al símbolo.
Cuando explico a qué dedico parte de mi investigación, suelo decir una frase que parece sencilla: “intento que un ordenador escuche una grabación y escriba la partitura”. Casi siempre la respuesta es la misma —“¿y eso no está resuelto ya?”—. No lo está. Esa tarea tiene nombre, transcripción automática de música, y lleva décadas siendo uno de los problemas abiertos más tercos de la informática musical.
Qué es la transcripción automática de música
La transcripción automática de música —AMT, por sus siglas en inglés— es la tarea de convertir una grabación de audio en una representación simbólica: qué notas suenan, cuándo empiezan, cuánto duran y a qué altura. El resultado puede ser una partitura, un archivo MIDI o un piano roll, esa rejilla de notas que se ve en cualquier editor musical.
Dicho de otro modo: AMT es el camino inverso al de un sintetizador. Un sintetizador parte de instrucciones y produce sonido; la transcripción parte del sonido y trata de recuperar las instrucciones que lo originaron. Y ahí está la trampa, porque ese camino de vuelta no es único ni limpio.
El problema: del aire a la partitura
Una grabación es una señal continua: una sola onda que mezcla todo lo que sonaba en ese instante. La partitura, en cambio, es discreta y estructurada: notas separadas, con su altura y su ritmo. AMT tiene que cruzar ese abismo, y lo hace normalmente en dos planos.
El primero es el de la señal. Antes de hablar de notas hay que mirar las frecuencias que componen el sonido, y para eso el instrumento básico es la transformada de Fourier: descompone la onda en sus frecuencias y permite dibujar un espectrograma, un mapa de qué energía hay en cada frecuencia a lo largo del tiempo.
El segundo es el plano simbólico: a partir de ese mapa, decidir dónde empieza una nota, qué altura tiene y cuándo termina. Es el salto de “hay energía en torno a 440 Hz” a “esto es un La que dura una negra”. Ese salto es el corazón —y la dificultad— de la transcripción.
Por qué es más difícil de lo que parece
Si solo suena una nota a la vez, el problema es casi abordable. La complejidad explota con la polifonía: cuando suenan varias notas simultáneas, sus frecuencias se solapan en el espectro. Una nota grave y otra aguda pueden compartir armónicos, de modo que el sistema no sabe si está viendo dos notas o una sola con su serie armónica. Separar esa mezcla es un problema mal definido: hay muchas combinaciones de notas que producen casi el mismo espectro.
A eso se suma todo lo que un músico hace sin pensar y una máquina no sabe leer:
| Reto | Por qué complica la transcripción |
|---|---|
| Polifonía | Frecuencias solapadas; armónicos compartidos entre notas |
| Timbre | Un mismo La suena distinto en una gaita, un piano o una voz |
| Afinación | No toda la música usa el temperamento igual de 12 notas |
| Ornamentación | Adornos, deslizamientos y vibratos que no son “notas” limpias |
| Ritmo flexible | El tempo humano fluctúa; no encaja en una rejilla perfecta |
Por eso AMT no se considera resuelto. Los sistemas actuales transcriben razonablemente bien el piano —muy estudiado y con corpus enormes— y se complican con instrumentos menos representados y con la música que no encaja en el molde occidental.
Dónde encaja AMT
La transcripción no es una isla. Es una de las tareas del Music Information Retrieval (MIR), el campo que estudia cómo extraer información musical del audio. Y depende por completo de algo poco glamuroso pero decisivo: los datos. Un sistema moderno de transcripción aprende de ejemplos —pares de audio y su transcripción correcta—, así que sin un corpus bien etiquetado no hay nada que aprender. Ese es justo el motivo de que dedique tanto esfuerzo a construir corpus de audio: la calidad del dato pone el techo de lo que el modelo puede llegar a hacer.
Por qué me importa
Hay una razón personal detrás de todo esto. En 2005 salió al mercado Guitar Hero y me dejó fascinado. Aunque era solo un juego, aquella guitarra de plástico funcionando como interfaz hacia el sistema encendió una idea que llevo persiguiendo desde entonces: la conexión entre instrumento y sistema. Me parece un reto enorme encontrar el camino que una los instrumentos musicales con ordenadores capaces de aprovechar toda la información que se emite al tocar.
Ese cruce entre instrumento y sistema es, para mí, donde la informática musical y la raíz musical se encuentran de verdad. No para sustituir al músico —una transcripción nunca captura del todo lo que pasa en una interpretación—, sino para tener una herramienta más con la que estudiar, archivar y entender un repertorio que merece quedar documentado.
Bibliografía
Las referencias en las que se apoya este artículo y por dónde seguir leyendo:
- Benetos, E., Dixon, S., Duan, Z., & Ewert, S. (2019). Automatic Music Transcription: An Overview. IEEE Signal Processing Magazine, 36(1), 20–30.
- Benetos, E., Dixon, S., Giannoulis, D., Kirchhoff, H., & Klapuri, A. (2013). Automatic music transcription: challenges and future directions. Journal of Intelligent Information Systems, 41(3), 407–434.
- Müller, M. (2015). Fundamentals of Music Processing: Audio, Analysis, Algorithms, Applications. Springer.
- Klapuri, A., & Davy, M. (Eds.). (2006). Signal Processing Methods for Music Transcription. Springer.
Preguntas frecuentes
-
¿En qué formato entrega los resultados un sistema de AMT?
Un sistema de AMT no devuelve audio, sino una representación simbólica de lo que ha “escuchado”. El formato depende del uso: MIDI si se quiere reproducir o secuenciar, MusicXML si se busca una partitura editable e imprimible, o un piano roll para visualizar y corregir. Lo habitual es que el resultado pase siempre por una revisión humana, porque ninguna transcripción automática es perfecta. Más contexto en ¿Qué es la transcripción automática de música?.
-
¿Por qué la polifonía complica la transcripción automática?
Si solo suena una nota cada vez, el problema es abordable. Con varias notas simultáneas —polifonía— sus frecuencias y armónicos se solapan en el espectro: una nota grave y otra aguda pueden compartir parciales, así que el sistema no sabe si ve dos notas o una sola con su serie armónica. Como muchas combinaciones distintas producen casi el mismo espectro, separar la mezcla está mal definido. Es una de las razones por las que la AMT sigue sin estar resuelta, sobre todo en instrumentos con bordón como la gaita. Lo desarrollo en ¿Qué es la transcripción automática de música?.