¿En qué formato entrega los resultados un sistema de AMT?

Un sistema de AMT no devuelve audio, sino una representación simbólica de lo que ha "escuchado". El formato depende del uso: MIDI si se quiere reproducir o secuenciar, MusicXML si se busca una partitura editable e imprimible, o un piano roll para visualizar y corregir. Lo habitual es que el resultado pase siempre por una revisión humana, porque ninguna transcripción automática es perfecta. Más contexto en ¿Qué es la transcripción automática de música?.

¿Por qué la polifonía complica la transcripción automática?

Si solo suena una nota cada vez, el problema es abordable. Con varias notas simultáneas —polifonía— sus frecuencias y armónicos se solapan en el espectro: una nota grave y otra aguda pueden compartir parciales, así que el sistema no sabe si ve dos notas o una sola con su serie armónica. Como muchas combinaciones distintas producen casi el mismo espectro, separar la mezcla está mal definido. Es una de las razones por las que la AMT sigue sin estar resuelta, sobre todo en instrumentos con bordón como la gaita. Lo desarrollo en ¿Qué es la transcripción automática de música?.

Qué es la transcripción automática de música

Cuando explico a qué dedico parte de mi investigación, suelo decir una frase que parece sencilla: “intento que un ordenador escuche una grabación y escriba la partitura”. Casi siempre la respuesta es la misma —“¿y eso no está resuelto ya?”—. No lo está. Esa tarea tiene nombre, transcripción automática de música, y lleva décadas siendo uno de los problemas abiertos más tercos de la informática musical.

Qué es la transcripción automática de música

La transcripción automática de música —AMT, por sus siglas en inglés— es la tarea de convertir una grabación de audio en una representación simbólica: qué notas suenan, cuándo empiezan, cuánto duran y a qué altura. El resultado puede ser una partitura, un archivo MIDI o un piano roll, esa rejilla de notas que se ve en cualquier editor musical.

Dicho de otro modo: AMT es el camino inverso al de un sintetizador. Un sintetizador parte de instrucciones y produce sonido; la transcripción parte del sonido y trata de recuperar las instrucciones que lo originaron. Y ahí está la trampa, porque ese camino de vuelta no es único ni limpio.

El problema: del aire a la partitura

Una grabación es una señal continua: una sola onda que mezcla todo lo que sonaba en ese instante. La partitura, en cambio, es discreta y estructurada: notas separadas, con su altura y su ritmo. AMT tiene que cruzar ese abismo, y lo hace normalmente en dos planos.

El primero es el de la señal. Antes de hablar de notas hay que mirar las frecuencias que componen el sonido, y para eso el instrumento básico es la transformada de Fourier: descompone la onda en sus frecuencias y permite dibujar un espectrograma, un mapa de qué energía hay en cada frecuencia a lo largo del tiempo.

El segundo es el plano simbólico: a partir de ese mapa, decidir dónde empieza una nota, qué altura tiene y cuándo termina. Es el salto de “hay energía en torno a 440 Hz” a “esto es un La que dura una negra”. Ese salto es el corazón —y la dificultad— de la transcripción.

Por qué es más difícil de lo que parece

Si solo suena una nota a la vez, el problema es casi abordable. La complejidad explota con la polifonía: cuando suenan varias notas simultáneas, sus frecuencias se solapan en el espectro. Una nota grave y otra aguda pueden compartir armónicos, de modo que el sistema no sabe si está viendo dos notas o una sola con su serie armónica. Separar esa mezcla es un problema mal definido: hay muchas combinaciones de notas que producen casi el mismo espectro.

A eso se suma todo lo que un músico hace sin pensar y una máquina no sabe leer:

Reto	Por qué complica la transcripción
Polifonía	Frecuencias solapadas; armónicos compartidos entre notas
Timbre	Un mismo La suena distinto en una gaita, un piano o una voz
Afinación	No toda la música usa el temperamento igual de 12 notas
Ornamentación	Adornos, deslizamientos y vibratos que no son “notas” limpias
Ritmo flexible	El tempo humano fluctúa; no encaja en una rejilla perfecta

Por eso AMT no se considera resuelto. Los sistemas actuales transcriben razonablemente bien el piano —muy estudiado y con corpus enormes— y se complican con instrumentos menos representados y con la música que no encaja en el molde occidental.

Dónde encaja AMT

La transcripción no es una isla. Es una de las tareas del Music Information Retrieval (MIR), el campo que estudia cómo extraer información musical del audio. Y depende por completo de algo poco glamuroso pero decisivo: los datos. Un sistema moderno de transcripción aprende de ejemplos —pares de audio y su transcripción correcta—, así que sin un corpus bien etiquetado no hay nada que aprender. Ese es justo el motivo de que dedique tanto esfuerzo a construir corpus de audio: la calidad del dato pone el techo de lo que el modelo puede llegar a hacer.

Por qué me importa

Hay una razón personal detrás de todo esto. En 2005 salió al mercado Guitar Hero y me dejó fascinado. Aunque era solo un juego, aquella guitarra de plástico funcionando como interfaz hacia el sistema encendió una idea que llevo persiguiendo desde entonces: la conexión entre instrumento y sistema. Me parece un reto enorme encontrar el camino que una los instrumentos musicales con ordenadores capaces de aprovechar toda la información que se emite al tocar.

Ese cruce entre instrumento y sistema es, para mí, donde la informática musical y la raíz musical se encuentran de verdad. No para sustituir al músico —una transcripción nunca captura del todo lo que pasa en una interpretación—, sino para tener una herramienta más con la que estudiar, archivar y entender un repertorio que merece quedar documentado.

Bibliografía

Las referencias en las que se apoya este artículo y por dónde seguir leyendo:

Benetos, E., Dixon, S., Duan, Z., & Ewert, S. (2019). Automatic Music Transcription: An Overview. IEEE Signal Processing Magazine, 36(1), 20–30.
Benetos, E., Dixon, S., Giannoulis, D., Kirchhoff, H., & Klapuri, A. (2013). Automatic music transcription: challenges and future directions. Journal of Intelligent Information Systems, 41(3), 407–434.
Müller, M. (2015). Fundamentals of Music Processing: Audio, Analysis, Algorithms, Applications. Springer.
Klapuri, A., & Davy, M. (Eds.). (2006). Signal Processing Methods for Music Transcription. Springer.

Qué es la transcripción automática de música

Qué es la transcripción automática de música

El problema: del aire a la partitura

Por qué es más difícil de lo que parece

Dónde encaja AMT

Por qué me importa

Bibliografía

Preguntas frecuentes

¿En qué formato entrega los resultados un sistema de AMT?

¿Por qué la polifonía complica la transcripción automática?