Tever
ES

Ensayo · Informática Musical

Qué es la transcripción automática de música

Convertir una grabación en partitura suena trivial hasta que lo intentas. Qué es la transcripción automática de música (AMT), por qué sigue siendo un problema abierto y dónde encaja en el camino del audio al símbolo.

Infografía sobre fondo azul oscuro con tres paneles unidos por flechas naranja: a la izquierda, una forma de onda de audio en gris; en el centro, un espectrograma en púrpura y naranja con bandas horizontales de armónicos; a la derecha, un piano roll con teclado vertical y notas como bloques sobre una rejilla. Muestra el flujo de la transcripción: audio → frecuencia → símbolo.

Cuando explico a qué dedico parte de mi investigación, suelo decir una frase que parece sencilla: “intento que un ordenador escuche una grabación y escriba la partitura”. Casi siempre la respuesta es la misma —“¿y eso no está resuelto ya?”—. No lo está. Esa tarea tiene nombre, transcripción automática de música, y lleva décadas siendo uno de los problemas abiertos más tercos de la informática musical.

Qué es la transcripción automática de música

La transcripción automática de música —AMT, por sus siglas en inglés— es la tarea de convertir una grabación de audio en una representación simbólica: qué notas suenan, cuándo empiezan, cuánto duran y a qué altura. El resultado puede ser una partitura, un archivo MIDI o un piano roll, esa rejilla de notas que se ve en cualquier editor musical.

Dicho de otro modo: AMT es el camino inverso al de un sintetizador. Un sintetizador parte de instrucciones y produce sonido; la transcripción parte del sonido y trata de recuperar las instrucciones que lo originaron. Y ahí está la trampa, porque ese camino de vuelta no es único ni limpio.

El problema: del aire a la partitura

Una grabación es una señal continua: una sola onda que mezcla todo lo que sonaba en ese instante. La partitura, en cambio, es discreta y estructurada: notas separadas, con su altura y su ritmo. AMT tiene que cruzar ese abismo, y lo hace normalmente en dos planos.

El primero es el de la señal. Antes de hablar de notas hay que mirar las frecuencias que componen el sonido, y para eso el instrumento básico es la transformada de Fourier: descompone la onda en sus frecuencias y permite dibujar un espectrograma, un mapa de qué energía hay en cada frecuencia a lo largo del tiempo.

El segundo es el plano simbólico: a partir de ese mapa, decidir dónde empieza una nota, qué altura tiene y cuándo termina. Es el salto de “hay energía en torno a 440 Hz” a “esto es un La que dura una negra”. Ese salto es el corazón —y la dificultad— de la transcripción.

Por qué es más difícil de lo que parece

Si solo suena una nota a la vez, el problema es casi abordable. La complejidad explota con la polifonía: cuando suenan varias notas simultáneas, sus frecuencias se solapan en el espectro. Una nota grave y otra aguda pueden compartir armónicos, de modo que el sistema no sabe si está viendo dos notas o una sola con su serie armónica. Separar esa mezcla es un problema mal definido: hay muchas combinaciones de notas que producen casi el mismo espectro.

A eso se suma todo lo que un músico hace sin pensar y una máquina no sabe leer:

RetoPor qué complica la transcripción
PolifoníaFrecuencias solapadas; armónicos compartidos entre notas
TimbreUn mismo La suena distinto en una gaita, un piano o una voz
AfinaciónNo toda la música usa el temperamento igual de 12 notas
OrnamentaciónAdornos, deslizamientos y vibratos que no son “notas” limpias
Ritmo flexibleEl tempo humano fluctúa; no encaja en una rejilla perfecta

Por eso AMT no se considera resuelto. Los sistemas actuales transcriben razonablemente bien el piano —muy estudiado y con corpus enormes— y se complican con instrumentos menos representados y con la música que no encaja en el molde occidental.

Dónde encaja AMT

La transcripción no es una isla. Es una de las tareas del Music Information Retrieval (MIR), el campo que estudia cómo extraer información musical del audio. Y depende por completo de algo poco glamuroso pero decisivo: los datos. Un sistema moderno de transcripción aprende de ejemplos —pares de audio y su transcripción correcta—, así que sin un corpus bien etiquetado no hay nada que aprender. Ese es justo el motivo de que dedique tanto esfuerzo a construir corpus de audio: la calidad del dato pone el techo de lo que el modelo puede llegar a hacer.

Por qué me importa

Hay una razón personal detrás de todo esto. En 2005 salió al mercado Guitar Hero y me dejó fascinado. Aunque era solo un juego, aquella guitarra de plástico funcionando como interfaz hacia el sistema encendió una idea que llevo persiguiendo desde entonces: la conexión entre instrumento y sistema. Me parece un reto enorme encontrar el camino que una los instrumentos musicales con ordenadores capaces de aprovechar toda la información que se emite al tocar.

Ese cruce entre instrumento y sistema es, para mí, donde la informática musical y la raíz musical se encuentran de verdad. No para sustituir al músico —una transcripción nunca captura del todo lo que pasa en una interpretación—, sino para tener una herramienta más con la que estudiar, archivar y entender un repertorio que merece quedar documentado.

Bibliografía

Las referencias en las que se apoya este artículo y por dónde seguir leyendo:

Preguntas frecuentes