---
title: "Qué es la transcripción automática de música"
slug: que-es-amt
kind: essay
summary: "Convertir una grabación en partitura suena trivial hasta que lo intentas. Qué es la transcripción automática de música (AMT), por qué sigue siendo un problema abierto y dónde encaja en el camino del audio al símbolo."
publishedAt: 2026-06-28
updatedAt: 2026-06-28
---
Cuando explico a qué dedico parte de mi investigación, suelo decir una frase que
parece sencilla: "intento que un ordenador escuche una grabación y escriba la
partitura". Casi siempre la respuesta es la misma —"¿y eso no está resuelto
ya?"—. No lo está. Esa tarea tiene nombre, transcripción automática de música, y
lleva décadas siendo uno de los problemas abiertos más tercos de la informática
musical.

## Qué es la transcripción automática de música

La transcripción automática de música —AMT, por sus siglas en inglés— es la
tarea de convertir una **grabación de audio** en una **representación simbólica**:
qué notas suenan, cuándo empiezan, cuánto duran y a qué altura. El resultado puede
ser una partitura, un archivo [MIDI](/blog/que-es-midi) o un *piano roll*, esa
rejilla de notas que se ve en cualquier editor musical.

Dicho de otro modo: AMT es el camino inverso al de un sintetizador. Un
sintetizador parte de instrucciones y produce sonido; la transcripción parte del
sonido y trata de recuperar las instrucciones que lo originaron. Y ahí está la
trampa, porque ese camino de vuelta no es único ni limpio.

## El problema: del aire a la partitura

Una grabación es una señal continua: una sola onda que mezcla todo lo que sonaba
en ese instante. La partitura, en cambio, es discreta y estructurada: notas
separadas, con su altura y su ritmo. AMT tiene que cruzar ese abismo, y lo hace
normalmente en dos planos.

El primero es el de la **señal**. Antes de hablar de notas hay que mirar las
frecuencias que componen el sonido, y para eso el instrumento básico es
[la transformada de Fourier](/blog/la-transformada-de-fourier): descompone la onda
en sus frecuencias y permite dibujar un espectrograma, un mapa de qué energía hay
en cada frecuencia a lo largo del tiempo.

El segundo es el plano **simbólico**: a partir de ese mapa, decidir dónde empieza
una nota, qué altura tiene y cuándo termina. Es el salto de "hay energía en torno
a 440 Hz" a "esto es un La que dura una negra". Ese salto es el corazón —y la
dificultad— de la transcripción.

## Por qué es más difícil de lo que parece

Si solo suena una nota a la vez, el problema es casi abordable. La complejidad
explota con la **polifonía**: cuando suenan varias notas simultáneas, sus
frecuencias se solapan en el espectro. Una nota grave y otra aguda pueden
compartir armónicos, de modo que el sistema no sabe si está viendo dos notas o una
sola con su serie armónica. Separar esa mezcla es un problema mal definido: hay
muchas combinaciones de notas que producen casi el mismo espectro.

A eso se suma todo lo que un músico hace sin pensar y una máquina no sabe leer:

| Reto | Por qué complica la transcripción |
|---|---|
| Polifonía | Frecuencias solapadas; armónicos compartidos entre notas |
| Timbre | Un mismo La suena distinto en una gaita, un piano o una voz |
| Afinación | No toda la música usa el temperamento igual de 12 notas |
| Ornamentación | Adornos, deslizamientos y vibratos que no son "notas" limpias |
| Ritmo flexible | El tempo humano fluctúa; no encaja en una rejilla perfecta |

Por eso AMT no se considera resuelto. Los sistemas actuales transcriben razonablemente
bien el piano —muy estudiado y con corpus enormes— y se complican con instrumentos
menos representados y con la música que no encaja en el molde occidental.

## Dónde encaja AMT

La transcripción no es una isla. Es una de las tareas del
[Music Information Retrieval](/glosario/music-information-retrieval) (MIR), el
campo que estudia cómo extraer información musical del audio. Y depende por
completo de algo poco glamuroso pero decisivo: los datos. Un sistema moderno de
transcripción aprende de ejemplos —pares de audio y su transcripción correcta—, así
que sin un [corpus](/glosario/corpus-musical) bien etiquetado no hay nada que
aprender. Ese es justo el motivo de que dedique tanto esfuerzo a
[construir corpus de audio](/blog/construir-corpus-audio): la calidad del dato pone
el techo de lo que el modelo puede llegar a hacer.

## Por qué me importa

Hay una razón personal detrás de todo esto. En 2005 salió al mercado *Guitar Hero*
y me dejó fascinado. Aunque era solo un juego, aquella guitarra de plástico
funcionando como interfaz hacia el sistema encendió una idea que llevo persiguiendo
desde entonces: la conexión entre **instrumento y sistema**. Me parece un reto
enorme encontrar el camino que una los instrumentos musicales con ordenadores
capaces de aprovechar toda la información que se emite al tocar.

Ese cruce entre instrumento y sistema es, para mí, donde la informática musical y
la raíz musical se encuentran de verdad. No para sustituir al músico —una
transcripción nunca captura del todo lo que pasa en una interpretación—, sino para
tener una herramienta más con la que estudiar, archivar y entender un repertorio que
merece quedar documentado.

## Bibliografía

Las referencias en las que se apoya este artículo y por dónde seguir leyendo:

- Benetos, E., Dixon, S., Duan, Z., & Ewert, S. (2019). [Automatic Music Transcription: An Overview](https://doi.org/10.1109/MSP.2018.2869928). *IEEE Signal Processing Magazine*, 36(1), 20–30.
- Benetos, E., Dixon, S., Giannoulis, D., Kirchhoff, H., & Klapuri, A. (2013). [Automatic music transcription: challenges and future directions](https://doi.org/10.1007/s10844-013-0258-3). *Journal of Intelligent Information Systems*, 41(3), 407–434.
- Müller, M. (2015). [*Fundamentals of Music Processing: Audio, Analysis, Algorithms, Applications*](https://doi.org/10.1007/978-3-319-21945-5). Springer.
- Klapuri, A., & Davy, M. (Eds.). (2006). [*Signal Processing Methods for Music Transcription*](https://doi.org/10.1007/0-387-32845-9). Springer.