Ensayu · Informática Musical
Qué ye la trescripción automática de música
Convertir una grabación en partitura paez trivial fasta que lo intentes. Qué ye la trescripción automática de música (AMT), por qué sigue siendo un problema abiertu y ónde encaxa nel camín del audiu al símbolu.
Cuando-y esplico a daquién a qué dedico parte de la mio investigación, suelo dicir una frase que paez cenciella: “intento qu’un ordenador escuche una grabación y escriba la partitura”. Cuasi siempre la respuesta ye la mesma —“¿y eso nun ta resueltu yá?”—. Nun lo ta. Esa xera tien nome, trescripción automática de música, y lleva décades siendo ún de los problemes abiertos más cabezones de la informática musical.
Qué ye la trescripción automática de música
La trescripción automática de música —AMT, peles sigles n’inglés— ye la xera de convertir una grabación d’audiu nuna representación simbólica: qué notes suenen, cuándo empiecen, cuánto duren y a qué altor. El resultáu pue ser una partitura, un archivu MIDI o un piano roll, esa rexa de notes que se ve en cualquier editor musical.
Dichu d’otra manera: AMT ye’l camín inversu al d’un sintetizador. Un sintetizador parte d’instrucciones y produz soníu; la trescripción parte del soníu y trata de recuperar les instrucciones que lu orixinaron. Y ehí ta la trampa, porque esi camín de vuelta nun ye únicu nin llimpiu.
El problema: del aire a la partitura
Una grabación ye una señal continua: una sola onda que entemez tolo que sonaba naquel intre. La partitura, en cambiu, ye discreta y estructurada: notes separtaes, col so altor y el so ritmu. AMT tien que cruciar esi abismu, y faelo davezu en dos planos.
El primeru ye’l de la señal. Enantes de falar de notes hai que mirar les frecuencies que componen el soníu, y pa eso la ferramienta básica ye la transformada de Fourier: descompón la onda nes sos frecuencies y permite dibuxar un espectrograma, un mapa de qué enerxía hai en cada frecuencia a lo llargo del tiempu.
El segundu ye’l planu simbólicu: a partir d’esi mapa, decidir ónde empieza una nota, qué altor tien y cuándo remata. Ye’l saltu de “hai enerxía alredor de 440 Hz” a “esto ye un La que dura una negra”. Esi saltu ye’l corazón —y la dificultá— de la trescripción.
Por qué ye más difícil de lo que paez
Si solo suena una nota cada vez, el problema ye cuasi abordable. La complexidá esplota cola polifonía: cuando suenen varies notes simultánees, les sos frecuencies entemécense nel espectru. Una nota grave y otra aguda puen compartir harmónicos, de mou que’l sistema nun sabe si ta viendo dos notes o una sola cola so serie harmónica. Separtar esa mecíu ye un problema mal definíu: hai munches combinaciones de notes que producen cuasi’l mesmu espectru.
A eso súmase tolo qu’un músicu fai ensin pensar y una máquina nun sabe lleer:
| Retu | Por qué complica la trescripción |
|---|---|
| Polifonía | Frecuencies entemecíes; harmónicos compartíos ente notes |
| Timbre | Un mesmu La suena distintu nuna gaita, un pianu o una voz |
| Afinamientu | Non toa la música usa’l temperamentu igual de 12 notes |
| Ornamentación | Adornos, esnidiamientos y vibratos que nun son “notes” llimpies |
| Ritmu flexible | El tempu humanu fluctúa; nun encaxa nuna rexa perfeuta |
Por eso AMT nun se considera resueltu. Los sistemes actuales trescriben razonablemente bien el pianu —perestudiáu y con corpus enormes— y compliquense con instrumentos menos representaos y cola música que nun encaxa nel molde occidental.
Ónde encaxa AMT
La trescripción nun ye una islla. Ye una de les xeres del Music Information Retrieval (MIR), el campu qu’estudia cómo estrayer información musical del audiu. Y depende dafechu de daqué pocu vistosu pero decisivu: los datos. Un sistema modernu de trescripción deprende d’exemplos —pares d’audiu cola so trescripción correuta—, asina que ensin un corpus bien etiquetáu nun hai nada que deprender. Esi ye xustamente’l motivu de que dedique tantu esfuerzu a construyir corpus d’audiu: la calidá del datu pon el techu de lo que’l modelu pue llegar a facer.
Por qué m’importa
Hai una razón personal detrás de too esto. En 2005 salió al mercáu Guitar Hero y dexóme fascináu. Anque yera solo un xuegu, aquella guitarra de plásticu funcionando como interfaz hacia’l sistema encendió una idea que llevo persiguiendo dende entós: la conexón ente instrumentu y sistema. Paezme un retu enorme atopar el camín qu’una los instrumentos musicales con ordenadores capaces d’aprovechar tola información que s’emite al tocar.
Esi cruce ente instrumentu y sistema ye, pa min, onde la informática musical y la raíz musical s’atopen de verdá. Non pa sustituyir al músicu —una trescripción nunca recueye del too lo que pasa nuna interpretación—, sinón pa tener una ferramienta más cola qu’estudiar, archivar y entender un repertoriu que merez quedar documentáu.
Bibliografía
Les referencies nes que s’apoya esti artículu y per ónde siguir lleendo:
- Benetos, E., Dixon, S., Duan, Z., & Ewert, S. (2019). Automatic Music Transcription: An Overview. IEEE Signal Processing Magazine, 36(1), 20–30.
- Benetos, E., Dixon, S., Giannoulis, D., Kirchhoff, H., & Klapuri, A. (2013). Automatic music transcription: challenges and future directions. Journal of Intelligent Information Systems, 41(3), 407–434.
- Müller, M. (2015). Fundamentals of Music Processing: Audio, Analysis, Algorithms, Applications. Springer.
- Klapuri, A., & Davy, M. (Eds.). (2006). Signal Processing Methods for Music Transcription. Springer.
Preguntes frecuentes
-
¿En qué formato entrega los resultados un sistema de AMT?
Un sistema de AMT no devuelve audio, sino una representación simbólica de lo que ha “escuchado”. El formato depende del uso: MIDI si se quiere reproducir o secuenciar, MusicXML si se busca una partitura editable e imprimible, o un piano roll para visualizar y corregir. Lo habitual es que el resultado pase siempre por una revisión humana, porque ninguna transcripción automática es perfecta. Más contexto en ¿Qué es la transcripción automática de música?.
-
¿Por qué la polifonía complica la transcripción automática?
Si solo suena una nota cada vez, el problema es abordable. Con varias notas simultáneas —polifonía— sus frecuencias y armónicos se solapan en el espectro: una nota grave y otra aguda pueden compartir parciales, así que el sistema no sabe si ve dos notas o una sola con su serie armónica. Como muchas combinaciones distintas producen casi el mismo espectro, separar la mezcla está mal definido. Es una de las razones por las que la AMT sigue sin estar resuelta, sobre todo en instrumentos con bordón como la gaita. Lo desarrollo en ¿Qué es la transcripción automática de música?.