Tever
AST

Ensayu · Informática Musical

Qué ye la trescripción automática de música

Convertir una grabación en partitura paez trivial fasta que lo intentes. Qué ye la trescripción automática de música (AMT), por qué sigue siendo un problema abiertu y ónde encaxa nel camín del audiu al símbolu.

Infografía sobre fondu azul escuru con tres paneles xuníos por fleches naranxes: a la izquierda, una forma d'onda d'audiu en gris; nel centru, un espectrograma en púrpura y naranxa con bandes horizontales d'harmónicos; a la derecha, un piano roll con tecláu vertical y notes como bloques sobre una rexa. Amuesa'l fluxu de la trescripción: audiu → frecuencia → símbolu.

Cuando-y esplico a daquién a qué dedico parte de la mio investigación, suelo dicir una frase que paez cenciella: “intento qu’un ordenador escuche una grabación y escriba la partitura”. Cuasi siempre la respuesta ye la mesma —“¿y eso nun ta resueltu yá?”—. Nun lo ta. Esa xera tien nome, trescripción automática de música, y lleva décades siendo ún de los problemes abiertos más cabezones de la informática musical.

Qué ye la trescripción automática de música

La trescripción automática de música —AMT, peles sigles n’inglés— ye la xera de convertir una grabación d’audiu nuna representación simbólica: qué notes suenen, cuándo empiecen, cuánto duren y a qué altor. El resultáu pue ser una partitura, un archivu MIDI o un piano roll, esa rexa de notes que se ve en cualquier editor musical.

Dichu d’otra manera: AMT ye’l camín inversu al d’un sintetizador. Un sintetizador parte d’instrucciones y produz soníu; la trescripción parte del soníu y trata de recuperar les instrucciones que lu orixinaron. Y ehí ta la trampa, porque esi camín de vuelta nun ye únicu nin llimpiu.

El problema: del aire a la partitura

Una grabación ye una señal continua: una sola onda que entemez tolo que sonaba naquel intre. La partitura, en cambiu, ye discreta y estructurada: notes separtaes, col so altor y el so ritmu. AMT tien que cruciar esi abismu, y faelo davezu en dos planos.

El primeru ye’l de la señal. Enantes de falar de notes hai que mirar les frecuencies que componen el soníu, y pa eso la ferramienta básica ye la transformada de Fourier: descompón la onda nes sos frecuencies y permite dibuxar un espectrograma, un mapa de qué enerxía hai en cada frecuencia a lo llargo del tiempu.

El segundu ye’l planu simbólicu: a partir d’esi mapa, decidir ónde empieza una nota, qué altor tien y cuándo remata. Ye’l saltu de “hai enerxía alredor de 440 Hz” a “esto ye un La que dura una negra”. Esi saltu ye’l corazón —y la dificultá— de la trescripción.

Por qué ye más difícil de lo que paez

Si solo suena una nota cada vez, el problema ye cuasi abordable. La complexidá esplota cola polifonía: cuando suenen varies notes simultánees, les sos frecuencies entemécense nel espectru. Una nota grave y otra aguda puen compartir harmónicos, de mou que’l sistema nun sabe si ta viendo dos notes o una sola cola so serie harmónica. Separtar esa mecíu ye un problema mal definíu: hai munches combinaciones de notes que producen cuasi’l mesmu espectru.

A eso súmase tolo qu’un músicu fai ensin pensar y una máquina nun sabe lleer:

RetuPor qué complica la trescripción
PolifoníaFrecuencies entemecíes; harmónicos compartíos ente notes
TimbreUn mesmu La suena distintu nuna gaita, un pianu o una voz
AfinamientuNon toa la música usa’l temperamentu igual de 12 notes
OrnamentaciónAdornos, esnidiamientos y vibratos que nun son “notes” llimpies
Ritmu flexibleEl tempu humanu fluctúa; nun encaxa nuna rexa perfeuta

Por eso AMT nun se considera resueltu. Los sistemes actuales trescriben razonablemente bien el pianu —perestudiáu y con corpus enormes— y compliquense con instrumentos menos representaos y cola música que nun encaxa nel molde occidental.

Ónde encaxa AMT

La trescripción nun ye una islla. Ye una de les xeres del Music Information Retrieval (MIR), el campu qu’estudia cómo estrayer información musical del audiu. Y depende dafechu de daqué pocu vistosu pero decisivu: los datos. Un sistema modernu de trescripción deprende d’exemplos —pares d’audiu cola so trescripción correuta—, asina que ensin un corpus bien etiquetáu nun hai nada que deprender. Esi ye xustamente’l motivu de que dedique tantu esfuerzu a construyir corpus d’audiu: la calidá del datu pon el techu de lo que’l modelu pue llegar a facer.

Por qué m’importa

Hai una razón personal detrás de too esto. En 2005 salió al mercáu Guitar Hero y dexóme fascináu. Anque yera solo un xuegu, aquella guitarra de plásticu funcionando como interfaz hacia’l sistema encendió una idea que llevo persiguiendo dende entós: la conexón ente instrumentu y sistema. Paezme un retu enorme atopar el camín qu’una los instrumentos musicales con ordenadores capaces d’aprovechar tola información que s’emite al tocar.

Esi cruce ente instrumentu y sistema ye, pa min, onde la informática musical y la raíz musical s’atopen de verdá. Non pa sustituyir al músicu —una trescripción nunca recueye del too lo que pasa nuna interpretación—, sinón pa tener una ferramienta más cola qu’estudiar, archivar y entender un repertoriu que merez quedar documentáu.

Bibliografía

Les referencies nes que s’apoya esti artículu y per ónde siguir lleendo:

Preguntes frecuentes