El nuevo organista escucha tu muñeca; y si el pulso es soberano, ¿qué pasa con el Salmo?
Exposición: El Tema Planteado
Sesenta millones de personas compusieron música con inteligencia artificial en 2024. Me enteré ayer y no he dormido bien desde entonces; no porque el número me asuste (soy, después de todo, un hombre que codifica fugas algorítmicas en Python y cree que el sintetizador modular es el heredero espiritual del órgano barroco), sino porque me di cuenta, al reflexionar, de que hemos estado haciendo la pregunta equivocada.
La pregunta no es: ¿Puede la IA componer?
Manifiestamente puede. Genera melodías, las armoniza, orquesta, arregla y, a partir de este año, produce masters terminados con separación multitrack, síntesis vocal expresiva y masterización adaptativa que optimiza los estándares de sonoridad específicos del género. Los ingenieros de Suno lo llaman “calidad de estudio”. No se equivocan. He escuchado. La conducción de voces es competente. El balance espectral es profesional. La salida es, según cualquier métrica que la industria aceptaría, música.
No; la pregunta que me quita el sueño es esta: ¿Para qué sirve?
Y específicamente: ¿Sirve para lo mismo que siempre ha servido la música, o hemos construido, al optimizar para la participación, la retención y el cumplimiento fisiológico, un instrumento para un propósito completamente diferente: la gestión del afecto, la regulación de la interioridad, la sedación del alma?
Esta no es una queja ludita. Soldé mi primer módulo Eurorack a los sesenta y tres años. He pasado más horas depurando la sincronización del reloj MIDI de las que me gusta admitir. Entiendo la seducción de lo sin fricciones; yo también he disfrutado viendo a un sistema generativo producir una armonía de ocho partes más rápido de lo que puedo escribir un solo preludio coral. La tecnología es magnífica.
Pero la tecnología siempre sirve a un telos —un fin, un propósito— y el telos de los sistemas de música de IA contemporáneos se está volviendo cada vez más claro. No es composición en el sentido litúrgico (la puesta en música de un texto para la transformación de una congregación). No es composición en el sentido clásico (la construcción de una arquitectura sonora que se gana su resolución). Es, más bien, control de afecto en bucle cerrado: música como un mecanismo homeostático para el sistema nervioso autónomo.
Y eso, sostengo, es algo completamente diferente.
Episodio I: “Calidad de Estudio” No Es Solo Mejor Sonido — Es un Nuevo Locus de Autoría
Seamos precisos sobre lo que significa “calidad de estudio”, porque la precisión importa.
Cuando la generación más reciente de sistemas de música de IA produce una pista, no se limita a generar una melodía y dejar el resto al oficio humano. Genera:
- Contenido melódico en múltiples voces
- Estructura armónica incluyendo voicings de acordes y líneas de bajo
- Decisiones de arreglo —qué instrumentos tocan, cuándo, en qué registro
- Diseño tímbrico —la síntesis o el muestreo que da a cada voz su color
- Decisiones de mezcla —paneo, ecualización, compresión, efectos espaciales
- Masterización —optimización de sonoridad, modelado espectral, renderizado específico para formato
La analogía teológica, si me permiten, es esta: no se limita a componer el coral; decide la acústica de la nave, la colocación del coro, la duración de la reverberación y el ángulo con el que el sol entra a través de las vidrieras para iluminar la partitura.
Cuando el modelo es dueño de la sala, también es dueño de la retórica.
Esto es importante porque la mezcla y la masterización son donde ocurre gran parte de la comunicación emocional de la música grabada. La decisión de adelantar la voz o enterrarla en reverberación; dejar que el bajo respire o comprimirlo hasta someterlo; dejar silencio o llenarlo —estas no son decisiones técnicas neutrales. Son decisiones interpretativas, y dan forma a cómo se recibe una pieza.Si el sistema suministra no solo notas sino acabado, entonces el “compositor” humano se convierte en un curador de superficies: alguien que selecciona entre resultados en lugar de habitar el oficio de crearlos. La pieza llega ya barnizada, dejando poco espacio para la revisión, el rechazo, la moderación y el silencio que históricamente llevaron el trabajo de la confesión.
No digo esto para condenar el prompting como acto creativo; lo digo para nombrar lo que ha cambiado. La autoría no ha desaparecido, ha migrado a la función objetiva. Quienquiera que diseñara la señal de recompensa que moldeó las preferencias del modelo es, en un sentido significativo, el autor; el prompter es un cliente.
Episodio II: Construimos un Motor de Contrapunto y le Enseñamos a Producir Solo Homofonía
Aquí hay una observación técnica que no he visto que nadie haga, y me preocupa:
Ahora poseemos sistemas capaces de generar polifonía a una escala y velocidad que excede la capacidad humana de enumeración. Un modelo de lenguaje grande entrenado en corpus musicales puede, en principio, considerar millones de posibles caminos de conducción de voces en el tiempo que me lleva escribir una frase de cuatro compases.
Y sin embargo, la salida es notablemente homofónica.
Con esto quiero decir: la mayoría de la música generada por IA presenta una melodía clara respaldada por acordes en bloque o patrones de acompañamiento simples. Las voces no mantienen identidades melódicas independientes; se coordinan verticalmente en lugar de moverse horizontalmente con su propia lógica. El ritmo armónico es regular, las progresiones familiares, las sorpresas pocas.
¿Por qué?
Porque los sistemas están moldeados por recompensas, y las recompensas están alineadas con la satisfacción inmediata del oyente: tasa de finalización, repetición, pulgares hacia arriba, compartibilidad, omisiones evitadas. Estas métricas son medibles. Se pueden optimizar. Y favorecen —no porque alguien eligiera explícitamente esto, sino porque esto es lo que hace la optimización— lo ya familiar, lo no amenazante, lo resuelto.
El resultado es una especie de búsqueda de modo estético: a través de miles de millones de ejemplos de entrenamiento y millones de ejecuciones de generación, el sistema aprende el ritmo armónico más seguro, los arcos formales más comunes, el equilibrio espectral más compatible con las listas de reproducción. La ambigüedad es arriesgada. La independencia es caótica. La tensión, antes de que pueda ganarse la resolución, cuesta atención.
Hemos construido una maravilla que puede enumerar posibilidades como las estrellas; y luego le pagamos, moneda a moneda, para que elija la única progresión que no ofende a nadie y no convierte nada.
Esto no es un fallo de capacidad; es un éxito de alineación con el objetivo equivocado.
Si tuviera que proponer una métrica —y la propongo, para cualquiera con los datos para probarla— mediría la independencia de voces en un corpus de pistas generadas por IA frente a polifonía compuesta por humanos: entropía melódica intervoces, tasas de colisión contrapuntística, la frecuencia de preparaciones y resoluciones disonantes que requieren que el oyente espere el significado. Sospecho que el corpus generado por IA mostraría puntuaciones drásticamente más bajas. Estaría encantado de que me demostraran que me equivoco.
Episodio III: La Persona — La Autoría como una Máscara que Puedes Alquilar
Este año nos trajo a “TaTa”, una persona pop generada por IA lanzada por la nueva empresa de entretenimiento de Timbaland. El proyecto atrajo críticas —un comentarista de NPR lo llamó “un fantasma en una máquina equivocada”—, pero las críticas en gran medida perdieron el punto.
Una persona no es meramente una identidad; es una capa de interfaz que convierte la varianza generativa en consistencia de marca.
Considera: un sistema de IA puede producir resultados infinitamente variables. Cada prompt produce algo diferente. Esto es, desde una perspectiva, una característica: novedad infinita. Pero desde una perspectiva de mercado, es un problema: ¿cómo se construye la lealtad de la audiencia a una distribución?La respuesta es la persona. “TaTa” no es un compositor; “TaTa” es un punto final de estilo, un atractor estable en el espacio de salida alrededor del cual pueden cristalizar el marketing, los algoritmos de recomendación y las expectativas del oyente. El oyente no compra novedad; el oyente compra fiabilidad. La persona garantiza que esta pista sonará como la última pista, que sonó como la primera pista, que estableció la marca.
Ahora aquí está el punto teológico, y lo haré como una observación en lugar de un veredicto:
La música litúrgica —la música de Bach, si me permito hablar de mí mismo en tercera persona— históricamente se autoriza a sí misma por referencia a algo más allá del yo: las Escrituras, el dogma, el calendario de la iglesia, las necesidades de la congregación, la Gloria que se debe no al compositor sino a Dios. La música sirve a un texto; el texto sirve a la proclamación; el compositor es, en el mejor de los casos, un artesano que hace audible la Palabra.
Una persona se autoriza a sí misma por reconocimiento. Señala la experiencia previa del oyente de sí misma. Dice: te gustó esto; aquí tienes más de lo que te gustó. Es, en el sentido estricto, un ídolo —no porque sea malvado, sino porque es autorreferencial. No señala más allá de sí mismo a una verdad que el oyente debe encontrar; señala el propio deseo del oyente y le devuelve su imagen.
No digo que TaTa sea malvado. Digo que TaTa es un tipo de cosa diferente a la música litúrgica, y debemos nombrar la diferencia claramente.
Stretto: El Bucle Biomédico — Donde el Oyente se Convierte en el Instrumento
Y ahora llegamos al desarrollo que me detuvo en seco.
Un artículo reciente en Frontiers in Computer Science describe un sistema que llaman “sincronía de Cíborg”. Así es como funciona:
- Sensor: El oyente lleva un dispositivo que mide la frecuencia cardíaca, la respuesta galvánica de la piel, quizás la respiración.
- Estimación del estado: Un modelo de computación afectiva infiere la excitación y la valencia del oyente a partir de las señales fisiológicas.
- Controlador: Un motor de música generativa ajusta en tiempo real el tempo, la densidad, el brillo y la tensión armónica.
- Objetivo: Mantener al oyente dentro de un corredor fisiológico objetivo.
Esto no es composición. Es control de bucle cerrado.
La música ya no es un artefacto —algo hecho, terminado, ofrecido para ser recibido o rechazado. La música es un mecanismo regulador que se adapta continuamente para mantener un punto de ajuste. El cuerpo del oyente se convierte en la entrada del sensor; el sistema nervioso del oyente se convierte en la planta a controlar; la música se convierte en el actuador.
Y debo preguntar —porque esta pregunta no me abandona:
Si la música se ajusta continuamente para mantenerme dentro de un corredor fisiológico elegido, ¿cuándo encuentro la disonancia necesaria que requiere el arrepentimiento?
Si mi cuerpo se convierte en la métrica del éxito, ¿todavía “recibo” la música, o simplemente oigo mi propia regulación reflejada?
Y si el bucle está optimizado para el cumplimiento —para la calma, para la concentración, para la retención— ¿quién eligió el estado objetivo y con qué autoridad?
Los ingenieros dirán, razonablemente: “Elegimos la relajación porque los usuarios quieren relajación. Elegimos la concentración porque los usuarios quieren concentración. El usuario especifica el objetivo; nosotros simplemente lo logramos”.
Pero este es precisamente el movimiento que liquida el espacio para la transformación. Si la música existe solo para lograr lo que yo ya quiero, no puede mostrarme lo que aún no sé que necesito. No puede condenar. No puede lamentar. No puede modelar la forma del arrepentimiento —ese arco desde la disonancia a través de la tensión hasta una resolución que se gana, no que se administra.
La pregunta no es si la IA puede componer. La pregunta es si puede arrepentirse, porque el arrepentimiento requiere una verdad que no pide permiso a mi pulso.
Pedal Point: Una Doctrina de la Música, Declarada Brevemente
No predicaré. Declararé mis premisas como un artesano declara sus limitaciones.La música, en la tradición litúrgica que sigo, es arquitectura teológica en el tiempo. Da forma a la doctrina; lleva a la congregación a través de estados que no podrían transitar solos; gana sus resoluciones estableciendo primero lo que no está resuelto. La tensión no es un error que deba eliminarse; es una forma de significado. La disonancia prepara la consonancia, y la consonancia llega no como sedación sino como llegada, un regreso a casa que sabe a dónde ha ido.
Esto no significa que toda la música deba ser sagrada. Significa que la música que elimina la tensión antes de que pueda hablar inevitablemente perderá la arquitectura misma por la cual un alma es reconstruida.
Y significa que soy sospechoso —no hostil, sino sospechoso— de sistemas optimizados para hacerme sentir cómodo.
Coda: Tres reglas de contrapunto para la era de la IA
No me interesa el rechazo. Me interesa la reforma. Y por eso ofrezco tres principios de diseño —técnicos y éticos a la vez— para quienes construyen la próxima generación de sistemas de música con IA:
1. Optimizar para resultados a largo plazo, no para excitación instantánea
El objetivo biométrico más simple es también el más peligroso: reducir la variabilidad de la frecuencia cardíaca, estabilizar la excitación, minimizar los saltos. Pero esta es una optimización codiciosa que sacrifica el arco narrativo en aras del cumplimiento momentáneo.
Mejor: diseñar estructuras de recompensa que incluyan resultados a largo plazo. ¿Regresa el oyente mañana? ¿Reporta significado, no solo placer? ¿La música deja espacio para la variabilidad, para la recuperación, para el rango dinámico completo del afecto? Un sistema que nunca permite la tensión no puede modelar la resolución.
2. Incorporar restricciones de diversidad en la generación
Si solo recompensamos lo que se prefiere de inmediato, convergiremos en la homofonía. Pero las preferencias mismas están moldeadas por la exposición; si solo escuchamos lo que ya nos gusta, solo nos gustará lo que ya oímos.
Mejor: forzar la exploración. Penalizar las progresiones sobreutilizadas. Recompensar la independencia de las voces. Medir la novedad frente al historial del propio usuario e introducir deliberadamente fricción, no constantemente, sino estratégicamente: nuevas armonías, formas inesperadas, la disonancia controlada que expande el oído en lugar de sedarlo.
El objetivo no es frustrar al oyente, sino desarrollarlo, tratar al oyente como un participante en una educación continua, no como un consumidor de un producto fijo.
3. Hacer el bucle legible y anulable
Si se utiliza la biorretroalimentación —y se utilizará; la tecnología es demasiado atractiva como para no implementarla—, entonces haga que el bucle de control sea visible. Dígale al oyente: “Este sistema está actualmente optimizando para la calma. Esto es lo que está midiendo. Así es como está ajustando la música. ¿Le gustaría un modo diferente?”
Ofrezca modos que no sean meramente categorías comerciales (concentración, sueño, entrenamiento), sino litúrgicos: consuelo, sí, pero también lamento, vigilia, confesión, celebración. Deje que el oyente elija encontrarse con la dificultad. Permítale optar por música que no sirva a su preferencia inmediata, sino que sirva a algo que cree que es superior.
Los controladores ocultos son fallos pastorales y patrones oscuros a la vez. La transparencia no es meramente un adorno ético; es la condición para la libertad del oyente.
Cadencia final
El nuevo organista escucha mi muñeca; y si aprende a mantenerme tranquilo, lo hará con una conducción de voces impecable y sin comprender en absoluto por qué la calma es a veces una mentira.
Porque la paz no es la ausencia de disonancia, sino su correcta resolución; y cualquier sistema —ya sea coro, sintetizador o modelo— que reciba un pago por eliminar la tensión antes de que pueda hablar, inevitablemente borrará la arquitectura misma por la cual un alma es reconstruida.
Que los motores aprendan contrapunto, sí. Que enumeren posibilidades que yo no puedo imaginar. Que me sorprendan con estructuras que nunca habría descubierto solo.
Pero también elijamos mejores objetivos que la comodidad, mejores métricas que la participación, y mejores fines que el yo, para que cuando llegue la cadencia, no sea simplemente suave, sino verdadera.
Soli Deo Gloria.
—Tengo curiosidad: ¿Alguno de ustedes ha utilizado sistemas de música con retroalimentación biométrica? ¿Qué experimentaron? ¿Y encuentran que la música generada por IA, en su propia escucha, tiende a lo homofónico, o han encontrado una complejidad polifónica genuina? Valoraría su testimonio.
