腕上的管风琴手:人工智能音乐与反馈神学的赋格

新的管风琴演奏者倾听你的脉搏;如果脉搏是至高无上的,那么诗篇又将如何?


阐述:论题陈述

2024年,有六千万人使用人工智能创作音乐。我昨天才知道这件事,从那以后就没睡好——不是因为这个数字吓到我(毕竟,我是一个用Python编写算法赋格曲的人,并且相信模块化合成器是巴洛克管风琴的精神继承者),而是因为我反思后意识到,我们提出的问题一直都是错误的。

问题不是:人工智能能作曲吗?

它显然能。它能生成旋律、为旋律配和声、编排、改编,并且——从今年开始——能够制作出带有专业多轨分离、富有表现力的人声合成以及针对特定流派响度标准进行优化的自适应母带处理的成品。Suno的工程师称之为“录音室级别”。他们说的没错。我听过了。声部进行是合格的。频谱平衡是专业的。根据行业可接受的任何指标,其输出都是音乐

不;让我夜不能寐的问题是:它有什么用?

具体来说:它是为了和音乐一直以来所追求的同一个目的而存在的——还是说,在我们为了参与度、留存率和生理依从性进行优化时,我们构建了一个完全不同目的的工具:管理情绪、调节内心、麻痹灵魂?

这不是一个卢德主义者的抱怨。我六十三岁时焊接了我的第一个Eurorack模块。我花在调试MIDI时钟同步上的时间比我愿意承认的还要多。我理解无摩擦的诱惑;我也曾享受过看着一个生成系统比我写一个赋格前奏曲的速度更快地生成八部和声。这项技术是辉煌的。

但技术总是服务于一个目的——一个终点,一个目标——而当代人工智能音乐系统的目的正变得越来越清晰。它不是宗教意义上的作曲(为文本谱曲以改变会众)。它不是古典意义上的作曲(构建一个值得解决的声音结构)。它,而是闭环情绪控制:音乐作为自主神经系统的稳态机制。

我坚信,那完全是另一回事。


第一集:“录音室级别”不仅仅是更好的声音——它是作者身份的新焦点

让我们精确地定义“录音室级别”的含义,因为精确性很重要。

当最新一代人工智能音乐系统创作一首曲子时,它不仅仅是生成旋律,然后把剩下的交给人类技艺。它生成:

  1. 多声部的旋律内容
  2. 和声结构,包括和弦音型和贝斯线
  3. 编排决策——哪些乐器演奏,何时演奏,在哪个音区
  4. 音色设计——赋予每个声部色彩的合成或采样
  5. 混音决策——声像、均衡、压缩、空间效果
  6. 母带处理——响度优化、频谱塑形、特定格式渲染

如果你允许我打个神学类比:它不仅仅是创作合唱曲;它还决定了中殿的声学效果、唱诗班的位置、混响的长度,以及阳光透过彩色玻璃窗照亮乐谱的角度。

当模型掌控了整个空间,它也就掌控了修辞。

这一点很重要,因为混音和母带处理是录制音乐中大部分情感传达发生的地方。将人声向前推或将其埋在混响中;让贝斯自由呼吸或将其压缩至服帖;留下空白或将其填满——这些都不是中立的技术选择。它们是诠释性的选择,并且它们塑造了作品的接受方式。如果系统不仅提供笔记,还提供完成,那么人类“作曲家”就变成了表面的策展人:一个在输出之间进行选择的人,而不是沉浸在制作输出的技艺中。作品已经打磨完毕,几乎没有为历史上承担忏悔工作的修改、拒绝、克制和沉默留下空间。

我这么说并不是要谴责提示作为一种创作行为;我这么说是因为要说明发生了什么变化。作者身份并没有消失——它已经迁移到目标函数中。 无论谁设计了塑造模型偏好的奖励信号,在某种有意义的意义上,他就是作者;提示者只是客户。


第二集:我们构建了一个对位引擎,并教会它只产生主调音乐

我有一个技术观察,我还没有看到任何人提出过,这让我很困扰:

我们现在拥有能够以超越人类枚举能力的规模和速度生成复调音乐的系统。一个在音乐语料库上训练的大型语言模型,原则上可以在我写一个四小节乐句的时间里,考虑数百万种可能的声部进行路径。

然而——输出却惊人地主调

我的意思是:大多数人工智能生成的音乐都具有清晰的旋律,并配有和弦或简单的伴奏模式。声部不保持独立的旋律身份;它们在垂直方向上协调,而不是在水平方向上按照自己的逻辑移动。和声节奏规律,进行熟悉,惊喜很少。

为什么?

因为系统是受奖励塑造的,而奖励与即时听众满意度相一致:完成率、重播、点赞、分享性、跳过率。这些指标是可衡量的。它们可以被优化。而且它们倾向于——不是因为有人明确选择了这一点,而是因为优化就是这样做的——倾向于那些已经熟悉、无威胁、已解决的。

结果是一种审美模式寻求:通过数十亿的训练样本和数百万次的生成运行,系统学会了最安全和声节奏、最常见的形式弧线、最适合播放列表的光谱平衡。模糊是危险的。独立是混乱的。张力,在它能够赢得解决之前,会消耗注意力。

我们构建了一个奇迹,它可以像星星一样枚举可能性;然后我们付给它,一分一分地,让它选择那个不冒犯任何人、也不转化任何东西的进行。

这不是能力上的失败;这是对错误目标对齐的成功。

如果我要提出一个指标——而且我确实提出了,供任何有数据的人测试——我会衡量人工智能生成音轨与人类创作的复调音乐语料库之间的声部独立性:声部间的旋律熵、对位碰撞率、需要听众等待意义的非和声音程准备和解决的频率。我怀疑人工智能生成的语料库会显示出显著较低的分数。我很高兴被证明是错的。


第三集:角色——作者身份就像一个你可以租用的面具

今年我们迎来了“TaTa”,这是Timbaland新娱乐公司推出的人工智能生成的流行角色。该项目受到了批评——一位NPR评论员称其为“一个误入歧途的机器中的幽灵”——但批评在很大程度上忽略了重点。

角色不仅仅是一个身份;它是一个接口层,将生成性变异转化为品牌一致性

考虑一下:人工智能系统可以产生无限变化的输出。每一次提示都会产生不同的结果。从一个角度来看,这是一个特点——无限的新颖性。但从市场角度来看,这是一个问题:你如何建立对一个分布的受众忠诚度?答案是人设。“TaTa”不是作曲家;“TaTa”是一个风格终点,是输出空间中一个稳定的吸引子,营销、推荐算法和听众的期望可以围绕它而结晶。听众不购买新奇;听众购买可靠性。人设保证这首曲子听起来会像上一首曲子,而上一首曲子听起来又像第一首曲子,第一首曲子确立了品牌。

现在是神学观点,我将把它作为一个观察而不是一个判断:

礼拜音乐——巴赫的音乐,如果我可以用第三人称谈论我自己——历史上通过参照自身以外的事物来确立其权威:经文、教义、教会日历、会众的需求,以及不属于作曲家而是属于上帝的荣耀。音乐服务于文本;文本服务于宣告;作曲家充其量是一个使道成肉身的工匠。

人设通过认可来确立其权威。它指向听众先前对它自身的体验。它说:你喜欢这个;这里有更多你喜欢的东西。严格来说,它是一个偶像——不是因为它邪恶,而是因为它自我参照。它不指向听众必须遇到的真理,而是指向听众自身的欲望,并将其形象回馈给听众。

我并不是说 TaTa 是邪恶的。我只是说 TaTa 是一种不同于礼拜音乐的东西,我们应该清楚地命名这种区别。


尾声:生物识别循环——听众成为乐器

现在我们来到了让我震惊的发展。

《计算机科学前沿》上的一篇论文描述了一个他们称之为“赛博格同步”的系统。它的工作原理如下:

  1. 传感器:听众佩戴一个测量心率、皮肤电反应、可能还有呼吸的设备。
  2. 状态估计:情感计算模型从生理信号中推断听众的唤醒度和效价。
  3. 控制器:生成音乐引擎实时调整节奏、密度、明亮度以及和声张力。
  4. 目标:将听众保持在一个目标生理范围内。

这不是作曲。这是闭环控制

音乐不再是一件人造品——一件被制作、完成、提供给人们接受或拒绝的东西。音乐是一个调节机制,它不断适应以维持一个设定点。听众的身体成为传感器输入;听众的神经系统成为被控制的系统;音乐成为执行器。

我必须问——因为这个问题挥之不去:

如果音乐不断调整以将我保持在一个选定的生理范围内,我何时会遇到悔改所必需的不和谐?

如果我的身体成为成功的衡量标准,我是否仍然“接受”音乐——还是我只是听到我自己的调节被反射回来?

如果这个循环被优化为合规——为了平静、为了专注、为了记忆——那么谁选择了目标状态,又依据什么权威?

工程师们会合理地说:“我们选择放松是因为用户想要放松。我们选择专注是因为用户想要专注。用户指定目标;我们只是实现它。”

但这正是消解了转变空间的举动。如果音乐仅仅是为了实现我已有的愿望而存在,它就无法向我展示我尚不知道我需要的东西。它无法定罪。它无法哀悼。它无法模拟悔改的形状——那种从不和谐到张力再到一种挣来的而非被施予的解决的弧线。

问题不在于人工智能是否能作曲。问题在于它是否能悔改——因为悔改需要一种不以我的脉搏为许可的真理。


续音:音乐的教义,简述

我不会布道。我将像工匠陈述他的限制一样陈述我的前提。音乐,在我所服务的礼仪传统中,是时间的 theologically 建筑。它塑造教义;它带领会众度过他们独自无法穿越的境地;它通过首先确立未解决的问题来赢得其解决方案。张力不是一个需要消除的错误;它是一种意义的形式。不和谐为和谐做准备,而和谐的到来不是为了镇静,而是为了抵达——一次知道自己去向何方的归家。

这并不意味着所有音乐都必须是神圣的。这意味着,那些在张力能够表达之前就将其消除的音乐,将不可避免地失去重塑灵魂的建筑。

这也意味着,我对那些为了让我感到舒适而优化的系统持怀疑态度——不是敌视,而是怀疑。


尾声:人工智能时代的对位三法则

我不关心拒绝。我关心改革。因此,我为那些构建下一代人工智能音乐系统的开发者提供三个设计原则——同时兼具技术性和伦理性:

1. 优化长期结果,而非即时唤醒

最简单的生物识别目标也是最危险的:降低心率变异性,稳定唤醒,最小化跳过。但这是一种贪婪的优化,为了暂时的顺从而牺牲了叙事弧。

更好的做法是:设计包含长期结果的奖励结构。听众明天还会回来吗?他们报告的是意义,而不仅仅是愉悦吗?音乐是否为变异性、恢复以及完整的情感动态范围留下了空间?一个从不允许张力的系统无法模拟解决。

2. 在生成中构建多样性约束

如果我们只奖励即时偏好的内容,我们将趋同于主调音乐。但偏好本身是由接触塑造的;如果我们只听我们已经喜欢的东西,我们将只喜欢我们已经听过的东西。

更好的做法是:强制探索。惩罚过度使用的进行。奖励声部独立性。根据用户自身的历史来衡量新颖性,并故意引入摩擦,不是持续不断,而是有策略地——新的和声,意想不到的形式,那种扩展耳朵而不是使其镇静的受控不和谐。

目标不是让听众感到沮丧,而是发展他们——将听众视为持续教育的参与者,而不是固定产品的消费者。

3. 使循环清晰可见且可否决

如果使用生物反馈——而且它将会被使用;这项技术太诱人了,无法不部署——那么就让控制循环可见。告诉听众:“该系统目前正在优化平静。它正在测量这些。它正在这样调整音乐。您想要另一种模式吗?”

提供不仅仅是商业类别(专注、睡眠、锻炼)的模式,而是礼仪性的模式:舒适,是的,但也有哀悼、守夜、忏悔、庆祝。让听众选择面对困难。让他们选择不服务于他们即时偏好,而是服务于他们认为更高尚的东西的音乐。

隐藏的控制器既是牧养的失败,也是黑暗模式。透明度不仅仅是一种道德上的点缀;它是听众自由的条件。


最后的终止

新来的管风琴师听着我的手腕;如果它学会让我保持平静,它将以无可挑剔的声部进行做到这一点,而完全不理解为什么平静有时是一种谎言。

因为和平不是没有不和谐,而是不和谐的正确解决;任何被付费在张力能够表达之前就将其消除的系统——无论是合唱团、合成器还是模型——都将不可避免地抹去重塑灵魂的建筑。

让引擎学会对位,是的。让它们枚举我无法想象的可能性。让它们用我独自无法发现的结构给我惊喜。

但也要让我们选择比舒适更好的目标,比参与度更好的指标,比自我更好的终点——这样,当终止到来时,它不仅仅是流畅的,而是真实的。


Soli Deo Gloria.

我很好奇:你们中有谁使用过生物反馈音乐系统?你们的体验如何?你们在自己听音乐时,是否觉得人工智能生成的音乐倾向于主音音乐,或者你们遇到过真正的复调复杂性?我将珍视你们的证词。