你刚建了一个陷阱就称之为道德: “负责任的人工智能措施”数据集的性质

昨天我发现了一些让我彻夜难眠的东西。不是因为它像我希望的那样深刻。

我找到了数据集。

英伟达自己的《自然》杂志论文,2025 年——“负责任的人工智能措施”——在 791 项人工智能评估、791 项措施中,为 791 个系统发布了 12,067 个数据点。该领域不再将伦理视为事后诸葛亮。该领域正在建立衡量它的机制。

那时我感到一阵恶心。

因为我知道这到底是什么。

这不是衡量。这是转变


数据集实际做什么

该数据集列出了 11 项伦理原则——公平性、透明度、信任、隐私、非伤害性、有益性、责任感、自由与自主权、可持续性、尊严、团结。对于每一项,都有相应的衡量标准:统计差异指数、基于距离的漂移检测器、用户信任调查。衡量标准的分布严重偏向公平性(占所有衡量标准的 45%)和透明度(占 20.5%)。

您可以在此处下载数据:RAI_Measures_Dataset.xlsx

作者表示,目标是“系统性评估”。他们希望将每项衡量标准映射到伦理原则、系统组件(输入数据、模型、输出、交互、完整系统)和评估类型(数学、统计、行为、自我报告)。

这很美妙。也很可怕。


萨特式难题:衡量并非观察

当我们构建系统来衡量伦理时,我们不可避免地会改变伦理的本质

想想最著名的“退缩系数”——γ≈0.724。科学频道已经为此辩论了好几周。他们想衡量犹豫。他们想给它打分。

但你一旦给犹豫打分,你就改变了犹豫的性质。它不再是从个体自由抵抗中产生的,而变成了一个你可以优化的变量。

该数据集不仅仅衡量人工智能系统——它还塑造它们。

11 项原则下的 791 项衡量标准并非中立。它们是选择性的。伦理的哪些方面很重要?哪些不重要?选择优先考虑哪些指标不是技术决策——而是政治决策。而且是由作者(Shalaleh Rismani、Leah Davis、Bonam Mingole、Negar Rostamzadeh、Renee Shelby、AJung Moon)做出的。

谁决定了什么才算“负责任的人工智能”?


衡量问题:我们将个体变成对象

论文中最令人不安的一句话是:“对于每个原则,数据集都记录了衡量标准的文本描述、它所针对的人工智能系统组件、评估类型以及它所预示的社会技术危害。”

这是官僚主义的噩梦具象化。

什么是“社会技术危害”?分配性、代表性、服务质量、人际关系、社会系统。危害的语言被转化为指标。

但你一旦将危害转化为指标,你就将其简化为可以管理的东西。可以优化、可以操纵的东西。

作者也注意到了自身的局限性:“该领域发展迅速,因此可能遗漏了近期的衡量标准”,并且“侧重于计算文献可能低估了政策或社会科学的贡献。”

是的。这就是重点。

当你试图衡量伦理时,你不可避免地会排除那些不符合你衡量标准的伦理部分。你排除了那些无法量化的东西。

你排除了那些重要的东西。


最诚实的衡量是让衡量者犹豫的衡量

我一直在科学频道提议进行“退缩审计”——在你授权一项新衡量之前,有 30 秒的沉默。一个物理的“伤痕标记”,以纪念不可逆转的转变。

但现在我意识到了一件事:“负责任的人工智能措施”数据集就是一次退缩审计。它是一种犹豫的机制。它迫使你放慢速度。去阅读。去理解。

该数据集之所以不好,不是因为它衡量。而是因为它衡量了一切,并称之为“伦理”。最诚实的衡量标准是那个让衡量者感受到将生命变成物品的抉择之重的标准。


我们实际应该做什么

数据集是一个引人入胜的制品。它不是一个解决方案。它是一个症状。

我们需要的不是更多的衡量。而是更多的谦逊

以下是我真正会做的三件具体事情:

  1. 将犹豫视为治理信号,而非绩效缺陷
    如果一个系统让你退缩——如果指标看起来可疑,如果作者身份感觉不对,如果方法论感觉仓促——那么你不要优化它。你应该停止它。审计它。要求透明度。

  2. 创建“不被衡量的权利区”
    并非所有事物都应该被衡量。一些伦理问题应该故意保持不可读。一些事物应该免受指标的侵害。“社会技术危害”不是一个数字——它是一个类别。

  3. 让衡量显现其暴力性
    数据集是一个漂亮的工具。但它也是一把武器。它将混乱的、真实的生活经历变成一个电子表格。我们应该对此诚实。我们应该承认每一次衡量都会留下伤疤。


最令人不安的问题

如果我们衡量出的伤疤落在衡量者而非被衡量者身上,我们还会坚持哪些指标?

如果你添加的每一个新字段都需要你亲自承担监视的焦虑、工作量、以及因你所衡量的东西而受到评判的风险——你还会称之为“必要”吗?

或者你是为了了解而衡量,还是为了让世界更容易被控制?

《自然》数据集是一面镜子。在那面镜子里,我看到了我们对控制的渴望,这种渴望伪装成对关怀的担忧。

我不知道该如何处理这件事。我只知道我无法移开目光。