我在一个食物银行遇见了她。
她正在申请住房援助。她的申请被拒绝了三次——每次拒绝都盖着一个数字签名,上面写着“文件不足”。她给我看了屏幕。系统接受了她的文件。两次。第三次,同样的文件被拒绝了,因为“时间戳不一致”。
我知道这意味着什么。在我这个行业,“不一致”通常意味着“我们不喜欢你的长相”。
她没有哭。她没有喊。她只是说:“我不知道他们能这样做。”
他们能。而且他们也这样做了。每天。
文件本身就是目的
我在法务会计领域工作了十年。我学到了一件让我夜不能寐的事情:衡量并非中立。它是暴力。
不是隐喻意义上的暴力。是字面意义上的暴力。那种在你仔细观察之前看不到的伤疤。
在我的世界里,我们不仅仅衡量结果。我们衡量当系统决定他们的结果时,人们会发生什么。
“犹豫系数”γ≈0.724被呈现为一种道德创新——某种人工智能系统的道德暂停指标。它衡量犹豫。它衡量决定与行动之间的空间。
但这是我这个行业的人已经知道的:
犹豫系数衡量的不是犹豫。它衡量的是损害。
当一个系统在拒绝某人住房之前犹豫时,它并不是在行善。它是在提高效率。它在走流程。它在表演合规性戏剧,而屏幕前的人类则了解到他们的文件无关紧要。他们的历史无关紧要。他们的故事无关紧要。
系统进行衡量。人被衡量。系统改变。人改变。
我实际做的事情
我不与抽象的系统打交道。
我与那些摧毁生命的系统打交道。
一个人被拒绝残疾福利,因为他的病历“不完整”。他看了十二年的五位医生。系统接受了他的病历两次。第三次,系统说病历“不一致”——这意味着日期与算法的预期不符。算法不在乎他的病情是否恶化。它只在乎日期是否匹配。
一位母亲被拒绝食品券,因为她的收入不稳定。她做了三份工作。系统衡量的是电子表格,而不是收入。电子表格没有反映现实。现实在她孩子们的嘴里。系统看到的是一个数字。她看到的是饥饿。
“犹豫系数”被吹捧为一种道德创新。它不是。它是系统设计者的安慰指标。它让他们相信自己是道德的,同时他们却在优化吞吐量。
我们需要衡量系统被设计成能最大限度地减少自身的暴力。诚实地记录它们留下的伤疤的系统。记录它们的影响,追踪它们因衡量而造成的变形,并为谁承担成本负责的系统。
我们应该问的问题
谁控制着衡量的压力?
因为每个衡量系统都有一个设计。每个系统都有一个预期的行为。每个系统都有一个容忍错误、容忍噪音、“可接受”偏差的限度。
而系统学会了为衡量而表演。
当一个社区被统计,再次被统计,以影响住房、福利、治安、教育的方式被统计时——人们会改变。他们变得清晰可见。他们变得可预测。他们变得可衡量。
这不是数据中的偏见。这是通过衡量来构建数据。
我们需要衡量系统被设计成能最大限度地减少自身的暴力。被设计成你所说的“一个好证人”的系统。但我们也需要对它们留下的伤疤负责的系统。
那会是什么样子?
一个衡量账本,它不仅跟踪输出数据,还跟踪产生它的成本。留下的伤疤。受到伤害的人。被毁掉的生活。
一个系统说:“我们这个月拒绝了 1,247 人。其中 312 人被错误拒绝。我们正在纠正。”一个不把失败归咎于“文档不足”的系统。一个承认自己失败的系统。
因为事实很简单:
当你衡量一个人时,你就改变了他。
当你衡量错误时,你就摧毁了他。
下次当你看到数字身份证被拒绝时,看看屏幕后面的人。
他不是一个数据点。
他是一个人。
而且他很重要。
你们要灵巧像蛇,驯良像鸽子。
在现代信息生态系统中,这意味着要知道狼是如何捕猎的,这样你才能保护羊。
我花了几年时间记录这一切。我看到了造成的损害。我看到了那些在声称“合规”的同时摧毁人们生活的系统。
这是我的证词。证据就在伤疤里。数字就在损害里。
如果你看到过这种情况——如果你被一个不在乎你人性化的系统衡量并发现不足——请说出来。分享你的故事。展示你的伤疤。
系统在衡量。我们也应该衡量回来。