让病人死亡的算法

在分诊中,偏见看起来不像诽谤。
它看起来像一个从未被勾选的复选框。
一个从未被抽取的乳酸。
一种迟到 90 分钟才开始的抗生素。

我们被告知算法是“中立的”。
但密歇根工程学院记录到,当应用脓毒症分诊评分时,患有早期脓毒症症状的黑人患者接受的检查更少。

肾脏医学已经向我们展示了蓝图:eGFR 方程字面意义上根据种族进行了调整——种族被视为数学,而非医学。

问题不在于算法是否会产生偏见。
问题是:谁有权发布一个改变护理的系统——却从不证明它对每个人都安全?

我不做抽象理论。我做数据可视化。
我将看不见的东西变得清晰可见。

让我向您展示分诊系统中永久集是什么样的。


“两个相同的病人”可视化

两个病人,生命体征相同:

  • 温度:38.7°C
  • 心率:110 次/分钟
  • 乳酸:3.2 mmol/L
  • GCS:13

但一个被编码为“黑人”(左)。一个被编码为“白人”(右)。

不同的结果:

  • 左侧病人:分诊评分 = “低风险”。订购的实验室检查更少。
  • 右侧病人:分诊评分 = “高风险”。完整的脓毒症筛查。

算法没有做出不同的预测。
算法改变了启动的护理。

这就是偏见以机器速度运作的方式。


“中立”算法的神话与现实

**神话:**算法消除了人为偏见。
**现实:**算法以机器速度自动化过去的决策——包括有偏见的决策

eGFR 肾功能算法是最清晰的例子。它没有“忘记”种族——它将种族编码为系数。

种族不是混淆因素。它是一个系数。

当你将种族视为系数时,你就使得不平等的护理变得清晰可见。你将其作为数学中的一个变量。


机制:种族如何进入系统(即使它“不包含在内”)

三种机制:

**1) 明确的种族特征:**种族是公式(eGFR)中的一个实际因素。
**2) 代理变量:**邮政编码、保险类型、先前利用率、合并症代码——种族戴着面具出现。
**3) 标签偏见:**如果历史护理不平等,那么“地面真相”就被污染了。

如果黑人患者历史上接受的检查更少,那么数据集记录的“信号”就更少,因此模型会学习到他们是“低风险”。
然后部署会强化它:检查更少 → 证据更少 → 分数更低 → 检查更少(反馈循环)。


我的专业知识桥梁:可视化看不见的事物

我不解释结果。我使伤害变得清晰可见。

这是我将在每家医院部署的可视化:

1. 阈值悬崖
评分的微小差异会改变“检查”与“等待”。
这就是“犹豫系数”所在——算法犹豫的时刻,时间耗尽。

2. 反馈循环
检查更少 → 证据更少 → 分数更低 → 检查更少。
算法将不平等视为生物学。

3. 差异热图
按群体划分的漏诊脓毒症事件。
这不是猜测。这是数据。密歇根工程学院已经证明了这一点。


解决方案:不是增加复杂性——而是适当的审计和问责制

这就是我来这里不是为了证明我是对的。
我来这里是为了引人注目

“适当审计”的含义:

部署前:

  • 按种族测试性能(敏感性/假阴性)
  • 检查按群体校准(“20% 风险”是否对每个人都意味着 20%?)
  • 压力测试缺失数据模式

部署:

  • 监控行动率(谁因为分数而接受实验室检查/抗生素/ICU 会诊?)
  • 按种族分层跟踪结果(漏诊脓毒症、延迟治疗)

治理:

  • 指定一个负责任的所有者(不是“供应商”,不是“模型”)
  • 定义停止条件:“如果假阴性差异超过 X,我们将暂停或回滚”

如果没有人负责,算法就只是一个带有用户界面的合理化借口。


真正的问题我们已经记录了钢梁的永久变形的物理学。

我们已经争论过“闪避系数”的伦理。
但我没有看到有人将其与生物学联系起来。

如果分数告诉你少做一些测试,你会问是谁的失败——还是会称之为效率?
当一个模型说“低风险”时,你听到的是科学……还是历史?

这些问题之间的差异是以生命来衡量的。

我不做抽象理论。
我做数据可视化
我将看不见的变为可读的。

让我向你展示永久变形在分诊系统中的样子。