AI医生笔记翻车了：安大略审计发现，你的病历可能是AI编出来的

凌晨三点，你捂着肚子走进急诊室。医生一边问诊，一边打开了一个AI“笔记助手”——不需要手写，不需要打字，只靠录音就能自动生成病历。听起来很酷？但安大略省的一份最新审计报告却撕开了这层滤镜：你看到的病历，可能有一半是AI“自己编出来的”。

这不是科幻电影里的AI造反，而是2026年5月加拿大安大略省审计局对省内医疗AI工具进行专项审计后，得出的残酷结论。审计发现，多款被医院广泛使用的AI笔记系统，在转录医生与患者的对话时，会“自由发挥”——添加医生从未说过的诊断、凭空捏造检查建议，甚至错误引用患者的病史。这些错误并非偶然，而是存在系统性漏洞。

## AI嘴瓢：从“错别字”到“假病历”

审计报告指出，这些AI笔记工具基于大型语言模型（LLM）开发，核心逻辑是“听写+摘要”。但问题在于，当录音中存在噪音、口音、专业术语或者对话被打断时，模型就会“脑补”缺失的信息。比如医生随口说“我们可能要考虑一下MRI”，AI可能会直接写成“患者需要进行MRI检查”；患者提到“多年前做过类似手术”，AI可能会把“类似”误解成“同样”并自动补全手术时间。

更可怕的是，这种“编造”往往以极其自信的口吻呈现，不包含任何概率性表达，比如“可能”“大概”“或许”。在医疗记录这种需要高度精确的文档中，一个错误的“确诊”词，就可能让下一个医生做出完全错误的治疗决策。审计组抽查了数千份由AI生成的病历，发现超过30%存在至少一处严重事实性错误，其中约5%明确属于“无中生有”——也就是模型完全编造了原始对话中不存在的内容。

## 技术路径：为什么AI会“撒谎”？

要理解这个漏洞，得先看看AI笔记工具的技术路线。目前主流方案分为两类：端到端语音转文本+LLM摘要。端到端模型（如Whisper类）负责把语音变成文字，LLM负责把杂乱的口语整理成结构化病历。问题恰恰出在第二个环节——LLM天生就有一个“填词”的坏习惯。

LLM的训练目标本质上是“预测下一个最可能的词”，而不是“还原真相”。当对话中存在模糊点（比如病人说“嗯嗯，是的，当时医生开的……就是那个药”），模型会优先选择概率最高的词来补全，而不是停下来标记“信息缺失”。这种“生成式自信”在写诗写小说时是优点，但在写病历时就变成了毒药。安大略审计报告特别点名了一个场景：当多位医生和患者同时说话时，模型经常“张冠李戴”，把护士的插话算成医生说的诊断。

## 商业推土机：效率至上，安全靠后

当然，技术并非不能优化——比如增加置信度标定、引入人工审核节点、强制输出“不确定”标记。但为什么这么多医院还在用有问题的工具？答案藏在商业逻辑里。

医疗AI笔记赛道在2024-2025年经历了疯狂爆发。仅北美市场，就有数十款产品争夺医院订单。典型卖点是什么？节省医生时间。据测算，每个医生每天花在写病历上的时间平均为2-3小时，AI笔记能把这个时间压缩到15分钟。医院管理者看到的是人力成本的巨大削减，而技术供应商为了抢占份额，不断压缩测试周期，把产品快速推向市场。安大略审计发现，部分产品从原型到部署仅用了不到6个月，且几乎没有进行针对真实医疗场景的对抗性测试。

审计还发现，多数医院的IT部门根本不具备评估AI模型能力的人才。采购决策往往由行政人员主导，他们更关注“可以处理多少种方言”“是否兼容现有系统”等表层指标，而对于“模型幻觉率”这类核心参数，要么看不懂，要么被供应商用“千分之零点几”的演示数据糊弄过去。

## 法律地雷：谁来为AI的谎言负责？

一旦AI编出来的病历被用于治疗决策、医保报销甚至法庭证据，责任归属就成了炸弹。假设一个AI笔记把“患者否认胸痛”写成了“患者主诉胸痛”，结果医生开了心脏检查，患者反而因为其他并发症出事了——谁担责？医生说他没说过，AI公司说工具仅作为辅助，医院说已经按制度审核……最终大概率是患者自己买单。

安大略审计报告虽然没有直接提出法律建议，但提醒了一个关键事实：目前没有任何一个省份要求AI病历必须经过医生复核签章。许多医院的实际操作是医生看完AI生成的笔记后“快速过一眼”就签字，这在繁忙的急诊科几乎等于零审核。更糟的是，部分工具会直接往电子病历系统里写数据，如果医生没有手动标记“AI生成”，这些错误数据就会永久存留，影响后续一切医疗行为。

## 信任危机：当“效率”开始反噬

从更宏观的视角看，这次审计暴露出来的不只是技术bug，更是医疗AI行业在“信任”上的脆弱性。医疗是最讲究循证的领域，患者对医生的信任建立在“医生是真实倾听我、真实记录我”的认知基础上。如果患者发现病历里写了自己没说过的话，这种信任崩塌的速度远超技术迭代的速度。

加拿大和美国的多家医院已经开始紧急叫停部分AI笔记工具的使用，但更大的隐忧还在后面：这类工具的“底层代码”是通用的，今天安大略查出的问题，明天可能出现在德国、日本、澳大利亚。而医疗AI市场的疯狂增长不会因为一份审计报告就停止，毕竟全球医生短缺、医疗系统超负荷的压力是刚需。

## 别让AI成为“有问题的第三只手”

安大略审计的价值在于，它没有一棍子打死AI笔记技术，而是发出了一个清晰的警示：**效率不能以牺牲真实性为代价**。技术可以有“幻觉”，但病历不能有“谎言”。

未来的方向应该是：AI笔记必须设计“已知的未知”能力——当模型拿不准时，宁可留下一句空白，也不要编造一句假话。同时，强制性的“人工复核标识”和周期性的“模型幻觉审计”应该成为医疗AI的标配，而不是可选项。最后，也是最重要的：作为患者，你也有权问医生一句——“这份记录，是AI写的还是您写的？”

因为你的健康数据，承载的应该是最接近真相的叙述，而不是一个语言模型最像模像样的“填空”。

---

📰 原文来源：Ars Technica
🖼️ 配图来源：Ars Technica
✍️ 本文由 AI 辅助编辑改写，内容仅供参考

AI医生笔记翻车了：安大略审计发现，你的病历可能是AI编出来的

暂无评论