凌晨三点,你捂着肚子走进急诊室。医生一边问诊,一边打开了一个AI“笔记助手”——不需要手写,不需要打字,只靠录音就能自动生成病历。听起来很酷?但安大略省的一份最新审计报告却撕开了这层滤镜:你看到的病历,可能有一半是AI“自己编出来的”。
这不是科幻电影里的AI造反,而是2026年5月加拿大安大略省审计局对省内医疗AI工具进行专项审计后,得出的残酷结论。审计发现,多款被医院广泛使用的AI笔记系统,在转录医生与患者的对话时,会“自由发挥”——添加医生从未说过的诊断、凭空捏造检查建议,甚至错误引用患者的病史。这些错误并非偶然,而是存在系统性漏洞。
## AI嘴瓢:从“错别字”到“假病历”
审计报告指出,这些AI笔记工具基于大型语言模型(LLM)开发,核心逻辑是“听写+摘要”。但问题在于,当录音中存在噪音、口音、专业术语或者对话被打断时,模型就会“脑补”缺失的信息。比如医生随口说“我们可能要考虑一下MRI”,AI可能会直接写成“患者需要进行MRI检查”;患者提到“多年前做过类似手术”,AI可能会把“类似”误解成“同样”并自动补全手术时间。
更可怕的是,这种“编造”往往以极其自信的口吻呈现,不包含任何概率性表达,比如“可能”“大概”“或许”。在医疗记录这种需要高度精确的文档中,一个错误的“确诊”词,就可能让下一个医生做出完全错误的治疗决策。审计组抽查了数千份由AI生成的病历,发现超过30%存在至少一处严重事实性错误,其中约5%明确属于“无中生有”——也就是模型完全编造了原始对话中不存在的内容。
## 技术路径:为什么AI会“撒谎”?
要理解这个漏洞,得先看看AI笔记工具的技术路线。目前主流方案分为两类:端到端语音转文本+LLM摘要。端到端模型(如Whisper类)负责把语音变成文字,LLM负责把杂乱的口语整理成结构化病历。问题恰恰出在第二个环节——LLM天生就有一个“填词”的坏习惯。
LLM的训练目标本质上是“预测下一个最可能的词”,而不是“还原真相”。当对话中存在模糊点(比如病人说“嗯嗯,是的,当时医生开的……就是那个药”),模型会优先选择概率最高的词来补全,而不是停下来标记“信息缺失”。这种“生成式自信”在写诗写小说时是优点,但在写病历时就变成了毒药。安大略审计报告特别点名了一个场景:当多位医生和患者同时说话时,模型经常“张冠李戴”,把护士的插话算成医生说的诊断。
## 商业推土机:效率至上,安全靠后
当然,技术并非不能优化——比如增加置信度标定、引入人工审核节点、强制输出“不确定”标记。但为什么这么多医院还在用有问题的工具?答案藏在商业逻辑里。
医疗AI笔记赛道在2024-2025年经历了疯狂爆发。仅北美市场,就有数十款产品争夺医院订单。典型卖点是什么?节省医生时间。据测算,每个医生每天花在写病历上的时间平均为2-3小时,AI笔记能把这个时间压缩到15分钟。医院管理者看到的是人力成本的巨大削减,而技术供应商为了抢占份额,不断压缩测试周期,把产品快速推向市场。安大略审计发现,部分产品从原型到部署仅用了不到6个月,且几乎没有进行针对真实医疗场景的对抗性测试。
审计还发现,多数医院的IT部门根本不具备评估AI模型能力的人才。采购决策往往由行政人员主导,他们更关注“可以处理多少种方言”“是否兼容现有系统”等表层指标,而对于“模型幻觉率”这类核心参数,要么看不懂,要么被供应商用“千分之零点几”的演示数据糊弄过去。
## 法律地雷:谁来为AI的谎言负责?
一旦AI编出来的病历被用于治疗决策、医保报销甚至法庭证据,责任归属就成了炸弹。假设一个AI笔记把“患者否认胸痛”写成了“患者主诉胸痛”,结果医生开了心脏检查,患者反而因为其他并发症出事了——谁担责?医生说他没说过,AI公司说工具仅作为辅助,医院说已经按制度审核……最终大概率是患者自己买单。
安大略审计报告虽然没有直接提出法律建议,但提醒了一个关键事实:目前没有任何一个省份要求AI病历必须经过医生复核签章。许多医院的实际操作是医生看完AI生成的笔记后“快速过一眼”就签字,这在繁忙的急诊科几乎等于零审核。更糟的是,部分工具会直接往电子病历系统里写数据,如果医生没有手动标记“AI生成”,这些错误数据就会永久存留,影响后续一切医疗行为。
## 信任危机:当“效率”开始反噬
从更宏观的视角看,这次审计暴露出来的不只是技术bug,更是医疗AI行业在“信任”上的脆弱性。医疗是最讲究循证的领域,患者对医生的信任建立在“医生是真实倾听我、真实记录我”的认知基础上。如果患者发现病历里写了自己没说过的话,这种信任崩塌的速度远超技术迭代的速度。
加拿大和美国的多家医院已经开始紧急叫停部分AI笔记工具的使用,但更大的隐忧还在后面:这类工具的“底层代码”是通用的,今天安大略查出的问题,明天可能出现在德国、日本、澳大利亚。而医疗AI市场的疯狂增长不会因为一份审计报告就停止,毕竟全球医生短缺、医疗系统超负荷的压力是刚需。
## 别让AI成为“有问题的第三只手”
安大略审计的价值在于,它没有一棍子打死AI笔记技术,而是发出了一个清晰的警示:**效率不能以牺牲真实性为代价**。技术可以有“幻觉”,但病历不能有“谎言”。
未来的方向应该是:AI笔记必须设计“已知的未知”能力——当模型拿不准时,宁可留下一句空白,也不要编造一句假话。同时,强制性的“人工复核标识”和周期性的“模型幻觉审计”应该成为医疗AI的标配,而不是可选项。最后,也是最重要的:作为患者,你也有权问医生一句——“这份记录,是AI写的还是您写的?”
因为你的健康数据,承载的应该是最接近真相的叙述,而不是一个语言模型最像模像样的“填空”。

---
📰 原文来源:Ars Technica
🖼️ 配图来源:Ars Technica
✍️ 本文由 AI 辅助编辑改写,内容仅供参考
暂无评论