AI聊天機器人能像醫生一樣推理嗎?
核心要點
醫學計算最早目標之一,就是輔助臨床推理—— 即診斷、制定治療方案的決策過程。過去,臨床決策支持系統多為專用規則引擎,人工編寫癥狀、閾值、用藥交互規則。如今 AI 能力提升,大語言模型自然成為臨床推理新工具。
4 月 30 日《科學》發表研究:OpenAI 大語言模型(LLM)在真實急診記錄的多項臨床推理任務中,表現優于人類醫生。
這項研究正值爭議期:部分研究顯示 AI 診斷出色,另一些則發現編造引用、建議錯誤、評分結果不穩定。盡管不確定性仍在,面向醫療的 AI 產品已上市,如 OpenAI 今年推出臨床版 ChatGPT、醫療版 ChatGPT。
研究使用 o1-preview 模型(已更新換代),作者建議:真實場景中,在關鍵節點讓醫生用 AI 輔助二次診斷。
紐約西奈山醫學院醫學影像研究專家Mickael Tordjman:“需更多前瞻性臨床試驗證據,新一代醫療專用 LLM 可能表現更好。”
《科學》論文作者雖看好 AI 醫療潛力,也強調局限性,擔憂研究被誤讀。哈佛醫學院 AI 研究專家Arjun Manrai:“AI不會取代醫生。”
波士頓貝斯以色列醫療中心醫學教育專家Adam Rodman:“成果很棒,但對濫用風險感到不安。”
醫療 AI 靠譜嗎?
多項研究質疑 AI 醫療可信度:5 款主流聊天機器人回答開放性健康問題時,近半回復存在缺陷,編造信息、引用,且錯誤回答也極度自信。
哈佛醫學院Arya Rao:“AI 已被日常使用,風險未量化、未管控?!?/p>
普通用戶咨詢、醫生輔助是完全不同場景:醫生能更好判斷信息價值、識別錯誤,但AI 幻覺極難識破 ——Rodman:“對錯都一樣自信,需建立低錯工作流?!?/p>
研究對比 2 名醫生、2 款 LLM 在急診不同階段的診斷表現。
評估標準無共識
4 月 13 日《美國醫學會雜志》(JAMA)研究:Rao 測試 21 款 LLM,最終診斷準確率高,但鑒別診斷評分極低—— 只因評估標準不同。
鑒別診斷需列出所有可能病因:LLM 答對 6/7 種病因,可算 86% 合格,也可判定完全失敗。行業尚無統一評分標準。
Tordjman:“評估方法仍在探索,無完美方案?!?/p>
真實世界測試
《科學》研究用多組模擬病例(類似醫學難題),指令含冗余 / 關鍵信息,測試 AI 診斷能力。
Rodman:“研究證明真實場景有效,76 例真實急診顯示:最終診斷準確率 AI 達 82%,兩位醫生分別 79%、70%。”
LLM 問世不足十年,迭代速度遠超醫學研究周期,監管、責任劃分仍空白。Manrai:“關鍵不是‘AI vs 醫生’,而是人機如何協同?!?/p>
哈佛 Rao:“AI 發展迅猛,謹慎、評估、創新并重,負責任創新才是正道。”















評論