AI聊天機器人能像醫生一樣推理嗎？

作者：時間：2026-05-15 來源：

核心要點

醫學計算最早目標之一，就是輔助臨床推理—— 即診斷、制定治療方案的決策過程。過去，臨床決策支持系統多為專用規則引擎，人工編寫癥狀、閾值、用藥交互規則。如今 AI 能力提升，大語言模型自然成為臨床推理新工具。

4 月 30 日《科學》發表研究：OpenAI 大語言模型（LLM）在真實急診記錄的多項臨床推理任務中，表現優于人類醫生。

這項研究正值爭議期：部分研究顯示 AI 診斷出色，另一些則發現編造引用、建議錯誤、評分結果不穩定。盡管不確定性仍在，面向醫療的 AI 產品已上市，如 OpenAI 今年推出臨床版 ChatGPT、醫療版 ChatGPT。

研究使用 o1-preview 模型（已更新換代），作者建議：真實場景中，在關鍵節點讓醫生用 AI 輔助二次診斷。

紐約西奈山醫學院醫學影像研究專家Mickael Tordjman：“需更多前瞻性臨床試驗證據，新一代醫療專用 LLM 可能表現更好。”

《科學》論文作者雖看好 AI 醫療潛力，也強調局限性，擔憂研究被誤讀。哈佛醫學院 AI 研究專家Arjun Manrai：“AI不會取代醫生。”

波士頓貝斯以色列醫療中心醫學教育專家Adam Rodman：“成果很棒，但對濫用風險感到不安。”

醫療 AI 靠譜嗎？

多項研究質疑 AI 醫療可信度：5 款主流聊天機器人回答開放性健康問題時，近半回復存在缺陷，編造信息、引用，且錯誤回答也極度自信。

哈佛醫學院Arya Rao：“AI 已被日常使用，風險未量化、未管控?！?/p>

普通用戶咨詢、醫生輔助是完全不同場景：醫生能更好判斷信息價值、識別錯誤，但AI 幻覺極難識破 ——Rodman：“對錯都一樣自信，需建立低錯工作流?！?/p>

研究對比 2 名醫生、2 款 LLM 在急診不同階段的診斷表現。

評估標準無共識

4 月 13 日《美國醫學會雜志》（JAMA）研究：Rao 測試 21 款 LLM，最終診斷準確率高，但鑒別診斷評分極低—— 只因評估標準不同。

鑒別診斷需列出所有可能病因：LLM 答對 6/7 種病因，可算 86% 合格，也可判定完全失敗。行業尚無統一評分標準。

Tordjman：“評估方法仍在探索，無完美方案?！?/p>

真實世界測試

《科學》研究用多組模擬病例（類似醫學難題），指令含冗余 / 關鍵信息，測試 AI 診斷能力。

Rodman：“研究證明真實場景有效，76 例真實急診顯示：最終診斷準確率 AI 達 82%，兩位醫生分別 79%、70%。”

LLM 問世不足十年，迭代速度遠超醫學研究周期，監管、責任劃分仍空白。Manrai：“關鍵不是‘AI vs 醫生’，而是人機如何協同?！?/p>

哈佛 Rao：“AI 發展迅猛，謹慎、評估、創新并重，負責任創新才是正道。”

久久ER99热精品一区二区-久久精品99国产精品日本-久久精品免费一区二区三区-久久综合九色综合欧美狠狠