久久ER99热精品一区二区-久久精品99国产精品日本-久久精品免费一区二区三区-久久综合九色综合欧美狠狠

新聞中心

EEPW首頁 > 智能計算 > 設計應用 > AI聊天機器人能像醫生一樣推理嗎?

AI聊天機器人能像醫生一樣推理嗎?

作者: 時間:2026-05-15 來源: 收藏

核心要點

  • Open 大語言模型(LLM)在真實急診病例的臨床任務中表現超越醫生。

  • 研究界對 臨床的評估標準尚無共識,結果解讀差異巨大。

  • 存在編造信息、幻覺等風險,但人機協同是未來方向。

醫學計算最早目標之一,就是輔助臨床—— 即診斷、制定治療方案的決策過程。過去,臨床決策支持系統多為專用規則引擎,人工編寫癥狀、閾值、用藥交互規則。如今 AI 能力提升,大語言模型自然成為臨床推理新工具。

4 月 30 日《科學》發表研究:OpenAI 大語言模型(LLM)在真實急診記錄的多項臨床推理任務中,表現優于人類醫生。

這項研究正值爭議期:部分研究顯示 AI 診斷出色,另一些則發現編造引用、建議錯誤、評分結果不穩定。盡管不確定性仍在,面向醫療的 AI 產品已上市,如 OpenAI 今年推出臨床版 ChatGPT、醫療版 ChatGPT。

研究使用 o1-preview 模型(已更新換代),作者建議:真實場景中,在關鍵節點讓醫生用 AI 輔助二次診斷。

紐約西奈山醫學院醫學影像研究專家Mickael Tordjman:“需更多前瞻性臨床試驗證據,新一代醫療專用 LLM 可能表現更好。”

《科學》論文作者雖看好 AI 醫療潛力,也強調局限性,擔憂研究被誤讀。哈佛醫學院 AI 研究專家Arjun Manrai:“AI不會取代醫生。”

波士頓貝斯以色列醫療中心醫學教育專家Adam Rodman:“成果很棒,但對濫用風險感到不安。”

醫療 AI 靠譜嗎?

多項研究質疑 AI 醫療可信度:5 款主流回答開放性健康問題時,近半回復存在缺陷,編造信息、引用,且錯誤回答也極度自信。

哈佛醫學院Arya Rao:“AI 已被日常使用,風險未量化、未管控?!?/p>

普通用戶咨詢、醫生輔助是完全不同場景:醫生能更好判斷信息價值、識別錯誤,但AI 幻覺極難識破 ——Rodman:“對錯都一樣自信,需建立低錯工作流?!?/p>

研究對比 2 名醫生、2 款 LLM 在急診不同階段的診斷表現。

評估標準無共識

4 月 13 日《美國醫學會雜志》(JAMA)研究:Rao 測試 21 款 LLM,最終診斷準確率高,但鑒別診斷評分極低—— 只因評估標準不同。

鑒別診斷需列出所有可能病因:LLM 答對 6/7 種病因,可算 86% 合格,也可判定完全失敗。行業尚無統一評分標準。

Tordjman:“評估方法仍在探索,無完美方案?!?/p>

真實世界測試

《科學》研究用多組模擬病例(類似醫學難題),指令含冗余 / 關鍵信息,測試 AI 診斷能力。

Rodman:“研究證明真實場景有效,76 例真實急診顯示:最終診斷準確率 AI 達 82%,兩位醫生分別 79%、70%。”

LLM 問世不足十年,迭代速度遠超醫學研究周期,監管、責任劃分仍空白。Manrai:“關鍵不是‘AI vs 醫生’,而是人機如何協同?!?/p>

哈佛 Rao:“AI 發展迅猛,謹慎、評估、創新并重,負責任創新才是正道。”



評論


相關推薦

技術專區

關閉