人工智能代理何時能準備好實現自主業務運營？

作者：時間：2026-01-30 來源：IEEE

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

AI 智能體的應用現已隨處可見，且自主性正不斷提升。從網頁自主導航到通過遞歸方式優化自身編程能力，智能體式人工智能有望重構數字經濟格局、重新定義互聯網的形態。

但在企業場景中，AI 智能體的應用卻潛藏著巨大風險。從單純的能力增強轉向全流程自動化，這一轉變本身就充滿不確定性，尤其是當 AI 智能體被賦予全權執行關鍵業務操作的權限時 —— 小到完成一筆簡單的金融交易，大到協調復雜的供應鏈體系，均面臨著未知風險。

為降低此類風險，卡內基梅隆大學與 Fujitsu 的研究人員研發出三項基準測試，用于評估 AI 智能體在無人監督的情況下，是否具備足夠的安全性與效能以開展企業運營工作。該研究成果于 1 月 26 日在新加坡舉辦的 2026 年 AAAI 人工智能大會的一場專題研討會上正式發布。

安全為先，打造場景化基準測試

第一項基準測試名為 FieldWorkArena，主要針對落地于實際作業場景的 AI 智能體進行評估，重點覆蓋工廠、倉庫等物流與制造業場景。該測試會測算 AI 智能體在檢測安全規則違規行為、作業流程偏差，以及生成事故報告等任務中的準確率。舉例而言，一款用于核查高風險區域個人防護裝備（PPE）佩戴合規性的 AI 智能體，需要具備多重能力：理解個人防護裝備的相關標準、識別區域內的工作人員、分析人員的穿戴情況是否符合標準，并統計合規人員的數量。

與傳統仿真測試不同，該基準測試全部采用真實的數據源，包括作業手冊、安全規章制度，以及現場拍攝的圖像和視頻資料。日本慶應義塾大學教授 Hideo Saito 并未參與此項研究，但作為該專題研討會的組織者之一，他強調了為智能體式人工智能基準測試收集輸入數據集時，數據隱私保護的重要性，“尤其是當這類數據集計劃用于商業、非學術用途時”。以 FieldWorkArena 的數據源為例，所有視頻素材均經拍攝對象同意后獲取，同時對人物面部及敏感作業區域進行模糊化處理，避免身份信息泄露。

研究人員選取了三款可同時處理圖像與文本數據的多模態大語言模型展開測試，分別為 Anthropic 的 Claude Sonnet 3.7、Google 的 Gemini 2.0 Flash 以及 OpenAI 的 GPT-4o。但測試結果并不理想，三款模型的準確率得分均偏低。盡管這些模型在信息提取與圖像識別方面表現出色，卻仍存在生成幻覺內容的問題，同時在精準計數、測量特定距離等任務中表現乏力。

上述研究結果表明，企業亟需貼合自身業務場景、基于實際工作任務的智能體式人工智能基準測試。Fujitsu 研究院人工智能實驗室高級項目總監 Hiro Kobashi 表示，正是看到客戶對評估面向現場作業的微調后 AI 智能體效能的需求日益增長，Fujitsu 才牽頭研發了 FieldWorkArena。他補充道：“客戶對于大語言模型的應用始終存在疑慮與擔憂，因此我們希望為他們提供完善、充足的基準測試方案。”

FieldWorkArena 的整體系統配置。

攻克幻覺難題，完善數據應用能力

FieldWorkArena 的相關內容可通過其 GitHub 代碼庫進行訪問，而 Hiro Kobashi 透露，此次研討會上發布的另外兩項基準測試 ——ECHO（基于證據優先的幻覺觀測基準）與企業級檢索增強生成（RAG）基準，將在一個月內面向公眾開放。其中 ECHO 基準主要評估視覺語言模型（VLM）的幻覺緩解策略有效性，這類模型主要用于解答與圖像相關的問題，或根據視覺輸入生成文本內容。測試結果顯示，部分技術手段能有效減少視覺語言模型的幻覺生成問題，例如對圖像進行裁剪，讓模型將注意力聚焦于相關區域，以及將強化學習技術應用于模型的推理過程。

另一項企業級檢索增強生成（RAG）基準，則用于評估 AI 智能體從權威知識庫中檢索數據，并利用這些數據優化生成回復內容的能力。該測試的核心評估指標包括：針對查詢需求檢索到相關數據區域的準確性，以及基于檢索到的信息進行推理分析的正確性。

持續迭代，適配多元企業需求

Hiro Kobashi 及其團隊表示，未來將進一步拓展現有基準測試的能力邊界，以適配更多行業與應用場景。他說：“客戶的需求極具多樣性，單一的基準測試無法滿足所有需求，因此我們需要研發豐富多樣的基準測試方案。”

團隊計劃邁出的另一關鍵步伐，是對基準測試進行持續更新。隨著 AI 智能體技術的不斷發展，其在現有基準測試中的得分也會逐步提升，直至進入發展瓶頸期。而這一信號將表明，行業需要更新、更全面的基準測試方案，為更優質的企業級 AI 智能體研發指明方向。

久久ER99热精品一区二区-久久精品99国产精品日本-久久精品免费一区二区三区-久久综合九色综合欧美狠狠

新聞中心

人工智能代理何時能準備好實現自主業務運營？

評論

相關推薦

技術專區