久久ER99热精品一区二区-久久精品99国产精品日本-久久精品免费一区二区三区-久久综合九色综合欧美狠狠

新聞中心

EEPW首頁 > 智能計算 > 業界動態 > 人工智能代理何時能準備好實現自主業務運營?

人工智能代理何時能準備好實現自主業務運營?

作者: 時間:2026-01-30 來源:IEEE 收藏

AI 的應用現已隨處可見,且自主性正不斷提升。從網頁自主導航到通過遞歸方式優化自身編程能力,式人工智能有望重構數字經濟格局、重新定義互聯網的形態。

但在企業場景中,AI 的應用卻潛藏著巨大風險。從單純的能力增強轉向全流程自動化,這一轉變本身就充滿不確定性,尤其是當 AI 智能體被賦予全權執行關鍵業務操作的權限時 —— 小到完成一筆簡單的金融交易,大到協調復雜的供應鏈體系,均面臨著未知風險。

為降低此類風險,卡內基梅隆大學與 Fujitsu 的研究人員研發出三項基準測試,用于評估 AI 智能體在無人監督的情況下,是否具備足夠的安全性與效能以開展企業運營工作。該研究成果于 1 月 26 日在新加坡舉辦的 2026 年 AAAI 人工智能大會的一場專題研討會上正式發布。

安全為先,打造場景化基準測試

第一項基準測試名為 ,主要針對落地于實際作業場景的 AI 智能體進行評估,重點覆蓋工廠、倉庫等物流與制造業場景。該測試會測算 AI 智能體在檢測安全規則違規行為、作業流程偏差,以及生成事故報告等任務中的準確率。舉例而言,一款用于核查高風險區域個人防護裝備(PPE)佩戴合規性的 AI 智能體,需要具備多重能力:理解個人防護裝備的相關標準、識別區域內的工作人員、分析人員的穿戴情況是否符合標準,并統計合規人員的數量。

與傳統仿真測試不同,該基準測試全部采用真實的數據源,包括作業手冊、安全規章制度,以及現場拍攝的圖像和視頻資料。日本慶應義塾大學教授 Hideo Saito 并未參與此項研究,但作為該專題研討會的組織者之一,他強調了為智能體式人工智能基準測試收集輸入數據集時,數據隱私保護的重要性,“尤其是當這類數據集計劃用于商業、非學術用途時”。以 的數據源為例,所有視頻素材均經拍攝對象同意后獲取,同時對人物面部及敏感作業區域進行模糊化處理,避免身份信息泄露。

研究人員選取了三款可同時處理圖像與文本數據的多模態展開測試,分別為 Anthropic 的 Claude Sonnet 3.7、Google 的 Gemini 2.0 Flash 以及 OpenAI 的 GPT-4o。但測試結果并不理想,三款模型的準確率得分均偏低。盡管這些模型在信息提取與圖像識別方面表現出色,卻仍存在生成幻覺內容的問題,同時在精準計數、測量特定距離等任務中表現乏力。

上述研究結果表明,企業亟需貼合自身業務場景、基于實際工作任務的智能體式人工智能基準測試。Fujitsu 研究院人工智能實驗室高級項目總監 Hiro Kobashi 表示,正是看到客戶對評估面向現場作業的微調后 AI 智能體效能的需求日益增長,Fujitsu 才牽頭研發了 。他補充道:“客戶對于的應用始終存在疑慮與擔憂,因此我們希望為他們提供完善、充足的基準測試方案。”

1769756742152715.png

FieldWorkArena 的整體系統配置。

攻克幻覺難題,完善數據應用能力

FieldWorkArena 的相關內容可通過其 GitHub 代碼庫進行訪問,而 Hiro Kobashi 透露,此次研討會上發布的另外兩項基準測試 ——ECHO(基于證據優先的幻覺觀測基準)與企業級檢索增強生成(RAG)基準,將在一個月內面向公眾開放。其中 ECHO 基準主要評估視覺語言模型(VLM)的幻覺緩解策略有效性,這類模型主要用于解答與圖像相關的問題,或根據視覺輸入生成文本內容。測試結果顯示,部分技術手段能有效減少視覺語言模型的幻覺生成問題,例如對圖像進行裁剪,讓模型將注意力聚焦于相關區域,以及將強化學習技術應用于模型的推理過程。

另一項企業級檢索增強生成(RAG)基準,則用于評估 AI 智能體從權威知識庫中檢索數據,并利用這些數據優化生成回復內容的能力。該測試的核心評估指標包括:針對查詢需求檢索到相關數據區域的準確性,以及基于檢索到的信息進行推理分析的正確性。

持續迭代,適配多元企業需求

Hiro Kobashi 及其團隊表示,未來將進一步拓展現有基準測試的能力邊界,以適配更多行業與應用場景。他說:“客戶的需求極具多樣性,單一的基準測試無法滿足所有需求,因此我們需要研發豐富多樣的基準測試方案。”

團隊計劃邁出的另一關鍵步伐,是對基準測試進行持續更新。隨著 AI 智能體技術的不斷發展,其在現有基準測試中的得分也會逐步提升,直至進入發展瓶頸期。而這一信號將表明,行業需要更新、更全面的基準測試方案,為更優質的企業級 AI 智能體研發指明方向。


評論


相關推薦

技術專區

關閉