懂行業AI:以KG訓練智能體(Agent)
1 認識懂行業AI
懂行業AI的目標是將企業中寶貴的專家智能,以結構化知識形式沉淀下來,使AI 不僅具備聊天或分類能力,更能在具體情境中進行決策。于是,企業得以將人的經驗轉化為可復制、可稽核、可優化的資產,進一步降低風險、提升效率,并實現個人化與長期優化,形成企業的護城河。
懂行業AI建置的途徑有很多,本文采取的途徑是一套由可解釋性的KG(知識圖),結合可學習模型(如GNN/RL),還可以連接到可互動環境DT(數字孿生),形成一個死循環系統。如下圖所示:

這途徑不僅提升AI 決策能力,更能促進人類專家反思與知識演化,形成AI 與人類專家共同進化的良性循環。它扮演一個行業智慧決策平臺。其核心元素是:
1.1 知識圖譜(KG):提供語意理解與推理基礎
● 建立行業性KG,表達行業數據(如中醫、建筑、醫療記錄)。
● 基于三層KG 架構,轉換成任務型KG,針對特定目標擷取語意。
1.2 圖神經網絡(GNN):將圖數據轉為可學習嵌入向量
● GCN / GAT 處理節點關系與特征融合。
● 可進一步進行相似性分析、連結預測、反事實連結等。
1.3 強化學習(RL)–為智能體(Agent)學習策略與決策
● 定義環境、狀態、行動、獎勵。可結合DQN 進行訓練。
● KG作為背景知識,提升策略合理性與人類可接受性
1.4 數字孿生(DT)–與真實世界連結,實現模擬與互動
● 將環境模型化為具反饋機制的DT(Digital Twin),融入實體設備、傳感器數據或歷史操作紀錄。
● DT 可成為智能體的學習平臺,也可接收AI 決策反饋。
2 以KG表達領域專家的智慧
知識是人類理解和進步的基石。隨著世界不斷推動數字轉型,互聯互通日益加深,信息量和復雜性呈指數級增長。在這個信息豐富的環境中,組織、鏈接和理解數據的需求已變得非常重要。這就是知識圖(KG:Knowledge Graph)發揮功效之處。
例如,中華文化里的五行知識里,五行中的每一種元素都具有獨特的屬性。元素之間的關系會增強或抑制我們生存發展的能力。五行之間有兩種相互作用的循環:相生與相克。此外,還可以連結到十二生肖,如下圖所示:

這些領域知識形成一套獨特的生肖文化,不僅用于紀年,還融入了婚姻擇配、本命年、祈福、春聯、繪畫等各種民間信仰和藝術創作中。而且,KG 恰好適合于表達這種網狀結構的知識。
3 把KG納入RL強化學習的環境中
強化學習(RL: Reinforcement Learning)是一種機器學習方法,其中智能體(Agent)透過與環境(Environment)互動來學習最優決策,并因其行為獲得獎勵(正向)或懲罰(負向),從而模擬人類的試誤學習過程,以最大化長期收益。
強化學習環境扮演著Agent 與其試圖掌握的世界之間的橋梁。每一步,Agent 選擇一個動作(Action),而環境則會以新的狀態(State)和獎勵(Reward)作為響應。如下圖所示:

(圖引自:https://datatonic.com/insights/reinforcementlearning-identifying-opportunities-use-cases)
此時專家們發現到,KG透過提供上下文信息、提高預測準確性和促進數據沿襲跟蹤,對RL強化學習具有很大的優化效果。例如,可以把< 五行+ 生肖> 的KG融入到RL學習環境中。如下圖:

這種結合KG 的RL 學習環境,就具有下述優點:
● 語意感知:狀態空間包含來自KG 的五行語意。
● 策略導向:獎勵函數引導Agent 偏好合理、合宜的配對。
● 學習解釋性:可以解釋Agent 為什么推薦這對配對。
于是,讓Agent 學習領域知識,而極可能成為的< 懂婚姻配對> 專家了。
4 實踐范例
茲以「護理夜間巡房」機器人為例,演練如何建立KG+RL 學習環境,來讓NurseAgent 學習「護理夜間巡房」基本流程和任務。夜間巡房是醫院大夜班護理人員在深夜對病房進行定時或不定時的巡視、觀察與照護,主要確保病人生命安全、處理緊急狀況、給予必要治療,并記錄病人狀況,以維護病人健康,也包括應對病人需求與突發事件。
4.1 建立行業KG
首先,把「護理夜間巡房」的流程,整理成一張護理思考地圖:當下處于哪個會話(state) →這一刻最重要的照護目的(intent)是什么→哪些行動(action)可以達成這個目的。于是就可以定義KG 的節點型態(Node type),如下圖所示:

接著,繼續萃取專家知識里的三元組(Triple),即可定義出各節點的邊。如下圖所示:

除了< 結束班次> 之外,這KG 里每個狀態節點有其質量鏈接,表示此階段(狀態)本身的自然傾向或目的。在每一步執行時,環境會查該節點對NurseAgent所選的action 是否「符合目的」,并給予相應獎勵。這讓每個「狀態」不只是流程位置,更具有知識意義。
于是,這些知識透過KG 形式建立后,NurseAgent將從KG 中抽取關系、形成狀態轉移的邏輯,然后透過RL學習來提升其決策能力。這樣將專家的KG(結構化知識) + RL 強化學習(動態決策)結合,打造出可自我學習與進化的NurseAgent,成為「護理夜間巡房」的好幫手。
4.2 與LLM一起建立RL學習環境
一旦建立好了KG,不論KG 的格式是*.json、*.bin或.png 等,一般的LLM(如ChatGPT、Gemini)都可以看懂,然后迅速幫忙撰寫Python 程序代碼,來建立一個RL 學習環境:

基于這個KG+RL 學習環境,就能展開NurseAgent的學習流程了。夜間巡房不是一串動作而已,而是每個時刻都有一個優先照護目的,而所做的每個行為(動作)都必須能完成那個目的。
在這學習過程中,其反復練習「在每個巡房階段,做什么最合理」。亦即,讓護理NurseAgent 在一個可控的夜間巡房模擬情境里,反復演練很多次,最后把最有質量的巡房流程學出來并存成一份可用的“經驗表”(如Q-table)。當學習完成了,就檢測看看其學習成果,如下:

從這輸出可以看到NurseAgent 已經學會了一個簡單的夜班巡房流程:
● 交班開始:先做準備(備物、確認設備)。
● 巡房:以安全為主。
● 量測生命征象:以評估為主。
● 紀錄:撰寫護理紀錄。
● 下班結束。
5 結束語
在本范例的懂行業AI 系統建置中,KG 成為可學習的專家規則,而且讓AI 決策邏輯具有可解釋性。在學習過程中可逐步觀察,每一步執行的結果和獎勵信息也都明顯可查,于是讓夜間巡房任務流程具體貼近實務應用。
(本文來源于《EEPW》202601)


評論