面向可解釋性的知識圖譜推理研究（1）

發布人：數據派THU 時間：2022-11-20 來源：工程師

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

發布文章

報告分為以下 5 個部分：

研究背景
前沿進展
研究動機
近期研究
研究展望

01 研究背景

1. 引言

首先，介紹一下背景。人工智能經過 70 多年的發展，已經從計算智能的能存、會算，進步到了感知智能的能聽、能看、會認、會說，并已有很多系統在此方面做的很出色，但與理想的認知智能還有很大的距離。認知智能希望機器能夠對數據模型、原理進行理解、推理、解釋等，這種認知智能很大的特點是依賴背景知識，例如，對于新的網絡概念或網絡熱詞，如“996”、“YYDS”等，這種新的概念是建立在群體共識下的，非常依賴背景知識，對這種非常符合認知智能特點的概念的學習和建模是目前的難點，學習和表示這種背景知識是非常關鍵的技術。

2. 知識圖譜

知識圖譜即是承載和表示背景知識的技術和工具，以圖的形式，將真實世界中的實體、關系組織成網，將知識進行結構化。以上圖知識圖譜為例，可以知識圖譜中的實體和關系抽象為圖中的節點和邊，其特點是：

它是一個有向圖，其邊是有向的
它是一個異質圖，節點和邊有不同的類型，又稱為異質信息網絡
它具有豐富的信息，可以給節點和邊綁定豐富的屬性信息，對知識進行更加細致的描述
它通常規模會很大

3. 知識圖譜的下游應用

知識圖譜在需要背景知識或知識獲取中應用比較廣泛，比較典型的包括：信息檢索、問答/聊天系統，語言、圖像理解等。

信息檢索，利用知識圖譜進行概念之間的智能推理、模糊查詢，同時可給關鍵概念提供知識卡片，方便用戶體驗。

問答/聊天系統，當和問答助手或聊天系統進行交互時，可解決任務型問答的問題，則知識圖譜將發揮比較核心的作用。

語言、圖像理解，利用知識圖譜實現對語言數據、文本數據、圖像數據的理解，利用知識增長的方式幫助學習概念之間的關系，如最近研究比較活躍的VQA、圖像關系推理等。

4. 知識圖譜推理

以上提到的應用中，核心的功能就是知識圖譜推理。所謂知識圖譜推理，就是在知識圖譜中根據已有的知識來獲得新知識的能力。以上圖中人物關系知識圖譜為例，已知 X 與 Z、Z 與 M 之間的關系，Z 是 X 的妻子，M 是 Z 的孩子，則系統可以推理出X是M的父親，這是一種最簡單的推理關系。

知識圖譜推理可以從兩個角度來看，一是從邏輯演繹的角度，它是一個多個命題約束下真值判斷的問題。二是可以從圖的角度來理解知識圖譜推理，可以建模分析鏈接預測的問題，可根據圖中的節點來預測節點之間的關聯；如：給出兩個實體，預測兩者之間有哪種邊，即哪種關系；給定某一個實體、某一條邊，能預測出哪些實體與這個實體有某種關聯。

02 前沿進展

1. 主要方法

這里將前沿進展的主要方法分為 4 個部分，一是演繹邏輯及規則；二是基于圖結構的推理；三是知識圖譜嵌入表示；四是深度神經網絡模型。

2. 演繹邏輯及規則

該方法是非常經典且常見的方法。將自然語言查詢轉化為邏輯操作符的組合，通過組合來表達這種查詢，再以具體的編程語言進行實現得到查詢，比較著名圖的查詢的實現包括 SPARQL、Cypher、Datalog 等語言的歸納邏輯編程。基于演繹邏輯推理的特點是：

推理的準確性非常好
可解釋性好，其是具有邏輯性的
其需要專家制定大量的推理規則
對于不知道規則的泛化性能力比較差

近期研究的一個熱點和熱門是，如何利用機器學習和深度學習，自動地發掘推理的規則。

3. 基于圖結構的推理

這里認為圖結構有兩個特征：一是路徑特征，代表算法是 PRA 及擴展算法，通過圖的遍歷算法或隨機游走方法來提取節點間的路徑特征，通過路徑特征來對節點連接進行預測，其特點是在推理的同時提供路徑可解釋性，但其問題是對于推理節點沒有連接的問題就不能解決。基于傳統的方法，其搜索空間比較大。二是基于圖結構的方法，代表方法是 Grall，利用消息傳遞機制提取目標實體的結構信息，提供子圖可解釋性；但目前子圖結構的方式還不是很成熟，因知識圖譜通常很大，如果遍歷圖中所有的子圖結構，遍歷的方式方法非常重要。

4. 知識圖譜嵌入表示

將知識圖譜高維、離散的數據，通過設計某種得分函數，將高維知識圖譜嵌入到低緯連續的向量空間之中，將實體和關系表示成數值型的向量進行計算，其代表性的模型為 TransE 類型，近期研究的事 RotateE 模型或在雙曲空間中嵌入的模型，其方法的特點是淺層的神經網絡，通過特定的嵌入空間的結構實現知識圖譜語義的表示。

5. 深度神經網絡模型

深度神經網絡模型是通過將實體和關系設計成查詢對，通過查詢對與實體、關系的匹配，通過深度神經網絡得到推理的相似度得分，來進行推理的判斷。近期研究的熱點是 Transformer 或圖神經網絡。

知識圖譜嵌入模型和深度網絡模型都視為神經網絡模型，其相同點是都會設計一個得分函數，通過數據驅動的方式，以梯度反向傳播方法進行訓練。其優點是泛化性能比較好，易于數值計算及并行化，規模性好，可以有效緩解圖結構維度災難的問題。其缺點是只能看到輸入和輸出數值的相似度，缺乏可解釋性，不知道模型內部發生了什么，是一個黑盒的過程，因此可解釋性差，對噪音的魯棒性不強，只能進行單步的推理。

*博客內容為網友個人發布，僅代表博主個人觀點，如有侵權請聯系工作人員刪除。

久久ER99热精品一区二区-久久精品99国产精品日本-久久精品免费一区二区三区-久久综合九色综合欧美狠狠

博客專欄

面向可解釋性的知識圖譜推理研究（1）

相關推薦

技術專區