久久ER99热精品一区二区-久久精品99国产精品日本-久久精品免费一区二区三区-久久综合九色综合欧美狠狠

新聞中心

EEPW首頁 > 智能計算 > 設計應用 > 變換器在神經網絡中是如何被使用的?

變換器在神經網絡中是如何被使用的?

作者: 時間:2025-11-27 來源: 收藏

是一種(NN)架構或模型,通過權衡輸入序列不同部分的重要性,在處理順序數據方面表現出色。這使得它們能夠比以往架構更有效地捕捉長距離依賴關系和上下文,從而在自然語言處理(NLP)任務(如翻譯和計算機視覺系統)中實現更優的性能。

自注意是與以往架構之間的區別。這是一種計算“注意力評分”的方法,用以識別詞語之間的關系,比如句子中的單詞或圖像中的像素,即使它們之間并不直接相鄰。它使每個詞能夠“關注”其他所有詞,從而識別和理解相互關系。

考慮句子:“狗挖了一個洞直到足夠深,然后他拿出自己的骨頭埋了。”單詞“it”根據句子中的位置有兩種含義。第一種情況下,“it”指的是洞,第二種指的是骨頭。變壓器模型可以高效捕捉這些上下文中的細微差別。

該技術被稱為 NN,因為它使用帶有矩陣乘法的變換層將輸入序列轉換為輸出序列。它通過變換學習數據集中的關系,產生更有意義的表示。

實施自我關注

自注意力的進步在于能夠混合來自非直接相鄰像素或單詞的信息,識別更遠距離的關系和依賴關系。例如,3×3卷積(CNN)將九個數據點或標記的信息直接圍繞中心數據點混合。這限制了識別更遠距離關系的能力。

變換器神經網絡中的自注意機制基于學習到的屬性分析標記,而不僅僅是基于位置。這使得變換器神經網絡能夠學習和使用更復雜的關系(見圖1)。

圖1。CNN學習(左)與變換器學習(右)比較。(圖片來源:半導體工程)

變壓器神經網絡是如何學習的?

變換器神經網絡中的學習有時被稱為關系學習,因為它通過“查詢”、“鍵”和“值”向量來學習令牌之間的關系,這些向量增強了令牌的位置編碼。

一個標記的查詢向量用于確定其與其他所有標記鍵向量的對齊情況。查詢向量本質上是令牌向序列其余部分提出的“問題”,使模型能夠動態識別并整合其他令牌的相關上下文信息。

密鑰向量作為標記,用于比較標記以確定相互關系。例如,在句子“The dog buried a bone, she was very happy”中,“dog”的關鍵向量會與“she”的查詢向量進行比較。高度相似度會導致高注意力評分,確保“dog”的值向量影響“she”的處理,從而確定代詞的指稱。

正在處理信息的價值向量被組合起來,形成序列中每個代幣更具上下文的表示。與順序模型不同,變換器NN的結構本質上支持并行處理整個序列,因為所有標記的注意力分數可以同時計算。這不僅加快了訓練速度,也能加快推斷速度。

圖2中的查詢、鍵和值向量Q、K和V通過使用W、K和V權重矩陣乘以初始符號嵌入矩陣X生成。該前饋神經網絡中的權重矩陣是通過自監督的預訓練學習的。Q、K和V向量合起來稱為注意力層。

圖2。變壓器注意力機制的基本結構。(圖片來源:IBM)

多磁頭比一個更好

多頭注意力結構使用不同的查詢、鍵和值向量來聚焦數據集的不同方面。每個頭腦獨立執行注意力過程。例如,一個頭腦可能專注于語義關系,另一個頭腦則專注于句法。

各個注意力頭的輸出被串接在一起,合并后的輸出通過線性變換得到合并多注意力層的最終輸出。

總結

變壓器神經網絡優化用于理解數據中的長距離依賴關系并并行處理信息。多頭注意力結構通過同時考慮多視角,支持對數據集更細致和全面的表述。這能顯著提升自然語言處理翻譯、信息摘要和圖像識別等任務的性能。



關鍵詞: 變換器 神經網絡

評論


相關推薦

技術專區

關閉