什么是注意力機制,它們在語音和音頻處理中如何工作?
注意力機制是人工智能 (AI) 領域非常有用的創新,用于處理順序數據,特別是在語音和音頻應用中。本常見問題解答討論了注意力機制的核心工作原理、它們如何在自動語音識別系統中使用,以及 Transformer 架構如何處理高級音頻處理。
注意力機制的核心組成部分是什么?
注意力機制的核心是利用三個基本組件來發揮作用,這些組件協作確定哪些信息值得關注。這三個基本組件是查詢 (Q)、鍵 (K) 和值 (V)。您的查詢代表您正在尋找的特定信息,鍵就像幫助您查找相關材料的書名或目錄條目,并且值包含您要檢索的實際內容。
在神經網絡中,此過程轉化為系統的數學過程。注意力機制計算查詢和鍵之間的相似性分數,確定每條輸入信息與當前處理步驟的相關性。然后使用 softmax 函數對這些分數進行歸一化,以創建總和為 1 的注意力權重。最后,這些權重用于創建一個上下文向量,通過以加權方式組合值來突出顯示最重要的信息。
該過程由縮放點積注意力公式表示:
注意力(Q,K,V) = softmax(QK^T/√dk)V
其中,縮放因子可防止點積變得太大,這可能會將 softmax 函數推入梯度極小的區域。
圖 1.基本注意力機制(左)和多頭注意力(右)計算流程。(圖片來源:arXiv)
如圖 1 所示,此過程遵循清晰的計算管道。左圖顯示了三個輸入分量如何通過矩陣乘法、縮放、可選掩碼、softmax 歸一化和最終加權組合。右側顯示多頭注意力,這意味著不同的學習投射和多種注意力機制協同工作。
這使模型可以同時看到不同類型的關系,例如時間模式、頻率依賴關系和語義連接。這種同時處理多個任務的能力在許多音效同時發生的復雜音頻情況下變得非常重要。
注意力機制如何提高語音識別能力?
舊的自動語音識別系統的一個重要問題被稱為“信息瓶頸”。在較舊的編碼器-解碼器模型中,整個音頻序列被壓縮為固定長度的上下文向量,這意味著重要的細節會丟失,尤其是在較長的音頻片段中。注意力機制通過讓解碼器在文本生成的每個階段動態訪問編碼音頻的不同部分來解決這個問題。
基于注意力的端到端模型,例如 Listen-Attend-Spell (LAS),是向前邁出的一大步。它們直接將語音信號連接到字符或單詞序列,而無需單獨的聲音、發音和語言模型。

圖 2.用于語音識別的 LAS 架構。(圖片來源:ResearchGate)
如圖 2 所示,LAS 架構展示了注意力是如何在三個獨立的部分實現的。作為分層編碼器,“Listen”組件適用于通過它發送的多個層的音頻功能。虛線顯示了“參加”機制如何動態地關注這些編碼特征的正確部分,以進行解碼的每個步驟。“拼寫”部分制作輸出序列,每個步驟都基于編碼器的注意力加權上下文。
事實證明,這些改進是有效的。與傳統的基于音素的方法相比,基于注意力的模型的相對單詞錯誤率比基線系統低 15.7%,低 36.9%。當系統制作每個音素或字符時,注意力機制會關注與該聲音相關的確切音頻幀。這使得聲音和文本輸出之間的對齊方式隨時間而變化。
變壓器如何以不同的方式處理音頻?

圖 3.通過注意力層處理音頻頻譜圖的 Transformer 架構。(圖片來源:施普林格自然)
在變壓器架構中引入自注意力是音頻處理的重大突破。自注意力不像傳統的循環方法那樣以線性方式處理音頻,而是讓模型同時查看輸入序列中所有位置之間的連接。這使得遠程依賴建模和計算效率都更好。
在自注意力中,所有查詢、鍵和值都來自相同的輸入序列。這使模型可以確定在對特定幀進行編碼時哪些音頻幀是最重要的。
如圖 3 所示,基于變壓器的音頻編碼器通過將頻譜圖拆分為可以并行處理的塊來處理頻譜圖。每個 Patch 接收位置信息并流經多個自注意力層,其中每個層同時分析整個音頻序列的關系。
多頭注意力建立在這一思想的基礎上,同時使用多種注意力機制和不同的學習投影。這使模型能夠理解不同類型的關系,例如時間模式、頻率和含義之間的關系。
總結
注意力機制顯著改善了語音和音頻處理,從一種解決序列之間轉換問題的方法發展成為人工智能系統的重要組成部分。通過動態關注相關信息,他們在從語音識別到音頻理解等任務中實現了顯著的性能改進。












評論