久久ER99热精品一区二区-久久精品99国产精品日本-久久精品免费一区二区三区-久久综合九色综合欧美狠狠

新聞中心

EEPW首頁 > 消費電子 > 設計應用 > 基于DTW的編碼域說話人識別研究

基于DTW的編碼域說話人識別研究

作者: 時間:2010-10-14 來源:網絡 收藏



 本文選擇G.729編碼幀中第一子幀的LSP(1)參數的反余弦LSF及由其轉換得到的LPC、LPCC參數作為聲道特征參數。
 參考文獻[1]發現識別特征加入G.729壓縮幀中的語音增益參數,說話人識別性能發生了下降。去除G.729壓縮碼流特征中的增益參數GA1、GB1、GA2、GB2,結果發現,當采用了去除增益參數的特征矢量方案X=(L0,L1,L2,L3,P1,P0,P2),識別性能得到了提高,所以本文最終采用的G.729壓縮碼流特征為X=(L0,L1,L2,L3,P1,P0,P2),共7維。
2 動態時間規整(DTW)識別算法
 動態時間規整DTW(Dynamic Time Warping)是把時間規整和距離測度計算結合起來的一種非線性規整技術。該算法基于動態規劃思想,解決了發音長短不一的模版匹配問題。
 算法原理:假設測試語音和參考語音分別用R和T表示,為了比較它們之間的相似度,可以計算它們之間的距離D[T,R],距離越小則相似度越高。具體實現中,先對語音進行預處理,再把R和T按相同時間間隔劃分成幀系列:

然后采用動態規劃進行識別。如圖2所示。

本文引用地址:http://cqxgywz.com/article/166450.htm

把測試模版的各個幀號n=1,…,N在一個二維直角坐標系的橫軸上標出,把參考模版的各幀號m=1,…,M在縱軸上標出,通過這些表示幀號的整數坐標畫出的橫縱線即可形成一個網格,網格中的每一個交叉點(n,m)表示測試模版中某一幀與訓練模版中某一幀的交叉點。動態規劃算法可以歸結為尋找一條通過此網格中若干格點的路徑,路徑通過的格點即為測試和參考模版中距離計算的幀號。

 整個算法主要歸結為計算測試幀和參考幀間的相似度及所選路徑的矢量距離累加。
 識別流程如圖3所示。



關鍵詞: 編解碼器 音頻

評論


相關推薦

技術專區

關閉