基于KeyStone DSP的多核視頻處理技術

作者：時間：2011-09-15 來源：網絡

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

　　2.4 多內核間的協作與同步

　　當多個內核處理同一視頻通道時，這些內核之間必須相互通信，才能實現對輸入數據的同步、分離或共享，合并輸出數據或者在處理過程中交換數據。附錄 A - 解碼器性能依賴闡述了將視頻處理功能劃分成多個內核的幾種算法。

　　并行處理法和流水線處理法是兩種常用的分區算法。并行處理的范例是兩個或兩個以上的內核可以處理同一輸入通道。必須有一個不受競態條件影響的機制在多個內核之間共享信息。可將信號標用來保護全局區域免受競態條件的干擾。硬件需要支持阻塞性和非阻塞性信號標，以有效消除競態條件，即消除兩個內核同時占用同一存儲器地址的可能性。

　　如果使用流水線算法，一個或一個以上的內核可執行運算的第一部分，然后再將中間結果傳遞第二組內核繼續處理。由于視頻處理負載取決于處理的內容，因而這種傳遞機制可能面臨如下問題：

　　如果一個以上的內核處理流水線的第一階段，那么第 N+1 幀可能先于第 N 幀被處理好。因此該傳遞機制必須能夠對輸出/輸入進行排序。
　　即使流水線上的各內核總體是均衡的（在處理負載方面），但個別幀未必如此。該傳遞機制必須在不同的流水線階段之間提供緩沖，以使內核沒完成工作時不至于影響其他內核停滯等待。
　　如果算法要求流水線的兩個階段間能穩固實現緊密的鏈接（例如，為解決依賴性的問題），則該機制就必須能夠支持緊密鏈接與松散鏈接。

　　2.5 多芯片系統

　　實時處理超級視頻 (SVGA)、4K 及更高分辨率，或處理 5 級 H.264HP可能需要不止一個芯片一起協作。要構建一個具有超高處理能力的雙芯片系統，擁有可連接兩個芯片的超快速總線至關重要。

　　第三部分描述了可滿足上述所有要求及難題的 KeyStone系列 DSP架構。

　　3．KeyStone DSP – TI 最新多內核處理器

　　TI KeyStone 架構描述了廣泛應用于視頻處理等要求高性能和高帶寬的系列多內核設備。圖 2 對 KeyStone DSP進行了概括性描述。本章針對在第二部分中闡述的視頻處理硬件要求對 KeyStone DSP 特性進行了介紹。

圖 2 KeyStone DSP 方框圖

　　表 1 說明 KeyStone DSP 如何滿足視頻處理要求。

　　附錄A - 解碼器性能相關性

　　編碼器所采用的工具和算法以及視頻內容都會影響解碼器的性能。下列因素將影響解碼器性能：

　　CABAC 或 CAVLC 熵解碼器的選擇
　　跳幀的數量
　　幀內預測模式的復雜性
　　預測類型—運動估算或幀內預測。（運動補償需要消耗的解碼周期數不同于幀內預測補償。采用運動補償還是幀內預測取決于編碼器。）
　　不同的運動估算工具（每個宏模塊一個運動矢量，每個宏模塊 4個運動矢量，或每個宏模塊 8 個運動矢量）能改變解碼器的復雜度和周期數。
　　B 幀宏模塊的運動補償涉及兩個參考宏模塊，并消耗更多周期。
　　媒體流中的運動量不僅會更改跳過宏模塊的數目，同時還會改變解碼器的處理要求。
　　比特流在運動矢量、模塊值、標記等各個不同值等之間的分配取決于媒體流的內容和編碼器算法。不同的分配會相應改變熵解碼器的周期數。

　　附錄B — 運動估算和速率控制

　　運動估算是 H.264 編碼中很大一部分內容。H.264 編碼器的質量取決于運動估算算法的質量。運動估算所需的周期數取決于運動估算算法的功能特性及特征。以下是幾個影響運動估算周期消耗的主要因素：

　　I 幀、P 幀和 B 幀的頻率
　　L0（對于 P 幀和 B 幀）和 L1（對于 B 幀）中的參考幀數目
　　搜索區域的數目
　　搜索區的大小
　　搜索算法

　　良好的運動估算算法可能消耗總編碼周期的 40-50%，乃至更多。

　　速率控制算法是影響編碼質量的主要因素。為了最大限度地提高視頻的感知質量，智能速率控制算法可在宏模塊和幀之間分配可用的比特。

　　部分系統可執行多重處理通道，以便在宏模塊之間更好的分配可用比特。多條通道雖然能提高感知質量，但卻要求更密集的處理。

　　附錄C －外部存儲器帶寬

　　由于運動估算算法的原因，編碼器通常比解碼器需要更高的內部帶寬。編碼器的要求分兩種情況計算：低比特率 QCIF 和高比特率的 1080p。

　　第一種情況 -- QCIF 264 BP 編碼器：

　　兩個完整的 QCIF 幀能駐留在高速緩存或 L2 乒乓緩沖器中。每個幀需要的容量不到 40 KB。采用一個參考幀對某一幀進行編碼時，系統應為每次 QCIF 處理傳輸 80KB 的數據，并輸出少量數據。200 個15 fps 的 QCIF 通道所需的總內部帶寬為：

　　80KB * 15 (fps) * 200（通道數）+ 200（通道數）* 256/8 KB（QCIF 通道的輸出比特率）= 240MB + 6.4MB = 250MB/s

　　第二種情況 -- 1080p 60 H.264 HP：

　　假定采用最差情況中的算法來執行運動參考幀的運動估算，該參考幀可能需要從外部存儲器移至內部存儲器多達三次。此外，也可假定采用多達四個參考幀的高級算法。因此，單個 1080p60 通道的運動估算是：

　　3（復制 3 次）* 1920*1080*1（在運動估算中，每像素僅 1 個字節）*60 (fps) * 4（參考通道） = 1492.992 MBps

　　是否移動可進行處理和運動補償的當前幀由以下情況來確定：

　　2（當前幀和運動補償）* 1920 * 1080 * 1.5（字節/像素）* 60 = 373.248 MBps

　　綜上所述，以上兩個匯總結果規定了輸出比特流。一個通道的總和為1866.24 MBps，即兩個 H.264 HP 1080p60 編碼器為 3732.48 MBps，這意味著約占用外部存儲器原始數據帶寬的 30%。

久久ER99热精品一区二区-久久精品99国产精品日本-久久精品免费一区二区三区-久久综合九色综合欧美狠狠

新聞中心

基于KeyStone DSP的多核視頻處理技術

評論

相關推薦

技術專區