久久ER99热精品一区二区-久久精品99国产精品日本-久久精品免费一区二区三区-久久综合九色综合欧美狠狠

新聞中心

EEPW首頁 > 智能計算 > 設計應用 > 從頭開始的推理加速

從頭開始的推理加速

作者: 時間:2025-10-30 來源: 收藏

關鍵

  • VSORA 開發了一種針對 AI 推理優化的新型架構,在延遲、吞吐量和能效方面實現了接近理論的性能。

  • 該架構通過使用帶有海量 SRAM 陣列的統一內存級來解決“內存墻”問題,從而促進更快的數據訪問并消除瓶頸。

  • VSORA架構中的每個處理內核都具有1600萬個寄存器,并集成了高吞吐量MAC單元,可實現靈活的張量運算和高計算效率。

VSORA AI CHip

VSORA 是一家開創性的高科技公司,設計了一種新穎的架構,專門設計用于滿足數據中心和邊緣 AI 推理的嚴格要求。VSORA 的架構在延遲、吞吐量和能效方面具有接近理論的性能,打破了針對訓練工作負載優化的傳統設計。

VSORA 背后的團隊在 IP 業務中有著深厚的根基,花了數年時間設計、測試和微調其架構。該架構現已進入第五代,在過去兩年中經過嚴格驗證和基準測試,為硅制造做準備。

打破記憶墻

自 1980 年代后期以來,“內存墻”一直對芯片設計人員提出了挑戰。傳統架構試圖通過分層內存層次結構(例如多層緩存、暫存器和緊密耦合內存)來減輕外部內存和處理單元之間數據移動對性能的影響,每種層次結構都在速度和容量之間進行權衡。

在AI加速中,這種瓶頸變得更加明顯。生成式人工智能模型,尤其是那些基于增量轉換器的模型,必須不斷地重新處理大量的中間狀態數據。傳統架構在這里掙扎。每個緩存未命中或任何需要訪問內存中計算外部的作都會嚴重降低性能。

VSORA 通過將傳統內存層次結構折疊為一個統一的內存階段來正面解決這個問題:一個行為類似于平面寄存器文件的大型 SRAM 陣列。從處理單元的角度來看,任何寄存器都可以在單個時鐘內隨時隨地訪問。這消除了昂貴的數據傳輸,并消除了阻礙其他設計的瓶頸。

新的 AI 處理范式:每個內核 1600 萬個寄存器

VSORA 架構的核心是一個由 16 個處理核心組成的高吞吐量計算圖塊。每個內核集成了 64K 多維矩陣乘法累加 (MAC) 單元,可從 2D 擴展到任意 N 維張量運算,以及八個高效數字信號處理 (DSP) 內核。數值精度可按每個作動態配置,范圍從 8 位定點到 32 位浮點格式。支持密集和稀疏執行模式,運行時可選擇的稀疏性獨立應用于權重或激活,從而能夠對計算效率和推理性能進行細粒度控制。

每個內核都包含前所未有的 1600 萬個寄存器,比傳統架構中通常的幾百到幾千個寄存器高出幾個數量級。雖然如此龐大的寄存器文件通常會挑戰傳統的編譯器設計,但 VSORA 通過兩項架構創新克服了這些挑戰:

  1. 原生張量處理: VSORA 的硬件原生支持向量、張量和矩陣運算,無需將它們分解為標量指令。這消除了 CUDA 等 GPU 環境中經常需要的嵌套循環的手動實現,從而提高了計算效率并降低了編程復雜性。

  2. 高級抽象: 開發人員使用熟悉的框架進行高級編程,例如用于 AI 工作負載的 PyTorch 和 ONNX,或用于 DSP 的類似 Matlab 函數,而無需編寫低級代碼或直接管理寄存器。該抽象層簡化了開發、提高了生產力并最大限度地提高了硬件利用率。

基于小芯片的可擴展性

VSORA 的物理實現利用小芯片架構,每個小芯片包含兩個 VSORA 計算圖塊。通過將 VSORA 小芯片與高帶寬內存 (HBM) 小芯片堆棧相結合,該架構可實現云和邊緣推理場景的高效擴展。

  • 數據中心級推理。旗艦 Jotunn8 配置將 8 個 VSORA 小芯片與 8 個 HBM3e 小芯片配對,在 FP8 密集模式下提供令人印象深刻的 3,200 TFLOPS 計算性能。此配置針對數據中心的大規模推理工作負載進行了優化。

  • 邊緣 AI 配置。對于內存要求較低的邊緣部署,VSORA 提供:

    • Tyr2:兩個 VSORA 小芯片 + 一個 HBM 小芯片 = 800 TFLOPS

    • Tyr4:四個 VSORA 小芯片 + 一個 HBM 小芯片 = 1,600 TFLOPS

這些配置支持高效定制計算和內存資源,以適應邊緣應用程序的限制。

電源效率作為副作用

性能提升是顯而易見的,但同樣引人注目的是處理和能效方面的進步。

使用領先的大型語言模型 (LLM) 跨多個并發工作負載進行廣泛的硅前驗證,證明處理效率超過 50%,比最先進的基于 GPU 的設計高出一個數量級。

在能源效率方面,佐敦8架構始終提供兩倍于同類解決方案的每瓦性能。實際上,其功耗限制在約 500 瓦,而許多競爭加速器的功耗超過 1 千瓦。

總的來說,這些創新以不到一半的功耗產生了數倍的有效性能,與傳統實現相比,整體系統級優勢為 8-10×。

無 CUDA 編譯簡化算法映射并加速部署

VSORA 架構經常被忽視的優勢之一在于其簡化且靈活的軟件堆棧。從編譯的角度來看,與 CUDA 等傳統 GPU 環境相比,流程大大簡化。

該過程從定義目標硬件環境的只有幾行的最小配置文件開始。該文件使相同的代碼庫能夠在各種硬件配置中執行,無論是在多個內核、小芯片、完整芯片、主板上分配工作負載,還是跨本地或遠程云中的節點。唯一的變量是執行速度;功能行為保持不變。這使得本地和本地化云部署無縫且可擴展。

熟悉的流程,沒有復雜性

與基于 CUDA 的編譯過程不同,VSORA 流程看起來非常基本,沒有層層手動調整和復雜性。傳統的 GPU 環境通常需要多個痛苦的優化步驟,這些步驟在成功時可以提供強大的性能,但脆弱且耗時。VSORA 通過更加自動化和與硬件無關的編譯方法簡化了這一點。

該流程首先引入標準 AI 輸入,例如 PyTorch 中定義的模型。這些由 VSORA 專有的圖形編譯器處理,該編譯器會自動執行基本轉換,例如層重新排序或切片以實現最佳執行。它提取權重和模型結構,然后輸出中間 C++ 表示。

然后,此 C++ 代碼被輸入到基于 LLVM 的后端,該后端識別代碼的計算密集型部分并將它們映射到 VSORA 架構。在此階段,系統變得硬件感知,將計算作分配給適當的配置——無論是單個 VSORA 模塊、TYR4 邊緣設備、完整的 Jotunn8 數據中心加速器、服務器、機架,甚至是不同位置的多個機架。

開發者的隱形加速

從開發人員的角度來看,VSORA 加速器是看不見的。代碼的編寫就像它針對主處理器一樣。在編譯過程中,編譯流會識別最適合加速的代碼段,并透明地處理轉換和映射到 VSORA 硬件。這大大降低了采用的門檻,不需要低級寄存器作或專門的編程知識。

VSORA 的指令集是高級和直觀的,繼承了其起源于數字信號處理的豐富功能。該架構支持 FP8 和 FP16 等 AI 特定格式,以及 FP16 算術等傳統 DSP 運算,所有這些都按層自動處理。模式之間的切換是即時的,不需要人工干預。

獨立于流水線的執行和智能數據保留

一個關鍵的架構優勢是管道獨立性,即能夠根據工作負載需求動態插入或刪除管道階段。這為系統提供了在數據流中“展望前后”的獨特能力,確定必須保留哪些信息以供重用。因此,數據流量被最小化,內存訪問模式得到優化,以實現最佳性能和效率,達到傳統 AI 或 DSP 系統無法達到的水平。

內置功能安全

為了支持自動駕駛等關鍵任務應用,VSORA 在架構級別集成了功能安全功能。內核可以配置為在鎖步模式或冗余配置下運行,從而符合嚴格的安全性和可靠性要求。

結論

VSORA 并不是針對現代推理需求改造舊設計,而是從頭開始構建。VSORA 采用消除傳統瓶頸的內存架構、專為張量運算量身定制的計算單元以及無與倫比的能效,無論是在云端還是在邊緣,都為 AI 推理樹立了新標準。



關鍵詞: 推理加速

評論


技術專區

關閉