久久ER99热精品一区二区-久久精品99国产精品日本-久久精品免费一区二区三区-久久综合九色综合欧美狠狠

新聞中心

EEPW首頁 > 智能計算 > 設計應用 > 加速FPGA上的LLM推理

加速FPGA上的LLM推理

作者: 時間:2025-12-04 來源: 收藏

實現加速性能

Speedster7t 在運行 Llama2 70B 參數模型時,與 GPU 解決方案相比表現如何?證據令人信服——Achronix Speedster7t 在處理大型語言模型()方面表現優異,通過提供計算能力、內存帶寬和卓越能效的最佳組合——這些是當今大型語言模型復雜需求的關鍵特質。

像Llama2這樣的大型語言模型的快速發展,為自然語言處理(NLP)開辟了一條新的道路,有望帶來比以往任何時候都更接近人類的互動和理解。這些復雜的大型語言模型是創新的催化劑,推動了對先進硬件解決方案的需求,以滿足其密集的處理需求。

我們的基準測試突出了 Speedster7t 系列應對 Llama2 70B 模型復雜度的能力,重點關注 FPGA 和 性能。這些測試(結果可索取)展示了Achronix FPGA為希望利用LLM強大功能應用于自然語言處理的開發者和企業的潛力。這些基準展示了Speedster7t FPGA如何超越市場,提供無與倫比的性能,同時降低運營成本和環境影響。

Llama2 70B LLM 在 Speedster7t FPGA 上

2023年7月,Microsoft和Meta發布了開源LLMLlama2,在AI驅動的語言處理領域樹立了新先例。Llama2 設計了多種配置,以滿足包括 7、13 和 700 億參數在內的多種計算需求,使其處于 LLM 創新的前沿。Achronix和我們的合作伙伴 Myrtle.ai 對700億參數的Llama2模型進行了深入的基準分析,展示了使用Speedster7t FPGA進行LLM加速的優勢。

基準測試結果:Speedster7t FPGA 與行業領先 GPU 的比較

我們在Speedster7t FPGA上測試了Llama2 70B型號的推理性能,并與主流GPU進行了比較。該基準測試通過建模輸入輸出序列長度為(1,128)和批次大小=1來完成。結果顯示Speedster7t AC7t1500在大型語言模型處理中的有效性。

FPGA成本基于由Speedster7t FPGA驅動的VectorPath加速卡的標價。同樣,我們在本次分析中使用了同款GPU顯卡的標價。利用這些成本信息和每秒產生的輸出代幣數量,我們計算出基于FPGA的解決方案每代幣的200%提升。除了成本優勢外,比較FPGA和GPU顯卡的相對功耗時,我們觀察到與基于GPU的方案相比,每枚令牌產生的千瓦時提升了200%。這些優勢展示了FPGA如何成為一種成本效益兼備的大型語言模型解決方案。

1764826266328767.jpeg

LLM FPGA:Speedster7t 的優勢

Achronix Speedster7t 系列 FPGA 旨在優化 LLM作,平衡 LLM 硬件的關鍵需求,包括:

  • 高性能計算——配備高性能計算能力的尖端硬件對于管理LLM推理中核心的復雜矩陣計算至關重要。

  • 高帶寬記憶y——高效的LLM推斷依賴高帶寬內存,快速將數據傳遞至模型的網絡參數中,避免瓶頸。

  • 擴展和適應能力——現代大型語言模型推理需要能夠隨著模型規模增長擴展并靈活適應LLM架構持續進步的硬件。

  • 能處理——可持續的大型語言模型推理需要硬件,最大化計算產出,同時最小化能耗,以降低運營成本和環境影響。

Speedster7t FPGA 提供以下功能,以應對實現現代大型語言模型處理解決方案的挑戰。

  • 計算性能——支持其靈活的機器學習處理器(MLP)模塊,處理復雜的LLM任務。

  • 高 GDDR6 DRAM 帶寬——確保擁有 4 Tbps 內存帶寬的大型大型語言模型數據集的快速處理。

  • 強大的GDDR6 DRAM容量——支持如Llama2等擴展型LLMs,每個FPGA容量為32 GB。

  • 集成 LLM SRAM – 提供低延遲、高帶寬存儲,190 Mb SRAM,非常適合存儲激活和模型權重。

  • 多功能原生數字格式——支持塊浮點(BFP)、FP16、bfloat16 等,適應大型語言模型(LLM)需求。

  • 高效的片上數據傳輸——2D NoC速度超過20 Tbps,簡化片上數據流量。

  • 擴展帶寬——滿足LLM需求,配備32,112 Gbps的SerDes,提升連接性。

  • 鍵邏輯級可編程性——為快速的大型語言模型(LLM)發展做好準備,支持690K六輸入LUT。

為LLM推斷優化的FPGA系統

用FPGA代替GPU來加速LLMs,在AI和自然語言處理這一快速變化的領域中,這是一個相當新的想法。該基準測試展示了設計師如何從Achronix的FPGA技術中獲益。Achronix Speedster7t系列FPGA是這一變革的關鍵技術,提供了高性能、高帶寬內存、易于擴展和能效的良好平衡。基于這項詳細的基準分析,比較了Speedster7t FPGA與領先GPU在處理Llama2 70B模型方面的能力,結果顯示Speedster7t FPGA能夠在大幅降低運營成本和環境影響的同時,實現高水平性能,凸顯了其在未來LLM開發和應用中的重要作用。



關鍵詞: FPGA LLM

評論


相關推薦

技術專區

關閉