加速FPGA上的LLM推理

作者：時間：2025-12-04 來源：

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

實現FPGA加速LLM性能

Speedster7t FPGA 在運行 Llama2 70B 參數模型時，與 GPU 解決方案相比表現如何？證據令人信服——Achronix Speedster7t FPGA 在處理大型語言模型（LLM）方面表現優異，通過提供計算能力、內存帶寬和卓越能效的最佳組合——這些是當今大型語言模型復雜需求的關鍵特質。

像Llama2這樣的大型語言模型的快速發展，為自然語言處理（NLP）開辟了一條新的道路，有望帶來比以往任何時候都更接近人類的互動和理解。這些復雜的大型語言模型是創新的催化劑，推動了對先進硬件解決方案的需求，以滿足其密集的處理需求。

我們的基準測試突出了 Speedster7t 系列應對 Llama2 70B 模型復雜度的能力，重點關注 FPGA 和 LLM 性能。這些測試（結果可索取）展示了Achronix FPGA為希望利用LLM強大功能應用于自然語言處理的開發者和企業的潛力。這些基準展示了Speedster7t FPGA如何超越市場，提供無與倫比的性能，同時降低運營成本和環境影響。

Llama2 70B LLM 在 Speedster7t FPGA 上

2023年7月，Microsoft和Meta發布了開源LLMLlama2，在AI驅動的語言處理領域樹立了新先例。Llama2 設計了多種配置，以滿足包括 7、13 和 700 億參數在內的多種計算需求，使其處于 LLM 創新的前沿。Achronix和我們的合作伙伴 Myrtle.ai 對700億參數的Llama2模型進行了深入的基準分析，展示了使用Speedster7t FPGA進行LLM加速的優勢。

基準測試結果：Speedster7t FPGA 與行業領先 GPU 的比較

我們在Speedster7t FPGA上測試了Llama2 70B型號的推理性能，并與主流GPU進行了比較。該基準測試通過建模輸入輸出序列長度為（1,128）和批次大小=1來完成。結果顯示Speedster7t AC7t1500在大型語言模型處理中的有效性。

FPGA成本基于由Speedster7t FPGA驅動的VectorPath加速卡的標價。同樣，我們在本次分析中使用了同款GPU顯卡的標價。利用這些成本信息和每秒產生的輸出代幣數量，我們計算出基于FPGA的解決方案每代幣的200%提升。除了成本優勢外，比較FPGA和GPU顯卡的相對功耗時，我們觀察到與基于GPU的方案相比，每枚令牌產生的千瓦時提升了200%。這些優勢展示了FPGA如何成為一種成本效益兼備的大型語言模型解決方案。

LLM FPGA：Speedster7t 的優勢

Achronix Speedster7t 系列 FPGA 旨在優化 LLM作，平衡 LLM 硬件的關鍵需求，包括：

高性能計算——配備高性能計算能力的尖端硬件對于管理LLM推理中核心的復雜矩陣計算至關重要。
高帶寬記憶y——高效的LLM推斷依賴高帶寬內存，快速將數據傳遞至模型的網絡參數中，避免瓶頸。
擴展和適應能力——現代大型語言模型推理需要能夠隨著模型規模增長擴展并靈活適應LLM架構持續進步的硬件。
節能處理——可持續的大型語言模型推理需要硬件，最大化計算產出，同時最小化能耗，以降低運營成本和環境影響。

Speedster7t FPGA 提供以下功能，以應對實現現代大型語言模型處理解決方案的挑戰。

計算性能——支持其靈活的機器學習處理器（MLP）模塊，處理復雜的LLM任務。
高 GDDR6 DRAM 帶寬——確保擁有 4 Tbps 內存帶寬的大型大型語言模型數據集的快速處理。
強大的GDDR6 DRAM容量——支持如Llama2等擴展型LLMs，每個FPGA容量為32 GB。
集成 LLM SRAM – 提供低延遲、高帶寬存儲，190 Mb SRAM，非常適合存儲激活和模型權重。
多功能原生數字格式——支持塊浮點（BFP）、FP16、bfloat16 等，適應大型語言模型（LLM）需求。
高效的片上數據傳輸——2D NoC速度超過20 Tbps，簡化片上數據流量。
擴展帶寬——滿足LLM需求，配備32,112 Gbps的SerDes，提升連接性。
按鍵邏輯級可編程性——為快速的大型語言模型（LLM）發展做好準備，支持690K六輸入LUT。

為LLM推斷優化的FPGA系統

用FPGA代替GPU來加速LLMs，在AI和自然語言處理這一快速變化的領域中，這是一個相當新的想法。該基準測試展示了設計師如何從Achronix的FPGA技術中獲益。Achronix Speedster7t系列FPGA是這一變革的關鍵技術，提供了高性能、高帶寬內存、易于擴展和能效的良好平衡。基于這項詳細的基準分析，比較了Speedster7t FPGA與領先GPU在處理Llama2 70B模型方面的能力，結果顯示Speedster7t FPGA能夠在大幅降低運營成本和環境影響的同時，實現高水平性能，凸顯了其在未來LLM開發和應用中的重要作用。