拆解大模型推理:SambaNova × 英特爾異構(gòu)計算架構(gòu)詳解
SambaNova 與英特爾聯(lián)合推出了一套大模型異構(gòu)推理架構(gòu)藍(lán)圖,標(biāo)志著現(xiàn)代大語言模型(LLM)部署方式的重大轉(zhuǎn)變。該架構(gòu)不再依賴單一加速芯片,而是將推理的不同階段分配給專用硬件:
GPU 負(fù)責(zé)預(yù)填充(Prefill)
SambaNova 可重構(gòu)數(shù)據(jù)流處理器(RDU)負(fù)責(zé)解碼(Decode)
英特爾至強(qiáng) 6 CPU 負(fù)責(zé)智能體工具調(diào)用與整體編排
這一設(shè)計專門應(yīng)對智能體 AI 系統(tǒng)日益復(fù)雜的需求 —— 推理循環(huán)、工具調(diào)用、迭代執(zhí)行帶來的異構(gòu)算力壓力,無法靠單一加速集群高效滿足。
該方案的核心觀點是:推理并非單一負(fù)載,而是由多個性能瓶頸完全不同的計算階段組成。
1. 預(yù)填充階段(Prefill)
預(yù)填充負(fù)責(zé)處理用戶提示詞、計算注意力矩陣、構(gòu)建鍵值緩存。這一階段高并行、計算密集,GPU 是最高效的選擇。
GPU 擅長密集矩陣運算與高吞吐張量計算
可快速處理長提示詞,降低首 Token 延遲
將預(yù)填充單獨交給 GPU,能避免算力浪費,提升利用率
2. 解碼階段(Decode)
預(yù)填充之后進(jìn)入解碼階段,逐一生成 Token。解碼與預(yù)填充本質(zhì)不同:它是內(nèi)存帶寬瓶頸型負(fù)載,高度依賴注意力緩存的高效訪問。
GPU 雖強(qiáng),但在串行 Token 生成場景下效率偏低
SambaNova RDU 專為數(shù)據(jù)流執(zhí)行優(yōu)化,內(nèi)存訪問模式更適配 Transformer 解碼
能提升 Token 吞吐、降低延遲,尤其適合長上下文與多步推理
3. 智能體調(diào)度:英特爾至強(qiáng) 6 CPU
架構(gòu)第三部分是用至強(qiáng) 6 CPU承擔(dān)智能體工具調(diào)用與全局編排。
現(xiàn)代智能體 AI 頻繁需要外部操作:數(shù)據(jù)庫查詢、API 調(diào)用、代碼執(zhí)行、工作流管理等。這些任務(wù)不適合加速器,更適合通用 CPU 的大內(nèi)存與成熟軟件生態(tài)。
至強(qiáng) 6 作為控制平面,協(xié)調(diào) GPU 與 RDU
負(fù)責(zé)工具執(zhí)行、校驗、決策邏輯
讓加速器專注推理,CPU 專注流程邏輯與企業(yè)系統(tǒng)集成
架構(gòu)優(yōu)勢
硬件利用率大幅提升
每種芯片都工作在最優(yōu)區(qū)間:GPU 扛并行計算、RDU 扛內(nèi)存敏感型 Token 生成、CPU 扛控制與編排。
智能體負(fù)載擴(kuò)展性更強(qiáng)
智能體多步推理會累積解碼延遲,專用 RDU 可緩解這一瓶頸。
模塊化彈性擴(kuò)縮
可根據(jù)負(fù)載獨立擴(kuò)容 GPU 池、RDU 池、CPU 池。
成本更優(yōu)
純 GPU 方案在解碼與編排階段利用率很低。把這些任務(wù)剝離到專用硬件,可減少過度配置 GPU。同時 x86 架構(gòu)兼容現(xiàn)有企業(yè)軟件棧,降低集成成本。
這套架構(gòu)也反映出 AI 負(fù)載向智能體推理系統(tǒng)演進(jìn)的趨勢:傳統(tǒng)聊天是單次生成,現(xiàn)代智能體需要反復(fù)規(guī)劃、執(zhí)行、修正。異構(gòu)架構(gòu)天然匹配這種交替式計算模式,降低瓶頸、提升響應(yīng)速度。

總結(jié)
SambaNova 與英特爾的這套方案,給出了下一代 AI 基礎(chǔ)設(shè)施的可行路線:
從單一加速集群走向?qū)S盟懔幙棧?GPU 做預(yù)填充、RDU 做解碼、至強(qiáng) 6 做智能體調(diào)度,全面提升性能、利用率與擴(kuò)展性,也預(yù)示了未來 AI 數(shù)據(jù)中心將如何支撐更復(fù)雜的推理系統(tǒng)。









評論