久久ER99热精品一区二区-久久精品99国产精品日本-久久精品免费一区二区三区-久久综合九色综合欧美狠狠

新聞中心

EEPW首頁 > 智能計算 > 業(yè)界動態(tài) > 拆解大模型推理:SambaNova × 英特爾異構(gòu)計算架構(gòu)詳解

拆解大模型推理:SambaNova × 英特爾異構(gòu)計算架構(gòu)詳解

作者: 時間:2026-04-20 來源: 收藏

聯(lián)合推出了一套大模型異構(gòu)推理架構(gòu)藍(lán)圖,標(biāo)志著現(xiàn)代大語言模型(LLM)部署方式的重大轉(zhuǎn)變。該架構(gòu)不再依賴單一加速芯片,而是將推理的不同階段分配給專用硬件:

  • GPU 負(fù)責(zé)預(yù)填充(Prefill)

  • 可重構(gòu)數(shù)據(jù)流處理器(RDU)負(fù)責(zé)解碼(Decode)

  • 至強(qiáng) 6 CPU 負(fù)責(zé)智能體工具調(diào)用與整體編排

這一設(shè)計專門應(yīng)對智能體 AI 系統(tǒng)日益復(fù)雜的需求 —— 推理循環(huán)、工具調(diào)用、迭代執(zhí)行帶來的異構(gòu)算力壓力,無法靠單一加速集群高效滿足。

該方案的核心觀點是:推理并非單一負(fù)載,而是由多個性能瓶頸完全不同的計算階段組成。

1. 預(yù)填充階段(Prefill)

預(yù)填充負(fù)責(zé)處理用戶提示詞、計算注意力矩陣、構(gòu)建鍵值緩存。這一階段高并行、計算密集,GPU 是最高效的選擇。

  • GPU 擅長密集矩陣運算與高吞吐張量計算

  • 可快速處理長提示詞,降低首 Token 延遲

  • 將預(yù)填充單獨交給 GPU,能避免算力浪費,提升利用率

2. 解碼階段(Decode)

預(yù)填充之后進(jìn)入解碼階段,逐一生成 Token。解碼與預(yù)填充本質(zhì)不同:它是內(nèi)存帶寬瓶頸型負(fù)載,高度依賴注意力緩存的高效訪問。

  • GPU 雖強(qiáng),但在串行 Token 生成場景下效率偏低

  • RDU 專為數(shù)據(jù)流執(zhí)行優(yōu)化,內(nèi)存訪問模式更適配      Transformer 解碼

  • 能提升 Token 吞吐、降低延遲,尤其適合長上下文與多步推理

3. 智能體調(diào)度:至強(qiáng) 6 CPU

架構(gòu)第三部分是用至強(qiáng) 6 CPU承擔(dān)智能體工具調(diào)用與全局編排。

現(xiàn)代智能體 AI 頻繁需要外部操作:數(shù)據(jù)庫查詢、API 調(diào)用、代碼執(zhí)行、工作流管理等。這些任務(wù)不適合加速器,更適合通用 CPU 的大內(nèi)存與成熟軟件生態(tài)。

  • 至強(qiáng) 6 作為控制平面,協(xié)調(diào) GPU 與 RDU

  • 負(fù)責(zé)工具執(zhí)行、校驗、決策邏輯

  • 讓加速器專注推理,CPU 專注流程邏輯與企業(yè)系統(tǒng)集成 

架構(gòu)優(yōu)勢

  1. 硬件利用率大幅提升

每種芯片都工作在最優(yōu)區(qū)間:GPU 扛并行計算、RDU 扛內(nèi)存敏感型 Token 生成、CPU 扛控制與編排。

  1. 智能體負(fù)載擴(kuò)展性更強(qiáng)

智能體多步推理會累積解碼延遲,專用 RDU 可緩解這一瓶頸。

  1. 模塊化彈性擴(kuò)縮

可根據(jù)負(fù)載獨立擴(kuò)容 GPU 池、RDU 池、CPU 池。

  1. 成本更優(yōu)

純 GPU 方案在解碼與編排階段利用率很低。把這些任務(wù)剝離到專用硬件,可減少過度配置 GPU。同時 x86 架構(gòu)兼容現(xiàn)有企業(yè)軟件棧,降低集成成本。

這套架構(gòu)也反映出 AI 負(fù)載向智能體推理系統(tǒng)演進(jìn)的趨勢:傳統(tǒng)聊天是單次生成,現(xiàn)代智能體需要反復(fù)規(guī)劃、執(zhí)行、修正。異構(gòu)架構(gòu)天然匹配這種交替式計算模式,降低瓶頸、提升響應(yīng)速度。

1776670471755933.png

總結(jié)

SambaNova 與英特爾的這套方案,給出了下一代 AI 基礎(chǔ)設(shè)施的可行路線:

從單一加速集群走向?qū)S盟懔幙棧?GPU 做預(yù)填充、RDU 做解碼、至強(qiáng) 6 做智能體調(diào)度,全面提升性能、利用率與擴(kuò)展性,也預(yù)示了未來 AI 數(shù)據(jù)中心將如何支撐更復(fù)雜的推理系統(tǒng)。


評論


相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉