推理需求爆發，國產芯片從“堆算力”轉向系統協同

發布人：ht1973 時間：2026-01-29 來源：工程師

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

發布文章

大模型經過2025年的發展，行業逐漸形成共識：推理需求將以復合倍速增長，行業需要高性能、高性價比的芯片?；诖耍?月27日，自商湯集團孵化而生的半導體公司曦望發布第三代推理GPU芯片啟望S3，設定將百萬token成本打到一分錢的目標。

談及為何在此時專注推理方向，曦望董事長徐冰表示，轉向推理方向是因為行業變了：需求變了，AI從能被訓出來發展至能被用起來；場景變了，多模態需求爆發，Agent（智能體）需要高頻響應與實時交互，物理AI（Physical AI）也在加速落地；成本結構變了，行業已將推理成本從“元級”壓到“分級”，未來AI會像水電一樣成為普惠基礎設施。

截至目前，曦望發布了三款芯片，分別是定位云邊端視覺推理專用的S1、對標英偉達A100的訓推一體芯片S2，以及此次的S3。對于未來訓推兩端投入分配問題，采訪中，徐冰對第一財經記者表示，這屬于戰略定力的問題，如果先將推理做到極致，也能夠在商業上形成優勢。預計到2030年，推理芯片將占到公司資源分配的80%。

且訓推一體芯片也存在一定問題，曦望聯席CEO王勇將其總結為三大困境：成本高昂，供應不穩定；能耗驚人；部署運維復雜。未來，合理的算力訪存比才是芯片競爭的關鍵。算力訪存比是衡量芯片算力與數據傳輸能力匹配度的核心指標。

過去芯片行業競爭的核心是“堆算力”，隨著推理算力需求爆發，“內存墻”逐漸成為芯片性能的主要瓶頸。計算單元的算力提升速度遠快于訪存帶寬的提升速度，導致大多數芯片的紙面算力無法在實際場景中釋放，這一矛盾在推理芯片中尤為突出。為應對該挑戰，英偉達創始人黃仁勛提出從單芯片優化升級為系統級協同設計的方案，這也是Vera Rubin平臺的核心設計邏輯。

王勇也有類似觀察，他對記者表示，現在的大模型公司以DeepSeek為代表，不僅會做大模型，也會牽引框架變化，帶動從模型架構到算子開發、推理系統的全鏈路技術創新，推動框架適配新計算范式與跨硬件部署，試圖擺脫對英偉達CUDA生態的依賴。此次曦望也發布了AI算力平臺，以自研芯片為底座，與多家大模型進行適配，從系統側提高芯片利用效率。

煒燁智算董事長兼CEO周韡韡表示，國產芯片定位越來越準確——從最初盲目追求與國際高性能算力的比肩，到追求性能的同時也追求極致成本。國際上，每當百萬token的成本降低一半，市場上AI應用數量會顯著增長，算力市場的繁榮度也將呈倍數級提升，國產算力正處于一個非常有利的位置。

*博客內容為網友個人發布，僅代表博主個人觀點，如有侵權請聯系工作人員刪除。