安謀科技發布“周易”X3 NPU IP,打造端側AI計算效率新標桿
一、產品概述
2025年11月13日,安謀科技(中國)有限公司(以下簡稱“安謀科技”)在上海舉行新品發布會,正式推出新一代NPU IP——“周易”X3,該產品采用專為大模型而生的最新DSP+DSA架構,兼顧CNN與Transformer,協同完善易用的“周易”NPU Compass AI軟件平臺,致力于為基礎設施、智能汽車、移動終端、智能物聯網四大領域提供AI計算核芯,打造端側AI計算效率新標桿,加快邊緣及端側AI規模化部署。
二、性能躍遷
“周易”X3基于專為大模型而生的最新DSP+DSA架構,從定點轉向浮點計算,單Cluster擁有8-80 FP8 TFLOPS算力且可靈活配置,單Core帶寬高達256GB/s,相較于上一代產品,“周易”X3的CNN模型性能提升30%~50%,多核算力線性度達到70%~80%,在同算力規格下,AIGC大模型能力實現10倍增長。實測大模型性能方面,“周易”X3 在Prefill階段算力利用率達72%,Decode階段有效帶寬利用率超100%,充分釋放硬件算力潛力。
安謀科技NPU產品線負責人兼首席架構師舒浩博士闡釋了“周易”X3背后的技術內核、架構設計理念與未來演進方向。他認為:“‘周易’X3的產品優勢,源于通用、靈活、高效且軟硬協同的系統架構設計,這一設計使其兼具廣泛的行業適用性與靈活的邊端側AI應用場景匹配能力。” “周易”X3的計算架構具備四大核心亮點:
1. 通用與專用融合(DSP+DSA),通過靈活可配置的架構特性提升各場景下的計算效率;
2. 靈活可擴展,采用多核架構與層次化內存互連,支持靈活裁剪與擴展,適配多樣化端側AI場景;
3. 軟硬協同的任務調度,通過軟硬結合、層次化調度與資源管理架構,實現系統在多任務并行情況下對任務執行延遲與響應時間的差異化要求,滿足未來端側AI與AI智能體的需求;
4. 開放生態支持,提供硬件自定義接口、軟件自定義算子,開放Model Zoo與工具鏈等,與客戶協同共建“周易“X3軟件生態。
舒浩博士也公布了“周易”NPU IP架構未來演進的六大方向,包括計算架構、數據格式、通用計算能力、生態合作、軟件界面與計算擴展能力等。安謀科技將緊跟AI和大模型未來趨勢,前瞻布局,不斷創新。

此外,“周易”X3在架構層面實現了多項創新,集成以下關鍵特性:
集成自研解壓硬件WDC:使大模型Weight軟件無損壓縮后通過硬件解壓能獲得額外15%~20%等效帶寬提升。
新增端側大模型運行必備的W4A8/W4A16計算加速模式:對模型權重進行低比特量化,大幅降低帶寬消耗,支持云端大模型向端側的高效遷移。
集成AI專屬硬件引擎AIFF(AI Fixed-Function)與專用硬化調度器:實現超低至5%的CPU負載與低調度延遲,靈活支持端側多任務場景和任意優先級調度場景,確保高優先級任務的即時響應。
支持int4/int8/int16/int32/fp4/fp8/fp16/bf16/fp32多精度融合計算,強浮點計算:可靈活適配智能手機邊緣部署、AI PC推理、智能汽車等從傳統CNN到前沿大模型的數據類型需求,平衡性能與能效。
硬件架構:專為大模型設計最新DSP+DSA架構
“周易”X3基于專為大模型設計的最新DSP+DSA架構,從定點轉向浮點計算,單Cluster擁有8-80 FP8 TFLOPS算力且可靈活配置,單Core帶寬高達256GB/s,支持端側大模型運行必備的W4A8/W4A16計算加速模式,集成安謀科技自研的解壓硬件WDC,使大模型Weight軟件無損壓縮后通過硬件解壓獲得額外約15%的等效帶寬,計算效率和計算密度大幅提升。
同時,“周易”X3集成AI專屬硬件引擎AIFF,配合專用硬化調度器,實現超低至0.5%的CPU負載與低調度延遲,使NPU在并行處理多項AI任務時,擁有高效流暢的體驗。
軟件生態:優化大模型端到端性能,支持客戶自定義AI開發
“周易”X3 搭載完善易用的Compass AI軟件平臺,全面優化大模型端到端性能。平臺廣泛兼容TensorFlow、ONNX、PyTorch等主流AI框架,具備業界領先的大模型動態Shape支持能力,并支持GPTQ等大模型主流量化方案、 Hugging Face模型庫,與LLM、VLM、VLA及MoE等模型。

“周易”NPU Compass AI軟件平臺
同時,安謀科技積極構建開放生態,Compass AI軟件平臺已將 Parser、Optimizer、Linux Driver、TVM 及內部 IR 格式等核心組件相繼開源,并擁有豐富的調試工具,可滿足開發者白盒部署需求,且支持更易用的 DSL 算子編程語言,在深度開發模式下,客戶可以使用平臺中的Compiler、Debugger和DSL語言開發出自己的自定義算子,也可通過Parser、Optimizer等工具打造出屬于自己的模型編譯器,極大提升開發效率。發布初期,“周易”Compass AI軟件平臺已支持超 160 種算子與 270 多種模型,顯著提升開發部署效率,助力客戶快速實現 AI 應用創新與落地。
軟硬深度協同下,“周易”X3的性能顯著提升, CNN模型性能較上一代提升30%-50%,在同算力規格下,AIGC大模型能力提升10倍,這得益于16倍的FP16 TFLOPS、4倍的計算核心帶寬,以及超10倍的Softmax和LayerNorm性能提升共同驅動。實測多核算力線性度達到70%-80%。實測大模型性能方面,“周易”X3 在Prefill階段算力利用率達72%,Decode階段有效帶寬利用率在開啟WDC情況下超100%,充分釋放硬件算力潛力。
安謀科技自研IP矩陣,全面助力端側AI規模化部署

鮑敏祺表示,安謀科技已構建起全面且協同的自研IP產品矩陣,涵蓋“周易NPU”、“星辰”CPU、“山海”SPU及“玲瓏”多媒體系列,可為合作伙伴提供高質量、定制化的端側AI解決方案。其中,最新推出的“星辰”STAR-MC3作為面向AIoT的高能效嵌入式芯片IP,將Arm? Helium?技術擴展到傳統MCU架構,顯著提升了CPU在AI計算方面的性能,可助力客戶更高效地實現端側AI應用的規模化部署。
面向未來,“AI+”浪潮將重塑千行百業。安謀科技將深耕底層技術,通過自研IP與先進Arm技術的深度融合,持續筑牢AI算力根基,為客戶提供符合全球標準且精準適配本土需求的解決方案,助力端側AI產業實現跨越式發展。
三、應用場景
覆蓋基礎設施、智能汽車、移動終端、智能物聯網四大領域
在應用場景上,“周易”X3可廣泛應用于加速卡、智能座艙、ADAS、具身智能、AI PC、AI手機、智能網關、智能IPC等AI設備,深度賦能四大核心領域,提升AI計算效率,優化AI應用體驗。
基礎設施:在加速卡場景中,支持CNN與大模型等多樣結構的AI模型加速;
智能汽車:在ADAS系統中,可基于AI算力進行為自動泊車等輔助駕駛提供AI算力支持;在IVI系統中,支持基于語音與車內外視頻圖像輸入的智能互動;
移動終端:在AI PC、AI手機上,可實現超分渲染,提升分辨率,并支持基于大模型的AI Agent應用;
智能物聯網:在智能網關、智能IPC等設備中,提供本地AI推理能力,提升響應速度,優化智能體驗。
“周易”Z1:算力32~3.75 TOPS,賦能AIoT場景,廣泛支持人臉識別、人臉及人體關鍵點檢測和文字識別等,且已進入AI智能音箱等多種產品。
“周易”Z2/Z3:算力25~5 TOPS,面向AIoT、入門級座艙等市場,支持前視輔助駕駛方案、艙泊一體方案及安全儀表盤方案,以及圖像超分辨率優化等。
“周易”X1:算力10 TOPS,面向高端AIoT、汽車座艙等市場,支持駕駛員監控、乘客監控、自動泊車、AVM 360環視,以及AI圖像降噪等。
“周易”X2:算力10-30 TOPS,面向高端AIoT、AI PC、AI Pad、手機等市場,現場展示了運行Stable Diffusion v1.5的文生圖能力,運行CLIP的文搜圖能力,可實現端側多模態AI流暢運行。
“周易”X3:算力8-80 FP8 TFLOPS,面向基礎設施、智能汽車、移動終端、AIoT等市場,現場展示了基于“周易”X3的主流大模型效果,包括運行DeepSeek-R1-Distill-Qwen-1.5B模型的文生文AI流暢對話,運行Stable Diffusion v1.5的文生圖效果,運行MiniCPM v2.6模型的圖片識別及圖生文多模態應用等,均展現出優異的端側大模型推理性能。
從“周易”Z1的基礎感知到“周易”X3的復雜認知,這一技術演進路徑清晰地表明,端側AI正在從單一的功能實現,邁向融合多種模型、適應動態場景的“全民普及”新階段。“周易”X3 NPU IP的設計充分預判端側AI的“場景深化”趨勢:以極致算力表現破解“多模型融合”的算力需求,以全算力類型并增強浮點運算FLOPS適配“精度動態演變”的場景差異,借助軟硬協同的生態打造端側算力底座。





評論