久久ER99热精品一区二区-久久精品99国产精品日本-久久精品免费一区二区三区-久久综合九色综合欧美狠狠

新聞中心

EEPW首頁 > 業(yè)界動態(tài) > 寒武紀(jì)基礎(chǔ)軟件平臺Cambricon NeuWare能否突出重圍?

寒武紀(jì)基礎(chǔ)軟件平臺Cambricon NeuWare能否突出重圍?

作者: 時間:2025-11-04 來源:電子產(chǎn)品世界 收藏

經(jīng)過多年投入與積累,基礎(chǔ)已經(jīng)日趨成熟,全面兼容社區(qū)最新PyTorch版本和Triton算子開發(fā)語言,支持用戶模型和自定義算子快速遷移 —— 讓用戶與開發(fā)者能夠跨越不同的硬件和應(yīng)用場景,降低上手難度、提升開發(fā)效率。

640-5.jpeg

經(jīng)過持續(xù)的全棧優(yōu)化,基礎(chǔ)在多項指標(biāo)上都已達(dá)到業(yè)界領(lǐng)先水平,特別針對當(dāng)前業(yè)界極具挑戰(zhàn)的大規(guī)模集群運維實踐,進(jìn)一步豐富和完善了多項集群工具,為大規(guī)模訓(xùn)練推理業(yè)務(wù)在集群環(huán)境中的部署運維調(diào)試和調(diào)優(yōu)提供了堅實的底座。

已完成大規(guī)模技術(shù)和產(chǎn)品驗證

在大模型與搜廣推的訓(xùn)練推理上,都已完成了大規(guī)模的技術(shù)和產(chǎn)品驗證,驗證結(jié)果表明:解決方案可支撐多場景下的流式訓(xùn)練任務(wù),可持續(xù)超數(shù)月穩(wěn)定運行,精度與穩(wěn)定性均滿足要求。

在大模型訓(xùn)練方向,寒武紀(jì)重點支持DeepSeek V3/V3.1、Qwen2.5/Qwen3/Qwen3-next等MoE類模型訓(xùn)練,同時擴展了GLM4.5、Flux、Wan2.1/2.2、Qwen3-VL、Hunyuan-Video等模型的訓(xùn)練支持。基于原生FP8的計算能力,新增Qwen/DeepSeek等系列網(wǎng)絡(luò)FP8的訓(xùn)練支持,精度符合預(yù)期。

值得一提的是,通過深度的生態(tài)合作,針對DeepSeek V3.2-Exp模型,寒武紀(jì)實現(xiàn)發(fā)布即適配的支持,并與合作伙伴同步開源適配代碼。寒武紀(jì)持續(xù)開展對DeepSeek、Qwen、Wan、Hunyuan等系列最新開源模型的極致性能優(yōu)化,并專項攻堅長序列與超低解碼延時等場景的性能優(yōu)化,持續(xù)保持性能領(lǐng)先優(yōu)勢。

正是這種軟硬一體、兼具性能領(lǐng)先與部署高效的核心競爭力,讓寒武紀(jì)能夠能夠取得快速突破,完成大規(guī)模技術(shù)和產(chǎn)品驗證。

640-6.jpeg

寒武紀(jì)基礎(chǔ)(圖中僅列舉部分組件)

CNPerf-GUI適配Linux、macOS、Windows多平臺,支持CNPerf、PyTorch Profiler、Tensorflow Profiler、CNTrainKit等日志格式,且支持超大日志文件(上億函數(shù)記錄)的快速加載及流暢操作。

新增程序正確性分析工具CNSantizer,使用運行時插樁技術(shù)自動完成多核間競爭訪問檢測、單核內(nèi)多指令流競爭訪問檢測、Device側(cè)內(nèi)存越界訪問檢測、未定義程序行為檢測、使用未初始化內(nèi)存檢測等。

新增程序性能分析和調(diào)優(yōu)建議工具CNAdvisor,使用運行時插樁采集以及硬件性能計數(shù)器采集方式獲取程序運行時狀態(tài),并根據(jù)性能調(diào)優(yōu)經(jīng)驗庫,自動分析程序性能問題并標(biāo)記出對應(yīng)源代碼位置,進(jìn)一步給出優(yōu)化建議。

1. Cambricon HLO:機器學(xué)習(xí)模型高級操作集(HLO)的寒武紀(jì)后端; 

2. CNNL:Cambricon Network Library,寒武紀(jì)人工智能計算庫; 

3. CNNL-Extra:Cambricon CNNL Extra,寒武紀(jì)人工智能計算庫的擴展庫; 

4. CNCV: Cambricon Computer Vision Library,寒武紀(jì)計算機視覺庫; 

5. CNCL:Cambricon Communications Library,寒武紀(jì)高性能通信庫; 

6. CNFFmpeg:Cambricon FFmpeg,基于開源FFmpeg開發(fā)的硬件加速庫; 

7. CNCC:Cambricon Compiler Collection,寒武紀(jì)BANG C語言編譯器; 

8. CNAS:Cambricon Assembler,寒武紀(jì)匯編器組件; 

9. CNGDB:Cambricon GNU Debugger,寒武紀(jì)BANG C語言調(diào)試工具; 

10. CNSanitizer:Cambricon Sanitizer,寒武紀(jì)代碼檢測工具; 

11. CNPAPI:Cambricon Profiling API,寒武紀(jì)性能分析接口庫; 

12. CNPerf:Cambricon Performance,寒武紀(jì)性能分析工具; 

13. CNPerf-GUI:Cambricon Performance Graphical User Interface,寒武紀(jì)性能剖析圖形化工具; 

14. CNMon:Cambricon Monitor,寒武紀(jì)設(shè)備監(jiān)控與管理命令行工具; 

15. CNVS:Cambricon Validation Suite,寒武紀(jì)設(shè)備驗證工具集; 

16. CNFieldiag:Cambricon Field Diagnostic,寒武紀(jì)現(xiàn)場診斷工具; 

17. CNAnalyzeInsight:寒武紀(jì)故障分析工具; 

18. CNCL-benchmark:Cambricon Communications Library Benchmark,寒武紀(jì)通信庫性能基準(zhǔn)測試工具; 

19 Cambricon Device Plugin:寒武紀(jì)設(shè)備插件; 

20. CCOMP:Cambricon Cluster Operation Management Platform,寒武紀(jì)智算運管平臺。

積極擁抱開源

寒武紀(jì)計算庫積極擁抱開源社區(qū)的技術(shù)演進(jìn),持續(xù)迭代打磨核心基礎(chǔ)算子的功能、性能和穩(wěn)定性,更快更好地支持在寒武紀(jì)智能芯片上高效、穩(wěn)定地運行開源和私有模型。寒武紀(jì)快速跟進(jìn)社區(qū)PyTorch的進(jìn)展,支持PyTorch 2.1到PyTorch 2.8的全部社區(qū)版本。

寒武紀(jì)還提供GPU Migration一鍵遷移工具,幫助用戶近乎零成本將模型從GPU遷移到MLU。同時配備TorchDump精度調(diào)試工具和Torch Profiler性能調(diào)試工具,助力用戶高效定位和解決精度和性能問題。

適配了包括DDP、FSDP、FSDP2、HSDP、Tensor Parallelism、Context Parallel、Pipeline Parallelism、SDPA、Inductor、MLU Graph、AOTInductor以及Inductor cppwrapper等一系列關(guān)鍵功能。此外,寒武紀(jì)還支持PyTorch Lightning、TorchTitan、TorchRec等社區(qū)生態(tài),并建立快速跟進(jìn)社區(qū)版本的長效機制,可在社區(qū)版本發(fā)布后2周內(nèi)實現(xiàn)MLU適配版本的發(fā)布。

憑借領(lǐng)先的芯片技術(shù)與完善的基礎(chǔ)軟件平臺,寒武紀(jì)產(chǎn)品已經(jīng)在大模型、搜廣推、圖片與視頻生成和各類多模態(tài)的訓(xùn)練與推理場景中成功完成驗證,贏得廣泛認(rèn)可。在此過程中,寒武紀(jì)產(chǎn)品不斷接受更多大規(guī)模場景高強度檢驗,推動軟件平臺與芯片體系持續(xù)進(jìn)化。


評論


相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉