昇思人工智能框架峰會 | MindSpore Core動態圖性能優化技術,助力多模態模型高性能訓練
據悉,昇思MindSpore開源社區將于 2025年12月25日在杭州舉辦昇思人工智能框架峰會。本次峰會的昇思人工智能框架技術發展與行業實踐論壇將討論到昇思MindSpore大模型訓練技術進展與實踐,昇思MindSpore的核心貢獻者將在昇思開發者動手實踐workshop設立開發者動手實踐體驗,帶領開發者體驗使用昇思MindSpore大模型訓練技術。本文對MindSpore 大模型訓練技術進行了深入解讀,就業界關熱度較高的動態圖性能優化技術,介紹MindSpore的優化方案。
在人工智能邁向通用智能的進程中,多模態大模型正成為連接語言、視覺、語音等多元信息的核心載體。然而,這類模型結構高度動態、計算通信密集,對AI框架提出了“既要靈活開發,又要極致性能”的雙重挑戰。傳統動態圖框架因調度粒度粗、通信串行等問題,長期難以支撐大規模高效訓練。面對這一瓶頸,昇思MindSpore依托全棧自研架構,通過 “動態圖多級流水” 與 “多流并發執行” 兩大關鍵技術,顯著提升多模態網絡訓練效率,讓動態圖真正兼具靈活性與高性能。
關鍵技術一:動態圖多級流水 —— 細粒度調度,釋放單算子下發性能
由于動態圖執行流程較長,需要通過python調用到C++,做類型推導,申請內存資源,自動微分處理等,導致算子下發較慢,MindSpore框架動態圖模式,根據算子下發的特點設計基于異步流水的下發及自動微分的機制。

1、 Python階段:對API的輸入進行Python到C++類型的轉換,該部分由于MindSpore動靜態圖使用相同數據結構,因此對這部分的優化主要是針對數據結構的創建以及轉換效率行進行優化。
2、Infer階段:該部分用于推導算子的輸出shape和dtype,用于后續的顯存申請,針對該部分,盡可能減少數據結構類型的轉換,減少實現邏輯中的冗余判斷等操作。
3、執行階段:該部分主要包含顯存申請(輸入輸出顯存,workspace顯存),優化顯存申請接口的性能以及顯存表達的數據結構創建性能。
4、硬件交互階段:該部分主要調用底層提供硬件接口,通過隊列保序,達到流水并發的效果。
5、自動微分階段: 該階段主要發生在前向執行過程中,當執行過程中,得到API的輸入輸出后,就可以根據具體的算子得到相應的反向,因此如上圖所示,在前向過程中,我們采用了一個AD線程來進行自動微分的構建,使得前向過程和自動微分過程能夠并發執行,從而消減動態圖每次重新構建計算圖的開銷。
該技術在某多模態大模型的應用中,端到端提升10%性能。
關鍵技術二:多流并發執行 —— 打破通信墻,實現計算與通信并發
多模態訓練不僅計算密集,更面臨復雜的通信需求:文本梯度同步、圖像特征廣播、專家路由交換等多類通信操作常交織并存。若采用單流串行執行,NPU將長時間處于等待狀態,集群利用率驟降。為此,昇思MindSpore在動態圖中通過支持 多流并發執行,實現兩類關鍵并發:
? 通信與計算并發:支持通信流和計算流的并發執行,計算流和通信流公用一個內存池,實現計算和通信的內存復用;
? 通信與通信并發:針對不同通信域單獨申請通信流,自動分配不同通信流,充分利用網絡帶寬,消除通信串擾,例如在不同Pipeline階段的send/recv使用不同的通信流。
該技術在某多模態大模型的應用中,端到端提升5%性能。
未來,昇思MindSpore將持續深耕動態圖高性能計算,推動自主創新的AI基礎軟件從“可用”走向“領先”,為多模態智能時代的產業變革注入強勁動力。
若對昇思MindSpore的大模型優化技術感興趣,歡迎加入社區MindSpore Core SIG群組
本次在杭州舉辦的昇思人工智能框架峰會,將會邀請思想領袖、專家學者、企業領軍人物及明星開發者等產學研用代表,共探技術發展趨勢、分享創新成果與實踐經驗。歡迎各界精英共赴前沿之約,攜手打造開放、協同、可持續的人工智能框架新生態!









評論