將AI模型和推理引入物聯網
人工智能的實施正在從云轉向邊緣。帶寬和延遲是在邊緣云應用程序中進行推理時的關鍵問題,因此源推理對于許多物聯網應用程序至關重要。因此,邊緣對更多計算能力的需求也在上升。
然而,邊緣是一個高度分散的領域,包括工業、智能手機、消費和可穿戴設備等市場。支持音頻、語音、文本和視頻的上下文 LLM 對物聯網計算提出了越來越高的要求,從數百個 GOPS 到數十個 TOPS 甚至更高。針對這一問題,Synaptics 推出了 Astra SL2600 系列多模態邊緣 AI 處理器,該處理器目前包括 2610 系列邊緣 AI 處理器,旨在提供卓越的功率和性能,支持新一代經濟高效的智能設備,使認知物聯網 (IoT) 成為可能。
Synaptics 技術產品營銷高級總監 Nebu Philip 評論道:“解決人工智能進入碎片化邊緣市場的關鍵是提供合適的芯片和軟件,以能夠滿足整個邊緣的處理要求。
瞬息萬變的市場中的邊緣 AI
邊緣市場目前正在經歷設備和功能的快速變化。此外,擴展邊緣應用程序并不容易。關鍵問題是,在眾多初創公司和云提供商的推動下,人工智能軟件、模型和框架正在迅速變化。由于現有的芯片類別無法跟上軟件方面的創新速度,芯片供應商面臨著充滿挑戰的設計環境,特別是對于需要較長使用壽命的數百萬美元項目。整個人工智能軟件生態系統(包括模型、算法、框架、編譯器和運行時)的快節奏創新正在對設計方法和產品開發提出挑戰。
在軟件方面,大型語言模型(LLM)相對穩定,因為Meta和谷歌等超大規模企業已經建立了模型框架。其中包括 LiteRT、TensorFlow、ONNX、PyTorch 和新的 Google 模型格式 JAX。設計師們正在熟悉這些模型。在云上運行,這些模型只需要考慮 Nvidia 或 AMD GPU。然而,在邊緣,芯片由許多供應商提供,每個供應商都有與自己的產品緊密相關的不同編譯器。一旦提交到特定的編譯器,更改就會變得困難且成本高昂,這可能導致供應商鎖定。
Nebu Philip 評論道:“使用專有的邊緣 AI 編譯器和自定義方法將模型集成到應用程序工作流程中,正在為 OEM 創造圍墻花園體驗和鎖定。
AI 架構、開源和合作伙伴關系
Synaptics 旨在通過三個關鍵戰略擴大 AI 推理邊緣芯片市場。首先,該公司正在解決可擴展、安全的芯片架構,使 SoC 能夠適應不斷發展的 AI 模型格式和運算符,從而最大限度地降低隨著標準變化或新運算符的添加而過時的風險。其次,Synaptics 正在推廣開源、基于標準的人工智能軟件,特別是在模型組合器等領域,以防止碎片化并促進全行業的創新。第三,他們尋求與有影響力的生態系統參與者建立合作伙伴關系,以建立最佳實踐、推動行業標準并支持通用人工智能硬件的強大應用程序開發。
今年早些時候,Synaptics 與 Google 就 Edge TPU 項目建立了多代芯片合作伙伴關系。TPU(張量處理單元)是谷歌開發的一種 ASIC,用于加速機器學習和神經網絡計算。多年前,谷歌啟動了 Edge TPU 項目作為硅游戲。最初,TPU 是為云設計的,但谷歌隨后將 TPU 架構帶到了邊緣。此后,谷歌不再強調硅制造的角度,而是創建了任何人都可以集成到硅中并推向市場的開源 IP。
Nebu Philip 補充道:“Google 專注于構建一個生態系統,其中包含連接邊緣設備和云的干凈開發管道。目前,變現策略基于云。目的是創造公平的競爭環境,以便實現從邊緣到云的數據提取。對于 Synaptics 來說,此次合作推進了最先進的模型部署,并通過盡早訪問新平臺并作為先鋒合作伙伴獲得市場份額來提供競爭優勢。
在為 AI 工作負載設計邊緣 SoC 時,僅靠基于 ARM 的標準計算不足以滿足不斷變化的需求。基于基于標準 ARM 的計算構建的新架構的關鍵補充必須集成能夠處理視覺、音頻和環境輸入的專用 I/O 管道。新架構確保數據可以有效地流入推理引擎。此外,多租戶工作負載的安全性和機密性是重要的考慮因素。
在這種新架構中,一個MPU可以用來加速變壓器,這基本上是所有最先進的模型。與之密切相關的還有另外兩個元素。一種是使用本地化標量計算來處理尚未定義的新指令或指令集合,以及尚不可用的作。其次,共享、低延遲、高性能的 SRAM 連接了這兩個計算機域,從而實現靈活的擴展并確保隨著模型的發展與新的 AI 工作負載兼容。

圖 1:用于邊緣 AI 的可擴展安全處理器的新架構。
2010 年邊緣 AI 處理器系列內部
新的 SL2610 系列 2610 系列邊緣 AI 處理器包括五個引腳對引腳兼容系列——SL2611、SL2613、SL2615、SL2617 和 SL2619——專為從電池供電和被動冷卻設備到高性能工業視覺系統等廣泛應用而構建。這些處理器提供高能效,并與 Synaptics Veros Connectivity 跨 Wi-Fi 6/6E/7、BT/BLE、Thread 和 UWB 無縫集成,提供統一的開發人員體驗,加快上市時間。
“憑借 Astra SL2610 系列邊緣 AI 處理器,Synaptics 正在重新定義邊緣 AI 的可能性。通過行業領先的能效和突破性的多模態人工智能加速,這些處理器為客戶設計可擴展的下一代物聯網提供了架構基礎,“Synaptics 邊緣人工智能物聯網處理器高級副總裁兼總經理 Vikram Gupta 說。
Synaptics 還提供 SL1600 系列 AI 原生 Linux 和 Android AI 處理器,以及 SR100 高性能上下文感知 AI MCU,均已投入生產。SR 200 系列正在開發中。
SL2619 系列是 SL2610 系列邊緣 AI 處理器中的最高端產品,具有雙 2 GHz Arm Cortex A55 內核和基于 Arm Cortex-M52 MC 的低功耗子系統,用于系統管理、電源管理和安全啟動。它包括一個專用的加密加速器,并支持多模態視頻和音頻輸入管道。
突出的功能是 Torq NPU 子系統,它包括一個 Synaptics 設計的可擴展 T1 NPU,用于對 Transformer 和卷積神經網絡 (CNN) 模型進行低延遲、高吞吐量硬件加速,并結合 Google 開源 Coral NPU,一個基于 RISC-V 的低功耗、高度可編程的引擎。Coral NPU 與 Torq AI 子系統緊密集成,旨在處理新的和不受支持的指令。T1 無法處理的任何內容都可以移植到 Coral NPU。這種設置支持智能管理的分層處理系統,在完全加速的計算引擎、RISC-V 內核和雙核 Arm 主機處理器之間提供靈活的編程模型,從而實現最佳資源利用率。Google Coral NPU ML RISC-V 加速器的實施是業界首創。
該軟件是 Torq 平臺的后半部分,提供編譯器、運行時、構建框架和其他工具來利用 NPU。它使開發人員能夠為視覺、音頻和語音創建在 NPU 上無縫運行的多模態 AI 應用程序。
與其他通常是專有和閉源的人工智能編譯器相比,Torq 具有與 Google 合作開發的開源編譯器。通過使編譯器和工具鏈開源,Synaptics 和 Google 旨在為開發人員創建一個更易于訪問的生態系統。
SL2619 還通過硬件錨點、威脅檢測和應用程序加密提供邊緣安全性。
解決編譯器問題
過去幾年的一個趨勢是,硅供應商收購模具公司,并將這些工具緊密集成到他們的硅產品組合中,使原始設備制造商能夠開發產品。然而,這會將 OEM 鎖定在特定于供應商的專有工具體驗中,從而減少了選擇。為了解決這個問題,MLIR(多級中間表示)項目提供了一個完全開源的模塊化編譯器基礎設施,支持多個抽象級別。MLIR 最初主要由 Google 開發并作為 LLVM 項目的一部分進行維護,它支持無縫攝取各種模型格式(PyTorch、ONNX、JAX)并編譯成可部署在硅中不同 AI 引擎子系統的二進制文件。此外,它從頭到尾都是完全開源的。
Torq 使用 IREE(中間表示執行環境),它是建立在 MLIR 編譯器基礎設施之上的端到端編譯器和運行時框架。它使用 MLIR 的模塊化和可擴展中間表示來編譯和優化針對不同硬件目標(包括 CPU、GPU 和加速器)的機器學習模型,從而實現跨平臺的無縫模型部署。

Torq 端到端編譯器和運行時框架。
Nebu Philip評論道:“這創造了公平的競爭環境,因為開發人員不再受制于大型芯片供應商的專有編譯器和工具。面向未來的人工智能架構與開源工具的結合將以積極的方式在物聯網領域產生巨大的顛覆性影響。
Synaptics 將其所有開源邊緣 AI 軟件和工具整合到 developer.synaptics.com。這種交互式資源使用戶能夠從模型集合開始,對其進行優化,然后在現成的開發工具包上運行它們。該軟件和工具允許用戶直接在桌面上完成評估,然后進一步優化。
展望未來
2600 系列中的 2610 系列邊緣 AI 處理器是高端系列中的入門級產品。它非常節能,可以在電池供電的系統上運行或用于能量收集設計。到明年年底,Synaptics 將擁有一套中端系列。
2010 系列邊緣 AI 處理器實現了 CPU 的 1-TOP 實現。然而,由于架構的原因,即使與使用現有架構的 4-TOPS 或 8-TOPS 器件相比,效率也高得多。低功耗、高效率設計的關鍵是使用 RISC-V Coral NPU,這是一種低于 10 毫瓦的實現。2010 系列只是第一代,它旨在加速當今的標量指令。第二代將加速矢量指令,而第三代將具有矩陣指令。
量子阻力和加密算法也在路線圖上,但由于標準仍在發展,它們還沒有準備好在硅中實施。然而,谷歌研究團隊也在研究 CHERI(功能硬件增強型 RISC 指令),這是一個主要由劍橋大學與 SRI International 合作領導的研究項目。CHERI 通過基于功能的安全功能增強了 RISC-V 和 Arm 等 ISA 架構,主要提供細粒度的內存保護。實施此 IP 也在路線圖上。
將 AI 模型引入邊緣
將人工智能模型和推理引入物聯網代表了從以云為中心的計算到以邊緣為中心的計算的變革性轉變,解決了延遲、帶寬和數據隱私等關鍵挑戰。使用邊緣人工智能在本地處理數據的能力可以實現實時決策,通過最大限度地減少數據傳輸來增強安全性,并減少對云的依賴。然而,物聯網市場的碎片化性質需要適應性強的芯片和開放軟件生態系統,以適應快速發展的人工智能模型和多樣化的應用需求。Astra SL2600 系列具有可擴展的架構、高效的功耗和靈活的 NPU,展示了下一代硬件如何為邊緣的多模態 AI 工作負載提供支持。合作伙伴關系,例如多代 Synaptics-Google 合作以及 MLIR 和 IREE 等開源工具鏈,可推動創新并減少供應商鎖定。展望未來,處理器設計、CHERI 等安全功能和加密增強功能的不斷進步將進一步釋放物聯網的潛力,實現智能、安全和高效的邊緣人工智能應用,重新定義互聯設備的未來。











評論