將AI工作負載推向邊緣
專家們在桌上:半導體工程召集了一群專家,討論一些AI工作負載如何更適合設備端處理,以實現穩定性能、避免網絡連接問題、降低云計算成本并確保隱私。小組成員包括Frank Ferro,他是該組織的團體主管。硅Cadence的解決方案組;愛德華多·蒙塔涅斯,副英飛凌PSOC邊緣微控制器與邊緣AI解決方案、物聯網、無線及計算業務總裁兼負責人;Keysight高級總監Alexander Petr;Raj Uppala,市場營銷與合作伙伴高級總監硅Rambus的知識產權;西門子EDA中央人工智能產品經理Niranjan Sitapure;以及Synopsys首席產品經理Gordon Cooper。以下是該討論的節選。
SE:隨著行業越來越多地討論并計劃將原本存在于云端的AI應用遷移到邊緣,理解為什么會發生這種情況變得非常重要。關鍵驅動力是什么?
鐵:我們看到大家對如何支持這些邊緣AI應用的興趣很大,主要是因為訓練一直是過去四五年的熱門話題,隨著這些模型的成熟,正被推向邊緣和網絡端點。這意味著我們看到對人工智能推理的興趣大大增加。我甚至看到一些市場報告說AI推理市場將開始增長。推理所需的計算需求更低,隨著你向網絡邊緣和端點擴展,成本、功耗等都會變得更加緊張。這意味著你必須大幅降低功率。你必須在實施這些系統時成本更低、更高效。我花了很多時間在那里,與客戶會面,討論他們如何在邊緣實現這些大型語言模型。甚至不到一年前的要求也需要更多的容量和帶寬。隨著LL模型的不斷發展,AI推理變得越來越依賴計算。
蒙塔涅斯:云計算存在許多限制,我們正在解決,特別是圍繞無線連接的基礎設施。并非所有設備都必須連接,因此邊緣AI有很好的機會帶來本地用戶體驗。此外,數據隱私也有限制。我們家里很多人都有帶攝像頭或麥克風的產品,誰知道你的數據會流向哪里?因此,邊緣人工智能提供了為用戶提供不同體驗的能力,而不會讓數據散布到各處。正如Frank剛才提到的,電池供電產品也能創造全新的體驗。確實存在一個局限性,比如高度依賴數據中心,且體積更大,耗電量大。其中一些大型語言模型可以在極低的能量下運行于邊緣。
切赫:區分訓練和推理是有道理的。提到了大型語言模型,但不僅僅是大型語言模型;神經網絡還有其他架構。所以,當我們談論人工智能時,必須明確我們談論的內容以及我們想要運行的內容。如今我們不僅談論GPU,還包括神經處理單元(NPU)和張量處理單元(TPU),它們是專門的人工智能加速器。它們在架構、部署環境和性能特性上存在顯著差異。你需要哪個處理單元,真的取決于你在做什么。你現在在行業里遇到的問題基本上是:在哪里培訓,哪里需要推理。這也很大程度上取決于這些模型的規模和能力,比如大型語言模型。如果我們堅持使用LLMs,東西流量和南北流量有定義。培訓的要求與推理的要求有很大不同。對于AI模型訓練,分布式GPU/CPU架構至關重要,因為它支持GPU節點間的集體通信和并行處理,這對高性能、多租戶和高效資源利用至關重要。目標是確保無損連接并最小化尾端延遲,這對最佳AI訓練效率至關重要。
SE:移動數據確實有很大的開銷,對吧?
Petr:如果你看數據中心,他們是以吉瓦的價格購買數據中心。NVIDIA正在與一家數據中心提供商達成協議,說:“我需要4吉瓦或更多?!敝劣谌萘浚麄儾徽勑枰嗌貱PU或GPU,也不需要多少帶寬或內存。他們開始談論能量。超虛擬化和并行化——即培訓中的溝通——是不同的。我們也聽到其他嘉賓說,內存的位置和連接方式至關重要。從推理角度看,我認為我們的半導體行業與消費者之間存在明顯的區別。如果你進入GPT,大部分推理都在云端進行。但如果你看手機,我們現在手機上有TPU和NPU,所以這已經是邊緣設備了,我們看到不同的計算技術和不同規模的LLM被部署。我認為,與客戶合作開發人工智能解決方案時,最重要的一點是,這一切其實都關乎安全。LLMs是基于廣泛可得數據構建的,也就是從互聯網抓取的,而LLMs則是每家公司獨有、基于其IP構建、訓練和完善的微調模型或用戶專用AI解決方案。一旦你遇到那些有安全要求且不想讓IP暴露在任何互聯網上的公司,我們就在談論空氣間隙解決方案。這也是你會看到越來越多的邊緣需求的地方。這也是我們看到越來越多的數據中心遷移到私人場所,以及邊緣設備部署在培訓現場——以及推理方面的重要原因。還有移動設備。使用電池的設備有不同的需求。
Uppala:這里的挑戰在于,當你看待應用時,必須考慮各種限制。我們的一些同事指出了當計算需求、帶寬和延遲要求不同時,存在的挑戰。從應用角度來看,比如安防攝像頭等,攝像頭可以內置一些智能功能,但在處理能力方面是有限的。假設我們談論的是偏遠地區的電力基礎設施,火災隱患一直是個大問題。在這種情況下,你不會期望有很高的連接性,攝像頭的計算能力也有限。你可以加入一些分析功能,比如檢測火災并將元數據發送到安全運營中心等。這非常受帶寬限制,你需要關注某種特定的東西。從類似的應用角度來看,如果你看安全和安保的分析,比如遭遇入侵等情況,這對延遲非常關鍵。你需要確保有足夠的帶寬發送警報,而每秒或毫秒都非常重要,正如最近巴黎盧浮宮發生的事件所示。你越早收到這些警報,就能越快應對某些情況。自動駕駛車輛也是安全是關鍵關注點之一的例子,你不能指望數據能被傳到云端再傳回來。推斷必須非??焖?,才能在車輛上進行推斷。我會更從應用的角度出發,看看哪些應用需要延遲以及計算的類型。有時甚至會出現混合情況。比如你把這些攝像頭安裝在零售場所,盜竊不需要太多分析。你可以在邊緣、終端、攝像頭本身做分析。但如果你需要更多分析,比如人流量、熱力圖等,這并不是延遲關鍵。你可以把這些數據推送到云端,在那里進行分析。歸根結底,這取決于應用本身、應用的能力以及應用的連接性。越來越多的用例正在出現,可以利用人工智能,但在帶寬和計算能力方面仍然存在一些局限性。
庫 珀: 我們看到推理與訓練的巨大推動。在云端,有幾個大廠商,競爭非常困難。向邊緣移動的原因之一是,人們有這項技術想要推進,然后說,'哦,那是個擁擠的空間。讓我去看看這邊。'這里有連接性、隱私、延遲和安全。云端可能存在安全問題,可以通過遷移到邊緣來解決。汽車應用就是一個延遲關鍵的例子。如果你看到行人,你希望你的車能用大型語言模型和你對話。你沒有時間去云端說,'哦,注意行人。'還有一點很相關,就是手機里已經有TPU和NPU。所以市面上有一大堆設備,可以讓這些人通過算法測試,然后再轉向智能眼鏡、汽車或其他設備。這很有幫助,因為你已經有一些硬件在位了。此外,這不是非此即彼。另一個汽車例子是,也許我大部分時間都在連接,但不連接時我會切換到本地,然后又回到云端。這可能是一種混合模式,你來回切換。所以,將AI應用遷移到邊緣有很多商業和技術原因。
西塔普雷爾:我上周參加了Jensen Huang的主題演講,他談到的一個重要話題是物理人工智能,也就是機器人技術。這包括你的視覺語言模型(VLM)、專門的機器學習/強化學習(ML/RL)模型來抓取物品等等。這是一個價值10萬億美元的市場,所以機器人活動非?;钴S。[上周],NEO推出了X1,Figure 擁有03,所有這些酷炫的東西即將到來。機器人技術,僅僅在這個領域,就必須是前沿領域。你根本不可能做云端。特斯拉和Waymos呢?這些都是邊緣計算。另一個例子是現在更智能的可穿戴設備。當AWS服務器事件發生時,人們無法打開他們的大門。人們無法作咖啡機,因為它們都在云端運行。如果你裝了心臟起搏器,某種程度上還在分析數據,結果因為Wi-Fi斷了,心臟停止跳動,那你就不應該有這種情況。最好保持簡單。











評論