生成式AI時代的邊緣AI處理器評估

作者：時間：2025-12-04 來源：

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

TOPS很重要，但還不夠。

隨著邊緣人工智能不斷革新行業，選擇合適的處理器成為開發者和企業的關鍵決策。雖然TOPS次數（每秒太作數）歷來是評估AI硬件的首選指標，但僅依賴它可能導致過于簡化和誤導性的結論。在這里，我們將探討細微差別比較尖端AI處理器及應考慮哪些參數。

步驟1：計算與內存的平衡

雖然TOPS提供了原始計算能力的衡量，但它只講述了部分情況。要真正理解處理器的性能，我們需要考慮計算能力與內存之間的微妙平衡。

TOPS什么時候重要？

為每個應用選擇的神經網絡架構定義了計算能力的量。由于所需的計算能力與輸入大小成正比，視頻或圖像處理所需的計算量（由像素數乘以每秒幀數（FPS）定義，其計算能力高于處理時間序列輸入（如音頻或雷達）所需的采樣率計算能力。由于語言是一種高度濃縮和抽象的交流形式，它能夠用遠少于圖像或視頻中密集高維輸入的數據傳達大量意義，因此處理所需的計算量顯著減少。

圖1：TOPS 與 fps（感知型 AI 模型）

如圖1中的圖表所示，所需的計算資源與模型規模和輸入吞吐量線性。

每個輸入樣本所需的計算資源在不同AI任務中差異大為數倍。

感知型AI（例如物體檢測、分類）：每個輸入樣本可執行10萬次作，通常以高幀率和高分辨率處理
增強AI（例如低光去噪、自動變焦、自動對焦）：每個輸入樣本可作1萬次
生成式人工智能（如LLM、VLM、文本轉圖像等）——每個輸入樣本可作1K次

圖2：不同AI任務的模型規模與計算需求

記憶什么時候重要？

感知型和增強型AI模型的參數數相對較低（增強型為<100萬，感知型為100萬至100萬美元）。擁有足夠片上內存的處理器可以在不依賴片外內存的情況下處理此類型號，從而降低延遲和功耗。

而生成式AI模型則處于數十億參數的規模，邊緣和移動模型參數范圍從5億到8億不等。對于如此大型的型號，片外存儲器（例如DRAM）變得至關重要。隨著數量級的增加，每個接口的內存帶寬負載已超過可用帶寬，主導了系統級性能。如圖3所示，代幣逐代幣（TBT）性能并不會隨模型規模線性增長。模型尺寸翻倍或四倍并不會線性翻倍，除非帶寬也相應地擴展。

圖3：給定標準內存接口的模型性能（生成式AI模型;假設4位權重表示）

帶寬瓶頸從這個例子中顯而易見。而一個1B參數的小型語言模型在1個LPDDR4X內存和17GB/s帶寬下，可以達到高達40個令牌/秒的TBT性能;而4B模型則需要將內存帶寬增加四倍才能達到相同性能。

中間成績也是限制因素。在執行層層計算的架構中（如 GPU），中間結果也會增加內存帶寬負擔，使步長更低，或限制每個內存資源可實現的性能。

在生成式AI應用場景中，增加內存資源對于保持高性能至關重要。然而，這不僅帶來了成本增加，還帶來了延遲和更高的功耗需求。因此，所有資源之間需要謹慎平衡。

計算資源和內存資源的平衡

任何人工智能應用要高效運行，都需要一定的計算量和內存。但超過這個閾值，TOPS和內存之間的平衡就因工作負載而異。考慮一個高分辨率視頻分析任務。這種工作負載需要強大的計算能力來處理大輸入幀和高幀率，同時處理這些幀需要適度的內存帶寬?，F在與自然語言處理模型形成對比，后者對內存的需求遠遠超過計算壓力。當輸入主要為文本和/或音頻時，推斷速率達到人類交互速度，因此內存帶寬是限制因素;然而，當涉及視頻時，隨著圖像輸入處理，這一限制變得更加平衡階段以TOPS為主，而非圖像模態受限于內存帶寬。

在每種情況下，增加更多TOPS，或增加內存而不尋址對方，都會導致收益遞減。對于某些應用，即使有無盡的TOPS處理器，處理器也無法運行，因為會遇到內存瓶頸。對另一些人來說，如果計算能力不足以滿足任務需求，內存充足也無關緊要。

在選擇邊緣應用的人工智能解決方案時，一種實用方法是確保作領域內的障礙跨越。實際上，這意味著以理想速率評估每個典型工作負載的性能。

例如，對于單一視頻流的安防攝像頭應用，需要一個處理器能夠處理>30幀的視頻增強、10至15幀的感知任務，以及1至2幀的基于VLM的視頻分析。這將決定計算和內存資源的平衡，同時考慮功耗和成本包圍。

圖4：Hailo-15視覺處理器中的內存與計算資源利用

例如，配備32位LPDDR4X內存I/F、20 TOPS 的Hailo-15 AI視覺處理器中，ISP將占用約30%的內存和計算資源，而AI分析主要消耗計算資源，應用視覺語言模型（VLM）對內存需求較大，計算量較小。

TOPS與內存之間的動態相互作用對于理解為何單一指標無法捕捉處理器的真實性能至關重要。這些資源的最佳比例不僅在不同應用之間存在差異，也在單個應用的特定工作點內存在差異。

第二步：理解用例和工作點的作用

如果說平衡TOPS和內存是處理器選擇的基礎，那么該用例為做出明智決策提供了藍圖。與云不同，云端過高負載可能轉化為更多實例，無論是計算還是內存帶寬，而在邊緣領域則存在一個權力和成本的平衡，需要通過在不同工作負載間妥協，才能提供適合實際部署場景的解決方案。

特定邊緣AI應用的需求決定了計算和內存的優先級，更重要的是，哪些權衡是可接受的。

以功耗為例。在緊湊型物聯網設備中，緊張的電力預算可能迫使他們優先考慮能源效率而非純粹的性能。與此同時，自動駕駛車輛憑借其豐富的電力儲備，會優先考慮超低延遲和高可靠性，以確保安全且實時的決策。價格也是一個考慮因素。智能家居助理必須保持在具有競爭力的消費者價格范圍內，這意味著其處理器只能容納有限的TOPS和內存，否則成本會飆升到難以承受的范圍。另一方面，工業機器人在可靠性和性能方面至關重要，因此可以合理化更高的投資。

在邊緣AI系統中平衡計算與內存時，各自帶來了獨特的挑戰。

功耗：像物聯網傳感器這樣的緊湊型設備在有限的電力預算下運行，因此需要節能設計。耗電較少的處理器產生更少的熱量，這對于沒有主動散熱系統的緊湊型邊緣設備至關重要。增加計算或內存資源往往會增加功耗，從而在性能與電池壽命之間形成微妙權衡。相比之下，自動駕駛系統可以承受更高的功耗，優先考慮超低延遲和高可靠性，確保決策安全且實時。

成本：價格限制也是另一個限制因素。對于智能家居助手等消費設備，保持在有競爭力的價格區間限制了集成的計算和內存數量。工業應用如機器人技術可能為更高可靠性和性能而合理化更高成本，但即便如此，預算限制了可實現的平衡，設計師必須在有限預算內最大化計算性能和內存帶寬。

延遲：不同應用對延遲的要求各不相同。汽車和工業系統通常需要即時響應，因為延誤可能涉及生死。另一方面，零售分析應用只要保持高吞吐量，用于客戶行為分析等任務，可以容忍更高的延遲。這些延遲要求也決定了處理器中計算和內存資源的選擇與分配。

選擇合適的加速器，旅程始于定義工作點——預算、功耗和延遲約束的交匯點。一旦這些界限確定，就可以評估計算能力與內存之間的平衡，前提是兩者都是限制因素。最后，處理商必須根據應用的具體需求進行評估。為智能手機面部識別設計的解決方案將與專為裝配線產品檢測而設計的方案有很大不同。