Memories.ai聯合高通推出大型視覺記憶模型2.0

作者：時間：2025-11-11 來源：

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

Memories.ai 推出了其大型視覺記憶模型 2.0 （LVMM 2.0），首次為 AI 系統賦予終端設備端的視覺記憶能力。與此同時，該公司宣布與高通公司達成合作，計劃從 2026 年起，讓該模型在高通處理器上實現原生運行。這一舉措將使消費者和企業能夠在設備端安全、快速地搜索和分析視覺瞬間。

視頻的痛點：難以高效搜索與分析

大型語言模型（LLM）使搜索和分析文本變得極其快速和智能。它使消費者和企業能夠搜索數百個不同格式的文檔，以快速查找和分析基于文本的信息。視頻則不同。它密集、無結構，并且停留在時間軸上。團隊仍然會清理數小時的鏡頭，依賴文件名，或者希望成績單能夠捕捉到眼睛所看到的內容。大多數工具都會索引音頻或縮略圖，但會遺漏作、對象和上下文。如果沒有視覺記憶層，人工智能就無法在框架的海洋中找到或回憶確切的時刻或回答更廣泛的問題。

“通過將高通在邊緣計算、連接和設備上人工智能方面的專業知識與 Memories.ai 創新的大型視覺內存模型（LVMM）相結合，我們正在改變機器感知、學習和記憶的方式，”高通技術公司產品管理副總裁兼生成式人工智能/機器學習負責人 Vinesh Sukumar 表示，“此次合作將使人工智能平臺不僅具有響應能力，而且具有上下文感知能力，能夠保留視覺信息，長時間識別模式，即使在網絡邊緣也能可靠地執行。我們正在共同加快我們的共同目標，即為實際應用提供更智能、更直觀的智能“。

解決方案：終端運行大型視覺記憶模型

Memories.ai 的 LVMM 2.0 通過將原始視頻轉換為設備上的結構化內存來解決這些問題。它對幀進行編碼、壓縮它們并構建支持亞秒級搜索的索引。用戶可以用通俗易懂的語言提出復雜的問題或使用圖像提示，然后跳轉到確切的時刻。在高通處理器上本地運行可降低延遲、降低云成本并將數據保持在本地以增強安全性。該模型融合了視頻、音頻和圖像，因此結果帶有上下文，統一的內存格式使手機、相機和邊緣系統之間的體驗保持一致。開發者可通過軟件開發工具包（SDK）和參考設計添加捕捉、索引和檢索功能，無需重新構建后端。隨著索引的視頻片段增多，LVMM 的召回率和精確度會逐步提升。

LVMM 2.0 的實際應用