久久ER99热精品一区二区-久久精品99国产精品日本-久久精品免费一区二区三区-久久综合九色综合欧美狠狠

博客專欄

EEPW首頁 > 博客 > Meta 開源 ImageBind 新模型,超越 GPT-4,對齊文本、音頻等 6 種模態!(1)

Meta 開源 ImageBind 新模型,超越 GPT-4,對齊文本、音頻等 6 種模態!(1)

發布人:AI科技大本營 時間:2023-05-22 來源:工程師 發布文章

據外媒報道,上周四,Google、微軟、OpenAI 幾家公司的 CEO 受邀去白宮,共論關于人工智能發展的一些重要問題。然而,讓人有些想不通的是,深耕 AI 多年的 Meta 公司(前身為 Facebook)卻沒有在受邀之列。

沒多久,更讓 Meta CEO 扎克伯格扎心的是,一位官員對此解釋稱,本次會議“側重的是目前在 AI 領域,尤其是面向消費者的產品方面,處于領先地位的公司。”

顯然對于這樣的解釋,并不能讓人信服,畢竟這一次受邀名單中還有一家由 OpenAI 的前成員創立的美國人工智能初創和公益公司 Anthropic。

似乎是為了出一口“氣”,也為證明自家的實力,相比 OpenAI、Google 推出閉源的 GPT-4、Bard 模型,Meta 在開源大模型的路上一騎絕塵,繼兩個月前開源 LLaMA 大模型之后,再次于 5 月 9 日開源了一個新的 AI 模型——ImageBind(https://github.com/facebookresearch/ImageBind),短短一天時間,收獲了 1.6k 個 Star。

這個模型與眾不同之處便是可以將多個數據流連接在一起,包括文本、圖像/視頻和音頻、視覺、IMU、熱數據和深度(Depth)數據。這也是業界第一個能夠整合六種類型數據的模型。

圖片


圖片

ImageBind 用圖像對齊六模態,旨在實現感官大一統


簡單來看,相比 Midjourney、Stable Diffusion 和 DALL-E 2 這樣將文字與圖像配對的圖像生成器,ImageBind 更像是廣撒網,可以連接文本、圖像/視頻、音頻、3D 測量(深度)、溫度數據(熱)和運動數據(來自 IMU),而且它無需先針對每一種可能性進行訓練,直接預測數據之間的聯系,類似于人類感知或者想象環境的方式。

圖片

對此,Meta 在其官方博客中也說道,“ImageBind 可以勝過之前為一種特定模式單獨訓練的技術模型。但最重要的是,它能使機器更好地一起分析許多不同形式的信息,從而有助于推進人工智能。”

打個比喻,人類可以聽或者閱讀一些關于描述某個動物的文本,然后在現實生活中看到就能認識。

你站在繁忙的城市街道等有刺激性環境中,你的大腦會(很大程度上應該是無意識地)吸收景象、聲音和其他感官體驗,以此推斷有關來往的汽車、行人、高樓、天氣等信息。

在很多場景中,一個單一的聯合嵌入空間包含許多不同種類的數據,如聲音、圖像、視頻等等。

如今,基于 ImageBind 這樣的模型可以讓機器學習更接近人類學習。

在官方博客中,Meta 分享  ImageBind 是通過圖像的綁定屬性,只要將每個模態的嵌入與圖像嵌入對齊,即圖像與各種模式共存,可以作為連接這些模式的橋梁,例如利用網絡數據將文本與圖像連接起來,或者利用從帶有 IMU 傳感器的可穿戴相機中捕獲的視頻數據將運動與視頻連接起來。

圖片

ImageBind 整體概覽

從大規模網絡數據中學到的視覺表征可以作為目標來學習不同模態的特征。這使得 ImageBind 能夠對齊與圖像共同出現的任何模式,自然地將這些模式相互對齊。與圖像有強烈關聯的模態,如熱學和深度,更容易對齊。非視覺的模態,如音頻和 IMU,具有較弱的關聯性。

ImageBind 顯示,圖像配對數據足以將這六種模式綁定在一起。該模型可以更全面地解釋內容,使不同的模式可以相互 "對話",并在不觀察它們的情況下找到聯系。

例如,ImageBind 可以在沒有看到它們在一起的情況下將音頻和文本聯系起來。這使得其他模型能夠 "理解 "新的模式,而不需要任何資源密集型的訓練。

圖片

不過,該模型目前只是一個研究項目,沒有直接的消費者和實際應用,但是它展現了生成式 AI 在未來能夠生成沉浸式、多感官內容的方式,也表明了 Meta 正在以與 OpenAI、Google 等競爭對手不同的方式,趟出一條屬于開源大模型的路。


圖片

ImageBind 強大的背后


與此同時,作為一種多模態的模型,ImageBind 還加入了 Meta 近期開源的一系列 AI 工具,包括 DINOv2 計算機視覺模型,這是一種不需要微調訓練高性能計算機視覺模型的新方法;以及 Segment Anything(SAM),這是一種通用分割模型,可以根據任何用戶的提示,對任何圖像中的任何物體進行分割。

ImageBind 是對這些模型的補充,因為它專注于多模態表示學習。它試圖為多種模式學習提供一個統一的特征空間,包括但不限于圖像和視頻。在未來, ImageBind 可以利用 DINOv2 的強大視覺特征來進一步提高其能力。



*博客內容為網友個人發布,僅代表博主個人觀點,如有侵權請聯系工作人員刪除。



關鍵詞: AI

相關推薦

技術專區

關閉