三次元的文本到圖像AI成了：單GPU不到一分鐘出貨，OpenAI出品

發布人：機器之心時間：2022-12-21 來源：工程師

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

發布文章

本到 3D 模型生成的速度一下提升了 600 倍，代碼也已開源。

文本生成圖像的 AI 最近已經火到了圈外，不論是 DALL-E 2、DeepAI 還是 Stable Diffusion，人人都在調用 AI 算法搞繪畫藝術，研究對 AI 講的「咒語」。不斷進化的技術推動了文生圖生態的蓬勃發展，甚至還催生出了獨角獸創業公司 Stability AI。

技術發展的腳步并沒有停止，下個突破可能是 3D 模型生成了：本周，OpenAI 開源的 3D 模型生成器 Point-E 引發了 AI 圈的新一輪熱潮，剛擺上 GitHub 一天就獲得了 800 多個 star。

根據與開源內容一并發布的論文介紹，Point-E 可以在單塊 Nvidia V100 GPU 上在一到兩分鐘內生成 3D 模型。相比之下，現有系統（如谷歌的 DreamFusion）通常需要數小時和多塊 GPU。

論文《Point-E: A System for Generating 3D Point Clouds from Complex Prompts》：

論文鏈接：https://arxiv.org/abs/2212.08751
項目鏈接：https://github.com/openai/point-e

Point-E 不輸出傳統意義上的 3D 圖像，它會生成點云，或空間中代表 3D 形狀的離散數據點集。Point-E 中的 E 是「效率」的縮寫，表示其比以前的 3D 對象生成方法更快。不過從計算的角度來看，點云更容易合成，但它們無法捕獲對象的細粒度形狀或紋理 —— 這是目前 Point-E 的一個關鍵限制。

為了解決這一問題，OpenAI 團隊訓練了一個額外的人工智能系統來將 Point-E 的點云轉換為網格。

Point-E 架構及運行原理

在獨立的網格生成模型之外，Point-E 主要由兩個模型組成：文本到圖像模型和圖像到 3D 模型。文本到圖像模型類似于 OpenAI 自家的 DALL-E 2 和 Stable Diffusion 等生成模型系統，在標記圖像上進行訓練以理解單詞和視覺概念之間的關聯。在圖像生成之后，圖像到 3D 模型被輸入一組與 3D 對象配對的圖像，訓練出在兩者之間有效轉換的能力。

當人們給出一個文本提示 —— 例如，「一個可 3D 打印的齒輪，一個直徑為 3 英寸、厚度為半英寸的齒輪」時，AI 會生成符合描述的內容：

Point-E 通過 30 億參數的 GLIDE 模型生成綜合視圖渲染，內容被饋送到圖像到 3D 模型，通過一系列擴散模型運行生成的圖像，以創建初始圖像的 3D RGB 點云 —— 先生成粗略的 1024 點云模型，然后生成更精細的 4096 點云模型。

Point-E 的點云擴散模型架構。圖像通過一個凍結的、預訓練的 CLIP 模型輸入，輸出網格作為標記輸入到 transformer 中。

OpenAI 研究人員表示，在經過「數百萬 3D 對象和相關元數據的數據集上訓練模型后，Point-E 擁有了生成匹配文本提示的彩色點云的能力。Point-E 的問題和目前的生成模型一樣，圖像到 3D 轉換過程中有時無法理解文本敘述的內容，導致生成的形狀與文本提示不匹配。盡管如此，根據 OpenAI 團隊的說法，它仍然比以前的最先進技術快幾個數量級。

Point-E 將點云轉換為網格。

OpenAI 在論文中表示，「雖然 Point-E 在評估中表現得比 SOTA 方法差，但它只用了后者一小部分的時間就可以生成樣本。這使得 Point-E 對某些應用程序更實用，或者可以利用效率獲得更高質量的 3D 對象?！?/span>

應用前景及版權問題

也許你會問，Point-E 具體有哪些應用呢？OpenAI 研究人員指出，Point-E 的點云可用于制作真實世界的對象，比如通過 3D 打印制作。再加上額外的網格轉換模型，系統在完善后可以用于游戲和動畫開發工作流程。

OpenAI 可能是最新一家涉足 3D 對象生成器領域的公司，但它并不是第一家。今年早些時候，谷歌就發布了 DreamFusion，它是谷歌 2021 年推出的生成式 3D 系統 Dream Fields 的擴展版本。

雖然當前所有目光都集中在 2D 藝術生成器上，但模型合成 AI 可能是下一個重大的行業顛覆者?，F代電影、視頻游戲、VR 和 AR 的 CGI 效果、空間探索中的測繪任務、古跡遺址保護項目以及 Meta 等科技公司的元宇宙愿景都需要高性能的 3D 建模能力。在傳統行業中，建筑公司也會使用 3D 模型演示建筑物和景觀，工程師會利用模型設計新設備、車輛和結構等。

Point-E 失敗的案例。

不過，制作 3D 模型通常需要一段時間，從幾小時到幾天不等。如果有一天解決了這一問題，像 Point-E 這樣的 AI 可以改變很多，并讓 OpenAI 獲得可觀的利潤。

潛在的問題是可能會產生知識產權糾紛。3D 模型有很大的市場，包括 CGStudio 和 CreativeMarket 在內的幾個在線市場允許藝術家銷售他們創建的內容。如果 Point-E 流行起來并投放到市場，模型藝術家們可能會抗議，并拿出現代生成式 AI 嚴重依賴其自身訓練數據的證據，比如 Point-E 中有現成的 3D 模型。

與 DALL-E 2 一樣，Point-E 不承認也沒有引用任何可能影響其代代發展的藝術家的作品。OpenAI 沒有明確地說明這一問題，Point-E 論文及相應 GitHub 項目中也都沒有提到版權問題。

最后，OpenAI 研究人員預計 Point-E 還面臨著一些挑戰，例如訓練數據存在的偏差以及對可能用于創建「危險對象」的模型缺乏保護措施。因此，OpenAI 謹慎地將 Point-E 描述為一個起點，并希望激勵文本到 3D 合成領域進一步發展。

不過按照 AI 作畫發展的速度，我們或許很快就會看見下一輪技術爆發了。

參考內容：

https://www.engadget.com/openai-releases-point-e-dall-e-3d-text-modeling-210007892.html

https://techcrunch.com/2022/12/20/openai-releases-point-e-an-ai-that-generates-3d-models/

*博客內容為網友個人發布，僅代表博主個人觀點，如有侵權請聯系工作人員刪除。

久久ER99热精品一区二区-久久精品99国产精品日本-久久精品免费一区二区三区-久久综合九色综合欧美狠狠

博客專欄

三次元的文本到圖像AI成了：單GPU不到一分鐘出貨，OpenAI出品

相關推薦

技術專區

久久ER99热精品一区二区-久久精品99国产精品日本-久久精品免费一区二区三区-久久综合九色综合欧美狠狠

博客專欄

三次元的文本到圖像AI成了：單GPU不到一分鐘出貨，OpenAI出品

相關推薦

技術專區

三次元的文本到圖像AI成了：單GPU不到一分鐘出貨，OpenAI出品