久久ER99热精品一区二区-久久精品99国产精品日本-久久精品免费一区二区三区-久久综合九色综合欧美狠狠

博客專欄

EEPW首頁 > 博客 > 文生圖關鍵問題探索:個性化定制和效果評價(2)

文生圖關鍵問題探索:個性化定制和效果評價(2)

發布人:AI科技大本營 時間:2023-05-22 來源:工程師 發布文章
可控生成

從上述論文對文生圖的評價結果可以看出來,達到可控生成任重而道遠,其中最關鍵的一點是alignment,還有很大的提升空間。因此,我們可以得到文生圖的第二個關鍵問題——可控生成。通過一句prompts輸入來生成圖片時,生成的圖片和文字之間的alignment會比較弱,比如:

  • 同時輸入多個實體不能實現完全生成;
  • 實體之間的關系不能體現;
  • 顏色和數量不能體現;
  • 文字顯示不出來。

在現行的一些研究中,研究者也提出引入對文本理解更好的模型來解決可控問題,比如EDiff-I[8]。這篇文章延續了Imagen的思路,既然T5文本理解對于可控生成有幫助,那就把它集成進來,發揮出1+1>2的效果。但是,從文本模型角度來改進可控生成所需資源比較多,首先需要一個更強的文本模型,然后才能訓練得到更好的文生圖模型。因此,有一些研究便從可控編輯的角度來解決這個問題,比如一項名為P2P (Prompt-to-Prompt Image Editing with cross attention control[9]) 的研究便期望通過微調prompt達到可控生成的目標(見圖3)。圖片圖3 通過微調prompt達到可控生成的目標InstructPix2Pix [10]這篇文章的思路跟P2P思路很像,也是通過圖像編輯來實現可控生成。不一樣的是,這篇文章用GPT-3來做prompt微調。從圖片編輯這條線上進行研究效果的確很驚艷,但是評價偏弱,沒有一個很好的評價標準和體系,還是很難繼續推進。圖像編輯算法Paint by Example提出了另外一種思路:將可控生成的難度降低,提供一個樣本圖片,結合圖像修復技術來達到局部可控生成。其技術思路很直觀,同時提供機器評價和人工評價的結果。總得來說,這個方向的改進可能會引發下一波文生圖應用熱潮,但是因為評價方法的缺失,導致進展比較難以衡量。圖片個性化模型

本文首先從評測的角度探討了文生圖模型的關鍵問題:可控生成。接著從應用的角度出發,重點研究如何定制一個文生圖模型,這是落地各行業應用的關鍵所在。在影視、動漫、漫畫、游戲、媒體、廣告、出版、時尚等行業使用文生圖模型時,常常會遇到新概念、風格、人物缺失的問題。例如,若需要生成某位明星A的中國風肖像,但該模型并未見過此明星的肖像,也無法識別中國風,這將嚴重限制文生圖模型的應用場景。因此,如何快速新增概念和風格,成為當前研究的重要方向之一。說到這里,大家第一時間想到的肯定就是DreamBooth[11]、Textual Inversion[12]和美學梯度[13]。DreamBooth本身是為Imagen設計的,通過三張圖就能夠快速學習到新概念/風格/人物,但是現在已經遷移到了Stable Diffusion。這個技術有很多個不同的版本,其核心思想是在小樣本上微調的同時盡量減少過擬合。Textual Inversion是從文本編碼器的角度來解決新概念引入的問題,其提出新風格和概念的引入需要從文本理解開始,新的風格和概念如果是OOV(Out Of Vocaburary,未登錄)的詞匯,那我們就在文本編碼器上增加這個詞匯來解決概念引入的問題。其思路是整個模型的所有參數都不需要調整,只需要增加一個額外的token以及其對應的embedding就可以,即插即用。美學梯度方法跟之前inpainting的可控生成思路很類似,針對新的風格,我們先降低難度,給出一些新風格的樣例(這里是embedding),然后讓生成朝著與這個樣例更接近的方向展開。總而言之,這條線上的研究現在也沒有什么評價標準和體系,處于方興未艾的階段,離落地也很近,基本出來效果就可以直接創業。圖片

高質量數據集

數據的重要性不言而喻,大量高質量的文圖數據是文生圖發展的血液,沒有數據再好的算法也發揮不了作用。數據集不是開源一堆url提供下載就完了,其中包括了水印識別、NSFW(Not Suitable For Work)圖片識別、文圖匹配過濾等多種預處理操作,甚至包括說明文字的生成、改寫和優化等操作。這個方向國外的LAION團隊做的非常的扎實,國內也有一些公司開源了數據集。下表2列出,僅供參考。圖片表2:國內外開源文圖數據集綜上,文圖數據現在是英文的數據在數量和質量上都比中文和其他語言高了一截,希望未來有十億級別的高質量中文數據集出現。圖片結語文生圖模型是當前人工智能領域最具潛力和前景的研究方向之一。未來,隨著計算能力的提高和技術的進一步發展,文生圖模型的應用前景將會更加廣泛和深遠。然而,針對其應用過程中存在的一些問題,如模型評價缺乏一致性、控制生成過程效率低下、定制個性化模型困難以及高質量文圖數據集缺乏等,需要我們進一步研究探索解決方案。隨著文生圖模型的不斷發展和完善,我們可以預見到未來人機交互方式的改變。在智能化時代的到來中,文生圖模型的應用將會極大地改變人們與計算機交互的方式,讓計算機更加“懂人”,進一步提升人機交互的效率和質量,也有望成為人工智能走向真正“人性化”的關鍵一步。總之,文生圖模型作為一項研究熱點,具有極其廣泛的應用前景,未來也將在技術創新和產業應用中扮演越來越重要的角色。參考鏈接[1] Radford, Alec, et al. "Learning transferable visual models from natural language supervision." International conference on machine learning.PMLR, 202[2] Ramesh, Aditya, et al. "Zero-shot text-to-image generation." International Conference on Machine Learning. PMLR, 2021.[3] Rombach, Robin, et al. "High-resolution image synthesis with latent diffusion models." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022.[4] Dhariwal, Prafulla, and Alexander Nichol. "Diffusion models beat gans on image synthesis." Advances in Neural Information Processing Systems 34 (2021): 8780-8794.[5] Petsiuk, Vitali, et al. "Human Evaluation of Text-to-Image Models on a Multi-Task Benchmark." arXiv preprint arXiv:2211.12112 (2022).[6] Saharia, Chitwan, et al. "Photorealistic text-to-image diffusion models with deep language understanding." Advances in Neural Information Processing Systems 35 (2022): 36479-36494.[7] Raffel, Colin, et al. "Exploring the limits of transfer learning with a unified text-to-text transformer." The Journal of Machine Learning Research 21.1 (2020): 5485-5551.[8] Balaji, Yogesh, et al. "ediffi: Text-to-image diffusion models with an ensemble of expert denoisers." arXiv preprint arXiv:2211.01324 (2022).[9] Hertz, Amir, et al. "Prompt-to-prompt image editing with cross attention control." arXiv preprint arXiv:2208.01626 (2022).[10] Brooks, Tim, Aleksander Holynski, and Alexei A. Efros. "Instructpix2pix: Learning to follow image editing instructions." arXiv preprint arXiv:2211.09800 (2022).[11] Ruiz, Nataniel, et al. "Dreambooth: Fine tuning text-to-image diffusion models for subject-driven generation." arXiv preprint arXiv:2208.12242 (2022).[12] Gal, Rinon, et al. "An image is worth one word: Personalizing text-to-image generation using textual inversion." arXiv preprint arXiv:2208.01618 (2022).[13] Gallego, Victor. "Personalizing Text-to-Image Generation via Aesthetic Gradients." arXiv preprint arXiv:2209.12330 (2022).


*博客內容為網友個人發布,僅代表博主個人觀點,如有侵權請聯系工作人員刪除。



關鍵詞: AI

相關推薦

技術專區

關閉