當被大模型輸入技術內功，數字人「文畫兩開花」，還在手機里隨時陪你聊天

發布人：機器之心時間：2022-06-22 來源：工程師

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

發布文章

能互動、擅寫作、會作畫，百度數字人度曉曉應了這樣一句話，「天空才是她的極限」。

這年頭，數字人直播帶貨、虛擬主播、****客服，這些應用場景已經不再是多稀奇的事了。從時尚娛樂到文化商業，數字人迎來了全面開花。國內大廠也紛紛抓住數字人這個發展機遇，推出花樣百出的娛樂和實用性數字人產品，致力于讓數字人更智能化更服務化。
百度 2020 年 9 月推出的國內首個可交互虛擬偶像度曉曉，最近用她的智能互動、寫作和繪畫表現讓人們見識到了 AI 大模型的能力。
6 月 14 日，一段由百度打造的度曉曉和龔俊數字人聯袂出演的《每分每秒每天》歌曲 MV 刷屏全網，并登上各大音樂電臺、多個音樂排行榜，播放量更是超過 1300 多萬。與一般通過人工換聲實現虛擬人唱歌不同，度曉曉參與演唱的這首歌從作詞到編曲都是由 AI「操刀」，成為國內首個虛擬偶像 AIGC（AI generated content, 人工智能創造內容）歌曲。
度曉曉變身為 AI 唱作人，而在唱歌的表象下，歌詞中「每分每秒每天，我都在這里；等著你，來邀請，我隨時給你回應 …… 」點出了度曉曉更深層次的身份 —— 入端百度 APP、每分每秒每天陪伴人類的虛擬助手。度曉曉為用戶提供全程 AI 陪聊功能，升級搜索體驗，情感聊天、定外賣、寄快遞、講故事等，幾乎你能想到的需求都可以一呼即達。
如你所見，度曉曉實現自然的多輪聊天互動，在對話中識別用戶的搜索和服務需求，其中多輪聊天能力由百度文心大模型提供強大的底層技術支持，尤其是全球首個基于隱空間的生成式開放域對話大模型文心 PLATO。

除了 APP 端更擬人的智能對話之外，百度文心大模型還一度讓度曉曉變身為高考作文寫手和 AI 畫家，分別要歸功于融合任務相關知識的千億大模型 ERNIE 3.0 Zeus 和跨模態圖文生成模型 ERNIE-ViLG。
6 月 7 日高考語文考試之后，度曉曉化身數字人考生挑戰全國新高考 Ⅰ 卷作文題《本手、妙手、俗手》，40 秒的時間內完成了 40 篇高考作文，平均 1 秒生成 1 篇，寫作速度遠超了人類。那么度曉曉生成的作文能滿足高考寫作的審題、邏輯和創意等要求嗎？
這一擔心也被證明是多余的，曾任北京高考語文閱卷組組長的申怡為她隨機生成的一篇作文打出了 48 分的成績（滿分 60 分），從歷年統計數據來看，這個分數超過了 75% 的人類考生。稱呼她一聲寫作高手絕不為過。

度曉曉生成的高考作文示例。
給出一段話就能輸出一幅圖，這種神奇的跨模態能力成為近年來各大 AI 公司追捧的熱點，如英偉達的 GauGAN 和 GauGAN2、OpenAI 的 DALL·E 和 DALL·E 2。度曉曉數字人也擁有了這種繪畫能力，完成的 AI 畫作甚至得到了專業人士的認可。
6 月初，度曉曉創作的「****」系列數字藏品上線百度 APP 開啟限時搶購，該系列共有 4 幅畫作。作為國內首個數字人創作的藝術數字藏品，這些畫作在 24 小時內就賣出了 17 萬元。更令人想不到的是，每幅畫作的創作時間僅需幾十秒，這種畫畫速度大概會令通常仔細斟酌、耗時很長的專業畫家羨慕吧。
隨后，度曉曉帶著她的畫作現身西安美術學院 2022 年「時空留痕?****西美」本科畢業展，在自己的專屬展區展出了此前制成數字藏品的四幅作品以及兩幅有關西安大雁塔的本地特色作品。這些畫作的水平又如何呢？西安美院教授評價稱「已經達到了本科美術生的基本要求」。

度曉曉化身 AI 美術生，開了自己的專屬展區。
度曉曉出圈的背后 —— 百度 AI 技術賦予她內涵
但應看到，數字人的背后少不了技術的支撐，百度文心大模型為度曉曉的一系列外在能力展現提供了技術內核。在 5 月 20 日的 WAVE SUMMIT 2022 深度學習開發者峰會上，文心大模型迎來了自發布以來的最大一次升級，新增 10 個大模型，包括基礎通用大模型、任務大模型、行業大模型三大類，比如基礎 NLP 大模型中新增的融合任務相關知識的千億大模型 ERNIE 3.0 Zeus。

同屬文心 NLP 大模型范疇的全球首個基于隱空間的生成式開放域對話大模型文心 PLATO ，保證了度曉曉在百度 APP 端不再尬聊。
作為百度研發的具有大規模參數的中英文對話預訓練生成模型，文心 PLATO 歷經多個版本。2019 年推出了通用領域的對話生成預訓練模型 PLATO，在 NLP 領域國際頂會 ACL 2020 上正式展示；到 2020 年升級為 PLATO-2，涵蓋中英文版本，實現了開放域話題深度暢聊。現在升級到了百億參數的文心 PLATO- XL 版本，在開放域對話效果上得到了持續的提升。
既然說到了文心 PLATO，那我們就先來看在它的加持下，度曉曉如何在百度 APP 端實現接近真人水平的多輪流暢對話以及更擬人的智能化搜索？度曉曉和龔俊數字人目前實現了四大功能，即個性化聊天陪伴、輔助搜索、服務分發和互動玩法。其中個性化聊天可以實現多輪對話以及人設定制化能力，這也正是文心 PLATO 大模型的用武之地。
首先，為了學習通用對話生成能力，文心 PLATO 采用了完全生成方式，并根據多輪對話上下文（Context）生成對話回復（Response），在大規模對話語料上進行預訓練。PLATO 只有 8.3M 的訓練樣本；PLATO-2 的英文和中文訓練集樣本分別為 684M 和 1.2B，模型規模最高達到了 1.6B；到了 PLATO-XL，英文和中文訓練集樣本分別 811M 和 1.2B，模型規模更是來到了 11B。
預訓練時，針對開放域中涉及上下文的對話理解和回復的對話生成，文心 PLATO 采用編碼器和****共享參數的 Unified Transformer 作為基礎框架，使對話理解和對話生成進行充分的信息融合交互。此外，考慮到對話答復與場景、意圖等對話情景信息相關，相同上下文不同的情境會對應不同的答復（即一對多關系），而情境信息又難以用顯示文本進行表示，文心 PLATO 又提出用隱變量因子表示情境信息，如下圖所示。
在大規模預訓練樣本和預訓練技術創新的基礎上，文心 PLATO 為度曉曉帶來了多輪流暢的開放域對話能力。

文心 PLATO 的模型架構。
人工智能發展至今，數據價值正在不斷得到體現和提升，可以說，數據即 “石油”。同樣，在開放域對話中，高質量的對話語料也同樣重要，對模型訓練起著重要作用，但我們都知道，高質量的對話語料少之又少，另外語料所依附的人設信息千差萬別，導致模型在效果上參差不齊。
如何賦予對話機器人穩定一致的人設一直是對話技術領域面臨的重要挑戰，文心 PLATO 在預訓練對話模型的基礎上進一步學習不同畫像信息下的對話生成能力，使模型具備了圍繞人設的定制化對話能力，還能在答復過程中始終保持人設的一致性。
這一能力加持到度曉曉身上，她便更加彰顯了自己的人設或個性化 IP。用一句流行的話說，度曉曉的人設要保持一致。同時，在對話時，度曉曉充分考慮用戶上下文的聯系，生成的回復始終不脫離語境，像人與人聊天那樣不偏題。

百度 APP 端內度曉曉的多輪聊天能力展示。
最后，即使度曉曉已經具備了一定的知識對話能力，但受限于預訓練語料存在的知識稀疏性，生成回復中仍然會有不知如何答復或答非所問的情況出現。
針對這一問題，文心 PLATO 提出了問答生成任務 + 預訓練對話任務的連續預訓練策略，將海量問答知識內化到模型參數中，使模型及其支持的度曉曉在知識問答時更準確、更全面。
這么一套技術組合拳下來，文心 PLATO 成就了現在的度曉曉， 更擬人化、更具針對性、更貼合用戶真實需求成為了她在百度 APP 內的標簽。她可以與用戶進行語境連續的多輪自然對話，支持文本、圖片、表情包、音頻等多樣化聊天形態；當在對話中識別出用戶的搜索意圖時，要么直接回復答案要么呈現 APP 內相關問題的搜索結果；用戶想要看電影、訂車****時，她也會直接跳轉至相應服務界面。

百度 APP 端內的多任務小能手度曉曉。
而此前，度曉曉 40 秒完成 40 篇高考語言作文的表現，背后利用的是文心大模型中的 NLP 千億大模型 ERNIE 3.0 Zeus。它是知識增強大模型 ERNIE 3.0 系列模型的最新升級，更在國內首個開放了 API 調用。
在訓練時，除了從海量無監督文本數據和百度知識圖譜的學習之外，還針對上百種不同形式的任務數據進行持續學習，增強了模型效果，顯著提升了在自由問答、信息抽取和情感分析等下游各類 NLP 任務上的零樣本 / 小樣本學習能力。

ERNIE 3.0 Zeus 大模型概覽。
對于此次高考寫作挑戰，度曉曉一方面具有數據「底氣」。得益于 ERNIE 3.0 Zeus 的千億參數，度曉曉在寫作訓練時接受了大量風格各異的高考作文樣本數據，在不斷的吸收消化過程中，培養出了自己的寫作風格以及對于高考作文的需求認知，在實戰中「應題而作」。
另一方面，在充足、多樣化高考作文樣本數據的基礎上，度曉曉進一步確立了一整套自己的寫作套路。在扣題立意方面，她始終不離給定的作文題目，圍繞主題組織文字，輸出支持該主題的積極正向觀點；在行文結構上，面對 800 字的長文本生成要求，她能保持整體文章脈絡清晰、邏輯完整，并在開篇和結尾雙重扣題；在寫作技巧上，歷史典故、古詩詞拈手就來，還學會了排比、比喻等修辭手法，文章可讀性大大提升。

在 ERNIE 3.0 Zeus 的賦能下，度曉曉就像是眾多見多識廣的「尖子生」、「學霸」的集合體，理解能力和創作能力更強，寫出高分作文也就不足為奇了。
除了以上 NLP 領域的智能對話和 AI 寫作，跨模態也是文心大模型深耕已久的領域。度曉曉引起關注的「****」系列畫作采用的正是文心大模型跨模態圖文生成大模型 ERNIE-ViLG，它不僅構建了包含 1.45 億高質量中文文本 - 圖像對的大規?？缒B對齊數據集，而且基于飛槳平臺在該數據集上訓練了百億參數模型，在文本生成圖像、圖像描述等跨模態生成任務具有顯著效果。

ERNIE-ViLG 大模型的流程圖，其中文本生成圖像模型中的兩階段訓練和端到端方法是關鍵。
與上述高考寫作一樣，得益于 1.45 億高質量中文文本 - 圖像對，ERNIE-ViLG 學會了類似于人類的作畫過程。整體可以分為兩步，大模型首先要理解輸入給自己的文字的含義，并結合背景知識擴展更豐富的信息，找到契合的元素和作畫的靈感；然后構思生成初步的草稿圖，再不斷優化填充，從而逐步生成符合主題的高質量圖片。
因此，對于使用了 ERNIE-ViLG 的度曉曉，僅僅輸入一段話，便能在幾十秒內做出一幅畫作。她不僅可以根據不同的輸入文字需求畫出對應的場景，還在畫作風格上博采眾長，能夠 hold 住水彩、油畫、中國畫、印象派等多種風格。

度曉曉生成的六幅畫作。
這些畫作具有充滿想象力的構圖、流暢的筆觸和豐富的色彩，尤其第一幅大雁塔畫作，遠處山峰縹緲，落日金輝，近處大慈恩寺佛塔高聳，大雁略過，意境頗為深遠。如果事先不告訴你，你大概猜不出它們是由度曉曉創作的。這就是 AI 的神奇之處。
全新內容生產方式 ——AIGC
從對話到寫作、作畫，度曉曉儼然成為了數字人中的「多面手」。一方面，在百度文心大模型整合的多模態交互、3D 建模、機器翻譯、語音識別等多項技術的助力下，度曉曉已經在百度 APP 端內實現了生動擬人智能的互動交流。另一方面，由于文心大模型超強的理解和生成能力，度曉曉的創作能力被充分地挖掘和展現出來。
可以這樣說，此時的度曉曉已經脫離了傳統意義上的 CG 數字人，有了「內涵」，而這些恰好契合了當下備受關注的新型內容生產方式 ——AIGC，即通過人工智能技術自動生產內容。繼 UGC、PGC 之后，大模型賦能下的 AIGC 已經成為了過去一年來百度 AI 技術加速落地的著陸點。
不僅如此，度曉曉近來展現的編曲、互動交流、寫作和作畫，都只是百度大模型技術支撐下在 AIGC 層面的牛刀小試。隨著底層 AI 大模型技術的不斷完善，AIGC 的可用性和適用性勢必會迎來提升和擴展，更多內容生產領域會被發掘出來。
像度曉曉這樣的數字人，落地場景也就不再局限于單一的端內互動或圖文創作，未來的舞臺可以遍布影視、金融、文旅等各個領域，「天空才是她的極限」。
讓大模型不再流于參數，終究還是要落地，實現應用價值
在近年來深度學習領域掀起這波「練大模型」潮流之際，百度持續發力文心大模型也是順勢而為，力爭在 AI 巨頭的競爭中始終保持領先優勢。就之前的趨勢而言，追逐參數的多、模型的大似乎在國內外巨頭們之間形成了一種默契。
從 GPT-3 開始，千億、萬億級大模型紛至沓來，如國外谷歌 1.6 萬億參數大模型 Switch Transformer、微軟聯合英偉達的 5300 億參數模型 MT-NLG，國內浪潮 2457 億參數單體模型源 1.0、阿里達摩院 10 萬億參數多模態大模型 M6。
慢慢地，當堆參數及其帶來的巨額訓練成本不再那么吸引 AI 巨頭們時，如何使自身大模型更廣泛地落地成為了他們新的目標。作為從 2019 年就開始積累預訓練技術和大模型的 AI 頭雁，百度在探索大模型過程中修煉了自己的武功秘訣 —— 知識增強。
2021 年 12 月，百度發布全球首個知識增強千億大模型鵬城 - 百度?文心發布，它的參數量達到了 2600 億，是一個融合了 NLP 和 NLG 的全能模型。當時，百度產業級知識增強大模型文心全景圖首次亮相。
今年 5 月的 Wave Summit 峰會上，百度聚焦「前沿大模型技術如何匹配真實場景中的方方面面要求」這一問題，提出了大模型產業落地的三個關鍵路徑，包括更適配應用場景的模型體系、更有效的工具和方法以及更開放的生態。方方面面無不呼應著落地。
同時，文心大模型除了迎來新成員之外，還可以通過百度飛槳的一系列大模型開發套件、大模型API和集成文心大模型的飛槳企業版EasyDL和BML開發平臺，全面釋放使用效能，進一步降低應用門檻。在生態和社區層面，構建文心?旸谷社區，將大模型能力開放給普通開發者，人人皆可觸碰 AI 的魅力。文心大模型的個人、企業開發者數量已超過 6 萬人。

文心?旸谷社區地址：https://wenxin.baidu.com/younger
全新升級的文心大模型在知識增強和產業級這兩方面得到了進一步加強，10 個大模型新成員中的國網 - 百度?文心和浦發 - 百度?文心就分別將文心大模型的能力輸入到了能源電力行業和金融服務行業，這也預示著文心大模型與行業的聯系越來越緊密。
目前，以知識增強和產業級為指導的文心大模型已經逐漸在百度內外「兌現」了自己的能力。
在百度內部，搜索、信息流、百度地圖等場景中可以看到文心大模型的身影，如上文在百度 APP 端智能互動的度曉曉以及小度智能屏等；在百度外部，文心大模型在工業、能源、金融、教育、通信、媒體、醫療等各行各業都有了實戰場地，如工業領域的零部件質量檢測、金融行業的合同信息抽取等，在賦能行業中真正實現了自身的應用價值。
度曉曉最近頻頻出圈，讓更多人看到了其背后文心大模型的技術內驅力。然而，未來文心大模型的落地場景不應受限。
一方面，文心大模型可以按照能源行業國網 - 百度?文心和金融行業浦發 - 百度?文心的模式繼續推出更多行業大模型，持續推進大模型在各行各業的深度應用，滿足多樣化場景任務需求。
另一方面，在 AI for Science 領域，文心大模型中已經有了兩個生物計算大模型（HELIX-GEM 和 HELIX-Fold），未來同樣有可能在數學、物理、化學等更多基礎學科領域構建專屬大模型。這樣做可以持續探索大模型在科學領域解決問題的巨大潛力，更全面地推進 AI 與 Science 的融合。
大模型成為行業熱點已經有兩三年時間，在百度看來，2022 年是大模型產業落地的關鍵年。不管是度曉曉這一系列的創意應用，還是深入到更廣泛的行業和前沿技術領域，百度勢必會抓住大模型發展的這一機遇，在產業化落地的融合創新之路上繼續又穩又快地走下去。
參考鏈接：https://arxiv.org/pdf/2109.09519.pdfhttps://arxiv.org/pdf/2006.16779.pdfhttps://aclanthology.org/2020.acl-main.9.pdfhttps://www.jiqizhixin.com/articles/2022-05-20-8https://wenxin.baidu.com/wenxin/modelbasedetail/plato/https://wenxin.baidu.com/wenxin/modelbasedetail/ernie_vilg/https://wenxin.baidu.com/wenxin/modelbasedetail/ernie3_zeus/

*博客內容為網友個人發布，僅代表博主個人觀點，如有侵權請聯系工作人員刪除。

電子管相關文章:電子管原理

雙控開關相關文章:雙控開關原理

久久ER99热精品一区二区-久久精品99国产精品日本-久久精品免费一区二区三区-久久综合九色综合欧美狠狠

博客專欄

當被大模型輸入技術內功，數字人「文畫兩開花」，還在手機里隨時陪你聊天

相關推薦

技術專區