復旦大學教授肖仰華:ChatGPT 浪潮下,面向大模型如何做數據治理?(1)
由 ChatGPT 引起的大模型熱潮正席卷當下。眾所周知,大模型的建立離不開海量數據,且大模型的最終效果取決于數據的質量,數據越豐富、質量越高,大模型表現效果越好。那么該如何針對大模型做數據的治理?
2月26日,由CSDN、《新程序員》、上海市人工智能行業協會主辦,百度飛槳、達觀數據、智源人工智能研究院協辦的全球人工智能開發者先鋒大會(GAIDC)“新程序員:人工智能新十年”論壇,復旦大學教授肖仰華以“面向大模型的數據治理”為主題,分享前瞻洞察與思考。肖仰華以下為肖仰華演講內容,CSDN在不改變原意的基礎上進行編輯:語言模型成為人工智能發展新底座,預訓練的語言模型極大推動了自然語言處理(NLP)技術發展,成為語言智能的新范式、認知智能新底座。然而,大模型仍存在諸多問題:如隱私泄露,訓練大型語言模型的數據集通常很大,并且數據源較豐富,它們可能涉及名稱、電話號碼、地址等敏感個人數據,即使以公開數據訓練也是如此,這可能導致語言模型輸出里涵蓋某些隱私細節。還可能會出現事實錯誤、邏輯錯誤等問題。肖仰華表示,大模型要發揮價值,需要構建從數據產生、數據整理、模型訓練、模型適配到實際部署的完整生態系統。大模型的數據治理是保障大模型質量的關鍵步驟,是當前國內在大模型研究方面極為稀缺的內容,是突破國外巨頭對國內技術封鎖的關鍵。基于此,面向大規模的數據治理研究,可從以下三層架構來思考:最底層是基于大模型的知識質量評估體系、人在環中的大模型訓練優化機制、復雜數據的預訓練機制等基礎理論,往上為樣本糾偏、樣本優化、多模融合、知識注入、事實編輯、領域適配、價值對齊、認知提升等關鍵技術,最上層是認知增強和推理增強,研究順序逐層推進。
下面我們逐一分析具體的理論與技術。
基礎理論層
從上圖中觀察到,我們需重點建立大模型的知識質量評估體系,突破人在環中的大模型訓練優化方法,探索序列、日志、圖等復雜數據的預訓練機制,提升大模型在特定領域與任務中的質量與性能。1、大模型的質量評估體系。目前國內的模型評估體系大部分關注語言層面,然而今天的大模型不單是語言智能的載體,在國外一些研究中,將大模型當做具備初級認知能力的智能體。因此在大模型質量評估上,不能僅僅停留語言處理層面進行評測,更多地,更為迫切是需要從人類認知的角度借鑒思路建立大模型的完整的評測體系,比如從認知發育理論借鑒理論指引,大模型是否具有可逆思維、創造思維、抽象思維、數值思維等能力,大模型是否存在認知偏見、是否存在認知障礙。大模型的評測關系到我們是否有資格成為裁判員。我們不能滿足于只做運動員,我們更要成為裁判員,才能掌握大模型研究與應用的主動權。2、人在環中的大模型訓練優化機制如今 ChatGPT 成功的重要原因是把對人類的反饋,通過強化學習的方式注入到大模型中。在ChatGPT中,人主要在以下兩個方面發揮作用:一是利用人類的標注數據對GPT進行有監督訓練,二是收集多個不同的監督模型(SFT)輸出,由人類對這些輸出進行排序并用來訓練獎賞模型。那么這里面的基于排序的反饋是不是最佳的方式?有否更好的人類反饋方式?另外,如何讓人以廉價成本實現高效大模型反饋?這里面仍有大量的問題需要研究和優化。3、復雜數據的預訓練機制。針對代碼、基因、圖等復雜形態的數據,如何實現不同形態復雜數據的高效預訓練?這里面存在大量的機會。關鍵技術詳解
在研究面向大規模預訓練模型的數據治理理論與認知增強時,涉及樣本糾偏、樣本優化、多模融合、知識注入、事實編輯、領域適配、價值對齊、認知提升等關鍵技術。大模型的領域適配肖仰華表示,在 ChatGPT 賽道上,國內比國外發展稍晚。那么在通用大模型上,如何有機會實現彎道超車?我們不能被人牽著鼻子走,需要開辟大模型研究與應用的新賽道,在領域賽道形成核心競爭力。大模型有非常寬的知識底座,但是垂直領域的知識密集度以及推理復雜程度遠遠跟不上理論專家的要求和需求,因此我們不但需要有寬度的大模型,還需要有深度的大模型,來匹配領域需求。大模型樣本糾偏大模型樣本糾偏是大家最早意識到的問題,大模型的效果與“喂”進去的數據息息相關。如果喂進有偏差的數據機器就學到有偏差的知識,因此我們需要糾正樣本偏置,訓練公平的大模型。大模型的多模融合大模型的異質多模融合是大模型實現跨模態理解的關鍵。目前很多大公司在做多模融合,但肖仰華建議“融合”不應局限在圖片、語音、視頻等,例如在工業場景,還涉及日志、傳感器數據、圖表等數據的融合。大模型的事實編輯大模型本質上是統計模型,對于特定事實或信念的可控編輯存在巨大挑戰。需要讓大模型遺忘、記住特定事實,這是需要攻克的研究點。大模型的知識注入大模型缺乏人類的知識,特別是專業知識。如何將人類的各類認知,比如領域知識、概念層級、價值觀念注入到大模型?肖仰華表示,做好大模型的特定可控編輯、大模型的知識注入,是大模型往領域推廣和應用重要的問題。那么數學、物理、醫療、司法等知識如何植入進去?以往知識圖譜構建大量的知識庫,是大模型在領域落地重要的助力工具。大模型的持續更新現有模型多是基于一次性的構建過程,缺乏持續性知識獲取能力,如缺失大量新興實體(如新型冠狀肺炎),充斥過時知識等。另外,認知智能系統需要持續知識更新能力以應對現代的知識爆炸性增長,當前的大模型訓練代價太大,更新成本巨大、效率低下。針對大模型的持續更新,還需要大家做很多工作。大模型的樣本優化大模型訓練的數據良莠不齊,需要進行精心的樣本選擇、樣本轉換、樣本清洗、提示注入,才能訓練得到高質量大模型。肖仰華表示,還可以通過對大模型的異質來源數據進行來源提示的增強,來顯著提升大模型的質量。大模型的價值對齊肖仰華強調我們需重視大模型的價值對齊。目前現有大模型主要通過國外專家反饋訓練,其價值觀與國內有很大不同,通過對人類反饋的強化學習,實現大模型與人類價值的對齊,例如可通過構建匹配中式價值觀的反饋訓練樣本,通過強化學習引導大模型生成符合倫理與價值觀的回復。大模型通過感知與融合人類的反饋能夠實現價值認知的對齊與增強。如在《Constitutional AI: Harmlessness from AI Feedback》提到,通過設定constitution,利用RLAIF(RL AI Feedback)&RLHF,CoT等方法讓大模型不逃避回答有爭議問題,輸出無害回答及解釋。
*博客內容為網友個人發布,僅代表博主個人觀點,如有侵權請聯系工作人員刪除。







