久久ER99热精品一区二区-久久精品99国产精品日本-久久精品免费一区二区三区-久久综合九色综合欧美狠狠

新聞中心

EEPW首頁 > 智能計算 > 業(yè)界動態(tài) > 人工智能的下一個前沿不僅僅是更多數(shù)據(jù)

人工智能的下一個前沿不僅僅是更多數(shù)據(jù)

作者: 時間:2025-12-11 來源:IEEE 收藏

過去十年,的進(jìn)步以規(guī)模衡量:更大的模型、更大的集和更多的計算量。這種方法在大型(LLM)領(lǐng)域帶來了驚人的突破;僅僅五年時間,就從像GPT-2這樣幾乎無法模擬連貫性的模型,躍升至像GPT-5這樣能夠推理并進(jìn)行實(shí)質(zhì)性對話的系統(tǒng)。而現(xiàn)在,能夠在代碼庫中導(dǎo)航或?yàn)g覽網(wǎng)頁的早期代理 原型,開辟了全新的領(lǐng)域。

但僅僅靠規(guī)模,人工智能只能走到一定程度。下一波飛躍不會僅靠大型車型。它將來自于將越來越完善的與我們構(gòu)建的模型學(xué)習(xí)世界結(jié)合起來。而最重要的問題是:人工智能的課堂會是什么樣子?

在過去幾個月里,硅谷已經(jīng)下注,實(shí)驗(yàn)室投入數(shù)十億美元建設(shè)這類被稱為(RL)環(huán)境的教室。這些環(huán)境讓機(jī)器在真實(shí)的數(shù)字空間中進(jìn)行實(shí)驗(yàn)、失敗和改進(jìn)。

人工智能訓(xùn)練:從到體驗(yàn)

現(xiàn)代人工智能的歷史歷經(jīng)多個時代展開,每個時代都由模型所消耗的數(shù)據(jù)類型定義。首先是互聯(lián)網(wǎng)規(guī)模數(shù)據(jù)集的預(yù)訓(xùn)練時代。這些商品數(shù)據(jù)使機(jī)器能夠通過識別統(tǒng)計模式來模擬人類語言。隨后,數(shù)據(jù)結(jié)合了來自人類反饋的——一種利用群眾工作者對大型(LLM)反應(yīng)進(jìn)行評分的技術(shù)——使人工智能變得更有用、更響應(yīng)靈敏,并更符合人類偏好。

我們親身經(jīng)歷了這兩個時代。在Scale AI的模型數(shù)據(jù)前線工作,讓我們接觸到許多人認(rèn)為AI的根本問題:確保驅(qū)動這些模型的訓(xùn)練數(shù)據(jù)多樣、準(zhǔn)確且有效,以推動性能提升。基于干凈、結(jié)構(gòu)化、專家標(biāo)識數(shù)據(jù)訓(xùn)練的系統(tǒng)取得了飛躍。解決數(shù)據(jù)問題使我們在過去幾年中開創(chuàng)了大型(LLM)中一些最關(guān)鍵的進(jìn)展。

如今,數(shù)據(jù)依然是基礎(chǔ)。它是構(gòu)建智能的原材料。但我們正進(jìn)入一個新階段,單靠數(shù)據(jù)已不再足夠。要開辟下一個前沿,我們必須將高質(zhì)量數(shù)據(jù)與允許無限互動、持續(xù)反饋和通過行動學(xué)習(xí)的環(huán)境相結(jié)合。環(huán)境并不能取代數(shù)據(jù);它們通過使模型能夠應(yīng)用知識、檢驗(yàn)假設(shè)并在現(xiàn)實(shí)環(huán)境中優(yōu)化行為,放大了數(shù)據(jù)的作用。

強(qiáng)化學(xué)習(xí)環(huán)境的工作原理

在強(qiáng)化學(xué)習(xí)環(huán)境中,模型通過一個簡單的循環(huán)學(xué)習(xí):它觀察世界狀態(tài),采取行動,并獲得獎勵,表明該行動是否幫助實(shí)現(xiàn)了目標(biāo)。經(jīng)過多次迭代,模型逐漸發(fā)現(xiàn)能帶來更好結(jié)果的策略。關(guān)鍵的變化在于訓(xùn)練變得互動化——模型不僅預(yù)測下一個代幣,還通過反復(fù)試驗(yàn)和反饋不斷改進(jìn)。

例如,語言模型已經(jīng)可以在簡單的聊天環(huán)境中生成代碼。把他們放在一個實(shí)時的編碼環(huán)境中——在那里他們可以獲取上下文、運(yùn)行代碼、調(diào)試錯誤并優(yōu)化解決方案——然后情況就會有所改變。他們從咨詢轉(zhuǎn)向自主解決問題。

這種區(qū)分很重要。在軟件驅(qū)動的世界里,人工智能能夠在龐大的倉庫中生成和測試生產(chǎn)級代碼,這將標(biāo)志著能力的重大轉(zhuǎn)變。這一飛躍不僅僅來自更大的數(shù)據(jù)集;它將來自沉浸式環(huán)境,讓智能體可以像人類程序員一樣,通過迭代進(jìn)行實(shí)驗(yàn)、跌跌撞撞和學(xué)習(xí)。開發(fā)的現(xiàn)實(shí)世界很混亂:程序員必須處理描述不足的漏洞、錯綜復(fù)雜的代碼庫和模糊的需求。教AI處理這些混亂,是它從容易出錯的嘗試轉(zhuǎn)向產(chǎn)生一致可靠解決方案的唯一途徑。

人工智能能應(yīng)對混亂的現(xiàn)實(shí)世界嗎?

在網(wǎng)上導(dǎo)航也很混亂。彈窗、登錄墻、失效鏈接和過時信息貫穿在日常瀏覽流程中。人類幾乎本能地處理這些干擾,但人工智能只能通過在模擬網(wǎng)絡(luò)不可預(yù)測性的環(huán)境中訓(xùn)練來發(fā)展這種能力。代理必須學(xué)會如何從錯誤中恢復(fù),識別并堅持應(yīng)對用戶界面障礙,并完成跨廣泛應(yīng)用的多步工作流程。

一些最重要的環(huán)境根本不是公開的。政府和企業(yè)正在積極構(gòu)建安全的模擬,讓人工智能能夠在沒有現(xiàn)實(shí)世界后果的情況下進(jìn)行高風(fēng)險決策。以災(zāi)難救援為例:在現(xiàn)場颶風(fēng)響應(yīng)中部署未經(jīng)測試的特工是不可想象的。但在一個充滿港口、道路和供應(yīng)鏈的模擬世界中,一個特工可能會失敗千百次,并逐漸提升制定最佳計劃的能力。

人工智能的每一次重大飛躍都依賴于看不見的基礎(chǔ)設(shè)施,比如標(biāo)注者標(biāo)注數(shù)據(jù)集、研究人員訓(xùn)練獎勵模型,以及工程師搭建大型語言模型使用工具和行動的支架。找到大量且高質(zhì)量的數(shù)據(jù)集曾是人工智能的瓶頸,解決這一問題激發(fā)了前一波進(jìn)展。如今,瓶頸不再是數(shù)據(jù),而是構(gòu)建豐富、真實(shí)且真正有用的強(qiáng)化學(xué)習(xí)環(huán)境。

AI進(jìn)步的下一階段不會是規(guī)模的偶然。它將結(jié)合堅實(shí)的數(shù)據(jù)基礎(chǔ)與交互式環(huán)境,教導(dǎo)機(jī)器如何在混亂的現(xiàn)實(shí)場景中行動、適應(yīng)和推理。編寫沙盒、作系統(tǒng)和瀏覽器游樂場,以及安全模擬,將使預(yù)測轉(zhuǎn)化為能力。


評論


相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉