正在閱讀:

智源研究院驗證AGI新路線,發(fā)布原生多模態(tài)世界模型

掃一掃下載界面新聞APP

智源研究院驗證AGI新路線,發(fā)布原生多模態(tài)世界模型

王仲遠(yuǎn)表示,團(tuán)隊在語言模型上的投入將僅限于“解決共性問題”的部分,其余的研究資源將集中向多模態(tài)大模型傾斜。

圖片來源:界面圖庫

界面新聞記者 | 伍洋宇

界面新聞編輯 | 宋佳楠

在近期的大模型領(lǐng)域,已經(jīng)很久沒有公司高調(diào)談?wù)搶GI(通用人工智能)的理想。而智源研究院的一個新動作,將這個終極目標(biāo)重新拉回到聚光燈下。

10月21日,智源研究院發(fā)布原生多模態(tài)世界模型Emu3,稱該模型實現(xiàn)了視頻、圖像、文本三種模態(tài)的統(tǒng)一理解與生成。

在圖像生成任務(wù)中,Emu3的人類評估得分高于Stable Diffusion的兩個版本SD-1.5與SDXL。針對視覺語言理解任務(wù),Emu3的12項基準(zhǔn)測試的平均得分略高于微軟研究院聯(lián)合多所高校研發(fā)的多模態(tài)大模型LlaVA-1.6。視頻生成任務(wù)方面,Emu3的VBench基準(zhǔn)測試得分略高于OpenSora 1.2。從語言能力角度看,它的水平大概處于GPT-3.5。

這是國內(nèi)大模型領(lǐng)域第一次對上述命題作答,意味著世界模型路徑下的AGI進(jìn)程向前邁進(jìn)了一小步。 

AGI素來有路線之爭。在已經(jīng)顯現(xiàn)的爭論中,一派觀點相信,只有語言智能才能實現(xiàn),另一派則認(rèn)為,這繞不開多模態(tài)的理解與生成統(tǒng)一。在此之后,行業(yè)可以達(dá)到世界模型,并進(jìn)一步抵達(dá)AGI。

世界模型是一種能夠?qū)Νh(huán)境或世界的狀態(tài)進(jìn)行表征,并預(yù)測狀態(tài)之間轉(zhuǎn)移的模型。它使智能體(Agent)能夠在模擬環(huán)境中進(jìn)行學(xué)習(xí),并將學(xué)到的策略遷移到真實世界中,從而提高學(xué)習(xí)效率并減少風(fēng)險,這對視頻生成、自動駕駛以及智能體的發(fā)展至關(guān)重要。 

這條路徑得到不少企業(yè)、機(jī)構(gòu)以及知名學(xué)者的支持。圖靈獎得主、Meta首席AI科學(xué)家楊立昆(Yann Lecun)曾在演講中多次表示對世界模型潛力的關(guān)注,并預(yù)言世界模型將會成為新一代智能系統(tǒng)的基礎(chǔ)。

而作為世界模型的前提,多模態(tài)大模型的理解與生成統(tǒng)一是一道重要技術(shù)門檻。

據(jù)智源研究院院長王仲遠(yuǎn)介紹,多模態(tài)大模型此前的主流技術(shù)架構(gòu)處于發(fā)散狀態(tài),例如生成任務(wù)以擴(kuò)散模型(例如Stable Diffusion)為主,理解任務(wù)以組合式方法(例如大語言模型+CLIP視覺編碼器)為主。

在這些路線中,“原生”多模態(tài)大模型并沒有被建立,仍是以語言模型為核心,將視覺等信號映射到語言模型上。而如果要讓一個模型進(jìn)入物理世界,完成感知、理解、推理與生成等任務(wù),過于復(fù)雜的模型架構(gòu)會降低其可靠性。

因此,理解與生成統(tǒng)一的原生多模態(tài)大模型,成為業(yè)界和學(xué)界共同探索的一道命題,智源研究院也是趕考人之一。

據(jù)王仲遠(yuǎn)介紹,Emu3實現(xiàn)多模態(tài)理解與生成統(tǒng)一的核心技術(shù)范式是“基于下一個token預(yù)測”,本質(zhì)是將圖像、文本和視頻編碼為一個離散空間,在多模態(tài)混合序列上從頭開始聯(lián)合訓(xùn)練一個Transformer。

王仲遠(yuǎn)指出,“基于下一個token預(yù)測被認(rèn)為是AGI的通路之一,但還沒有在多模態(tài)任務(wù)中被證明過。Emu3證明了下一個token預(yù)測能在多模態(tài)任務(wù)中有高性能的表現(xiàn),有機(jī)會將其基礎(chǔ)設(shè)施建設(shè)收斂到一條技術(shù)路線上。

在大語言模型的預(yù)訓(xùn)練階段,Scaling Law(規(guī)模法則)已經(jīng)處在是否失效的爭論中,但就多模態(tài)大模型的性能提升而言,王仲遠(yuǎn)認(rèn)為還是一個“遠(yuǎn)沒有打開”的狀態(tài)。事實上,后者依舊基本上遵循Scaling Law,效果隨著數(shù)據(jù)量和參數(shù)量的擴(kuò)大而提升。

多模態(tài)大模型的下一步與大語言模型類似,將不斷挑戰(zhàn)千億參數(shù)乃至萬億參數(shù)。并且,當(dāng)前的多模態(tài)大模型也是稠密模型(Dense Model),它同樣可以在下一階段轉(zhuǎn)向MoE(Mixture of Experts/混合專家模型)架構(gòu),以獲得更快的理解與生成速度。 

“所有在大語言模型上可能發(fā)生的路徑發(fā)展趨勢,在多模態(tài)大模型上都可以進(jìn)一步得到驗證?!辈贿^王仲遠(yuǎn)預(yù)估,在可見的未來,Scaling Up的瓶頸可能會率先出現(xiàn)在算力上。

盡管AGI路徑還沒有形成共識,但智源研究院的選擇已經(jīng)很明確。王仲遠(yuǎn)對界面新聞記者表示,團(tuán)隊在語言模型上的投入將僅限于“解決共性問題”的部分,其余的研究資源將集中向多模態(tài)大模型進(jìn)行傾斜。

至于為什么決定走上多模態(tài)理解與生成統(tǒng)一的路徑,王仲遠(yuǎn)認(rèn)為,智源的出發(fā)點還是在于定位“原始創(chuàng)新”,因為對現(xiàn)狀不滿足,所以必須要做下一代的探索。

雖已押注在當(dāng)前道路,王仲遠(yuǎn)并不認(rèn)可技術(shù)路線已經(jīng)出現(xiàn)分水嶺,“從產(chǎn)業(yè)界的資源投入上來看是可以看到的,但從技術(shù)研究路線上來說,永遠(yuǎn)都有爭議。

未經(jīng)正式授權(quán)嚴(yán)禁轉(zhuǎn)載本文,侵權(quán)必究。

評論

暫無評論哦,快來評價一下吧!

下載界面新聞

微信公眾號

微博

智源研究院驗證AGI新路線,發(fā)布原生多模態(tài)世界模型

王仲遠(yuǎn)表示,團(tuán)隊在語言模型上的投入將僅限于“解決共性問題”的部分,其余的研究資源將集中向多模態(tài)大模型傾斜。

圖片來源:界面圖庫

界面新聞記者 | 伍洋宇

界面新聞編輯 | 宋佳楠

在近期的大模型領(lǐng)域,已經(jīng)很久沒有公司高調(diào)談?wù)搶GI(通用人工智能)的理想。而智源研究院的一個新動作,將這個終極目標(biāo)重新拉回到聚光燈下。

10月21日,智源研究院發(fā)布原生多模態(tài)世界模型Emu3,稱該模型實現(xiàn)了視頻、圖像、文本三種模態(tài)的統(tǒng)一理解與生成。

在圖像生成任務(wù)中,Emu3的人類評估得分高于Stable Diffusion的兩個版本SD-1.5與SDXL。針對視覺語言理解任務(wù),Emu3的12項基準(zhǔn)測試的平均得分略高于微軟研究院聯(lián)合多所高校研發(fā)的多模態(tài)大模型LlaVA-1.6。視頻生成任務(wù)方面,Emu3的VBench基準(zhǔn)測試得分略高于OpenSora 1.2。從語言能力角度看,它的水平大概處于GPT-3.5。

這是國內(nèi)大模型領(lǐng)域第一次對上述命題作答,意味著世界模型路徑下的AGI進(jìn)程向前邁進(jìn)了一小步。 

AGI素來有路線之爭。在已經(jīng)顯現(xiàn)的爭論中,一派觀點相信,只有語言智能才能實現(xiàn),另一派則認(rèn)為,這繞不開多模態(tài)的理解與生成統(tǒng)一。在此之后,行業(yè)可以達(dá)到世界模型,并進(jìn)一步抵達(dá)AGI。

世界模型是一種能夠?qū)Νh(huán)境或世界的狀態(tài)進(jìn)行表征,并預(yù)測狀態(tài)之間轉(zhuǎn)移的模型。它使智能體(Agent)能夠在模擬環(huán)境中進(jìn)行學(xué)習(xí),并將學(xué)到的策略遷移到真實世界中,從而提高學(xué)習(xí)效率并減少風(fēng)險,這對視頻生成、自動駕駛以及智能體的發(fā)展至關(guān)重要。 

這條路徑得到不少企業(yè)、機(jī)構(gòu)以及知名學(xué)者的支持。圖靈獎得主、Meta首席AI科學(xué)家楊立昆(Yann Lecun)曾在演講中多次表示對世界模型潛力的關(guān)注,并預(yù)言世界模型將會成為新一代智能系統(tǒng)的基礎(chǔ)。

而作為世界模型的前提,多模態(tài)大模型的理解與生成統(tǒng)一是一道重要技術(shù)門檻。

據(jù)智源研究院院長王仲遠(yuǎn)介紹,多模態(tài)大模型此前的主流技術(shù)架構(gòu)處于發(fā)散狀態(tài),例如生成任務(wù)以擴(kuò)散模型(例如Stable Diffusion)為主,理解任務(wù)以組合式方法(例如大語言模型+CLIP視覺編碼器)為主。

在這些路線中,“原生”多模態(tài)大模型并沒有被建立,仍是以語言模型為核心,將視覺等信號映射到語言模型上。而如果要讓一個模型進(jìn)入物理世界,完成感知、理解、推理與生成等任務(wù),過于復(fù)雜的模型架構(gòu)會降低其可靠性。

因此,理解與生成統(tǒng)一的原生多模態(tài)大模型,成為業(yè)界和學(xué)界共同探索的一道命題,智源研究院也是趕考人之一。

據(jù)王仲遠(yuǎn)介紹,Emu3實現(xiàn)多模態(tài)理解與生成統(tǒng)一的核心技術(shù)范式是“基于下一個token預(yù)測”,本質(zhì)是將圖像、文本和視頻編碼為一個離散空間,在多模態(tài)混合序列上從頭開始聯(lián)合訓(xùn)練一個Transformer。

王仲遠(yuǎn)指出,“基于下一個token預(yù)測被認(rèn)為是AGI的通路之一,但還沒有在多模態(tài)任務(wù)中被證明過。Emu3證明了下一個token預(yù)測能在多模態(tài)任務(wù)中有高性能的表現(xiàn),有機(jī)會將其基礎(chǔ)設(shè)施建設(shè)收斂到一條技術(shù)路線上。

在大語言模型的預(yù)訓(xùn)練階段,Scaling Law(規(guī)模法則)已經(jīng)處在是否失效的爭論中,但就多模態(tài)大模型的性能提升而言,王仲遠(yuǎn)認(rèn)為還是一個“遠(yuǎn)沒有打開”的狀態(tài)。事實上,后者依舊基本上遵循Scaling Law,效果隨著數(shù)據(jù)量和參數(shù)量的擴(kuò)大而提升。

多模態(tài)大模型的下一步與大語言模型類似,將不斷挑戰(zhàn)千億參數(shù)乃至萬億參數(shù)。并且,當(dāng)前的多模態(tài)大模型也是稠密模型(Dense Model),它同樣可以在下一階段轉(zhuǎn)向MoE(Mixture of Experts/混合專家模型)架構(gòu),以獲得更快的理解與生成速度。 

“所有在大語言模型上可能發(fā)生的路徑發(fā)展趨勢,在多模態(tài)大模型上都可以進(jìn)一步得到驗證。”不過王仲遠(yuǎn)預(yù)估,在可見的未來,Scaling Up的瓶頸可能會率先出現(xiàn)在算力上。

盡管AGI路徑還沒有形成共識,但智源研究院的選擇已經(jīng)很明確。王仲遠(yuǎn)對界面新聞記者表示,團(tuán)隊在語言模型上的投入將僅限于“解決共性問題”的部分,其余的研究資源將集中向多模態(tài)大模型進(jìn)行傾斜。

至于為什么決定走上多模態(tài)理解與生成統(tǒng)一的路徑,王仲遠(yuǎn)認(rèn)為,智源的出發(fā)點還是在于定位“原始創(chuàng)新”,因為對現(xiàn)狀不滿足,所以必須要做下一代的探索。

雖已押注在當(dāng)前道路,王仲遠(yuǎn)并不認(rèn)可技術(shù)路線已經(jīng)出現(xiàn)分水嶺,“從產(chǎn)業(yè)界的資源投入上來看是可以看到的,但從技術(shù)研究路線上來說,永遠(yuǎn)都有爭議。

未經(jīng)正式授權(quán)嚴(yán)禁轉(zhuǎn)載本文,侵權(quán)必究。