99re国产精品视频首页,91超碰,亚洲va久久久噜噜噜久久一

界面新聞記者 | 伍洋宇
界面新聞編輯 | 宋佳楠

在近期的大模型領(lǐng)域，已經(jīng)很久沒有公司高調(diào)談?wù)搶GI（通用人工智能）的理想。而智源研究院的一個新動作，將這個終極目標(biāo)重新拉回到聚光燈下。

10月21日，智源研究院發(fā)布原生多模態(tài)世界模型Emu3，稱該模型實現(xiàn)了視頻、圖像、文本三種模態(tài)的統(tǒng)一理解與生成。

在圖像生成任務(wù)中，Emu3的人類評估得分高于Stable Diffusion的兩個版本SD-1.5與SDXL。針對視覺語言理解任務(wù)，Emu3的12項基準(zhǔn)測試的平均得分略高于微軟研究院聯(lián)合多所高校研發(fā)的多模態(tài)大模型LlaVA-1.6。視頻生成任務(wù)方面，Emu3的VBench基準(zhǔn)測試得分略高于OpenSora 1.2。從語言能力角度看，它的水平大概處于GPT-3.5。

這是國內(nèi)大模型領(lǐng)域第一次對上述命題作答，意味著世界模型路徑下的AGI進(jìn)程向前邁進(jìn)了一小步。

AGI素來有路線之爭。在已經(jīng)顯現(xiàn)的爭論中，一派觀點相信，只有語言智能才能實現(xiàn)，另一派則認(rèn)為，這繞不開多模態(tài)的理解與生成統(tǒng)一。在此之后，行業(yè)可以達(dá)到世界模型，并進(jìn)一步抵達(dá)AGI。

世界模型是一種能夠?qū)Νh(huán)境或世界的狀態(tài)進(jìn)行表征，并預(yù)測狀態(tài)之間轉(zhuǎn)移的模型。它使智能體（Agent）能夠在模擬環(huán)境中進(jìn)行學(xué)習(xí)，并將學(xué)到的策略遷移到真實世界中，從而提高學(xué)習(xí)效率并減少風(fēng)險，這對視頻生成、自動駕駛以及智能體的發(fā)展至關(guān)重要。

這條路徑得到不少企業(yè)、機(jī)構(gòu)以及知名學(xué)者的支持。圖靈獎得主、Meta首席AI科學(xué)家楊立昆（Yann Lecun）曾在演講中多次表示對世界模型潛力的關(guān)注，并預(yù)言世界模型將會成為新一代智能系統(tǒng)的基礎(chǔ)。

而作為世界模型的前提，多模態(tài)大模型的理解與生成統(tǒng)一是一道重要技術(shù)門檻。

據(jù)智源研究院院長王仲遠(yuǎn)介紹，多模態(tài)大模型此前的主流技術(shù)架構(gòu)處于發(fā)散狀態(tài)，例如生成任務(wù)以擴(kuò)散模型（例如Stable Diffusion）為主，理解任務(wù)以組合式方法（例如大語言模型+CLIP視覺編碼器）為主。

在這些路線中，“原生”多模態(tài)大模型并沒有被建立，仍是以語言模型為核心，將視覺等信號映射到語言模型上。而如果要讓一個模型進(jìn)入物理世界，完成感知、理解、推理與生成等任務(wù)，過于復(fù)雜的模型架構(gòu)會降低其可靠性。

因此，理解與生成統(tǒng)一的原生多模態(tài)大模型，成為業(yè)界和學(xué)界共同探索的一道命題，智源研究院也是趕考人之一。

據(jù)王仲遠(yuǎn)介紹，Emu3實現(xiàn)多模態(tài)理解與生成統(tǒng)一的核心技術(shù)范式是“基于下一個token預(yù)測”，本質(zhì)是將圖像、文本和視頻編碼為一個離散空間，在多模態(tài)混合序列上從頭開始聯(lián)合訓(xùn)練一個Transformer。

王仲遠(yuǎn)指出，“基于下一個token預(yù)測”被認(rèn)為是AGI的通路之一，但還沒有在多模態(tài)任務(wù)中被證明過。Emu3證明了下一個token預(yù)測能在多模態(tài)任務(wù)中有高性能的表現(xiàn)，有機(jī)會將其基礎(chǔ)設(shè)施建設(shè)收斂到一條技術(shù)路線上。

在大語言模型的預(yù)訓(xùn)練階段，Scaling Law（規(guī)模法則）已經(jīng)處在是否失效的爭論中，但就多模態(tài)大模型的性能提升而言，王仲遠(yuǎn)認(rèn)為還是一個“遠(yuǎn)沒有打開”的狀態(tài)。事實上，后者依舊基本上遵循Scaling Law，效果隨著數(shù)據(jù)量和參數(shù)量的擴(kuò)大而提升。

多模態(tài)大模型的下一步與大語言模型類似，將不斷挑戰(zhàn)千億參數(shù)乃至萬億參數(shù)。并且，當(dāng)前的多模態(tài)大模型也是稠密模型（Dense Model），它同樣可以在下一階段轉(zhuǎn)向MoE（Mixture of Experts/混合專家模型）架構(gòu)，以獲得更快的理解與生成速度。

“所有在大語言模型上可能發(fā)生的路徑發(fā)展趨勢，在多模態(tài)大模型上都可以進(jìn)一步得到驗證?！辈贿^王仲遠(yuǎn)預(yù)估，在可見的未來，Scaling Up的瓶頸可能會率先出現(xiàn)在算力上。

盡管AGI路徑還沒有形成共識，但智源研究院的選擇已經(jīng)很明確。王仲遠(yuǎn)對界面新聞記者表示，團(tuán)隊在語言模型上的投入將僅限于“解決共性問題”的部分，其余的研究資源將集中向多模態(tài)大模型進(jìn)行傾斜。

至于為什么決定走上多模態(tài)理解與生成統(tǒng)一的路徑，王仲遠(yuǎn)認(rèn)為，智源的出發(fā)點還是在于定位“原始創(chuàng)新”，因為對現(xiàn)狀不滿足，所以必須要做下一代的探索。

雖已押注在當(dāng)前道路，王仲遠(yuǎn)并不認(rèn)可技術(shù)路線已經(jīng)出現(xiàn)分水嶺，“從產(chǎn)業(yè)界的資源投入上來看是可以看到的，但從技術(shù)研究路線上來說，永遠(yuǎn)都有爭議。”

界面新聞記者 | 伍洋宇
界面新聞編輯 | 宋佳楠

10月21日，智源研究院發(fā)布原生多模態(tài)世界模型Emu3，稱該模型實現(xiàn)了視頻、圖像、文本三種模態(tài)的統(tǒng)一理解與生成。

這是國內(nèi)大模型領(lǐng)域第一次對上述命題作答，意味著世界模型路徑下的AGI進(jìn)程向前邁進(jìn)了一小步。

而作為世界模型的前提，多模態(tài)大模型的理解與生成統(tǒng)一是一道重要技術(shù)門檻。

因此，理解與生成統(tǒng)一的原生多模態(tài)大模型，成為業(yè)界和學(xué)界共同探索的一道命題，智源研究院也是趕考人之一。

“所有在大語言模型上可能發(fā)生的路徑發(fā)展趨勢，在多模態(tài)大模型上都可以進(jìn)一步得到驗證。”不過王仲遠(yuǎn)預(yù)估，在可見的未來，Scaling Up的瓶頸可能會率先出現(xiàn)在算力上。

歷史搜索全部刪除

熱門搜索

智源研究院驗證AGI新路線，發(fā)布原生多模態(tài)世界模型

評論

智源研究院驗證AGI新路線，發(fā)布原生多模態(tài)世界模型

智源研究院驗證AGI新路線，發(fā)布原生多模態(tài)世界模型

評論

智源研究院驗證AGI新路線，發(fā)布原生多模態(tài)世界模型

智源研究院驗證AGI新路線，發(fā)布原生多模態(tài)世界模型