正在閱讀:

商業(yè)頭條No.49 | 大模型抵達“分水嶺”

掃一掃下載界面新聞APP

商業(yè)頭條No.49 | 大模型抵達“分水嶺”

OpenAI o1的發(fā)布,被視為大語言模型帶領(lǐng)人類通往AGI的關(guān)鍵技術(shù)范式變革。而擺在國內(nèi)創(chuàng)業(yè)者面前的選擇題便是,要不要跟進?

圖片來源:界面圖庫

界面新聞記者 | 伍洋宇

界面新聞編輯 | 劉方遠 宋佳楠

“我聽說o2在GPQA上獲得了105%?!睅滋烨埃侥贰W特曼在X平臺上突然發(fā)了這么一句話,但馬上又寫道,“見鬼!賬號錯誤!”

這位掌控OpenAI公司的CEO,就這樣以如此戲劇性的玩笑方式透露了OpenAI o2的進展。GPQA(Graduate-Level Question Answering)是一項研究生水平科學知識問答能力的基準測試,此前,OpenAI o1在這項測試中僅得到78%的成績。

o2的得分也大概率不會超過100%,但這番“鬼才營銷”仍然引起了全網(wǎng)熱議。

當國內(nèi)大模型領(lǐng)域還沒有復刻出o1-preview一星半點的時候,OpenAI已經(jīng)在“有意”透露具備多模態(tài)能力的完整版o1了。它能看懂并正確解答復雜數(shù)學題,識別人類史上首張黑洞照片,這使得外界對o2的能力更為好奇,也吸引一眾國內(nèi)大模型玩家朝著o1躍躍欲試。

“AGI有救了?!?o1發(fā)布那天,李江一早就把一篇介紹OpenAI o1的科普文章從頭讀到尾,一顆心稍微沉下來些。

過去幾個月,李江一直處在焦慮之中。GPT-5遲遲沒有發(fā)布,一種隱隱的壓力圍繞在和李江一樣的大模型從業(yè)者周圍。外界輿論從最初的追捧,變成猜測“六小虎”中哪家公司會扛不住先關(guān)門,或者被收購。

智譜AI、百川智能、月之暗面、Minimax、零一萬物、階躍星辰這六家中國大模型初創(chuàng)公司,被業(yè)界冠以“六小虎”之稱。過去一段時間,他們都拿到了數(shù)十億乃至百億人民幣級別的融資,都在燒錢搶算力、搶人才,希望成為中國的“OpenAI”。

 

隨著大模型從業(yè)者們信仰的Scaling Law(規(guī)模法則)遇到瓶頸,所有長遠宏大的商業(yè)故事都要講不下去了。“Scaling Law”是有關(guān)模型性能隨著參數(shù)量、數(shù)據(jù)量、計算資源等增加而變化的規(guī)律,此前幾乎是抵達AGI(通用人工智能)的唯一通路。

這種境況下,模型訓練不得不脫離“大力出奇跡”的軌道。據(jù)《中國企業(yè)家》報道,百川智能CEO王小川近日接受其采訪時提及,“去年焦慮買不到卡,今年焦慮有卡不知道該干嘛?!焙芏鄨F隊把重心集中在一些微調(diào)(Fine-Tuning)工作上,讓模型針對特定任務(wù)或領(lǐng)域進行優(yōu)化。

李江所在的公司也是“六小虎”之一,外界的唱衰聲不時傳進團隊成員的耳朵里。雖然大家還是堅信長遠的光明,但現(xiàn)在仿佛都被烏云籠罩,看不清好的方向在哪里。

最終又是OpenAI將這片“烏云”吹散了大半。9月13日,OpenAI發(fā)布o1大模型,它改變技術(shù)策略,加入了強化學習和思維鏈,大幅提升了模型的推理能力,也將訓練重點從預訓練(pre-train)轉(zhuǎn)向后訓練(post-train)。

這被認為是大語言模型帶領(lǐng)人類通往AGI的關(guān)鍵技術(shù)范式變革。

一名AI領(lǐng)域的投資人對界面新聞記者表示,大模型需要能夠使用知識,而不只是具備知識。使用知識的能力是思維,而思維才是人類工作的核心價值。OpenAI o1所展示的思維能力,是大模型從“快思考”向“慢思考”進化的關(guān)鍵指標。

而擺在國內(nèi)創(chuàng)業(yè)者面前的選擇題便是,要不要跟進?

考慮到每家公司的領(lǐng)導者對AGI的理解不同,團隊技術(shù)實力存在差異,落地場景方向各有側(cè)重,以及可跟注的籌碼大小不一,國內(nèi)大模型戰(zhàn)局正在顯現(xiàn)分水嶺。

讓所有人能繼續(xù)抄作業(yè)

前段時間,零一萬物創(chuàng)始人兼CEO李開復去了一趟硅谷,帶回不少OpenAI的“八卦”,還在直播間饒有興致地講了起來。

據(jù)他所述,外界期待已久的GPT-5訓練得不太順利,問題出在如何搞定一個“十萬卡集群”上。風光面世的OpenAI o1只是被臨時祭出的產(chǎn)物,這套方法原本沒打算這么早公開。但為了吸引投資人繼續(xù)投錢,這個動作不得不執(zhí)行。

另一方面,OpenAI也想借此炫技,讓外界意識到,“你們只是看起來快追上我了,等我多露兩手再看看?!焙芸欤琌penAI宣布融資66億美元,估值來到1570億美元。

“其實我們還有很多好東西,只是沒有發(fā)布?!監(jiān)penAI的內(nèi)部人員對李開復說,“因為我們一發(fā)布你們就會學。”

這名OpenAI人士擔心得沒錯,這正是國內(nèi)大模型領(lǐng)域的追趕狀態(tài),甚至成為一種技術(shù)學習的策略。

“我們一定要盡快追趕它,讓它有壓力?!崩铋_復說,“這樣它就把一些好東西丟出來,我們大家就有更多的靈感了?!?/span>

o1就是現(xiàn)階段所有人的靈感。它提出了一個新思路。根據(jù)這家公司顯示的技術(shù)信息,除了加入強化學習和思維鏈,它的本質(zhì)變化是將Scaling Up的方法從預訓練階段轉(zhuǎn)移到了推理階段,讓模型在“推理時計算”中獲得更高的智能水平,也就是Post-Training Scaling Law(后訓練擴展律)在發(fā)揮作用。

這套新范式的力量真有這么大嗎?在技術(shù)上如何理解o1范式可能加速AGI進程?

大模型行業(yè)上一個重要技術(shù)轉(zhuǎn)變是從Dense Model(稠密模型)到MoE架構(gòu)(Mixture of Experts,混合專家模型)。這個變化本身帶來的是速度提升,而沒有太多能力提升,技術(shù)曲線從這里開始變緩和。但推理層強化學習可能改變這條曲線,它對應(yīng)的是投入資源和所能達到智能上限的關(guān)系——模型智能水平由此可能實現(xiàn)突破。

大佬們的觀點是相近的。在o1發(fā)布一周后,階躍星辰CEO姜大昕公開表示,o1是大模型首次同時具備人類大腦System 1和System 2的能力,這是大模型開始具備歸納世界能力的關(guān)鍵一步。月之暗面創(chuàng)始人兼CEO楊植麟直言,o1的主要意義在于提升了AI的上限,很大程度上證明了這套范式對于下一步Scaling Up初步可行。

換句話說,o1代表的技術(shù)范式還不至于是AGI的直通車,但它的確是一列全新的特快車。

界面新聞記者從不同信源處了解到,Minimax已經(jīng)在推進類o1產(chǎn)品,預計最快明年一季度發(fā)布。月之暗面和階躍星辰目前的主要精力可能仍是年底計劃發(fā)布的多模態(tài)大模型,但o1也都在其各自的技術(shù)路線圖上。

百川智能在強調(diào)醫(yī)療方向的落地場景后,暫時還沒有透露出要加碼o1方向的信號,不過內(nèi)部一直有強化學習的訓練經(jīng)驗。此外,多名受訪者認為,智譜AI大概率會跟進o1,而李開復則明確表示,包括零一萬物在內(nèi),預計五個月后就會有不少類似o1模型的能力出現(xiàn)在各個公司。

“國內(nèi)大模型公司都是抄OpenAI的路線,既然它蹚出了一條路,你也沒有這么多試錯成本,為什么不去copy它?”李江認為,這個選擇理所當然。

不比GPT-4簡單

強化學習不是新東西。在此之前,很多大模型團隊都在嘗試強化學習這條路,只不過更快驗證其正確性的依舊是OpenAI。

“但凡是做過機器學習的,這個方法你一定會想得到,只是說愿不愿意投這么多資源去試這條路?!崩罱f。

事實上,它還是今年諾貝爾化學獎其中兩位獲得者所在公司DeepMind的拿手好戲。這家公司用深度學習和強化學習的思路在很多垂直領(lǐng)域作出了突破貢獻,比如AlphaFold和AlphaGo。

至于o1為何現(xiàn)在才出現(xiàn),一名大模型技術(shù)從業(yè)者對此解釋道,一方面,模型參數(shù)的量級不同,這是決定性差距;另一方面,這當中的關(guān)鍵變量是強化學習和大模型的碰撞。如果以o1為結(jié)果,大模型和強化學習是一組由“乘號”連接的齒輪關(guān)系,但凡其中一種弱,整體都不會太強。

就技術(shù)而言,從業(yè)者認為o1比GPT-4更難,因為這當中的知識不會公開,團隊必須自己嘗試。“post-training(后訓練)里面的秘密很多,而且越來越寡頭化?!鼻笆鍪茉L投資人說,“在這場競賽里,技術(shù)能力和技術(shù)vision(視野)的占比變高了?!?/span>

也就是說,它需要天才的技術(shù)靈感,外加可落地的工程能力。

“最重要的是,首先有人能想得出整體的架構(gòu)怎么做?!崩罱硎荆鲞@件事需要的是天才,而不是“搭建一個50人團隊”。相當于OpenAI o1現(xiàn)在是“黑盒”,創(chuàng)業(yè)公司需要分配更多精力給強化學習,靠研究能力把“黑盒”變成“白盒”。

工程上也還有大量的細節(jié)和難點。例如,算力方面,由于推理層的算力需求可能會出現(xiàn)爆發(fā)式增長,優(yōu)化AI Infra(基礎(chǔ)架構(gòu))以快速降本的意義進一步凸顯。數(shù)據(jù)方面,這套新范式相當于將一個Agent(智能體)內(nèi)置到模型中,因此,自動化數(shù)據(jù)訓練的pipeline(管道)也需要重新構(gòu)建。

它同時提升了數(shù)據(jù)標注的難度和復雜度。生數(shù)科技首席科學家朱軍在今年的云棲大會上談?wù)撨^,從科研的角度看,這當中過程監(jiān)督的數(shù)據(jù)變得十分重要。它和直接從結(jié)果監(jiān)督的數(shù)據(jù)不一樣,是要對思考過程的每一步進行標注,這種數(shù)據(jù)由于需要專業(yè)人士投入,因而具備一定獲取難度和高價值。

王小川也曾表示,他對o1的好奇有很多,例如擁有多少算力,以及多少領(lǐng)域?qū)<?。這大致對應(yīng)o1訓練數(shù)據(jù)的規(guī)模和質(zhì)量。

Self-Play RL(自我博弈下的強化學習)雖然可以讓模型自動生產(chǎn)數(shù)據(jù)來學習,但仍然需要人工的參與,并且是高質(zhì)量的參與,其中就包括人工標注數(shù)據(jù)來告訴它結(jié)果好還是不好。

李江形容,數(shù)據(jù)標注既吃人力又吃學歷,是一份看起來藍領(lǐng),但又特別要求白領(lǐng)的工作?!叭绻銢]有模型聰明,你就沒有價值,所以你要比模型的答案還好,而這份工作又特別枯燥,這樣的行業(yè)專家不好找?!?/span>

o1這條路未來可能遇到的最大瓶頸還是來自通用性,也就是模型的泛化能力。例如,o1的數(shù)學、編程類能力尤其突出,但弱邏輯類的能力培養(yǎng)還有待解決。

強化學習中有一個關(guān)鍵環(huán)節(jié)叫做Reward Model(獎勵模型),用于評估Agent的行為表現(xiàn),并指導其學習過程。在特定垂直領(lǐng)域,獎勵機制可以寫得清楚明晰,但面對更加泛化和開放的場景,Reward Model將變得難以定義,這也是以o1范式在實現(xiàn)通用性過程中要突破的重要關(guān)卡。

“這是一個懸而未決的問題?!崩罱f,這再次回到了各家科研能力的比拼上。即便是在公司內(nèi)部,這種“靈感”現(xiàn)在也無法隨意討論,“因為這個事情太新了,‘靈感’要真金白銀才能燒出來。”

事實上,大模型未來在提升強化學習模型的泛化性上會遇到什么困難,還不得而知,短期內(nèi)能夠復現(xiàn)某個垂直領(lǐng)域的國產(chǎn)o1就是一種勝利。開始習慣這個領(lǐng)域技術(shù)波動的李江就是這樣想的,“在這個階段,做長遠的Road Map(路線圖)毫無意義。”

好學生的“附加題”

云啟資本合伙人陳昱每半年就要飛一趟美國,定期看看那邊發(fā)生了什么,這讓他對o1有一個更為冷靜和理智的看法。

誠然,o1代表了OpenAI在解決復雜問題上的探索,但它仍然有很大的局限:成本約為GPT-4o的6倍,使用次數(shù)的限制,較長的等待時間,以及一些簡單問題仍然會出錯的狀況,目前的形態(tài)更像是給學有余力的好學生去做的“附加題”。

答好這道“附加題”要投入多少資源?此前據(jù)騰訊新聞《潛望》報道,王小川在接受采訪時曾預估稱,“可能跟做個GPT-4差不多”。而朱嘯虎給出的答案是,做GPT-4的科研至少要砸四五千萬美金。

目之所及,國內(nèi)大模型公司要跟進做o1必須滿足兩個硬性條件。一是擁有這筆可支配的資源。據(jù)另一名受訪投資人透露,“六小虎”當中,一些公司賬上的錢可能不夠。二是基礎(chǔ)模型的性能水平門檻。李江的判斷是,“至少要接近GPT-4的水平,不然不在牌局里。”

這意味著“六小虎”的下一步,有錢的可以繼續(xù)跟注,沒錢但想跟注的要繼續(xù)找錢,如果都行不通,就只能找差異化。

不久前已經(jīng)有行業(yè)傳聞稱,“六小虎”中的兩家正在逐步放棄預訓練模型,縮減了預訓練算法團隊人數(shù),業(yè)務(wù)重心轉(zhuǎn)向AI應(yīng)用。

一時間,“六小虎放棄大模型”的說法甚囂塵上。被外界猜測得最多的零一萬物和百川智能,均迅速對外界進行了否認。

前述受訪投資人對界面新聞記者表示,還沒有看到實質(zhì)性證據(jù)能夠表明“六小虎”中有公司放棄了預訓練,現(xiàn)階段它們也沒有理由放棄。他推測有一種可能是,有團隊暫時性完成了基礎(chǔ)模型的預訓練,重心轉(zhuǎn)向了后訓練階段。

“要知道‘六小虎’并不是OpenAI,也不可能OpenAI的所有嘗試都要去跟。”這名投資人指出,“這當中需要有戰(zhàn)略選擇?!?/span>

這種戰(zhàn)略選擇的決定性條件,是掌舵者對AGI的理解。例如,有人認為多模態(tài)的理解與生成統(tǒng)一是AGI的必經(jīng)之路,也有人認為,AGI的關(guān)鍵仍然在于語言智能。這會導致不同的路線,大模型公司可能自此分化:視頻模型,音頻模型,高級推理等等。

除了創(chuàng)業(yè)公司,大廠也在積極跟進。有知情人士透露,目前,字節(jié)跳動和阿里巴巴都已有意向聚焦o1代表的技術(shù)方向,繼續(xù)推動大模型的推理性能提升。不過,大廠的優(yōu)勢將更不明顯。

李江直言,在上一個競爭階段,文心一言、通義千問、混元、豆包等產(chǎn)品,并沒有跟創(chuàng)業(yè)公司完全拉開差距。而在o1路線上,這種優(yōu)勢也許會更加微弱,因為它對算力資源的要求不如之前高,也更考驗技術(shù)團隊的靈活性。

大變革,但不一定激發(fā)大商機

投資人也聽到不少所謂行業(yè)動蕩的風聲,但他們的大致體感是,在車上的都沒有動搖過,不斷動搖的都是沒上車的。

“我們沒有不看好過。”前述投資人說,“外面所謂的輿論是我們兩三年前就知道的事實,不覺得有什么預期上的偏差。”

之所以不動搖,來自于一個長期判斷:AGI能實現(xiàn),繞不開大模型,而o1的出現(xiàn)說明了AGI可以實現(xiàn),它的確提振了資本的信心。

這也將很大程度上決定大模型公司的融資命運。

“到30億美元估值以后,大家就很難融了?!标愱胖赋觯@是“六小虎”當前共同的困境。輿論之所以唱衰,主要原因也是估值和商業(yè)化程度不匹配。

“今年這幾家融了三五億美元以上的,明年都還可以活,因為大家一年大概燒2億美元,加上之前的錢,活個三年是沒問題的?!标愱耪f,“但他們得盡快解決商業(yè)模式的問題,燒錢是不可持續(xù)的。”

商業(yè)化,就是當前來自投資人最直接的拷問。需要認清的是,o1這個技術(shù)上的“大變革”,并不一定能激發(fā)大商機。

一方面,o1所代表的“模型即產(chǎn)品”思路可能會革掉一批應(yīng)用層公司的命。由于o1本身相當于內(nèi)置了一個AI Agent,很多簡單的Agent不再有特殊價值。一名關(guān)注AI應(yīng)用層的投資人對界面新聞記者表示,o1對很多創(chuàng)業(yè)公司都產(chǎn)生了生死影響,比如只做AI編程的Cursor AI,雙方已經(jīng)到了要比拼用戶體驗的階段。

另一方面,o1即便做出來,在產(chǎn)品上也沒有直接的變現(xiàn)手段。最直觀的改變可能在于,產(chǎn)品形態(tài)需要重新設(shè)計,從同步的方式變?yōu)楫惒健.惒绞侵?,用戶發(fā)送請求后,模型會過若干分鐘再反饋結(jié)果,而不是現(xiàn)在這種讓用戶干等的問答形式。

李江的看法有些悲觀,認為即使國內(nèi)公司做出o1這樣的產(chǎn)品也不會對商業(yè)應(yīng)用帶來本質(zhì)改變。“很多商業(yè)模式跟模型性能有關(guān)聯(lián),但又沒有那么深的關(guān)聯(lián)?!?/span>

這也是朱嘯虎此前強調(diào)的,現(xiàn)階段的模型性能提升不會對應(yīng)用層帶來實質(zhì)影響,就算是模型準確率提升50%,在多步推理之后疊加形成的錯誤率也是災(zāi)難性的。Minimax創(chuàng)始人兼CEO閆俊杰也曾公開強調(diào),模型錯誤率只有降到個位數(shù)才是可信賴的狀態(tài),才能為行業(yè)帶來本質(zhì)的變化。

以此來看,o1可能是大模型技術(shù)上的分水嶺,但用戶很難感知到。“大模型是一個非常復雜的系統(tǒng)工程,o1能產(chǎn)生的作用,只是在其中某個環(huán)節(jié)改變那么一點點東西,對全局沒有那么大的影響?!崩罱赋觥?/span>

在AGI進程放緩時,o1的出現(xiàn)幾乎被視為“全村的希望”,但它依然無法帶大家掙到更多的錢,那它的意義到底是什么?——答案可能仍然在融資里。

在投資人視角,做o1的優(yōu)先級不是最高,但它可以炫技和秀肌肉。在創(chuàng)業(yè)周期,這是融資的籌碼。

作為創(chuàng)業(yè)者,李江很清楚,在砸錢推進模型通往AGI的過程中,創(chuàng)業(yè)公司有所圖,也有犧牲。犧牲在于,一家大模型公司最終要賣的東西,可能跟模型性能本身并沒有更深的關(guān)聯(lián)。而它圖的是,這個模型代表了它要銷售的AGI愿景——這個愿景既要銷售給用戶,也要銷售給投資人。

“長期來看,你得靠它讓大家相信這個故事——它是在朝著AGI發(fā)展?!崩罱f。

 

(受采訪對象要求,李江為化名。)

(界面新聞記者李彪對本文亦有貢獻。)

未經(jīng)正式授權(quán)嚴禁轉(zhuǎn)載本文,侵權(quán)必究。

評論

暫無評論哦,快來評價一下吧!

下載界面新聞

微信公眾號

微博

商業(yè)頭條No.49 | 大模型抵達“分水嶺”

OpenAI o1的發(fā)布,被視為大語言模型帶領(lǐng)人類通往AGI的關(guān)鍵技術(shù)范式變革。而擺在國內(nèi)創(chuàng)業(yè)者面前的選擇題便是,要不要跟進?

圖片來源:界面圖庫

界面新聞記者 | 伍洋宇

界面新聞編輯 | 劉方遠 宋佳楠

“我聽說o2在GPQA上獲得了105%。”幾天前,山姆·奧特曼在X平臺上突然發(fā)了這么一句話,但馬上又寫道,“見鬼!賬號錯誤!”

這位掌控OpenAI公司的CEO,就這樣以如此戲劇性的玩笑方式透露了OpenAI o2的進展。GPQA(Graduate-Level Question Answering)是一項研究生水平科學知識問答能力的基準測試,此前,OpenAI o1在這項測試中僅得到78%的成績。

o2的得分也大概率不會超過100%,但這番“鬼才營銷”仍然引起了全網(wǎng)熱議。

當國內(nèi)大模型領(lǐng)域還沒有復刻出o1-preview一星半點的時候,OpenAI已經(jīng)在“有意”透露具備多模態(tài)能力的完整版o1了。它能看懂并正確解答復雜數(shù)學題,識別人類史上首張黑洞照片,這使得外界對o2的能力更為好奇,也吸引一眾國內(nèi)大模型玩家朝著o1躍躍欲試。

“AGI有救了。” o1發(fā)布那天,李江一早就把一篇介紹OpenAI o1的科普文章從頭讀到尾,一顆心稍微沉下來些。

過去幾個月,李江一直處在焦慮之中。GPT-5遲遲沒有發(fā)布,一種隱隱的壓力圍繞在和李江一樣的大模型從業(yè)者周圍。外界輿論從最初的追捧,變成猜測“六小虎”中哪家公司會扛不住先關(guān)門,或者被收購。

智譜AI、百川智能、月之暗面、Minimax、零一萬物、階躍星辰這六家中國大模型初創(chuàng)公司,被業(yè)界冠以“六小虎”之稱。過去一段時間,他們都拿到了數(shù)十億乃至百億人民幣級別的融資,都在燒錢搶算力、搶人才,希望成為中國的“OpenAI”。

 

隨著大模型從業(yè)者們信仰的Scaling Law(規(guī)模法則)遇到瓶頸,所有長遠宏大的商業(yè)故事都要講不下去了。“Scaling Law”是有關(guān)模型性能隨著參數(shù)量、數(shù)據(jù)量、計算資源等增加而變化的規(guī)律,此前幾乎是抵達AGI(通用人工智能)的唯一通路。

這種境況下,模型訓練不得不脫離“大力出奇跡”的軌道。據(jù)《中國企業(yè)家》報道,百川智能CEO王小川近日接受其采訪時提及,“去年焦慮買不到卡,今年焦慮有卡不知道該干嘛?!焙芏鄨F隊把重心集中在一些微調(diào)(Fine-Tuning)工作上,讓模型針對特定任務(wù)或領(lǐng)域進行優(yōu)化。

李江所在的公司也是“六小虎”之一,外界的唱衰聲不時傳進團隊成員的耳朵里。雖然大家還是堅信長遠的光明,但現(xiàn)在仿佛都被烏云籠罩,看不清好的方向在哪里。

最終又是OpenAI將這片“烏云”吹散了大半。9月13日,OpenAI發(fā)布o1大模型,它改變技術(shù)策略,加入了強化學習和思維鏈,大幅提升了模型的推理能力,也將訓練重點從預訓練(pre-train)轉(zhuǎn)向后訓練(post-train)。

這被認為是大語言模型帶領(lǐng)人類通往AGI的關(guān)鍵技術(shù)范式變革。

一名AI領(lǐng)域的投資人對界面新聞記者表示,大模型需要能夠使用知識,而不只是具備知識。使用知識的能力是思維,而思維才是人類工作的核心價值。OpenAI o1所展示的思維能力,是大模型從“快思考”向“慢思考”進化的關(guān)鍵指標。

而擺在國內(nèi)創(chuàng)業(yè)者面前的選擇題便是,要不要跟進?

考慮到每家公司的領(lǐng)導者對AGI的理解不同,團隊技術(shù)實力存在差異,落地場景方向各有側(cè)重,以及可跟注的籌碼大小不一,國內(nèi)大模型戰(zhàn)局正在顯現(xiàn)分水嶺。

讓所有人能繼續(xù)抄作業(yè)

前段時間,零一萬物創(chuàng)始人兼CEO李開復去了一趟硅谷,帶回不少OpenAI的“八卦”,還在直播間饒有興致地講了起來。

據(jù)他所述,外界期待已久的GPT-5訓練得不太順利,問題出在如何搞定一個“十萬卡集群”上。風光面世的OpenAI o1只是被臨時祭出的產(chǎn)物,這套方法原本沒打算這么早公開。但為了吸引投資人繼續(xù)投錢,這個動作不得不執(zhí)行。

另一方面,OpenAI也想借此炫技,讓外界意識到,“你們只是看起來快追上我了,等我多露兩手再看看。”很快,OpenAI宣布融資66億美元,估值來到1570億美元。

“其實我們還有很多好東西,只是沒有發(fā)布。”O(jiān)penAI的內(nèi)部人員對李開復說,“因為我們一發(fā)布你們就會學?!?/span>

這名OpenAI人士擔心得沒錯,這正是國內(nèi)大模型領(lǐng)域的追趕狀態(tài),甚至成為一種技術(shù)學習的策略。

“我們一定要盡快追趕它,讓它有壓力?!崩铋_復說,“這樣它就把一些好東西丟出來,我們大家就有更多的靈感了。”

o1就是現(xiàn)階段所有人的靈感。它提出了一個新思路。根據(jù)這家公司顯示的技術(shù)信息,除了加入強化學習和思維鏈,它的本質(zhì)變化是將Scaling Up的方法從預訓練階段轉(zhuǎn)移到了推理階段,讓模型在“推理時計算”中獲得更高的智能水平,也就是Post-Training Scaling Law(后訓練擴展律)在發(fā)揮作用。

這套新范式的力量真有這么大嗎?在技術(shù)上如何理解o1范式可能加速AGI進程?

大模型行業(yè)上一個重要技術(shù)轉(zhuǎn)變是從Dense Model(稠密模型)到MoE架構(gòu)(Mixture of Experts,混合專家模型)。這個變化本身帶來的是速度提升,而沒有太多能力提升,技術(shù)曲線從這里開始變緩和。但推理層強化學習可能改變這條曲線,它對應(yīng)的是投入資源和所能達到智能上限的關(guān)系——模型智能水平由此可能實現(xiàn)突破。

大佬們的觀點是相近的。在o1發(fā)布一周后,階躍星辰CEO姜大昕公開表示,o1是大模型首次同時具備人類大腦System 1和System 2的能力,這是大模型開始具備歸納世界能力的關(guān)鍵一步。月之暗面創(chuàng)始人兼CEO楊植麟直言,o1的主要意義在于提升了AI的上限,很大程度上證明了這套范式對于下一步Scaling Up初步可行。

換句話說,o1代表的技術(shù)范式還不至于是AGI的直通車,但它的確是一列全新的特快車。

界面新聞記者從不同信源處了解到,Minimax已經(jīng)在推進類o1產(chǎn)品,預計最快明年一季度發(fā)布。月之暗面和階躍星辰目前的主要精力可能仍是年底計劃發(fā)布的多模態(tài)大模型,但o1也都在其各自的技術(shù)路線圖上。

百川智能在強調(diào)醫(yī)療方向的落地場景后,暫時還沒有透露出要加碼o1方向的信號,不過內(nèi)部一直有強化學習的訓練經(jīng)驗。此外,多名受訪者認為,智譜AI大概率會跟進o1,而李開復則明確表示,包括零一萬物在內(nèi),預計五個月后就會有不少類似o1模型的能力出現(xiàn)在各個公司。

“國內(nèi)大模型公司都是抄OpenAI的路線,既然它蹚出了一條路,你也沒有這么多試錯成本,為什么不去copy它?”李江認為,這個選擇理所當然。

不比GPT-4簡單

強化學習不是新東西。在此之前,很多大模型團隊都在嘗試強化學習這條路,只不過更快驗證其正確性的依舊是OpenAI。

“但凡是做過機器學習的,這個方法你一定會想得到,只是說愿不愿意投這么多資源去試這條路。”李江說。

事實上,它還是今年諾貝爾化學獎其中兩位獲得者所在公司DeepMind的拿手好戲。這家公司用深度學習和強化學習的思路在很多垂直領(lǐng)域作出了突破貢獻,比如AlphaFold和AlphaGo。

至于o1為何現(xiàn)在才出現(xiàn),一名大模型技術(shù)從業(yè)者對此解釋道,一方面,模型參數(shù)的量級不同,這是決定性差距;另一方面,這當中的關(guān)鍵變量是強化學習和大模型的碰撞。如果以o1為結(jié)果,大模型和強化學習是一組由“乘號”連接的齒輪關(guān)系,但凡其中一種弱,整體都不會太強。

就技術(shù)而言,從業(yè)者認為o1比GPT-4更難,因為這當中的知識不會公開,團隊必須自己嘗試?!皃ost-training(后訓練)里面的秘密很多,而且越來越寡頭化?!鼻笆鍪茉L投資人說,“在這場競賽里,技術(shù)能力和技術(shù)vision(視野)的占比變高了?!?/span>

也就是說,它需要天才的技術(shù)靈感,外加可落地的工程能力。

“最重要的是,首先有人能想得出整體的架構(gòu)怎么做?!崩罱硎荆鲞@件事需要的是天才,而不是“搭建一個50人團隊”。相當于OpenAI o1現(xiàn)在是“黑盒”,創(chuàng)業(yè)公司需要分配更多精力給強化學習,靠研究能力把“黑盒”變成“白盒”。

工程上也還有大量的細節(jié)和難點。例如,算力方面,由于推理層的算力需求可能會出現(xiàn)爆發(fā)式增長,優(yōu)化AI Infra(基礎(chǔ)架構(gòu))以快速降本的意義進一步凸顯。數(shù)據(jù)方面,這套新范式相當于將一個Agent(智能體)內(nèi)置到模型中,因此,自動化數(shù)據(jù)訓練的pipeline(管道)也需要重新構(gòu)建。

它同時提升了數(shù)據(jù)標注的難度和復雜度。生數(shù)科技首席科學家朱軍在今年的云棲大會上談?wù)撨^,從科研的角度看,這當中過程監(jiān)督的數(shù)據(jù)變得十分重要。它和直接從結(jié)果監(jiān)督的數(shù)據(jù)不一樣,是要對思考過程的每一步進行標注,這種數(shù)據(jù)由于需要專業(yè)人士投入,因而具備一定獲取難度和高價值。

王小川也曾表示,他對o1的好奇有很多,例如擁有多少算力,以及多少領(lǐng)域?qū)<摇_@大致對應(yīng)o1訓練數(shù)據(jù)的規(guī)模和質(zhì)量。

Self-Play RL(自我博弈下的強化學習)雖然可以讓模型自動生產(chǎn)數(shù)據(jù)來學習,但仍然需要人工的參與,并且是高質(zhì)量的參與,其中就包括人工標注數(shù)據(jù)來告訴它結(jié)果好還是不好。

李江形容,數(shù)據(jù)標注既吃人力又吃學歷,是一份看起來藍領(lǐng),但又特別要求白領(lǐng)的工作。“如果你沒有模型聰明,你就沒有價值,所以你要比模型的答案還好,而這份工作又特別枯燥,這樣的行業(yè)專家不好找。”

o1這條路未來可能遇到的最大瓶頸還是來自通用性,也就是模型的泛化能力。例如,o1的數(shù)學、編程類能力尤其突出,但弱邏輯類的能力培養(yǎng)還有待解決。

強化學習中有一個關(guān)鍵環(huán)節(jié)叫做Reward Model(獎勵模型),用于評估Agent的行為表現(xiàn),并指導其學習過程。在特定垂直領(lǐng)域,獎勵機制可以寫得清楚明晰,但面對更加泛化和開放的場景,Reward Model將變得難以定義,這也是以o1范式在實現(xiàn)通用性過程中要突破的重要關(guān)卡。

“這是一個懸而未決的問題。”李江說,這再次回到了各家科研能力的比拼上。即便是在公司內(nèi)部,這種“靈感”現(xiàn)在也無法隨意討論,“因為這個事情太新了,‘靈感’要真金白銀才能燒出來?!?/span>

事實上,大模型未來在提升強化學習模型的泛化性上會遇到什么困難,還不得而知,短期內(nèi)能夠復現(xiàn)某個垂直領(lǐng)域的國產(chǎn)o1就是一種勝利。開始習慣這個領(lǐng)域技術(shù)波動的李江就是這樣想的,“在這個階段,做長遠的Road Map(路線圖)毫無意義?!?/span>

好學生的“附加題”

云啟資本合伙人陳昱每半年就要飛一趟美國,定期看看那邊發(fā)生了什么,這讓他對o1有一個更為冷靜和理智的看法。

誠然,o1代表了OpenAI在解決復雜問題上的探索,但它仍然有很大的局限:成本約為GPT-4o的6倍,使用次數(shù)的限制,較長的等待時間,以及一些簡單問題仍然會出錯的狀況,目前的形態(tài)更像是給學有余力的好學生去做的“附加題”。

答好這道“附加題”要投入多少資源?此前據(jù)騰訊新聞《潛望》報道,王小川在接受采訪時曾預估稱,“可能跟做個GPT-4差不多”。而朱嘯虎給出的答案是,做GPT-4的科研至少要砸四五千萬美金。

目之所及,國內(nèi)大模型公司要跟進做o1必須滿足兩個硬性條件。一是擁有這筆可支配的資源。據(jù)另一名受訪投資人透露,“六小虎”當中,一些公司賬上的錢可能不夠。二是基礎(chǔ)模型的性能水平門檻。李江的判斷是,“至少要接近GPT-4的水平,不然不在牌局里?!?/span>

這意味著“六小虎”的下一步,有錢的可以繼續(xù)跟注,沒錢但想跟注的要繼續(xù)找錢,如果都行不通,就只能找差異化。

不久前已經(jīng)有行業(yè)傳聞稱,“六小虎”中的兩家正在逐步放棄預訓練模型,縮減了預訓練算法團隊人數(shù),業(yè)務(wù)重心轉(zhuǎn)向AI應(yīng)用。

一時間,“六小虎放棄大模型”的說法甚囂塵上。被外界猜測得最多的零一萬物和百川智能,均迅速對外界進行了否認。

前述受訪投資人對界面新聞記者表示,還沒有看到實質(zhì)性證據(jù)能夠表明“六小虎”中有公司放棄了預訓練,現(xiàn)階段它們也沒有理由放棄。他推測有一種可能是,有團隊暫時性完成了基礎(chǔ)模型的預訓練,重心轉(zhuǎn)向了后訓練階段。

“要知道‘六小虎’并不是OpenAI,也不可能OpenAI的所有嘗試都要去跟?!边@名投資人指出,“這當中需要有戰(zhàn)略選擇。”

這種戰(zhàn)略選擇的決定性條件,是掌舵者對AGI的理解。例如,有人認為多模態(tài)的理解與生成統(tǒng)一是AGI的必經(jīng)之路,也有人認為,AGI的關(guān)鍵仍然在于語言智能。這會導致不同的路線,大模型公司可能自此分化:視頻模型,音頻模型,高級推理等等。

除了創(chuàng)業(yè)公司,大廠也在積極跟進。有知情人士透露,目前,字節(jié)跳動和阿里巴巴都已有意向聚焦o1代表的技術(shù)方向,繼續(xù)推動大模型的推理性能提升。不過,大廠的優(yōu)勢將更不明顯。

李江直言,在上一個競爭階段,文心一言、通義千問、混元、豆包等產(chǎn)品,并沒有跟創(chuàng)業(yè)公司完全拉開差距。而在o1路線上,這種優(yōu)勢也許會更加微弱,因為它對算力資源的要求不如之前高,也更考驗技術(shù)團隊的靈活性。

大變革,但不一定激發(fā)大商機

投資人也聽到不少所謂行業(yè)動蕩的風聲,但他們的大致體感是,在車上的都沒有動搖過,不斷動搖的都是沒上車的。

“我們沒有不看好過?!鼻笆鐾顿Y人說,“外面所謂的輿論是我們兩三年前就知道的事實,不覺得有什么預期上的偏差?!?/span>

之所以不動搖,來自于一個長期判斷:AGI能實現(xiàn),繞不開大模型,而o1的出現(xiàn)說明了AGI可以實現(xiàn),它的確提振了資本的信心。

這也將很大程度上決定大模型公司的融資命運。

“到30億美元估值以后,大家就很難融了。”陳昱指出,這是“六小虎”當前共同的困境。輿論之所以唱衰,主要原因也是估值和商業(yè)化程度不匹配。

“今年這幾家融了三五億美元以上的,明年都還可以活,因為大家一年大概燒2億美元,加上之前的錢,活個三年是沒問題的?!标愱耪f,“但他們得盡快解決商業(yè)模式的問題,燒錢是不可持續(xù)的。”

商業(yè)化,就是當前來自投資人最直接的拷問。需要認清的是,o1這個技術(shù)上的“大變革”,并不一定能激發(fā)大商機。

一方面,o1所代表的“模型即產(chǎn)品”思路可能會革掉一批應(yīng)用層公司的命。由于o1本身相當于內(nèi)置了一個AI Agent,很多簡單的Agent不再有特殊價值。一名關(guān)注AI應(yīng)用層的投資人對界面新聞記者表示,o1對很多創(chuàng)業(yè)公司都產(chǎn)生了生死影響,比如只做AI編程的Cursor AI,雙方已經(jīng)到了要比拼用戶體驗的階段。

另一方面,o1即便做出來,在產(chǎn)品上也沒有直接的變現(xiàn)手段。最直觀的改變可能在于,產(chǎn)品形態(tài)需要重新設(shè)計,從同步的方式變?yōu)楫惒?。異步是指,用戶發(fā)送請求后,模型會過若干分鐘再反饋結(jié)果,而不是現(xiàn)在這種讓用戶干等的問答形式。

李江的看法有些悲觀,認為即使國內(nèi)公司做出o1這樣的產(chǎn)品也不會對商業(yè)應(yīng)用帶來本質(zhì)改變?!昂芏嗌虡I(yè)模式跟模型性能有關(guān)聯(lián),但又沒有那么深的關(guān)聯(lián)?!?/span>

這也是朱嘯虎此前強調(diào)的,現(xiàn)階段的模型性能提升不會對應(yīng)用層帶來實質(zhì)影響,就算是模型準確率提升50%,在多步推理之后疊加形成的錯誤率也是災(zāi)難性的。Minimax創(chuàng)始人兼CEO閆俊杰也曾公開強調(diào),模型錯誤率只有降到個位數(shù)才是可信賴的狀態(tài),才能為行業(yè)帶來本質(zhì)的變化。

以此來看,o1可能是大模型技術(shù)上的分水嶺,但用戶很難感知到?!按竽P褪且粋€非常復雜的系統(tǒng)工程,o1能產(chǎn)生的作用,只是在其中某個環(huán)節(jié)改變那么一點點東西,對全局沒有那么大的影響?!崩罱赋?。

在AGI進程放緩時,o1的出現(xiàn)幾乎被視為“全村的希望”,但它依然無法帶大家掙到更多的錢,那它的意義到底是什么?——答案可能仍然在融資里。

在投資人視角,做o1的優(yōu)先級不是最高,但它可以炫技和秀肌肉。在創(chuàng)業(yè)周期,這是融資的籌碼。

作為創(chuàng)業(yè)者,李江很清楚,在砸錢推進模型通往AGI的過程中,創(chuàng)業(yè)公司有所圖,也有犧牲。犧牲在于,一家大模型公司最終要賣的東西,可能跟模型性能本身并沒有更深的關(guān)聯(lián)。而它圖的是,這個模型代表了它要銷售的AGI愿景——這個愿景既要銷售給用戶,也要銷售給投資人。

“長期來看,你得靠它讓大家相信這個故事——它是在朝著AGI發(fā)展?!崩罱f。

 

(受采訪對象要求,李江為化名。)

(界面新聞記者李彪對本文亦有貢獻。)

未經(jīng)正式授權(quán)嚴禁轉(zhuǎn)載本文,侵權(quán)必究。