正在閱讀:

李開(kāi)復(fù):相信很多中美公司都在往o1方向狂奔,包括零一萬(wàn)物

掃一掃下載界面新聞APP

李開(kāi)復(fù):相信很多中美公司都在往o1方向狂奔,包括零一萬(wàn)物

李開(kāi)復(fù)直言,他預(yù)計(jì)五個(gè)月后就會(huì)有不少類(lèi)似o1模型的能力出現(xiàn)在各個(gè)公司,包括零一萬(wàn)物。

圖片來(lái)源:界面圖庫(kù)

界面新聞?dòng)浾?| 伍洋宇

界面新聞編輯 | 文姝琪

在外界對(duì)大模型開(kāi)始失去信心的情況下,國(guó)內(nèi)大模型創(chuàng)業(yè)公司“六小虎”均受到不同程度的質(zhì)疑,零一萬(wàn)物更是在行業(yè)傳聞中被直指放棄了預(yù)訓(xùn)練。

作為創(chuàng)始人兼CEO,李開(kāi)復(fù)在微信朋友圈發(fā)文辟謠稱(chēng),零一萬(wàn)物一直在做預(yù)訓(xùn)練,當(dāng)公司新的預(yù)訓(xùn)練模型推出時(shí),這番謠言會(huì)不攻自破。

10月16日,零一萬(wàn)物正式發(fā)布最新旗艦?zāi)P?/span>Yi-Lightning,繼續(xù)向大模型的更高性能發(fā)起沖擊。

LMSYS盲測(cè)競(jìng)技場(chǎng)總榜(用戶(hù)對(duì)一組大模型回答進(jìn)行盲投)上,Yi-Lightning位列第六,僅次于OpenAI的GPT-4o、o1系列,以及Google的Gemini 1.5 pro系列,并且與馬斯克xAI旗下Grok-2打平。這是中國(guó)大模型廠商目前在該榜單上取得的最好成績(jī)。 

單項(xiàng)能力上,Yi-Lightning的中文能力和多輪對(duì)話(huà)分別與其他模型并列分榜第二和第三,數(shù)學(xué)和代碼能力并列分榜第三和第四,在艱難提問(wèn)和長(zhǎng)提問(wèn)兩個(gè)分榜上也是并列第四。

此次,零一萬(wàn)物格外強(qiáng)調(diào)Yi-Lightning在推理速度上的提升。據(jù)其提供的內(nèi)部評(píng)測(cè)數(shù)據(jù),在 8xH100算力基礎(chǔ)下,以同樣的任務(wù)規(guī)模進(jìn)行測(cè)試,Yi-Lightning的首包時(shí)間(從接收到任務(wù)請(qǐng)求到系統(tǒng)開(kāi)始輸出響應(yīng)結(jié)果之間的時(shí)間)為Yi-Large的一半,最高生成速度提升了近四成。

這一方面是基于團(tuán)隊(duì)此前在AI Infra層的投入,另一方面是由于其模型從Dense Model(稠密模型)架構(gòu)改為采用MoE(Mixture of Experts/混合專(zhuān)家模型)架構(gòu)。而這種架構(gòu)是大模型行業(yè)在提升模型速度時(shí)的共識(shí)性選擇。

不過(guò),MoE架構(gòu)通常存在激活參數(shù)規(guī)模與推理速度及成本的平衡問(wèn)題。為此,零一萬(wàn)物在Yi-Lightning的架構(gòu)中引入了三種技術(shù)思路,分別是混合注意力機(jī)制、動(dòng)態(tài)ToP路由以及多階段訓(xùn)練。

其中,混合注意力機(jī)制指的是在模型的部分層次中將傳統(tǒng)的全注意力(Full Attention)替換為滑動(dòng)窗口注意力(Sliding Window Attention),平衡模型在處理長(zhǎng)序列數(shù)據(jù)時(shí)的性能和計(jì)算資源消耗;動(dòng)態(tài)ToP路由的作用在于靈活根據(jù)任務(wù)的難度調(diào)整激活的專(zhuān)家網(wǎng)絡(luò)數(shù)量;多階段訓(xùn)練則是在不同訓(xùn)練階段,有側(cè)重地搭配訓(xùn)練數(shù)據(jù)類(lèi)型,進(jìn)行針對(duì)性強(qiáng)化。

目前,公司將Yi-Lightning定價(jià)在0.99元/百萬(wàn)tokens,李開(kāi)復(fù)對(duì)此表示,這并不是一個(gè)虧本的價(jià)格,公司仍有相對(duì)理想的利潤(rùn)空間。 

另外,在ToB(企業(yè)端)戰(zhàn)略下,零一萬(wàn)物首次發(fā)布了針對(duì)零售和電商等場(chǎng)景的行業(yè)應(yīng)用產(chǎn)品AI 2.0數(shù)字人,并已在彈幕互動(dòng)、商品信息提取、實(shí)時(shí)話(huà)術(shù)生成等環(huán)節(jié)接入了Yi-Lightning。

盡管沒(méi)有直接提及“開(kāi)箱即用”這個(gè)概念,但李開(kāi)復(fù)表示,目前這一數(shù)字人產(chǎn)品已相對(duì)完善,在沒(méi)有大模型專(zhuān)家或系統(tǒng)集成商幫助的情況下,具備一定IT能力的客戶(hù)可以相對(duì)高效完成部署。

據(jù)零一萬(wàn)物披露,公司已有合作案例涉及餐飲連鎖、酒旅類(lèi)客戶(hù)、水果連鎖店等,其中某頭部酒旅企業(yè)在接入該數(shù)字人產(chǎn)品后,直播GMV較此前上升170%。

零一萬(wàn)物目前已形成有鮮明差異的海內(nèi)外商業(yè)布局。其ToC(用戶(hù))業(yè)務(wù)選擇在國(guó)外,因?yàn)橛脩?hù)成本更低、變現(xiàn)能力更高,以Pop AI為代表的產(chǎn)品在海外已有正向收入,國(guó)內(nèi)的機(jī)會(huì)還要根據(jù)用戶(hù)成本等維度持續(xù)關(guān)注,公司目前將繼續(xù)維護(hù)AI工作平臺(tái)“萬(wàn)知”的正常運(yùn)營(yíng)。

ToB業(yè)務(wù)則以國(guó)內(nèi)為主,李開(kāi)復(fù)表示,這類(lèi)業(yè)務(wù)在海外對(duì)供應(yīng)商本土化要求高,并不適合現(xiàn)階段的零一萬(wàn)物,而公司當(dāng)前在國(guó)內(nèi)已找到一些破局空間(即電商、零售場(chǎng)景下的數(shù)字人解決方案)。在國(guó)內(nèi)ToB業(yè)務(wù)產(chǎn)品矩陣上,除了已經(jīng)發(fā)布的AI 2.0數(shù)字人、API之外,零一萬(wàn)物還有AI Infra解決方案、私有化定制模型等其他業(yè)務(wù)將在近期對(duì)外發(fā)布。

一個(gè)大模型公司同時(shí)做to B和to C是很辛苦的,因?yàn)閮蓚€(gè)團(tuán)隊(duì)的基因不一樣,做事的方法和衡量KPI的方法也不一樣,需要多元化的管理方式?!崩铋_(kāi)復(fù)說(shuō),“我在這兩個(gè)領(lǐng)域有經(jīng)驗(yàn),也在試著做,但是也絕對(duì)不能什么都做。”

Yi-Lightning發(fā)布之際,李開(kāi)復(fù)再次對(duì)“大模型行業(yè)將逐步放棄預(yù)訓(xùn)練”這一業(yè)界推測(cè)作出回應(yīng)。 

他表示,做預(yù)訓(xùn)練通用大模型是一個(gè)系統(tǒng)性技術(shù)活,需要眾多懂芯片、模型、推理、架構(gòu)、算法的人才,做這件事的成本也非常高,不是每家公司都可以做成?!?/span>以后可能會(huì)有越來(lái)越少的大模型公司做預(yù)訓(xùn)練。”他判斷稱(chēng)。 

不過(guò)李開(kāi)復(fù)也表示,據(jù)他所知,“六小虎”均有足夠的融資額度,都付得起預(yù)訓(xùn)練模型Production Run(投產(chǎn)運(yùn)行)三四百萬(wàn)美金一次的訓(xùn)練成本,只要有足夠好的人才和做預(yù)訓(xùn)練的決心,資金和算力資源不會(huì)是問(wèn)題。

面對(duì)通用大模型的下一技術(shù)進(jìn)程,OpenAI o1是一個(gè)繞不開(kāi)的話(huà)題。

李開(kāi)復(fù)直言,他預(yù)計(jì)五個(gè)月后就會(huì)有不少類(lèi)似o1模型的能力出現(xiàn)在各個(gè)公司,包括零一萬(wàn)物。這基本代表了零一萬(wàn)物將要效仿o1范式繼續(xù)推進(jìn)模型性能的技術(shù)戰(zhàn)略決策?!案兄xOpenAI點(diǎn)醒我們這一點(diǎn)(指post-train同樣重要),現(xiàn)在我相信很多中美公司都在往o1方向狂奔?!?/span> 

李開(kāi)復(fù)還根據(jù)自己與OpenAI相關(guān)人員溝通得到的信息透露道,OpenAI目前仍對(duì)一些先進(jìn)技術(shù)有所保留,不急于公布,要等到領(lǐng)先行業(yè)足夠多、到一定的業(yè)務(wù)節(jié)點(diǎn)后才會(huì)釋放。

事實(shí)上,追逐OpenAI是中國(guó)大模型公司共同的長(zhǎng)線任務(wù),而縮短中美大模型差距的技術(shù)時(shí)間差是一個(gè)直觀的判斷標(biāo)準(zhǔn)。以零一萬(wàn)物為例,Yi-Lightning追擊GPT-4o性能水平的周期從上一代的六個(gè)月縮短到了五個(gè)月,但這個(gè)數(shù)字要如何繼續(xù)縮小? 

李開(kāi)復(fù)的看法是,國(guó)內(nèi)大模型公司不需要具有這種焦慮,因?yàn)閺乃懔A(chǔ)、技術(shù)差距等維度來(lái)看,這種落后是客觀事實(shí),但國(guó)內(nèi)公司憑借數(shù)據(jù)處理、訓(xùn)推優(yōu)化等方法論已經(jīng)有相對(duì)成熟的打法,而這套方法對(duì)于盡快了解新技術(shù)核心并復(fù)現(xiàn)在自己的產(chǎn)品中,能保持六個(gè)月左右的追趕周期已經(jīng)是很好的結(jié)果。 

“我們千萬(wàn)不要認(rèn)為落后六個(gè)月是一個(gè)很羞恥的事情,或者一定是要追趕的事情?!崩铋_(kāi)復(fù)說(shuō),“如果期待破局,可能需要一個(gè)前所未有的算法才有機(jī)會(huì)?!?/span>

未經(jīng)正式授權(quán)嚴(yán)禁轉(zhuǎn)載本文,侵權(quán)必究。

李開(kāi)復(fù)

  • 對(duì)話(huà)商業(yè)之王,求解“正確的事”丨WISE2024 商業(yè)之王Day1看點(diǎn)大揭秘
  • 十分勇氣,十分堅(jiān)定 | 李開(kāi)復(fù):“用好AI這個(gè)生產(chǎn)力神器,探索財(cái)經(jīng)報(bào)道創(chuàng)新邊界” | 界面財(cái)聯(lián)社十年十人⑧

評(píng)論

暫無(wú)評(píng)論哦,快來(lái)評(píng)價(jià)一下吧!

下載界面新聞

微信公眾號(hào)

微博

李開(kāi)復(fù):相信很多中美公司都在往o1方向狂奔,包括零一萬(wàn)物

李開(kāi)復(fù)直言,他預(yù)計(jì)五個(gè)月后就會(huì)有不少類(lèi)似o1模型的能力出現(xiàn)在各個(gè)公司,包括零一萬(wàn)物。

圖片來(lái)源:界面圖庫(kù)

界面新聞?dòng)浾?| 伍洋宇

界面新聞編輯 | 文姝琪

在外界對(duì)大模型開(kāi)始失去信心的情況下,國(guó)內(nèi)大模型創(chuàng)業(yè)公司“六小虎”均受到不同程度的質(zhì)疑,零一萬(wàn)物更是在行業(yè)傳聞中被直指放棄了預(yù)訓(xùn)練。

作為創(chuàng)始人兼CEO,李開(kāi)復(fù)在微信朋友圈發(fā)文辟謠稱(chēng),零一萬(wàn)物一直在做預(yù)訓(xùn)練,當(dāng)公司新的預(yù)訓(xùn)練模型推出時(shí),這番謠言會(huì)不攻自破。

10月16日,零一萬(wàn)物正式發(fā)布最新旗艦?zāi)P?/span>Yi-Lightning,繼續(xù)向大模型的更高性能發(fā)起沖擊。

LMSYS盲測(cè)競(jìng)技場(chǎng)總榜(用戶(hù)對(duì)一組大模型回答進(jìn)行盲投)上,Yi-Lightning位列第六,僅次于OpenAI的GPT-4o、o1系列,以及Google的Gemini 1.5 pro系列,并且與馬斯克xAI旗下Grok-2打平。這是中國(guó)大模型廠商目前在該榜單上取得的最好成績(jī)。 

單項(xiàng)能力上,Yi-Lightning的中文能力和多輪對(duì)話(huà)分別與其他模型并列分榜第二和第三,數(shù)學(xué)和代碼能力并列分榜第三和第四,在艱難提問(wèn)和長(zhǎng)提問(wèn)兩個(gè)分榜上也是并列第四。

此次,零一萬(wàn)物格外強(qiáng)調(diào)Yi-Lightning在推理速度上的提升。據(jù)其提供的內(nèi)部評(píng)測(cè)數(shù)據(jù),在 8xH100算力基礎(chǔ)下,以同樣的任務(wù)規(guī)模進(jìn)行測(cè)試,Yi-Lightning的首包時(shí)間(從接收到任務(wù)請(qǐng)求到系統(tǒng)開(kāi)始輸出響應(yīng)結(jié)果之間的時(shí)間)為Yi-Large的一半,最高生成速度提升了近四成。

這一方面是基于團(tuán)隊(duì)此前在AI Infra層的投入,另一方面是由于其模型從Dense Model(稠密模型)架構(gòu)改為采用MoE(Mixture of Experts/混合專(zhuān)家模型)架構(gòu)。而這種架構(gòu)是大模型行業(yè)在提升模型速度時(shí)的共識(shí)性選擇。

不過(guò),MoE架構(gòu)通常存在激活參數(shù)規(guī)模與推理速度及成本的平衡問(wèn)題。為此,零一萬(wàn)物在Yi-Lightning的架構(gòu)中引入了三種技術(shù)思路,分別是混合注意力機(jī)制、動(dòng)態(tài)ToP路由以及多階段訓(xùn)練。

其中,混合注意力機(jī)制指的是在模型的部分層次中將傳統(tǒng)的全注意力(Full Attention)替換為滑動(dòng)窗口注意力(Sliding Window Attention),平衡模型在處理長(zhǎng)序列數(shù)據(jù)時(shí)的性能和計(jì)算資源消耗;動(dòng)態(tài)ToP路由的作用在于靈活根據(jù)任務(wù)的難度調(diào)整激活的專(zhuān)家網(wǎng)絡(luò)數(shù)量;多階段訓(xùn)練則是在不同訓(xùn)練階段,有側(cè)重地搭配訓(xùn)練數(shù)據(jù)類(lèi)型,進(jìn)行針對(duì)性強(qiáng)化。

目前,公司將Yi-Lightning定價(jià)在0.99元/百萬(wàn)tokens,李開(kāi)復(fù)對(duì)此表示,這并不是一個(gè)虧本的價(jià)格,公司仍有相對(duì)理想的利潤(rùn)空間。 

另外,在ToB(企業(yè)端)戰(zhàn)略下,零一萬(wàn)物首次發(fā)布了針對(duì)零售和電商等場(chǎng)景的行業(yè)應(yīng)用產(chǎn)品AI 2.0數(shù)字人,并已在彈幕互動(dòng)、商品信息提取、實(shí)時(shí)話(huà)術(shù)生成等環(huán)節(jié)接入了Yi-Lightning。

盡管沒(méi)有直接提及“開(kāi)箱即用”這個(gè)概念,但李開(kāi)復(fù)表示,目前這一數(shù)字人產(chǎn)品已相對(duì)完善,在沒(méi)有大模型專(zhuān)家或系統(tǒng)集成商幫助的情況下,具備一定IT能力的客戶(hù)可以相對(duì)高效完成部署。

據(jù)零一萬(wàn)物披露,公司已有合作案例涉及餐飲連鎖、酒旅類(lèi)客戶(hù)、水果連鎖店等,其中某頭部酒旅企業(yè)在接入該數(shù)字人產(chǎn)品后,直播GMV較此前上升170%。

零一萬(wàn)物目前已形成有鮮明差異的海內(nèi)外商業(yè)布局。其ToC(用戶(hù))業(yè)務(wù)選擇在國(guó)外,因?yàn)橛脩?hù)成本更低、變現(xiàn)能力更高,以Pop AI為代表的產(chǎn)品在海外已有正向收入,國(guó)內(nèi)的機(jī)會(huì)還要根據(jù)用戶(hù)成本等維度持續(xù)關(guān)注,公司目前將繼續(xù)維護(hù)AI工作平臺(tái)“萬(wàn)知”的正常運(yùn)營(yíng)。

ToB業(yè)務(wù)則以國(guó)內(nèi)為主,李開(kāi)復(fù)表示,這類(lèi)業(yè)務(wù)在海外對(duì)供應(yīng)商本土化要求高,并不適合現(xiàn)階段的零一萬(wàn)物,而公司當(dāng)前在國(guó)內(nèi)已找到一些破局空間(即電商、零售場(chǎng)景下的數(shù)字人解決方案)。在國(guó)內(nèi)ToB業(yè)務(wù)產(chǎn)品矩陣上,除了已經(jīng)發(fā)布的AI 2.0數(shù)字人、API之外,零一萬(wàn)物還有AI Infra解決方案、私有化定制模型等其他業(yè)務(wù)將在近期對(duì)外發(fā)布。

一個(gè)大模型公司同時(shí)做to B和to C是很辛苦的,因?yàn)閮蓚€(gè)團(tuán)隊(duì)的基因不一樣,做事的方法和衡量KPI的方法也不一樣,需要多元化的管理方式?!崩铋_(kāi)復(fù)說(shuō),“我在這兩個(gè)領(lǐng)域有經(jīng)驗(yàn),也在試著做,但是也絕對(duì)不能什么都做?!?/span>

Yi-Lightning發(fā)布之際,李開(kāi)復(fù)再次對(duì)“大模型行業(yè)將逐步放棄預(yù)訓(xùn)練”這一業(yè)界推測(cè)作出回應(yīng)。 

他表示,做預(yù)訓(xùn)練通用大模型是一個(gè)系統(tǒng)性技術(shù)活,需要眾多懂芯片、模型、推理、架構(gòu)、算法的人才,做這件事的成本也非常高,不是每家公司都可以做成?!?/span>以后可能會(huì)有越來(lái)越少的大模型公司做預(yù)訓(xùn)練。”他判斷稱(chēng)。 

不過(guò)李開(kāi)復(fù)也表示,據(jù)他所知,“六小虎”均有足夠的融資額度,都付得起預(yù)訓(xùn)練模型Production Run(投產(chǎn)運(yùn)行)三四百萬(wàn)美金一次的訓(xùn)練成本,只要有足夠好的人才和做預(yù)訓(xùn)練的決心,資金和算力資源不會(huì)是問(wèn)題。

面對(duì)通用大模型的下一技術(shù)進(jìn)程,OpenAI o1是一個(gè)繞不開(kāi)的話(huà)題。

李開(kāi)復(fù)直言,他預(yù)計(jì)五個(gè)月后就會(huì)有不少類(lèi)似o1模型的能力出現(xiàn)在各個(gè)公司,包括零一萬(wàn)物。這基本代表了零一萬(wàn)物將要效仿o1范式繼續(xù)推進(jìn)模型性能的技術(shù)戰(zhàn)略決策。“感謝OpenAI點(diǎn)醒我們這一點(diǎn)(指post-train同樣重要),現(xiàn)在我相信很多中美公司都在往o1方向狂奔?!?/span> 

李開(kāi)復(fù)還根據(jù)自己與OpenAI相關(guān)人員溝通得到的信息透露道,OpenAI目前仍對(duì)一些先進(jìn)技術(shù)有所保留,不急于公布,要等到領(lǐng)先行業(yè)足夠多、到一定的業(yè)務(wù)節(jié)點(diǎn)后才會(huì)釋放。

事實(shí)上,追逐OpenAI是中國(guó)大模型公司共同的長(zhǎng)線任務(wù),而縮短中美大模型差距的技術(shù)時(shí)間差是一個(gè)直觀的判斷標(biāo)準(zhǔn)。以零一萬(wàn)物為例,Yi-Lightning追擊GPT-4o性能水平的周期從上一代的六個(gè)月縮短到了五個(gè)月,但這個(gè)數(shù)字要如何繼續(xù)縮??? 

李開(kāi)復(fù)的看法是,國(guó)內(nèi)大模型公司不需要具有這種焦慮,因?yàn)閺乃懔A(chǔ)、技術(shù)差距等維度來(lái)看,這種落后是客觀事實(shí),但國(guó)內(nèi)公司憑借數(shù)據(jù)處理、訓(xùn)推優(yōu)化等方法論已經(jīng)有相對(duì)成熟的打法,而這套方法對(duì)于盡快了解新技術(shù)核心并復(fù)現(xiàn)在自己的產(chǎn)品中,能保持六個(gè)月左右的追趕周期已經(jīng)是很好的結(jié)果。 

“我們千萬(wàn)不要認(rèn)為落后六個(gè)月是一個(gè)很羞恥的事情,或者一定是要追趕的事情。”李開(kāi)復(fù)說(shuō),“如果期待破局,可能需要一個(gè)前所未有的算法才有機(jī)會(huì)?!?/span>

未經(jīng)正式授權(quán)嚴(yán)禁轉(zhuǎn)載本文,侵權(quán)必究。