正在閱讀:

大模型跑分家家碾壓GPT-4,評(píng)測(cè)榜單是時(shí)候升級(jí)了?

掃一掃下載界面新聞APP

大模型跑分家家碾壓GPT-4,評(píng)測(cè)榜單是時(shí)候升級(jí)了?

家家第一,榜單該升級(jí)了?

文|羅超TMT

今天在朋友圈看到一張圖:國(guó)內(nèi)的“百模大戰(zhàn)”已升級(jí)成“兩百模大戰(zhàn)”,據(jù)不完全統(tǒng)計(jì),今年1-7月國(guó)內(nèi)共發(fā)布了64個(gè)大模型,截至目前叫得出名字的國(guó)產(chǎn)大模型已接近200家。這么多大模型,哪些是真能打的?在每天冒出來(lái)的各類“榜單”上出現(xiàn)了“家家第一”的情況,甚至已不止一款國(guó)產(chǎn)大模型“碾壓”了GPT-4,且很多“世界頂級(jí)”大模型是出自剛成立的團(tuán)隊(duì)之手。

然而國(guó)產(chǎn)大模型在國(guó)外的境遇,卻是冰火兩重天。前段時(shí)間《時(shí)代周刊》公布2023年AI領(lǐng)域最有影響力100人,中國(guó)面孔十分罕見(jiàn),有媒體評(píng)論“百模大戰(zhàn)打了個(gè)寂寞”;日前,開(kāi)源AI社區(qū)代表Hugging Face發(fā)布最受歡迎開(kāi)源大模型機(jī)構(gòu)TOP15榜單,在大名鼎鼎的Stability AI、Meta AI、Runway、OpenAI、谷歌、微軟等海外機(jī)構(gòu)外,只有一家機(jī)構(gòu)來(lái)自中國(guó):KEG實(shí)驗(yàn)室(全稱為清華大學(xué)知識(shí)工程實(shí)驗(yàn)室,成立于1996年),其憑借今年開(kāi)源的模型ChatGLM-6B上榜。

這種反?,F(xiàn)象的背后,是大模型行業(yè)日益嚴(yán)重的“跑分亂象”。在讓人眼花繚亂的大模型榜單上,似乎每一個(gè)大模型都曾拿過(guò)第一,都可分分鐘碾壓GPT-4。這不禁讓人懷疑,國(guó)產(chǎn)大模型技術(shù)真的這么強(qiáng)?大模型技術(shù)門(mén)檻真的這么低?

大模型榜單,家家第一?

如果搜索“大模型,超越GPT-4”可以發(fā)現(xiàn),多家國(guó)產(chǎn)大模型號(hào)稱在多個(gè)維度已超越OpenAI旗下的GPT-4,且有模有樣地曬出對(duì)應(yīng)的大模型評(píng)測(cè)榜單“跑分”,比如某大模型宣稱“基模型12項(xiàng)性能超越GPT-4”。相對(duì)來(lái)說(shuō),源自頂尖學(xué)術(shù)機(jī)構(gòu)的大模型對(duì)自己的水平更嚴(yán)謹(jǐn)一些,它們往往不會(huì)過(guò)度強(qiáng)調(diào)排名數(shù)據(jù),而科技巨頭雖然會(huì)有一些“包裝”但也不會(huì)太離譜,頂多只會(huì)宣稱“明年挑戰(zhàn)GPT-4”“已達(dá)到GPT3.5的水平”。

大模型“家家都是第一”的亂象,跟雙11結(jié)束后的品牌戰(zhàn)報(bào)有些相似。每個(gè)品牌都能定制一個(gè)讓自己看上去“最厲害”的雙11榜單,GMV不行可以說(shuō)銷量,兩者都不行可加前綴限定到細(xì)分品類如“XX元內(nèi)XX吋采取XX屏幕的電視之第一”,實(shí)在不行還能說(shuō)自身同比增速行業(yè)第一。

大模型是純技術(shù)產(chǎn)品,衡量其水準(zhǔn)理論上要用專業(yè)技術(shù)評(píng)測(cè)體系,“讓專業(yè)的歸專業(yè)”,當(dāng)前,在PK技術(shù)參數(shù)這件事上,大模型榜單存在不少問(wèn)題。

前些年行業(yè)流行“參數(shù)規(guī)模越大,大模型卻強(qiáng)大”,大模型狂卷參數(shù),最高已過(guò)千億。今天大模型不能再單拼參數(shù)了,因?yàn)樾袠I(yè)都知道,參數(shù)大的大模型不一定真強(qiáng)大。大模型要證明實(shí)力,離不開(kāi)“跑分”,就是去跑一些機(jī)構(gòu)的大模型評(píng)測(cè)體系的測(cè)試數(shù)據(jù)集來(lái)“拿分”再排名。

當(dāng)下,市面上的評(píng)測(cè)工具(系統(tǒng))不下50個(gè),既有來(lái)自專業(yè)學(xué)術(shù)機(jī)構(gòu)的,也有來(lái)自市場(chǎng)運(yùn)作組織的,還有一些媒體也推出了對(duì)應(yīng)的大模型榜單。

在不同大模型“跑分”榜單中,同一個(gè)大模型的表現(xiàn)可能相差甚大,比如前段時(shí)間被質(zhì)疑“基于開(kāi)源大模型偽原創(chuàng)”的某大模型宣稱超越GPT-4“勇奪全球開(kāi)源評(píng)測(cè)雙料冠軍”,在其公布自身第一的榜單上,百度文心一言連TOP20都無(wú)法進(jìn)入,但在8月15日某權(quán)威媒體研究機(jī)構(gòu)發(fā)布的《人工智能大模型體驗(yàn)報(bào)告2.0》,百度文心一言又能排第二,第一是訊飛星火大模型;在8月28日,SuperCLUE發(fā)布的中文大模型8月榜單,GPT-4排名第一,百川智能的Baichuan-13B-Chat排在中文榜單首位;在9月的開(kāi)源評(píng)測(cè)榜單C-Eval最新一期排行榜中,云天勵(lì)飛大模型“云天書(shū)”排在第一,GPT-4名列第十。

不同大模型的“智力”表現(xiàn),在不同榜單相差巨大,明眼人一看就知道其中暗藏玄機(jī)。

更離奇的是,就算在同一榜單中,也經(jīng)常出現(xiàn)多個(gè)大模型共同認(rèn)領(lǐng)第一的情況。比如某手機(jī)廠商宣布,其“自研大模型在C-Eval全球中文榜單中排名第一。此前其自研大模型已取得C-Eval百億內(nèi)大模型榜單第一,CMMLU全球中文榜單第一以及其百億內(nèi)大模型榜單第一的好成績(jī)?!蓖粫r(shí)間,某互聯(lián)網(wǎng)巨頭旗下的創(chuàng)新業(yè)務(wù)宣稱其“千億級(jí)參數(shù)的大模型登頂C-Eval和CMMLU兩大權(quán)威評(píng)測(cè)榜單,多項(xiàng)性能優(yōu)于GPT-4?!笨吹竭@里很多人肯定會(huì)有疑問(wèn):為什么在C-Eval和CMMLU這兩大“權(quán)威評(píng)測(cè)榜單”中,均會(huì)同時(shí)出現(xiàn)兩個(gè)第一?——如果繼續(xù)搜索恐怕還能找到更多認(rèn)領(lǐng)第一的情況。

只要前綴用得好,家家都是大模型王者,國(guó)產(chǎn)大模型秒殺GPT-4、碾壓人類智商都不是事兒。

問(wèn)題在于,當(dāng)家家都宣稱自己是大模型“王者”后,這樣的“金牌”含金量到底有多少?我們不由要問(wèn):大模型評(píng)測(cè)體系到底出了什么問(wèn)題?

大模型評(píng)測(cè)體系,問(wèn)題在哪?

百模大戰(zhàn)如火如荼。不同大模型都有著分出個(gè)高低的強(qiáng)烈需求,在這樣的背景下,市面上快速出現(xiàn)了大量的大模型排行榜,它們可被分為三類:一類是大學(xué)等機(jī)構(gòu)主導(dǎo)的學(xué)術(shù)類榜單,一類是第三方公司運(yùn)作的市場(chǎng)類榜單,還有一類是媒體等非技術(shù)機(jī)構(gòu)推出的評(píng)測(cè)榜單。

用手機(jī)行業(yè)來(lái)類比,第一類、第二類就像是安兔兔、dxomark這樣的跑分平臺(tái),芯片、相機(jī)好不好用技術(shù)評(píng)測(cè)數(shù)據(jù)說(shuō)話;第三類更像是評(píng)測(cè)體驗(yàn)博主,他們站在用戶角度去設(shè)計(jì)榜單。真正能夠衡量大模型技術(shù)實(shí)力的是第一類、第二類“跑分”榜單。

不論是學(xué)術(shù)界還是產(chǎn)業(yè)界的大模型榜單,當(dāng)前的“跑分”原理都是一致的:設(shè)計(jì)一套評(píng)測(cè)數(shù)據(jù)集去讓大模型給出答案,再閱卷打分,本質(zhì)就是讓大模型“做題”拿分。大模型本質(zhì)是機(jī)器學(xué)習(xí)技術(shù),其目的是提升機(jī)器的智能程度以為人類所用,因此用衡量人的能力的手段即“考試做題”來(lái)評(píng)估大模型的水準(zhǔn),本身不存在什么問(wèn)題。

然而,大模型大規(guī)模爆發(fā)才不到一年時(shí)間,當(dāng)前的大模型跑分評(píng)測(cè)體系才剛發(fā)展出來(lái),整體很不成熟,這導(dǎo)致了一些大模型玩家投機(jī)取巧,靠“刷分”奪冠。

大模型評(píng)測(cè)基礎(chǔ)體系并不復(fù)雜。用最權(quán)威的考試體系高考來(lái)對(duì)標(biāo)的話:評(píng)測(cè)數(shù)據(jù)集相當(dāng)于“題庫(kù)”;評(píng)測(cè)工具與過(guò)程則對(duì)應(yīng)到高考考試工具與過(guò)程,比如筆試用的試卷,英語(yǔ)聽(tīng)力用的廣播;打分體系相當(dāng)于高考的閱卷體系,比如語(yǔ)文作文會(huì)有多名老師閱卷再算平均分,以確保公平。

這樣看的話,當(dāng)前的大模型跑分評(píng)測(cè)體系問(wèn)題有三:

第一、開(kāi)源評(píng)測(cè)數(shù)據(jù)集題目全公開(kāi),“刷題”最流行。很多大模型評(píng)測(cè)榜單的數(shù)據(jù)集是公開(kāi)的,針對(duì)此出現(xiàn)了普遍的“刷題”現(xiàn)象,有的公司會(huì)雇傭人類“數(shù)據(jù)標(biāo)注員”來(lái)做題將答案給到大模型,還有的公司會(huì)讓GPT-4來(lái)答題再將答案用來(lái)訓(xùn)練自家大模型,大模型做題就可以“滿分”了。許多大模型剛推出就可以拿滿分“排第一”碾壓GPT-4,玄妙正在于這里。

開(kāi)源評(píng)測(cè)數(shù)據(jù)集相當(dāng)于高考搞“開(kāi)卷考試”一樣,除非是特別開(kāi)放的問(wèn)題(如職場(chǎng)面試),否則被試者完全可以提前針對(duì)性地刷題背答案,最終得分自然完全無(wú)法反映出其真實(shí)水平。

第二,評(píng)測(cè)數(shù)據(jù)不開(kāi)源、全過(guò)程封閉評(píng)測(cè),引發(fā)了公平性問(wèn)題。既然將評(píng)測(cè)數(shù)據(jù)集開(kāi)源會(huì)引發(fā)“刷題”,為什么評(píng)測(cè)機(jī)構(gòu)要開(kāi)源呢?答案在于:評(píng)測(cè)的公平性。如果機(jī)構(gòu)在評(píng)測(cè)時(shí)用什么問(wèn)題以及對(duì)應(yīng)什么答案是什么一直不公開(kāi),如果機(jī)構(gòu)的評(píng)測(cè)邏輯與工具、評(píng)分方法與過(guò)程是封閉的“黑盒子”,得出的任何結(jié)果都難免會(huì)被質(zhì)疑。只有公開(kāi),才有公平公正,才能讓人信服。因此,評(píng)測(cè)機(jī)構(gòu)開(kāi)放與不開(kāi)放都難。

第三,評(píng)測(cè)數(shù)據(jù)集本身存在不夠科學(xué)的情況。比如用中文數(shù)據(jù)集去考核英文大模型,跟讓老外直接來(lái)參加高考一樣不靠譜;再比如用通用評(píng)測(cè)數(shù)據(jù)集去評(píng)測(cè)醫(yī)療、金融、工業(yè)、科學(xué)等產(chǎn)業(yè)大模型,跟讓體育特長(zhǎng)生去參加普通高考一樣,沒(méi)太大意義。

更諷刺的是,現(xiàn)在行業(yè)出現(xiàn)了一些“隨心所欲的主觀榜單”,排名者不知道是誰(shuí),也不會(huì)用什么評(píng)測(cè)數(shù)據(jù)集來(lái)測(cè)試大模型,而是“我覺(jué)得誰(shuí)第一誰(shuí)就是第一”,比如這幾天某大模型榜單,一看排名依據(jù)竟然是依據(jù)“開(kāi)放程度”“技術(shù)專利”“全平臺(tái)訪問(wèn)指數(shù)”和“熱度指數(shù)”,這并不科學(xué)。

有的大模型靠“刷分”去拿第一“碾壓GPT-4”,好歹還是花了點(diǎn)功夫去準(zhǔn)備的,比如會(huì)讓數(shù)據(jù)標(biāo)注員去做題,頂多算考試舞弊“小抄”。但是搞一些排名機(jī)構(gòu)都不知道是誰(shuí)、連評(píng)測(cè)數(shù)據(jù)集都沒(méi)有的主觀榜單來(lái)宣稱“第一”的玩家,簡(jiǎn)直就跟花錢(qián)去野雞大學(xué)買(mǎi)學(xué)歷的差不多——更準(zhǔn)確的說(shuō)法應(yīng)該是,“辦假證”,就算野雞大學(xué)也要去像模像樣學(xué)習(xí)一番。

沒(méi)有任何證據(jù)表明有大模型創(chuàng)業(yè)者“花錢(qián)買(mǎi)榜”的情況,但當(dāng)前大模型榜單確實(shí)存在嚴(yán)重問(wèn)題,市場(chǎng)亟待一套類似于高考一樣的權(quán)威的大模型評(píng)測(cè)體系,在公平公正公開(kāi)的同時(shí),科學(xué)、全面、有效地衡量大模型的綜合水平。

市場(chǎng)需要怎樣的大模型評(píng)測(cè)體系?

從隋唐時(shí)期出現(xiàn)的科舉考試到今天的高考,從中國(guó)的四六級(jí)英語(yǔ)考試再到國(guó)外的GRE、托福、雅思……“考試”讓每個(gè)人都可以公平地被衡量,進(jìn)而得到對(duì)應(yīng)的成長(zhǎng)機(jī)會(huì)。

同理,大模型評(píng)測(cè)體系對(duì)大模型的發(fā)展也不可或缺:

一方面,如果評(píng)測(cè)相對(duì)準(zhǔn)確、靠譜、權(quán)威,可以科學(xué)、全面、有效地衡量孰優(yōu)孰劣,對(duì)市場(chǎng)所有大模型玩家來(lái)說(shuō)無(wú)疑是好事。如果評(píng)測(cè)不準(zhǔn)確,阿貓阿狗的大模型都可以“第一”“奪冠”“屠榜”,對(duì)真正擁有頂尖人才、投入巨大資源、攻堅(jiān)技術(shù)卡點(diǎn)的大模型團(tuán)隊(duì)無(wú)疑是十分不公平的。榜單排名不只是決定市場(chǎng)認(rèn)知,往往也意味著人才、資金等資源的凝聚能力。

另一方面,只有評(píng)測(cè)結(jié)果相對(duì)準(zhǔn)確,大模型研發(fā)者才能知道自己產(chǎn)品的市場(chǎng)水平在哪,優(yōu)缺點(diǎn)在哪,進(jìn)而查漏補(bǔ)缺,沿著正確的方向鉆研算法、提升技術(shù)、加強(qiáng)訓(xùn)練,不斷攻克難點(diǎn)不斷升級(jí)迭代,這樣的過(guò)程就像高中同學(xué)們參加“模擬考試”或者“摸底考試”的意義一樣。

那么,大模型評(píng)測(cè)體系怎樣才能成為“高考”一樣的權(quán)威評(píng)測(cè)體系呢?

首先,“假學(xué)歷”、“野雞大學(xué)學(xué)歷”這一類“野雞榜單”應(yīng)該被徹底反對(duì),“買(mǎi)榜單”“買(mǎi)排名”這樣的做法應(yīng)該被堅(jiān)決鄙視。讓技術(shù)的歸技術(shù),大模型技術(shù)實(shí)力只能且必須用技術(shù)說(shuō)話,搞一些跟技術(shù)沒(méi)關(guān)系的評(píng)估維度來(lái)生拉硬套“造榜單”跟“買(mǎi)假學(xué)歷證”的行為沒(méi)什么區(qū)別,行業(yè)對(duì)這類榜單應(yīng)該毫不猶豫地唾棄。

其次,大模型要證明技術(shù)水平就要尊重“考試”規(guī)則,參加“高考”,當(dāng)前的大模型“高考”體系有待改進(jìn):

1、評(píng)測(cè)過(guò)程全開(kāi)放,數(shù)據(jù)應(yīng)該“開(kāi)/閉結(jié)合”。機(jī)構(gòu)的評(píng)測(cè)工具、評(píng)測(cè)過(guò)程、評(píng)測(cè)方法以及評(píng)分體系應(yīng)該毫無(wú)保留地開(kāi)源,確保公平公正公開(kāi)。評(píng)測(cè)數(shù)據(jù)集則應(yīng)“開(kāi)/閉結(jié)合”,開(kāi)源歷史題目讓大模型訓(xùn)練,但正式的評(píng)測(cè)數(shù)據(jù)集應(yīng)該封閉以杜絕“刷榜”,在評(píng)測(cè)結(jié)束后再開(kāi)放避嫌“暗箱操作”,同時(shí)也可以讓大模型研發(fā)者有的放矢地去發(fā)現(xiàn)問(wèn)題和改進(jìn)技術(shù)。此外,機(jī)構(gòu)也可以開(kāi)源類似于面試求職一樣的開(kāi)放題目,再配套對(duì)應(yīng)的評(píng)測(cè)體系來(lái)衡量大模型表現(xiàn)。

參考高考作文題目打分來(lái)看,評(píng)測(cè)機(jī)構(gòu)甚至可以多家聯(lián)合評(píng)測(cè),最大化規(guī)避主觀問(wèn)題和隨機(jī)因素,盡可能真實(shí)地衡量大模型的水平。

2、評(píng)測(cè)體系更全面,評(píng)測(cè)方式多元化。除針對(duì)大模型在性能與泛化評(píng)測(cè)等表現(xiàn)設(shè)計(jì)評(píng)估體系外,更多兼顧到大模型的能效、魯棒性、安全性等綜合能力評(píng)測(cè)。與此同時(shí),針對(duì)不同類型的大模型設(shè)計(jì)對(duì)應(yīng)的評(píng)測(cè)體系,比如金融大模型強(qiáng)化金融級(jí)安全評(píng)測(cè),比如工業(yè)大模型則要評(píng)估其在惡劣環(huán)境下的極限表現(xiàn)。

3、評(píng)測(cè)數(shù)據(jù)集更專業(yè),不斷豐富評(píng)測(cè)數(shù)據(jù)。評(píng)測(cè)數(shù)據(jù)集的建立過(guò)程本質(zhì)是“命題”,參考高考來(lái)看,這是一個(gè)系統(tǒng)而科學(xué)的工程。針對(duì)大模型的評(píng)測(cè)數(shù)據(jù)集應(yīng)該不斷完善,隨著大模型的迭代而迭代,比如GPT-4強(qiáng)化多模態(tài)能力,評(píng)測(cè)數(shù)據(jù)集也應(yīng)該配套強(qiáng)化音視頻等多媒體內(nèi)容理解與生成相關(guān)評(píng)測(cè)數(shù)據(jù)集;再比如針對(duì)金融等專業(yè)大模型,評(píng)測(cè)數(shù)據(jù)集應(yīng)該有對(duì)應(yīng)的專業(yè)題庫(kù)。每年高考作文命題都會(huì)貼合實(shí)時(shí),正是因?yàn)橄嚓P(guān)題目不可能存在歷史題目,大模型評(píng)測(cè)數(shù)據(jù)集同樣可與時(shí)俱進(jìn),結(jié)合最新的實(shí)時(shí)知識(shí)去完善,讓大模型不可能靠刷題、刷分得高分。

如何準(zhǔn)確測(cè)量一個(gè)大模型的能力,這實(shí)際上還是一個(gè)非常有爭(zhēng)議的問(wèn)題,因?yàn)槟壳拔覀兤鋵?shí)還并不能確切地指出大模型智能涌現(xiàn)的原因。很多時(shí)候,模型運(yùn)作本身是一個(gè)黑箱過(guò)程,這就意味著對(duì)大模型的測(cè)評(píng)某種意義上講是管中窺豹——它的完善就如同大模型能力的提升一樣,都將是一個(gè)長(zhǎng)期的過(guò)程。

世界上不會(huì)有完美的大模型評(píng)測(cè)體系,但隨著技術(shù)的迭代,當(dāng)前的大模型評(píng)估體系需要升級(jí),貼合市場(chǎng)需求,回歸技術(shù)本身,讓大模型開(kāi)發(fā)者們可以沿著正確的方向前進(jìn)。

對(duì)于大模型開(kāi)發(fā)者來(lái)說(shuō),任何榜單的排名是技術(shù)進(jìn)化的自然結(jié)果,而不應(yīng)該被當(dāng)成目的。大模型團(tuán)隊(duì)的資源是有限的,如果花心思、資源與精力去定制榜單搞排名追求“虛假?gòu)?qiáng)大”,哪怕拿遍行業(yè)第一都沒(méi)什么意義,這是緣木求魚(yú)。不論怎樣證明自己第一都是沒(méi)有用的,不斷精進(jìn)技術(shù),加速技術(shù)產(chǎn)品化的步伐,讓技術(shù)進(jìn)入場(chǎng)景才是大模型團(tuán)隊(duì)的大事。有沒(méi)有B端客戶買(mǎi)單?真實(shí)下載量、用戶數(shù)到底如何?行業(yè)內(nèi)的真實(shí)口碑如何?學(xué)術(shù)圈的技術(shù)評(píng)價(jià)怎樣?能不能實(shí)現(xiàn)商業(yè)化?這些評(píng)估體系遠(yuǎn)比任何榜單的排名重要得多。

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請(qǐng)聯(lián)系原著作權(quán)人。

評(píng)論

暫無(wú)評(píng)論哦,快來(lái)評(píng)價(jià)一下吧!

下載界面新聞

微信公眾號(hào)

微博

大模型跑分家家碾壓GPT-4,評(píng)測(cè)榜單是時(shí)候升級(jí)了?

家家第一,榜單該升級(jí)了?

文|羅超TMT

今天在朋友圈看到一張圖:國(guó)內(nèi)的“百模大戰(zhàn)”已升級(jí)成“兩百模大戰(zhàn)”,據(jù)不完全統(tǒng)計(jì),今年1-7月國(guó)內(nèi)共發(fā)布了64個(gè)大模型,截至目前叫得出名字的國(guó)產(chǎn)大模型已接近200家。這么多大模型,哪些是真能打的?在每天冒出來(lái)的各類“榜單”上出現(xiàn)了“家家第一”的情況,甚至已不止一款國(guó)產(chǎn)大模型“碾壓”了GPT-4,且很多“世界頂級(jí)”大模型是出自剛成立的團(tuán)隊(duì)之手。

然而國(guó)產(chǎn)大模型在國(guó)外的境遇,卻是冰火兩重天。前段時(shí)間《時(shí)代周刊》公布2023年AI領(lǐng)域最有影響力100人,中國(guó)面孔十分罕見(jiàn),有媒體評(píng)論“百模大戰(zhàn)打了個(gè)寂寞”;日前,開(kāi)源AI社區(qū)代表Hugging Face發(fā)布最受歡迎開(kāi)源大模型機(jī)構(gòu)TOP15榜單,在大名鼎鼎的Stability AI、Meta AI、Runway、OpenAI、谷歌、微軟等海外機(jī)構(gòu)外,只有一家機(jī)構(gòu)來(lái)自中國(guó):KEG實(shí)驗(yàn)室(全稱為清華大學(xué)知識(shí)工程實(shí)驗(yàn)室,成立于1996年),其憑借今年開(kāi)源的模型ChatGLM-6B上榜。

這種反常現(xiàn)象的背后,是大模型行業(yè)日益嚴(yán)重的“跑分亂象”。在讓人眼花繚亂的大模型榜單上,似乎每一個(gè)大模型都曾拿過(guò)第一,都可分分鐘碾壓GPT-4。這不禁讓人懷疑,國(guó)產(chǎn)大模型技術(shù)真的這么強(qiáng)?大模型技術(shù)門(mén)檻真的這么低?

大模型榜單,家家第一?

如果搜索“大模型,超越GPT-4”可以發(fā)現(xiàn),多家國(guó)產(chǎn)大模型號(hào)稱在多個(gè)維度已超越OpenAI旗下的GPT-4,且有模有樣地曬出對(duì)應(yīng)的大模型評(píng)測(cè)榜單“跑分”,比如某大模型宣稱“基模型12項(xiàng)性能超越GPT-4”。相對(duì)來(lái)說(shuō),源自頂尖學(xué)術(shù)機(jī)構(gòu)的大模型對(duì)自己的水平更嚴(yán)謹(jǐn)一些,它們往往不會(huì)過(guò)度強(qiáng)調(diào)排名數(shù)據(jù),而科技巨頭雖然會(huì)有一些“包裝”但也不會(huì)太離譜,頂多只會(huì)宣稱“明年挑戰(zhàn)GPT-4”“已達(dá)到GPT3.5的水平”。

大模型“家家都是第一”的亂象,跟雙11結(jié)束后的品牌戰(zhàn)報(bào)有些相似。每個(gè)品牌都能定制一個(gè)讓自己看上去“最厲害”的雙11榜單,GMV不行可以說(shuō)銷量,兩者都不行可加前綴限定到細(xì)分品類如“XX元內(nèi)XX吋采取XX屏幕的電視之第一”,實(shí)在不行還能說(shuō)自身同比增速行業(yè)第一。

大模型是純技術(shù)產(chǎn)品,衡量其水準(zhǔn)理論上要用專業(yè)技術(shù)評(píng)測(cè)體系,“讓專業(yè)的歸專業(yè)”,當(dāng)前,在PK技術(shù)參數(shù)這件事上,大模型榜單存在不少問(wèn)題。

前些年行業(yè)流行“參數(shù)規(guī)模越大,大模型卻強(qiáng)大”,大模型狂卷參數(shù),最高已過(guò)千億。今天大模型不能再單拼參數(shù)了,因?yàn)樾袠I(yè)都知道,參數(shù)大的大模型不一定真強(qiáng)大。大模型要證明實(shí)力,離不開(kāi)“跑分”,就是去跑一些機(jī)構(gòu)的大模型評(píng)測(cè)體系的測(cè)試數(shù)據(jù)集來(lái)“拿分”再排名。

當(dāng)下,市面上的評(píng)測(cè)工具(系統(tǒng))不下50個(gè),既有來(lái)自專業(yè)學(xué)術(shù)機(jī)構(gòu)的,也有來(lái)自市場(chǎng)運(yùn)作組織的,還有一些媒體也推出了對(duì)應(yīng)的大模型榜單。

在不同大模型“跑分”榜單中,同一個(gè)大模型的表現(xiàn)可能相差甚大,比如前段時(shí)間被質(zhì)疑“基于開(kāi)源大模型偽原創(chuàng)”的某大模型宣稱超越GPT-4“勇奪全球開(kāi)源評(píng)測(cè)雙料冠軍”,在其公布自身第一的榜單上,百度文心一言連TOP20都無(wú)法進(jìn)入,但在8月15日某權(quán)威媒體研究機(jī)構(gòu)發(fā)布的《人工智能大模型體驗(yàn)報(bào)告2.0》,百度文心一言又能排第二,第一是訊飛星火大模型;在8月28日,SuperCLUE發(fā)布的中文大模型8月榜單,GPT-4排名第一,百川智能的Baichuan-13B-Chat排在中文榜單首位;在9月的開(kāi)源評(píng)測(cè)榜單C-Eval最新一期排行榜中,云天勵(lì)飛大模型“云天書(shū)”排在第一,GPT-4名列第十。

不同大模型的“智力”表現(xiàn),在不同榜單相差巨大,明眼人一看就知道其中暗藏玄機(jī)。

更離奇的是,就算在同一榜單中,也經(jīng)常出現(xiàn)多個(gè)大模型共同認(rèn)領(lǐng)第一的情況。比如某手機(jī)廠商宣布,其“自研大模型在C-Eval全球中文榜單中排名第一。此前其自研大模型已取得C-Eval百億內(nèi)大模型榜單第一,CMMLU全球中文榜單第一以及其百億內(nèi)大模型榜單第一的好成績(jī)?!蓖粫r(shí)間,某互聯(lián)網(wǎng)巨頭旗下的創(chuàng)新業(yè)務(wù)宣稱其“千億級(jí)參數(shù)的大模型登頂C-Eval和CMMLU兩大權(quán)威評(píng)測(cè)榜單,多項(xiàng)性能優(yōu)于GPT-4?!笨吹竭@里很多人肯定會(huì)有疑問(wèn):為什么在C-Eval和CMMLU這兩大“權(quán)威評(píng)測(cè)榜單”中,均會(huì)同時(shí)出現(xiàn)兩個(gè)第一?——如果繼續(xù)搜索恐怕還能找到更多認(rèn)領(lǐng)第一的情況。

只要前綴用得好,家家都是大模型王者,國(guó)產(chǎn)大模型秒殺GPT-4、碾壓人類智商都不是事兒。

問(wèn)題在于,當(dāng)家家都宣稱自己是大模型“王者”后,這樣的“金牌”含金量到底有多少?我們不由要問(wèn):大模型評(píng)測(cè)體系到底出了什么問(wèn)題?

大模型評(píng)測(cè)體系,問(wèn)題在哪?

百模大戰(zhàn)如火如荼。不同大模型都有著分出個(gè)高低的強(qiáng)烈需求,在這樣的背景下,市面上快速出現(xiàn)了大量的大模型排行榜,它們可被分為三類:一類是大學(xué)等機(jī)構(gòu)主導(dǎo)的學(xué)術(shù)類榜單,一類是第三方公司運(yùn)作的市場(chǎng)類榜單,還有一類是媒體等非技術(shù)機(jī)構(gòu)推出的評(píng)測(cè)榜單。

用手機(jī)行業(yè)來(lái)類比,第一類、第二類就像是安兔兔、dxomark這樣的跑分平臺(tái),芯片、相機(jī)好不好用技術(shù)評(píng)測(cè)數(shù)據(jù)說(shuō)話;第三類更像是評(píng)測(cè)體驗(yàn)博主,他們站在用戶角度去設(shè)計(jì)榜單。真正能夠衡量大模型技術(shù)實(shí)力的是第一類、第二類“跑分”榜單。

不論是學(xué)術(shù)界還是產(chǎn)業(yè)界的大模型榜單,當(dāng)前的“跑分”原理都是一致的:設(shè)計(jì)一套評(píng)測(cè)數(shù)據(jù)集去讓大模型給出答案,再閱卷打分,本質(zhì)就是讓大模型“做題”拿分。大模型本質(zhì)是機(jī)器學(xué)習(xí)技術(shù),其目的是提升機(jī)器的智能程度以為人類所用,因此用衡量人的能力的手段即“考試做題”來(lái)評(píng)估大模型的水準(zhǔn),本身不存在什么問(wèn)題。

然而,大模型大規(guī)模爆發(fā)才不到一年時(shí)間,當(dāng)前的大模型跑分評(píng)測(cè)體系才剛發(fā)展出來(lái),整體很不成熟,這導(dǎo)致了一些大模型玩家投機(jī)取巧,靠“刷分”奪冠。

大模型評(píng)測(cè)基礎(chǔ)體系并不復(fù)雜。用最權(quán)威的考試體系高考來(lái)對(duì)標(biāo)的話:評(píng)測(cè)數(shù)據(jù)集相當(dāng)于“題庫(kù)”;評(píng)測(cè)工具與過(guò)程則對(duì)應(yīng)到高考考試工具與過(guò)程,比如筆試用的試卷,英語(yǔ)聽(tīng)力用的廣播;打分體系相當(dāng)于高考的閱卷體系,比如語(yǔ)文作文會(huì)有多名老師閱卷再算平均分,以確保公平。

這樣看的話,當(dāng)前的大模型跑分評(píng)測(cè)體系問(wèn)題有三:

第一、開(kāi)源評(píng)測(cè)數(shù)據(jù)集題目全公開(kāi),“刷題”最流行。很多大模型評(píng)測(cè)榜單的數(shù)據(jù)集是公開(kāi)的,針對(duì)此出現(xiàn)了普遍的“刷題”現(xiàn)象,有的公司會(huì)雇傭人類“數(shù)據(jù)標(biāo)注員”來(lái)做題將答案給到大模型,還有的公司會(huì)讓GPT-4來(lái)答題再將答案用來(lái)訓(xùn)練自家大模型,大模型做題就可以“滿分”了。許多大模型剛推出就可以拿滿分“排第一”碾壓GPT-4,玄妙正在于這里。

開(kāi)源評(píng)測(cè)數(shù)據(jù)集相當(dāng)于高考搞“開(kāi)卷考試”一樣,除非是特別開(kāi)放的問(wèn)題(如職場(chǎng)面試),否則被試者完全可以提前針對(duì)性地刷題背答案,最終得分自然完全無(wú)法反映出其真實(shí)水平。

第二,評(píng)測(cè)數(shù)據(jù)不開(kāi)源、全過(guò)程封閉評(píng)測(cè),引發(fā)了公平性問(wèn)題。既然將評(píng)測(cè)數(shù)據(jù)集開(kāi)源會(huì)引發(fā)“刷題”,為什么評(píng)測(cè)機(jī)構(gòu)要開(kāi)源呢?答案在于:評(píng)測(cè)的公平性。如果機(jī)構(gòu)在評(píng)測(cè)時(shí)用什么問(wèn)題以及對(duì)應(yīng)什么答案是什么一直不公開(kāi),如果機(jī)構(gòu)的評(píng)測(cè)邏輯與工具、評(píng)分方法與過(guò)程是封閉的“黑盒子”,得出的任何結(jié)果都難免會(huì)被質(zhì)疑。只有公開(kāi),才有公平公正,才能讓人信服。因此,評(píng)測(cè)機(jī)構(gòu)開(kāi)放與不開(kāi)放都難。

第三,評(píng)測(cè)數(shù)據(jù)集本身存在不夠科學(xué)的情況。比如用中文數(shù)據(jù)集去考核英文大模型,跟讓老外直接來(lái)參加高考一樣不靠譜;再比如用通用評(píng)測(cè)數(shù)據(jù)集去評(píng)測(cè)醫(yī)療、金融、工業(yè)、科學(xué)等產(chǎn)業(yè)大模型,跟讓體育特長(zhǎng)生去參加普通高考一樣,沒(méi)太大意義。

更諷刺的是,現(xiàn)在行業(yè)出現(xiàn)了一些“隨心所欲的主觀榜單”,排名者不知道是誰(shuí),也不會(huì)用什么評(píng)測(cè)數(shù)據(jù)集來(lái)測(cè)試大模型,而是“我覺(jué)得誰(shuí)第一誰(shuí)就是第一”,比如這幾天某大模型榜單,一看排名依據(jù)竟然是依據(jù)“開(kāi)放程度”“技術(shù)專利”“全平臺(tái)訪問(wèn)指數(shù)”和“熱度指數(shù)”,這并不科學(xué)。

有的大模型靠“刷分”去拿第一“碾壓GPT-4”,好歹還是花了點(diǎn)功夫去準(zhǔn)備的,比如會(huì)讓數(shù)據(jù)標(biāo)注員去做題,頂多算考試舞弊“小抄”。但是搞一些排名機(jī)構(gòu)都不知道是誰(shuí)、連評(píng)測(cè)數(shù)據(jù)集都沒(méi)有的主觀榜單來(lái)宣稱“第一”的玩家,簡(jiǎn)直就跟花錢(qián)去野雞大學(xué)買(mǎi)學(xué)歷的差不多——更準(zhǔn)確的說(shuō)法應(yīng)該是,“辦假證”,就算野雞大學(xué)也要去像模像樣學(xué)習(xí)一番。

沒(méi)有任何證據(jù)表明有大模型創(chuàng)業(yè)者“花錢(qián)買(mǎi)榜”的情況,但當(dāng)前大模型榜單確實(shí)存在嚴(yán)重問(wèn)題,市場(chǎng)亟待一套類似于高考一樣的權(quán)威的大模型評(píng)測(cè)體系,在公平公正公開(kāi)的同時(shí),科學(xué)、全面、有效地衡量大模型的綜合水平。

市場(chǎng)需要怎樣的大模型評(píng)測(cè)體系?

從隋唐時(shí)期出現(xiàn)的科舉考試到今天的高考,從中國(guó)的四六級(jí)英語(yǔ)考試再到國(guó)外的GRE、托福、雅思……“考試”讓每個(gè)人都可以公平地被衡量,進(jìn)而得到對(duì)應(yīng)的成長(zhǎng)機(jī)會(huì)。

同理,大模型評(píng)測(cè)體系對(duì)大模型的發(fā)展也不可或缺:

一方面,如果評(píng)測(cè)相對(duì)準(zhǔn)確、靠譜、權(quán)威,可以科學(xué)、全面、有效地衡量孰優(yōu)孰劣,對(duì)市場(chǎng)所有大模型玩家來(lái)說(shuō)無(wú)疑是好事。如果評(píng)測(cè)不準(zhǔn)確,阿貓阿狗的大模型都可以“第一”“奪冠”“屠榜”,對(duì)真正擁有頂尖人才、投入巨大資源、攻堅(jiān)技術(shù)卡點(diǎn)的大模型團(tuán)隊(duì)無(wú)疑是十分不公平的。榜單排名不只是決定市場(chǎng)認(rèn)知,往往也意味著人才、資金等資源的凝聚能力。

另一方面,只有評(píng)測(cè)結(jié)果相對(duì)準(zhǔn)確,大模型研發(fā)者才能知道自己產(chǎn)品的市場(chǎng)水平在哪,優(yōu)缺點(diǎn)在哪,進(jìn)而查漏補(bǔ)缺,沿著正確的方向鉆研算法、提升技術(shù)、加強(qiáng)訓(xùn)練,不斷攻克難點(diǎn)不斷升級(jí)迭代,這樣的過(guò)程就像高中同學(xué)們參加“模擬考試”或者“摸底考試”的意義一樣。

那么,大模型評(píng)測(cè)體系怎樣才能成為“高考”一樣的權(quán)威評(píng)測(cè)體系呢?

首先,“假學(xué)歷”、“野雞大學(xué)學(xué)歷”這一類“野雞榜單”應(yīng)該被徹底反對(duì),“買(mǎi)榜單”“買(mǎi)排名”這樣的做法應(yīng)該被堅(jiān)決鄙視。讓技術(shù)的歸技術(shù),大模型技術(shù)實(shí)力只能且必須用技術(shù)說(shuō)話,搞一些跟技術(shù)沒(méi)關(guān)系的評(píng)估維度來(lái)生拉硬套“造榜單”跟“買(mǎi)假學(xué)歷證”的行為沒(méi)什么區(qū)別,行業(yè)對(duì)這類榜單應(yīng)該毫不猶豫地唾棄。

其次,大模型要證明技術(shù)水平就要尊重“考試”規(guī)則,參加“高考”,當(dāng)前的大模型“高考”體系有待改進(jìn):

1、評(píng)測(cè)過(guò)程全開(kāi)放,數(shù)據(jù)應(yīng)該“開(kāi)/閉結(jié)合”。機(jī)構(gòu)的評(píng)測(cè)工具、評(píng)測(cè)過(guò)程、評(píng)測(cè)方法以及評(píng)分體系應(yīng)該毫無(wú)保留地開(kāi)源,確保公平公正公開(kāi)。評(píng)測(cè)數(shù)據(jù)集則應(yīng)“開(kāi)/閉結(jié)合”,開(kāi)源歷史題目讓大模型訓(xùn)練,但正式的評(píng)測(cè)數(shù)據(jù)集應(yīng)該封閉以杜絕“刷榜”,在評(píng)測(cè)結(jié)束后再開(kāi)放避嫌“暗箱操作”,同時(shí)也可以讓大模型研發(fā)者有的放矢地去發(fā)現(xiàn)問(wèn)題和改進(jìn)技術(shù)。此外,機(jī)構(gòu)也可以開(kāi)源類似于面試求職一樣的開(kāi)放題目,再配套對(duì)應(yīng)的評(píng)測(cè)體系來(lái)衡量大模型表現(xiàn)。

參考高考作文題目打分來(lái)看,評(píng)測(cè)機(jī)構(gòu)甚至可以多家聯(lián)合評(píng)測(cè),最大化規(guī)避主觀問(wèn)題和隨機(jī)因素,盡可能真實(shí)地衡量大模型的水平。

2、評(píng)測(cè)體系更全面,評(píng)測(cè)方式多元化。除針對(duì)大模型在性能與泛化評(píng)測(cè)等表現(xiàn)設(shè)計(jì)評(píng)估體系外,更多兼顧到大模型的能效、魯棒性、安全性等綜合能力評(píng)測(cè)。與此同時(shí),針對(duì)不同類型的大模型設(shè)計(jì)對(duì)應(yīng)的評(píng)測(cè)體系,比如金融大模型強(qiáng)化金融級(jí)安全評(píng)測(cè),比如工業(yè)大模型則要評(píng)估其在惡劣環(huán)境下的極限表現(xiàn)。

3、評(píng)測(cè)數(shù)據(jù)集更專業(yè),不斷豐富評(píng)測(cè)數(shù)據(jù)。評(píng)測(cè)數(shù)據(jù)集的建立過(guò)程本質(zhì)是“命題”,參考高考來(lái)看,這是一個(gè)系統(tǒng)而科學(xué)的工程。針對(duì)大模型的評(píng)測(cè)數(shù)據(jù)集應(yīng)該不斷完善,隨著大模型的迭代而迭代,比如GPT-4強(qiáng)化多模態(tài)能力,評(píng)測(cè)數(shù)據(jù)集也應(yīng)該配套強(qiáng)化音視頻等多媒體內(nèi)容理解與生成相關(guān)評(píng)測(cè)數(shù)據(jù)集;再比如針對(duì)金融等專業(yè)大模型,評(píng)測(cè)數(shù)據(jù)集應(yīng)該有對(duì)應(yīng)的專業(yè)題庫(kù)。每年高考作文命題都會(huì)貼合實(shí)時(shí),正是因?yàn)橄嚓P(guān)題目不可能存在歷史題目,大模型評(píng)測(cè)數(shù)據(jù)集同樣可與時(shí)俱進(jìn),結(jié)合最新的實(shí)時(shí)知識(shí)去完善,讓大模型不可能靠刷題、刷分得高分。

如何準(zhǔn)確測(cè)量一個(gè)大模型的能力,這實(shí)際上還是一個(gè)非常有爭(zhēng)議的問(wèn)題,因?yàn)槟壳拔覀兤鋵?shí)還并不能確切地指出大模型智能涌現(xiàn)的原因。很多時(shí)候,模型運(yùn)作本身是一個(gè)黑箱過(guò)程,這就意味著對(duì)大模型的測(cè)評(píng)某種意義上講是管中窺豹——它的完善就如同大模型能力的提升一樣,都將是一個(gè)長(zhǎng)期的過(guò)程。

世界上不會(huì)有完美的大模型評(píng)測(cè)體系,但隨著技術(shù)的迭代,當(dāng)前的大模型評(píng)估體系需要升級(jí),貼合市場(chǎng)需求,回歸技術(shù)本身,讓大模型開(kāi)發(fā)者們可以沿著正確的方向前進(jìn)。

對(duì)于大模型開(kāi)發(fā)者來(lái)說(shuō),任何榜單的排名是技術(shù)進(jìn)化的自然結(jié)果,而不應(yīng)該被當(dāng)成目的。大模型團(tuán)隊(duì)的資源是有限的,如果花心思、資源與精力去定制榜單搞排名追求“虛假?gòu)?qiáng)大”,哪怕拿遍行業(yè)第一都沒(méi)什么意義,這是緣木求魚(yú)。不論怎樣證明自己第一都是沒(méi)有用的,不斷精進(jìn)技術(shù),加速技術(shù)產(chǎn)品化的步伐,讓技術(shù)進(jìn)入場(chǎng)景才是大模型團(tuán)隊(duì)的大事。有沒(méi)有B端客戶買(mǎi)單?真實(shí)下載量、用戶數(shù)到底如何?行業(yè)內(nèi)的真實(shí)口碑如何?學(xué)術(shù)圈的技術(shù)評(píng)價(jià)怎樣?能不能實(shí)現(xiàn)商業(yè)化?這些評(píng)估體系遠(yuǎn)比任何榜單的排名重要得多。

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請(qǐng)聯(lián)系原著作權(quán)人。