正在閱讀:

詳解開源閉源之爭,十家大模型廠商的商戰(zhàn)策略

掃一掃下載界面新聞APP

詳解開源閉源之爭,十家大模型廠商的商戰(zhàn)策略

在大模型開閉源之爭背后,有著幾大核心問題。

文|數(shù)智前線 趙艷秋

編輯|?;?/p>

大模型市場已形成了“開源派”和“閉源派”。而當下,在大模型競爭進入市場爭奪的白熱化階段后,企業(yè)在開閉源上的交鋒也更為激烈。

實際上,大模型開源和傳統(tǒng)軟件開源不是一回事。在開源的定義、治理、社區(qū)性質(zhì)、貢獻路徑和企業(yè)的開源策略上,都在發(fā)生巨大變化。

01、大模型企業(yè)開閉源策略各異

今年大模型的開閉源更為熱鬧,在閉源的企業(yè),有開源的呼聲;在開源的企業(yè),有閉源的動作。

百度內(nèi)部對大模型開源、閉源的討論非常熱烈。大家都在思考,什么樣的方式能取得更多的競爭優(yōu)勢。

在BATH幾家大廠中,百度、華為選擇閉源路線,阿里、騰訊則推出了開源大模型。

百度對于開閉源大模型的爭論,部分也來自阿里云等企業(yè)今年在開源上的聲勢和市場動作。

到目前為止,雖然百度文心一言仍堅持閉源路線,但百度智能云部門,在其平臺上提供了大量性能很強的第三方開源大模型。百度通過閉源文心一言,也通過開源大模型使用的算力、工具和服務,來實現(xiàn)商業(yè)上的收益。

在開源上,今年阿里云的動作極為密集。5月在北京舉辦的AI峰會上,阿里云CTO周靖人表態(tài),開源是阿里云的戰(zhàn)略,阿里云形成的是一個開源和閉源的整體體系。阿里云已開源了參數(shù)從5億到千億的數(shù)款模型,打法也更為專業(yè)。

業(yè)界認為,阿里云大力推廣開源,一方面是為了加快市場份額的爭奪;另一方面作為云計算企業(yè),它可以采用“羊毛出在豬身上”的商業(yè)模式,在算力、工具和服務上獲得收益。周靖人在策略會上尤其強調(diào)“百煉”平臺的服務。而開源還能為其引流,有些客戶可能升級為閉源用戶。

與其他大模型企業(yè)相比,騰訊開源大模型較晚,今年5月對外開源了混元文生圖大模型。混元相關人士告訴數(shù)智前線,由于市場上已有很多開源的大語言模型,因此騰訊這次選擇開源文生圖,應該是第一個中文原生的開源DiT模型,未來還會嘗試參數(shù)量更大的模型。由于剛開源幾周,商業(yè)化影響仍待觀察。

華為云2023年在推出盤古大模型3.0時,就表態(tài)采用閉源路線。過去一年,它的重心是在各行業(yè)進行聯(lián)創(chuàng),落地大模型,并將技術回饋盤古,不斷迭代,未參與業(yè)界開閉源討論。華為云在上周也剛剛官宣盤古5.0多模態(tài)大模型,發(fā)布期間也未涉及開源問題。同時,華為云于去年上線“百模千態(tài)”專區(qū),提供第三方開源大模型。

最近在項目訂單上活躍的智譜,是國內(nèi)最早開源大模型的企業(yè)。因為智譜由清華技術成果轉(zhuǎn)化而來,2022年,它就將開發(fā)的雙語千億模型GLM-130B開源,“當時全國懂大模型的研究員加起來也不過百來人”。智譜CEO張鵬稱,開源讓大家知道智譜在做什么,同時可以讓更多人參與推動大模型。此后在2023年3月,智譜將GLM6b開源,該模型在Hugging Face上的下載量超過1600萬。

雖然張鵬認為開源的初心并不是要去贏得市場或追求商業(yè)利益,但ChatGPT爆火后,智譜的GLM開源大模型獲得大量關注,也讓這家2019年才成立的公司,在融資和商業(yè)化上受益頗多。張鵬也稱,開源和商業(yè)化是整個生態(tài)版圖里很重要的兩塊,這兩塊是有連接的,可以說開源充當著商業(yè)化的橋梁。

王小川的百川公司,去年作為創(chuàng)業(yè)的明星公司,發(fā)布了Baichuan-7B、13B開源可商用大模型,在業(yè)界引發(fā)關注。當時有應用開發(fā)商告訴數(shù)智前線,測試后,他們從Meta的Llmma轉(zhuǎn)向百川,因為中文效果更好。

百川開源時,國內(nèi)大模型開源的還很少。此后,越來越多的大模型公司,包括大廠,開始開源。百川聯(lián)合創(chuàng)始人謝劍告訴數(shù)智前線,未來還會開源,但不會開源特別大參數(shù)的模型,因為很多人用不起來。

最近快手的文生視頻大模型“可靈”很火爆,不少應用企業(yè)“祈盼”可靈開源。但快手相關人士表示,暫不考慮開源,而會逐步開放一些東西在業(yè)界討論。

而昆侖萬維最近開源了一個稀疏大型語言模型Skywork-MoE,為應對大規(guī)模密集型大語言模型帶來的挑戰(zhàn)。昆侖萬維兼天工智能首席科學家顏水成告訴數(shù)智前線,開源大模型幫助學界進行探索性工作,而公司也推出音樂、游戲等垂類模型,將采用閉源商業(yè)模式。

李開復的創(chuàng)業(yè)公司零一萬物,是這波大模型獨角獸中最后一家開源的企業(yè)。公司開源負責人林旅強非常坦率,認為開源和閉源是商業(yè)設計問題。

零一萬物也采取了開源、閉源并進的模式。開源在一定程度上扮演了商業(yè)拓展角色。同時,今年零一萬物發(fā)布千億參數(shù)模型Yi-Large,一些使用了開源模型的客戶有望轉(zhuǎn)化到該閉源模型上。

02、開源大模型與開源軟件有三大區(qū)別

雖然大模型開源如火如荼,但業(yè)界一直在詬病它的透明度,質(zhì)疑為什么好多信息,企業(yè)不公開。實際上,大模型開源和傳統(tǒng)軟件開源不是一回事。

紅帽中國首席架構(gòu)師張家駒告訴數(shù)智前線,軟件開源是指源代碼開源,拿到源代碼,我們就“知其然也知其所以然”,也可以在源代碼基礎上,去修改或增加新功能。

但大模型是一個黑盒子,里面有很多至今無法解釋的現(xiàn)象,所以對大模型的開源,業(yè)界提出了更多維度,有的說需要四部分——權重、數(shù)據(jù)集、代碼和訓練過程;也有的說需要五部分,還包括了框架。即使是這些定義,業(yè)界也有不同意見:為什么會有這樣的定義?這更像是從傳統(tǒng)開源軟件的思路來考慮的。

有趣的是,只有極少數(shù)公司或機構(gòu)的大模型,同時開源了上述四部分或五部分,比如IBM剛剛開源出來的Granite大語言模型;也有像智源研究院、馬斯克旗下大模型公司xAI ,開源了權重和數(shù)據(jù)集。比如,根據(jù)智源人工智能研究院副院長兼總工程師林詠華的介紹,今年6月,智源最新開源數(shù)據(jù)集分為兩類,一類是通用開源指令微調(diào)數(shù)據(jù)集,一類是行業(yè)垂類數(shù)據(jù)集,涵蓋18個行業(yè)。

“現(xiàn)在業(yè)界的共識是,至少將權重再加上一些推理代碼開源?!绷阋蝗f物林旅強說,只有這兩部分開源,其他人才可以將開源大模型使用起來。由此,開源大模型現(xiàn)在的定義,有點像微軟提過的“免費軟件”。所以,谷歌等公司在其官網(wǎng)上稱是開源權重(open weight),而不是開源大模型。

為什么在開源大模型中,權重如此重要?有業(yè)界人士將權重打比方為“一大堆數(shù)字”,一個13B的模型,就有130億個數(shù)。這些數(shù)字與模型如何處理輸入的數(shù)據(jù)、如何做出預測和生成文本等相關,代表了一個大模型的智慧。

而在大模型中,代碼分為預訓練代碼、微調(diào)代碼和推理代碼。預訓練代碼是大模型公司的核心;對于微調(diào)代碼,市場上已有很多公開方法,而大模型要被用起來,需要推理代碼。至于訓練過程和數(shù)據(jù)集,往往也是大模型廠商的核心所在。

與傳統(tǒng)軟件不同,在大模型開源上,企業(yè)的態(tài)度有了微妙的變化?,F(xiàn)在大模型的成本太過高昂,訓練一個千億級參數(shù)模型,要幾千萬甚至上億,因此,很多公司在開源問題上變得保守。這是一個現(xiàn)實問題,每家公司的開源,必然服務于自己的商業(yè)戰(zhàn)略。而且,即便將這些核心都開源出來,大多數(shù)工程師和企業(yè)也沒有那么多資源去復現(xiàn)。

業(yè)內(nèi)人士認為,開源大模型和開源軟件有三個核心區(qū)別:

一是透明度完全不一樣。開源軟件的代碼能說明一切,從而可以形成一套治理體系;大模型當下還是一個黑盒子,內(nèi)部機理還是未知的。

二是大模型社區(qū)的性質(zhì)發(fā)生了變化。之前開源社區(qū)講求全球工程師來貢獻;但因為算力等資源限制,在大模型社區(qū)里,或許90%以上的工程師,無法直接為大模型貢獻,因此很多社區(qū)變成了單向模式,大家只是使用大模型。在HuggingFace上,Meta的Llmma開源大模型,已經(jīng)有幾千個變種,但彼此之間沒有太多交互,也很難將創(chuàng)新合并。

其三是大模型企業(yè)開源策略發(fā)生變化。中國信通院知識產(chǎn)權與創(chuàng)新發(fā)展中心產(chǎn)業(yè)發(fā)展研究部主任張俊霞說,因為大模型的訓練投入特別大,這導致企業(yè)在開源策略的選擇上,特別是在一些許可或信息披露上,都有很大不同。“這個問題現(xiàn)在不管是國內(nèi)還是國際社區(qū),都在非常激烈地討論。”

不過,近期,一些動態(tài)正在發(fā)生。比如,紅帽在社區(qū)貢獻上有了嘗試動作。一方面IBM開源了Granite模型;另一方面,“訓練過程”在另外一個開源項目InstructLab中。由IBM出資建設了一個平臺。每過一段時間,就把大家“集”來的數(shù)據(jù)放在上面“訓”,形成模型的迭代。同時,用戶也可以選擇保留自己的數(shù)據(jù),訓練分叉的模型?!翱蛻舨挥谩善健梢杂盟麄兊膱鼍?、經(jīng)驗參與到調(diào)試當中,不斷在變化之中調(diào)優(yōu)?!奔t帽大中華區(qū)資深市場總監(jiān)趙文斌告訴數(shù)智前線。

而張俊霞認為,大模型時代,對開源的定義以及未來的治理,不管是從項目層面、企業(yè)層面還是從國家層面,也都會發(fā)生一些翻天覆地的變化。

03、“開源的目的不是一定要超越閉源”

除了如何定義開源大模型,開源派和閉源派,在開閉源大模型孰強孰弱和安全性上,有著交鋒。

如果在當下這個時間點,OpenAI等的閉源模型比較強?!暗灰馕吨]源會持續(xù)遙遙領先?!绷阋蝗f物林旅強說,未來當算力平民化,再加上互聯(lián)網(wǎng)協(xié)作精神,可能5年、10年,開源大模型就會變得更強。

不過,智源研究院智能評測組負責人楊熙從評測角度看,單純把開源模型和閉源模型放在一起來比較,可能有失公允。因為閉源大模型可能是一套體系,比如包含了檢索增強等技術,而開源模型是一個單體模型,拿“多對一”,肯定不合理。

而紅帽張家駒認為,開源的目標不是說一定要超過閉源。“即便之前全球工程師合力做Linux,目標也不是要超過閉源。”開源的價值是更加公開透明,技術上更加平權,不會讓其成為少數(shù)人牟利的手段?!案鼮殛P鍵的是,對于人工智能來說,如果未來走向AGI,開源讓AI的發(fā)展走向,更符合全人類的利益,這一點的價值要遠高于在某一方面去超越閉源?!?/p>

而開源和閉源大模型誰更安全,業(yè)界也有著爭議。開源派認為,在閉源環(huán)境當中,大家不知道有沒有人監(jiān)督它。開源的好處是一旦出現(xiàn)一些安全問題,整個社區(qū)會來共同檢查。

但也有人士認為“開源也會帶來各種意想不到的問題”。比如,開源可能將大模型交到了“恐怖分子”手里。“舉個例子,開源大模型的數(shù)據(jù)集,如果別人加了一些數(shù)據(jù),訓練出大模型去干了違法的事?!币患掖竽P推髽I(yè)開源負責人對數(shù)智前線說,雖然他們也有開源大模型。另外,現(xiàn)在各國都強調(diào)數(shù)據(jù)主權,數(shù)據(jù)開源后怎么追蹤也是問題?!八試夜膭铋_源,但不是無限制的開源?!?/p>

對于這些觀點交鋒,智源研究院楊熙稱,開源、閉源其實都存在透明性、合規(guī)性、安全性的問題,也涉及治理問題。

信通院張俊霞提出,關于治理,其實大模型是一個技術性非常強的領域,所以“技術的問題,一定要依賴技術”。她看到,谷歌發(fā)布了一款開源工具Model Explorer,幫助人們理解大模型技術的內(nèi)部工作機制;IBM、微軟也發(fā)布了關于開源大模型或人工智能的倫理和解決手段,非常值得學習參考;今年1月,騰訊發(fā)布了安全治理框架,涉及一個模型整個生命周期里每個階段的安全技術、問題和管理等。

楊熙則強調(diào),開源其實對模型內(nèi)在機理的刻畫和理解,非常有幫助?!霸谖铱磥恚_源和閉源是一個硬幣的兩面?!敝亲V楊熙稱,開源可能促進我們更多的探索性和基礎性工作;閉源更多促進產(chǎn)品化和商業(yè)化,推動大模型走進每個人的生活。這兩件事其實不應該是之爭,而是和諧共存。

“現(xiàn)在,什么樣的框架最適合從行業(yè)監(jiān)管角度,既不太過于增加企業(yè)的負擔,又能夠?qū)崿F(xiàn)行業(yè)事前、事中、事后的一個完整的監(jiān)管,其實全球還沒有一個統(tǒng)一的答案,仍然在探索過程中?!睆埧∠颊f。

04、開源閉源,商業(yè)化應用如何選擇

在開閉源的選擇上,智譜張鵬認為,如果只是想做一些實驗和嘗試,可以選擇開源模型,但如果想要在上面做商業(yè)化應用,大部分人還是會選擇商業(yè)化版本,因為有保障,能夠提供更好的服務。

這代表了業(yè)界、尤其是ToB行業(yè)很多人士的觀點。

紅帽張家駒則認為,無論是開源、閉源,需要優(yōu)先考慮客戶是否需要本地部署大模型。無論國內(nèi)外,不少客戶都有自主可控的需求。如果采用公有云上的模型,比如OpenAI,客戶要考慮數(shù)據(jù)暴露信息的問題。“這是個很重要的問題?!?/p>

值得注意的是,閉源大模型是否能部署到本地,需要獲得允許。開源大模型同樣需要依據(jù)一些協(xié)議以及合規(guī)性。從技術角度來講,很多開源部署到本地是可行的。而開源可以方便地進行微調(diào),打造行業(yè)大模型,這是其優(yōu)勢。

除了本地化部署之外,也有企業(yè)需要調(diào)用公有云上的大模型?!按竽P偷男枨笠欢ㄊ情_放混合的?!睆埣荫x說。

大模型應用開發(fā)商北京可為是最早在市場監(jiān)督管理領域,打造、落地行政執(zhí)法垂直大模型的企業(yè)。公司聯(lián)合創(chuàng)始人曾明告訴數(shù)智前線,他們在開閉源大模型中,最終選擇了開源大模型。一方面,行政執(zhí)法是比較知識化的應用,去年他們在測試驗證中就發(fā)現(xiàn),當時的開源模型在解決主要場景上,已經(jīng)符合要求;另一方面,成本是重要的因素之一。同時,這類垂直大模型屬于政務應用,客戶對數(shù)據(jù)安全要求極高,不能觸碰紅線,需要私有化部署,而開源模型在這方面更為靈活方便。

“在選擇開源大模型的過程中,我們做了很多驗證,做的最苦的也最有意思的,就是這個過程。”曾明說,他們不斷對不同模型驗證,對自己的訓練策略驗證?!澳阋檀竽P停ミ€原人類推理和思考的過程。所謂的夠用與不夠用,就看推理的結(jié)果是不是能達到要求。”

此外,不少業(yè)界人士認為,目前企業(yè)開源的大模型通常是中低版本的,而閉源的模型性能更強,更適合比較高要求的應用,如當下大模型企業(yè)與標桿客戶聯(lián)合共創(chuàng)的類型。而大多數(shù)普通應用場景,開源已能滿足要求。

大模型時代,無論對開源的定義、治理還是社區(qū)運營、商業(yè)化,目前都處于快速演變之中。上述問題仍在激烈的碰撞和演進中。

本文為轉(zhuǎn)載內(nèi)容,授權事宜請聯(lián)系原著作權人。

評論

暫無評論哦,快來評價一下吧!

下載界面新聞

微信公眾號

微博

詳解開源閉源之爭,十家大模型廠商的商戰(zhàn)策略

在大模型開閉源之爭背后,有著幾大核心問題。

文|數(shù)智前線 趙艷秋

編輯|?;?/p>

大模型市場已形成了“開源派”和“閉源派”。而當下,在大模型競爭進入市場爭奪的白熱化階段后,企業(yè)在開閉源上的交鋒也更為激烈。

實際上,大模型開源和傳統(tǒng)軟件開源不是一回事。在開源的定義、治理、社區(qū)性質(zhì)、貢獻路徑和企業(yè)的開源策略上,都在發(fā)生巨大變化。

01、大模型企業(yè)開閉源策略各異

今年大模型的開閉源更為熱鬧,在閉源的企業(yè),有開源的呼聲;在開源的企業(yè),有閉源的動作。

百度內(nèi)部對大模型開源、閉源的討論非常熱烈。大家都在思考,什么樣的方式能取得更多的競爭優(yōu)勢。

在BATH幾家大廠中,百度、華為選擇閉源路線,阿里、騰訊則推出了開源大模型。

百度對于開閉源大模型的爭論,部分也來自阿里云等企業(yè)今年在開源上的聲勢和市場動作。

到目前為止,雖然百度文心一言仍堅持閉源路線,但百度智能云部門,在其平臺上提供了大量性能很強的第三方開源大模型。百度通過閉源文心一言,也通過開源大模型使用的算力、工具和服務,來實現(xiàn)商業(yè)上的收益。

在開源上,今年阿里云的動作極為密集。5月在北京舉辦的AI峰會上,阿里云CTO周靖人表態(tài),開源是阿里云的戰(zhàn)略,阿里云形成的是一個開源和閉源的整體體系。阿里云已開源了參數(shù)從5億到千億的數(shù)款模型,打法也更為專業(yè)。

業(yè)界認為,阿里云大力推廣開源,一方面是為了加快市場份額的爭奪;另一方面作為云計算企業(yè),它可以采用“羊毛出在豬身上”的商業(yè)模式,在算力、工具和服務上獲得收益。周靖人在策略會上尤其強調(diào)“百煉”平臺的服務。而開源還能為其引流,有些客戶可能升級為閉源用戶。

與其他大模型企業(yè)相比,騰訊開源大模型較晚,今年5月對外開源了混元文生圖大模型?;煸嚓P人士告訴數(shù)智前線,由于市場上已有很多開源的大語言模型,因此騰訊這次選擇開源文生圖,應該是第一個中文原生的開源DiT模型,未來還會嘗試參數(shù)量更大的模型。由于剛開源幾周,商業(yè)化影響仍待觀察。

華為云2023年在推出盤古大模型3.0時,就表態(tài)采用閉源路線。過去一年,它的重心是在各行業(yè)進行聯(lián)創(chuàng),落地大模型,并將技術回饋盤古,不斷迭代,未參與業(yè)界開閉源討論。華為云在上周也剛剛官宣盤古5.0多模態(tài)大模型,發(fā)布期間也未涉及開源問題。同時,華為云于去年上線“百模千態(tài)”專區(qū),提供第三方開源大模型。

最近在項目訂單上活躍的智譜,是國內(nèi)最早開源大模型的企業(yè)。因為智譜由清華技術成果轉(zhuǎn)化而來,2022年,它就將開發(fā)的雙語千億模型GLM-130B開源,“當時全國懂大模型的研究員加起來也不過百來人”。智譜CEO張鵬稱,開源讓大家知道智譜在做什么,同時可以讓更多人參與推動大模型。此后在2023年3月,智譜將GLM6b開源,該模型在Hugging Face上的下載量超過1600萬。

雖然張鵬認為開源的初心并不是要去贏得市場或追求商業(yè)利益,但ChatGPT爆火后,智譜的GLM開源大模型獲得大量關注,也讓這家2019年才成立的公司,在融資和商業(yè)化上受益頗多。張鵬也稱,開源和商業(yè)化是整個生態(tài)版圖里很重要的兩塊,這兩塊是有連接的,可以說開源充當著商業(yè)化的橋梁。

王小川的百川公司,去年作為創(chuàng)業(yè)的明星公司,發(fā)布了Baichuan-7B、13B開源可商用大模型,在業(yè)界引發(fā)關注。當時有應用開發(fā)商告訴數(shù)智前線,測試后,他們從Meta的Llmma轉(zhuǎn)向百川,因為中文效果更好。

百川開源時,國內(nèi)大模型開源的還很少。此后,越來越多的大模型公司,包括大廠,開始開源。百川聯(lián)合創(chuàng)始人謝劍告訴數(shù)智前線,未來還會開源,但不會開源特別大參數(shù)的模型,因為很多人用不起來。

最近快手的文生視頻大模型“可靈”很火爆,不少應用企業(yè)“祈盼”可靈開源。但快手相關人士表示,暫不考慮開源,而會逐步開放一些東西在業(yè)界討論。

而昆侖萬維最近開源了一個稀疏大型語言模型Skywork-MoE,為應對大規(guī)模密集型大語言模型帶來的挑戰(zhàn)。昆侖萬維兼天工智能首席科學家顏水成告訴數(shù)智前線,開源大模型幫助學界進行探索性工作,而公司也推出音樂、游戲等垂類模型,將采用閉源商業(yè)模式。

李開復的創(chuàng)業(yè)公司零一萬物,是這波大模型獨角獸中最后一家開源的企業(yè)。公司開源負責人林旅強非常坦率,認為開源和閉源是商業(yè)設計問題。

零一萬物也采取了開源、閉源并進的模式。開源在一定程度上扮演了商業(yè)拓展角色。同時,今年零一萬物發(fā)布千億參數(shù)模型Yi-Large,一些使用了開源模型的客戶有望轉(zhuǎn)化到該閉源模型上。

02、開源大模型與開源軟件有三大區(qū)別

雖然大模型開源如火如荼,但業(yè)界一直在詬病它的透明度,質(zhì)疑為什么好多信息,企業(yè)不公開。實際上,大模型開源和傳統(tǒng)軟件開源不是一回事。

紅帽中國首席架構(gòu)師張家駒告訴數(shù)智前線,軟件開源是指源代碼開源,拿到源代碼,我們就“知其然也知其所以然”,也可以在源代碼基礎上,去修改或增加新功能。

但大模型是一個黑盒子,里面有很多至今無法解釋的現(xiàn)象,所以對大模型的開源,業(yè)界提出了更多維度,有的說需要四部分——權重、數(shù)據(jù)集、代碼和訓練過程;也有的說需要五部分,還包括了框架。即使是這些定義,業(yè)界也有不同意見:為什么會有這樣的定義?這更像是從傳統(tǒng)開源軟件的思路來考慮的。

有趣的是,只有極少數(shù)公司或機構(gòu)的大模型,同時開源了上述四部分或五部分,比如IBM剛剛開源出來的Granite大語言模型;也有像智源研究院、馬斯克旗下大模型公司xAI ,開源了權重和數(shù)據(jù)集。比如,根據(jù)智源人工智能研究院副院長兼總工程師林詠華的介紹,今年6月,智源最新開源數(shù)據(jù)集分為兩類,一類是通用開源指令微調(diào)數(shù)據(jù)集,一類是行業(yè)垂類數(shù)據(jù)集,涵蓋18個行業(yè)。

“現(xiàn)在業(yè)界的共識是,至少將權重再加上一些推理代碼開源?!绷阋蝗f物林旅強說,只有這兩部分開源,其他人才可以將開源大模型使用起來。由此,開源大模型現(xiàn)在的定義,有點像微軟提過的“免費軟件”。所以,谷歌等公司在其官網(wǎng)上稱是開源權重(open weight),而不是開源大模型。

為什么在開源大模型中,權重如此重要?有業(yè)界人士將權重打比方為“一大堆數(shù)字”,一個13B的模型,就有130億個數(shù)。這些數(shù)字與模型如何處理輸入的數(shù)據(jù)、如何做出預測和生成文本等相關,代表了一個大模型的智慧。

而在大模型中,代碼分為預訓練代碼、微調(diào)代碼和推理代碼。預訓練代碼是大模型公司的核心;對于微調(diào)代碼,市場上已有很多公開方法,而大模型要被用起來,需要推理代碼。至于訓練過程和數(shù)據(jù)集,往往也是大模型廠商的核心所在。

與傳統(tǒng)軟件不同,在大模型開源上,企業(yè)的態(tài)度有了微妙的變化。現(xiàn)在大模型的成本太過高昂,訓練一個千億級參數(shù)模型,要幾千萬甚至上億,因此,很多公司在開源問題上變得保守。這是一個現(xiàn)實問題,每家公司的開源,必然服務于自己的商業(yè)戰(zhàn)略。而且,即便將這些核心都開源出來,大多數(shù)工程師和企業(yè)也沒有那么多資源去復現(xiàn)。

業(yè)內(nèi)人士認為,開源大模型和開源軟件有三個核心區(qū)別:

一是透明度完全不一樣。開源軟件的代碼能說明一切,從而可以形成一套治理體系;大模型當下還是一個黑盒子,內(nèi)部機理還是未知的。

二是大模型社區(qū)的性質(zhì)發(fā)生了變化。之前開源社區(qū)講求全球工程師來貢獻;但因為算力等資源限制,在大模型社區(qū)里,或許90%以上的工程師,無法直接為大模型貢獻,因此很多社區(qū)變成了單向模式,大家只是使用大模型。在HuggingFace上,Meta的Llmma開源大模型,已經(jīng)有幾千個變種,但彼此之間沒有太多交互,也很難將創(chuàng)新合并。

其三是大模型企業(yè)開源策略發(fā)生變化。中國信通院知識產(chǎn)權與創(chuàng)新發(fā)展中心產(chǎn)業(yè)發(fā)展研究部主任張俊霞說,因為大模型的訓練投入特別大,這導致企業(yè)在開源策略的選擇上,特別是在一些許可或信息披露上,都有很大不同?!斑@個問題現(xiàn)在不管是國內(nèi)還是國際社區(qū),都在非常激烈地討論。”

不過,近期,一些動態(tài)正在發(fā)生。比如,紅帽在社區(qū)貢獻上有了嘗試動作。一方面IBM開源了Granite模型;另一方面,“訓練過程”在另外一個開源項目InstructLab中。由IBM出資建設了一個平臺。每過一段時間,就把大家“集”來的數(shù)據(jù)放在上面“訓”,形成模型的迭代。同時,用戶也可以選擇保留自己的數(shù)據(jù),訓練分叉的模型?!翱蛻舨挥谩善健梢杂盟麄兊膱鼍?、經(jīng)驗參與到調(diào)試當中,不斷在變化之中調(diào)優(yōu)?!奔t帽大中華區(qū)資深市場總監(jiān)趙文斌告訴數(shù)智前線。

而張俊霞認為,大模型時代,對開源的定義以及未來的治理,不管是從項目層面、企業(yè)層面還是從國家層面,也都會發(fā)生一些翻天覆地的變化。

03、“開源的目的不是一定要超越閉源”

除了如何定義開源大模型,開源派和閉源派,在開閉源大模型孰強孰弱和安全性上,有著交鋒。

如果在當下這個時間點,OpenAI等的閉源模型比較強?!暗灰馕吨]源會持續(xù)遙遙領先?!绷阋蝗f物林旅強說,未來當算力平民化,再加上互聯(lián)網(wǎng)協(xié)作精神,可能5年、10年,開源大模型就會變得更強。

不過,智源研究院智能評測組負責人楊熙從評測角度看,單純把開源模型和閉源模型放在一起來比較,可能有失公允。因為閉源大模型可能是一套體系,比如包含了檢索增強等技術,而開源模型是一個單體模型,拿“多對一”,肯定不合理。

而紅帽張家駒認為,開源的目標不是說一定要超過閉源?!凹幢阒叭蚬こ處熀狭ψ鯨inux,目標也不是要超過閉源?!遍_源的價值是更加公開透明,技術上更加平權,不會讓其成為少數(shù)人牟利的手段?!案鼮殛P鍵的是,對于人工智能來說,如果未來走向AGI,開源讓AI的發(fā)展走向,更符合全人類的利益,這一點的價值要遠高于在某一方面去超越閉源?!?/p>

而開源和閉源大模型誰更安全,業(yè)界也有著爭議。開源派認為,在閉源環(huán)境當中,大家不知道有沒有人監(jiān)督它。開源的好處是一旦出現(xiàn)一些安全問題,整個社區(qū)會來共同檢查。

但也有人士認為“開源也會帶來各種意想不到的問題”。比如,開源可能將大模型交到了“恐怖分子”手里?!芭e個例子,開源大模型的數(shù)據(jù)集,如果別人加了一些數(shù)據(jù),訓練出大模型去干了違法的事?!币患掖竽P推髽I(yè)開源負責人對數(shù)智前線說,雖然他們也有開源大模型。另外,現(xiàn)在各國都強調(diào)數(shù)據(jù)主權,數(shù)據(jù)開源后怎么追蹤也是問題。“所以國家鼓勵開源,但不是無限制的開源?!?/p>

對于這些觀點交鋒,智源研究院楊熙稱,開源、閉源其實都存在透明性、合規(guī)性、安全性的問題,也涉及治理問題。

信通院張俊霞提出,關于治理,其實大模型是一個技術性非常強的領域,所以“技術的問題,一定要依賴技術”。她看到,谷歌發(fā)布了一款開源工具Model Explorer,幫助人們理解大模型技術的內(nèi)部工作機制;IBM、微軟也發(fā)布了關于開源大模型或人工智能的倫理和解決手段,非常值得學習參考;今年1月,騰訊發(fā)布了安全治理框架,涉及一個模型整個生命周期里每個階段的安全技術、問題和管理等。

楊熙則強調(diào),開源其實對模型內(nèi)在機理的刻畫和理解,非常有幫助?!霸谖铱磥?,開源和閉源是一個硬幣的兩面。”智譜楊熙稱,開源可能促進我們更多的探索性和基礎性工作;閉源更多促進產(chǎn)品化和商業(yè)化,推動大模型走進每個人的生活。這兩件事其實不應該是之爭,而是和諧共存。

“現(xiàn)在,什么樣的框架最適合從行業(yè)監(jiān)管角度,既不太過于增加企業(yè)的負擔,又能夠?qū)崿F(xiàn)行業(yè)事前、事中、事后的一個完整的監(jiān)管,其實全球還沒有一個統(tǒng)一的答案,仍然在探索過程中?!睆埧∠颊f。

04、開源閉源,商業(yè)化應用如何選擇

在開閉源的選擇上,智譜張鵬認為,如果只是想做一些實驗和嘗試,可以選擇開源模型,但如果想要在上面做商業(yè)化應用,大部分人還是會選擇商業(yè)化版本,因為有保障,能夠提供更好的服務。

這代表了業(yè)界、尤其是ToB行業(yè)很多人士的觀點。

紅帽張家駒則認為,無論是開源、閉源,需要優(yōu)先考慮客戶是否需要本地部署大模型。無論國內(nèi)外,不少客戶都有自主可控的需求。如果采用公有云上的模型,比如OpenAI,客戶要考慮數(shù)據(jù)暴露信息的問題。“這是個很重要的問題。”

值得注意的是,閉源大模型是否能部署到本地,需要獲得允許。開源大模型同樣需要依據(jù)一些協(xié)議以及合規(guī)性。從技術角度來講,很多開源部署到本地是可行的。而開源可以方便地進行微調(diào),打造行業(yè)大模型,這是其優(yōu)勢。

除了本地化部署之外,也有企業(yè)需要調(diào)用公有云上的大模型。“大模型的需求一定是開放混合的?!睆埣荫x說。

大模型應用開發(fā)商北京可為是最早在市場監(jiān)督管理領域,打造、落地行政執(zhí)法垂直大模型的企業(yè)。公司聯(lián)合創(chuàng)始人曾明告訴數(shù)智前線,他們在開閉源大模型中,最終選擇了開源大模型。一方面,行政執(zhí)法是比較知識化的應用,去年他們在測試驗證中就發(fā)現(xiàn),當時的開源模型在解決主要場景上,已經(jīng)符合要求;另一方面,成本是重要的因素之一。同時,這類垂直大模型屬于政務應用,客戶對數(shù)據(jù)安全要求極高,不能觸碰紅線,需要私有化部署,而開源模型在這方面更為靈活方便。

“在選擇開源大模型的過程中,我們做了很多驗證,做的最苦的也最有意思的,就是這個過程?!痹髡f,他們不斷對不同模型驗證,對自己的訓練策略驗證?!澳阋檀竽P?,去還原人類推理和思考的過程。所謂的夠用與不夠用,就看推理的結(jié)果是不是能達到要求?!?/p>

此外,不少業(yè)界人士認為,目前企業(yè)開源的大模型通常是中低版本的,而閉源的模型性能更強,更適合比較高要求的應用,如當下大模型企業(yè)與標桿客戶聯(lián)合共創(chuàng)的類型。而大多數(shù)普通應用場景,開源已能滿足要求。

大模型時代,無論對開源的定義、治理還是社區(qū)運營、商業(yè)化,目前都處于快速演變之中。上述問題仍在激烈的碰撞和演進中。

本文為轉(zhuǎn)載內(nèi)容,授權事宜請聯(lián)系原著作權人。