文|經(jīng)緯創(chuàng)投
開源大模型的王座又要換人了。
當?shù)貢r間4月18日,Meta發(fā)布了其最新開源模型Llama 3,提供8B和70B的預訓練和指令微調(diào)版本,號稱是最強大的開源大語言模型。
與此同時,扎克伯格宣布:基于最新的 Llama 3 模型,Meta 的 AI 助手現(xiàn)在已經(jīng)覆蓋 Instagram、WhatsApp、Facebook 等全系應用,并單獨開啟了網(wǎng)站。另外還有一個圖像生成器,可根據(jù)自然語言提示詞生成圖片。
該消息一經(jīng)發(fā)出瞬間引起熱議。英偉達高級科學家Jim Fan認為,之后可能會發(fā)布的Llama 3-400B以上的版本,將成為某種“分水嶺”,開源社區(qū)或?qū)⒛苡蒙螱PT-4級別的模型。
同時,扎克伯格表示,“我們的目標不是與開源模型競爭,而是要超過所有人,打造最領先的人工智能?!蔽磥恚琈eta團隊將會公布Llama 3的技術報告,披露模型更多的細節(jié)。
那么,作為以開源特性聞名的語言模型,Llama 3和其他模型有哪些不一樣?在過往的基礎上有哪些更新?開源和閉源之爭,什么才是背后的決定因素?以下,Enjoy:
01 新一代Llama3模型,有哪些亮點?
當?shù)貢r間4月18日,Meta不負眾望發(fā)布了兩款開源Llama 3 8B與Llama 3 70B模型。并稱這是同等體量下,性能最好的開源模型。
號稱一代更比一代強的Llama 3 8B,在部分性能測試上甚至比Llama 2 70B還要強大。無論是預訓練還是指令微調(diào),都展現(xiàn)出更靈活易用的特點。
這也受益于Meta在研發(fā)Llama 3 過程中,設計的一套更高質(zhì)量的人類評估標準。1800個測試項、12個主要應用場景,囊括了角色扮演、邏輯推理、開放/封閉式問題等多項標準。
基于這一評估標準,相較于Claude Sonnet、Mistral Medium 以及 GPT-3.5 模型,Meta Llama3的提升可見一斑。
備受矚目的Meta Llama3,將精力集中在四大核心要素:模型架構、預訓練數(shù)據(jù)、預訓練規(guī)模、指令微調(diào)。
模型架構:
與前一代Llama2相比,Llama3進行了關鍵性能改進。首先,Llama3采用128K token的分詞器,以提高編碼語言效率;其次,8B和70B規(guī)模模型采用GQA技術,最多可以處理8192個Token序列,并且通過掩碼技術規(guī)范模型的自注意力機制,以防跨越不同文檔界限。
訓練數(shù)據(jù):
與前一代Llama2相比,Llama3的訓練集規(guī)模擴大了7倍、代碼數(shù)據(jù)量增加了4倍,在預訓練數(shù)據(jù)投入了更多資源,基于超過15T 的 Token,覆蓋了超30種語言。并且,訓練過程中,為保障優(yōu)質(zhì)數(shù)據(jù),還打造了包含應用啟發(fā)式過濾器、NSFW 內(nèi)容過濾、語義去重技術和文本質(zhì)量分類器等一系列高效數(shù)據(jù)過濾流程。
訓練規(guī)模:
訓練數(shù)據(jù)的提升使訓練規(guī)模也需要跟上節(jié)奏。為挑選出最佳的數(shù)據(jù)處理方案,Llama 3 制定了一套詳盡的 Scaling Laws以確保多場景下的能力表現(xiàn)。
為訓練目前為止最大規(guī)格的Llama 3 模型,Meta采用了三種并行技術:數(shù)據(jù)并行、模型并行和流水線并行。以此達到在16K的GPU上同時訓練,最高效可以實現(xiàn)每個GPU超400TFLOPS的計算利用率。
總體而言,相較Llama 2 ,Llama 3 的訓練效率提升了大約三倍。
指令微調(diào):
為了提高聊天應用場景的效能,Llama 3 還通過指令微調(diào)的辦法完成創(chuàng)新性改進。關于Llama 3的訓練策略融合了監(jiān)督式微調(diào)、拒絕抽樣、近端策略優(yōu)化和直接策略優(yōu)化等多種技術,以此提升 Llama 3 在邏輯推理和編程任務上的表現(xiàn)。
針對“瘋狂”的Llama 3,科技大佬紛紛現(xiàn)身,發(fā)表意見。 在Yann LeCun 為 Llama 3 的發(fā)布搖旗吶喊的帖子下,馬斯克現(xiàn)身該評論區(qū),留下一句「Not bad 」,表達認可和期待。
英偉達高級科學家Jim Fan稱,“ Llama-3-400B+ 將標志著社區(qū)獲得 GPT-4 級模型的開放權重訪問權的分水嶺時刻。它將改變許多研究工作和草根初創(chuàng)公司的計算方式。我在 Claude 3 Opus、GPT-4-2024-04-09 和 Gemini 上拉了數(shù)據(jù),Llama-3-400B仍在訓練中,希望在接下來的幾個月里會變得更好。有如此多的研究潛力可以通過如此強大的能力釋放,期待整個生態(tài)系統(tǒng)的建設者能量激增!”
傳奇研究員,AI開源倡導者吳恩達表示:“Llama 3的發(fā)布是自己這輩子收到過的最好的禮物,謝謝你Meta!”
小扎則表示,“我們的目標不僅僅是與開源模型競爭,而是要超過所有人,打造最領先的人工智能?!?/p>
根據(jù)Meta AI的工程師Aston Zhang透露,未來Llama 3還會解鎖新的能力,比如多模態(tài)、以及性能更強的400B版本。
Meta自己也放了隱藏小彩蛋:“您很快就可以在我們的 Ray-Ban Meta 智能眼鏡上測試多模式 Meta AI。一如既往,我們期待看到您使用 Meta Llama 3 構建的所有令人驚嘆的產(chǎn)品和體驗。”
“通過 Llama 3,我們著手構建與當今最好的專有模型相媲美的最佳開放模型,”Meta強調(diào),“我們致力于開放 AI 生態(tài)系統(tǒng)的持續(xù)增長和發(fā)展,以負責任地發(fā)布我們的模型。我們長期以來一直相信,開放可以帶來更好、更安全的產(chǎn)品、更快的創(chuàng)新以及更健康的整體市場。這對 Meta 有利,對社會也有利。”
02 從“開源先鋒”到商業(yè)版圖,Meta在走什么樣的路?
比起過往兩款產(chǎn)品,Llama3模型顯然更走心。但回顧過去,Meta其實一直在擁抱開源文化——技術的開放性,不僅激發(fā)了學術界的熱情,研究人員得以快速迭代和創(chuàng)新,共同推動AI技術的快速進步,更開拓了商品化的可能,讓AI從一個單獨的技術,變成一種生態(tài)。
2023年2月,人們對于AI語言模型的想象還沒有那么豐富時,Meta就發(fā)布了首個開源大型語言模型Llama 1,參數(shù)規(guī)模從7B到65B不等。作為是第一個向?qū)W術界開源的模型,Meta在訓練這些模型使用了數(shù)萬億個token,并且證明了完全可以只使用公開可得的數(shù)據(jù)集來訓練最先進的模型,而無需使用專有和不可獲取的數(shù)據(jù)集。
Llama 1時代,推理速度和性能,是Meta的第一追求。在訓練模型時,為滿足模型在推理部署時的性能和要求,推理速度和推理性能變得至關重要。因此,LLaMA選擇用更小的模型,以及更多的數(shù)據(jù)集來進行預訓練。
有意思的是,通過使用更小的模型和更多的數(shù)據(jù)集進行訓練,Meta的科學家和工程師們同樣實現(xiàn)了幾乎最先進的性能。這意味著,在不犧牲性能的情況下,降低訓練成本和時間,反而能更快推動AI技術的發(fā)展。
這樣的發(fā)現(xiàn)顯然也為AI領域的研究人員和開發(fā)者提供了新可能。過去,人們普遍認為只有通過不斷增加模型的大小才能獲得更好的性能,然而,Llama第一代的問世,不僅兼顧了推理性能的需求,更證明了這種觀點并不完全正確——在追求更高、更快、更強的AI技術時成本可以更低,結果可能更好。
但對于Meta的開源之路來說,這只是一個開始。
發(fā)布Llama不到半年后,Meta很快做出了一個新決定:商業(yè)化。
2023年7月,Meta決定將LLMs推向更廣泛的商業(yè)應用場景。在新一代Llama2模型中,上下文窗口得到擴大,參數(shù)規(guī)模和訓練數(shù)據(jù)量大幅提升,同時針對聊天場景的能力得到了優(yōu)化——這些能力的提升,共同為免費可商用的創(chuàng)業(yè)和企業(yè)界應用提供了可能。
為了讓商業(yè)化的場景更多元,Llama 2還著重布局了產(chǎn)品的社區(qū)力量。通過打造社區(qū)合作和衍生產(chǎn)品,開發(fā)者和研究人員共同協(xié)作,在GitHub和其他平臺上交流,并為Llama 2提供了無數(shù)的衍生產(chǎn)品和優(yōu)化,這樣的合作式開發(fā)模式,不僅加速了模型的改進,還激發(fā)了更多關于安全性、可控性和道德性的探討,更重要的是,讓開源大模型的商業(yè)化,變得有更多途徑和應用。
而走到第三代開源模型產(chǎn)品,Meta的目標是打造一款完美的類“GPT”產(chǎn)品,但又要比GPT更加開放、有效。在新模型發(fā)布的前幾個月,Meta 內(nèi)部的生成式 AI 部門的員工一直在努力使 Llama 3 在回答有爭議的問題上更開放,此前 Meta 的領導就曾認為 Llama 2 在其回答中過于保守。
此外,在算力的投入上,Meta也一直在AI基礎設施上有所布局,據(jù)悉,目前只有微軟擁有與之相當?shù)挠嬎隳芰洹8鶕?jù),Meta發(fā)布的一篇技術博客,到2024年底,該公司將再購350000個英偉達H100 GPU,算上其他GPU,其算力相當于近600000個H100。
從最初有關“開源”的先鋒暢想,到今天第三代的開放社區(qū)和多元嘗試,Meta在走的是不是一條成功的路,無法斷言,但可以確定的是,有關大語言模型的商業(yè)化嘗試,也許能給AI世界,開啟一個更接近生活的未來。
03 “開源”VS“閉源”,市場怎么看?
此次Meta發(fā)布的Llama3,延續(xù)了Meta一貫堅持的開源路線。
目前,開源模型界的競爭正在變得愈發(fā)激烈,開源大模型也已成為多家爭做的關鍵。目前,除了Meta的Llama3外,谷歌的Gemma、馬斯克旗下的xAI、Mistral AI、StabilityAI等產(chǎn)品,共同構成了開源模型的廣闊市場。
就在Llama3發(fā)布的幾個月前,2 月 21 日,谷歌推出了全新的開源模型系列「Gemma」。相比 Gemini,Gemma 更加輕量,可以視作 Gemini 的技術下放,同時保持免費可用,模型權重也一并開源且允許商用,更可以在筆記本電腦、臺式機、物聯(lián)網(wǎng)、移動設備和云端等多個主流設備類型上運行。
而一直愛好“追逐潮流”的馬斯克,當然也沒有放過開源的風口。xAI推出的開源模型,專注于實現(xiàn)高效的機器學習算法。其大模型致力于提供更快速、節(jié)能的AI解決方案,以適應不斷增長的計算需求和環(huán)境友好性的挑戰(zhàn)。在應用方面,其也旨在通過優(yōu)化算法和模型設計來降低大型語言模型的訓練成本,從而推動更廣泛的研究和應用。
同樣作為致力于創(chuàng)建對話式人工智能模型的公司,Mistral AI的開源模型通常專注于自然語言處理(NLP)任務,如文本生成、情感分析和語言理解。他們提供的模型往往強調(diào)多語言支持和跨域功能,使它們能夠在全球范圍內(nèi)的不同應用場景中發(fā)揮作用。Mistral AI的模型旨在通過高度的定制能力和可擴展性,幫助企業(yè)解決復雜的NLP問題。
在圖像生成方面,StabilityAI因為其開源的穩(wěn)定擴散模型而聞名。這些模型使用概率性方法來生成數(shù)據(jù)分布,特別適用于圖像生成、藝術創(chuàng)作和數(shù)據(jù)增強等任務,通過提供易于使用的開源工具,讓更多創(chuàng)作者和開發(fā)者參與到生成性AI領域的創(chuàng)新中來。
可以看到的是,多家科技巨頭入局開源模型,意味著更多人愿意為構建一個更加智能、互聯(lián)的世界貢獻力量。然而,盡管開源模型帶來的開放性、協(xié)同性,讓大語言模型的發(fā)展不斷加速,但與此同時,有關AI技術安全性和可控性的探討,也比以往更加激烈。
對開源模型的爭議,AI三巨頭之一的楊立昆Yann LeCun給予了有理有據(jù)的回應,科學論文、代碼的自由交換以及AI訓練模型的公開共享使美國在科學技術領域保持領先地位。這個理念并非新穎,很久以前就有了。所以,開源技術推動了我們現(xiàn)在視為基礎設施的系統(tǒng),例如互聯(lián)網(wǎng)和移動通信網(wǎng)絡,取得了快速進步。
這并不意味著每個模型都可以或應該開放。專有模型和開源模型都有其作用,但開源基礎模型應該是構建活力四射的生態(tài)系統(tǒng)的基石。開源模型創(chuàng)建了行業(yè)標準,就像90年代中期的互聯(lián)網(wǎng)模型一樣。通過這種協(xié)作努力,AI技術將更快地發(fā)展,變得更加可靠、更加安全。
同時,開源還為企業(yè)和研究人員提供了他們無法自行構建的工具,這有助于創(chuàng)造大量的社會和經(jīng)濟機會。換句話說,開源實現(xiàn)了對訪問的民主化。它讓更多的人和企業(yè)有能力利用最先進的技術,并彌補潛在的弱點。這也有助于促進民主價值觀和制度,減少社會差距并改善競爭。
而反對開源的一派認為,開源AI會被不良行為者操縱。來自麻省理工學院和劍橋大學的科學家們曾發(fā)表過一篇論文,他們通過實驗研究了持續(xù)模型權重的擴散是否會幫助惡意者利用更強大的未來模型來造成大規(guī)模傷害,結果發(fā)現(xiàn),開源大模型的確可能存在風險。Anthropic 公司研究人員也曾發(fā)表論文警告稱,AI中毒可能導致開源大模型變成潛伏的間諜。
開源和閉源之爭,漸漸演變成一場宗教般的信仰之爭,很難有人保持中立??墒牵磥碚嫒缬螒颉顿惒┡罂?077》那般,超級科技巨頭荒坂集團掌控著大部分國家的政府及經(jīng)濟命脈,滲透進所有人生活的每個角落。那么,如果AI只掌控在幾家科技公司手中,什么才是正確的答案?
對今天的世界來說,AI的技術發(fā)展是變革性的。一次次對于創(chuàng)新、商業(yè)化的“見證”,可能才是市場最需要的東西。
此次,Meta新一代Llama3模型發(fā)布,讓大語言模型的多模態(tài)能力、生態(tài)化,有了更進一步的革新。
更重要的是在一次次的更迭中,我們站在科技變革的門檻上,得以窺見AI技術已經(jīng)不再是冰冷的算法和數(shù)據(jù)的堆砌,而是擁有了更多元的感知能力和更為精準的社會理解。它預示著,未來的人工智能將更深入地融入我們的生活。這樣的融入,也許在開源與閉源的辯論聲中,顯得有些暗淡,但在此刻,聽到不同的聲音和立場,感受技術進步帶來的激烈碰撞,也許才是科技本身的意義。
參考資料:
1.Llama生態(tài)系統(tǒng):過去、現(xiàn)在和未來 by Web3天空之城
2.LLaMA 1 模型架構、預訓練、部署優(yōu)化特點總結 by NewBee NLP 3.Llama 2 技術細節(jié),來自Meta的最強可商用開源大模型 by 子非AI
4.Meta確認開源大模型LLaMA 3下個月登場,年底還將建成等同于60萬個H100 GPU的“超級算力庫” by 每日經(jīng)濟新聞
5.李彥宏給開源大模型潑冷水,他們卻有不同看法 by 第一財經(jīng)
6.ChatGPT vs LLaMa 2 差異性對比 by twt企業(yè)AI社區(qū)
7.Llama 3 發(fā)布!目前最強開源大模型,全面登陸 Meta 系產(chǎn)品,即將推出 4000 億模型 by Founder Park