界面新聞?dòng)浾?| 肖芳
界面新聞編輯 | 宋佳楠
繼發(fā)布最強(qiáng)量子芯片之后,谷歌又在AI上作出重要舉動(dòng)。
北京時(shí)間12月12日凌晨,谷歌趕在OpenAI宣布ChatGPT正式登陸iPhone之前,發(fā)布了全新模型Gemini 2.0。
谷歌CEO桑達(dá)爾·皮查伊稱,這是谷歌迄今為止最強(qiáng)大的模型。憑借原生圖像和原生音頻的輸出等多模態(tài)方面的提升,Gemini 2.0能夠構(gòu)建新的AI智能體,讓谷歌離構(gòu)建通用助手的愿景更進(jìn)一步。
需要指出的是,Gemini 2.0主要開放給開發(fā)者以及受信任的測(cè)試人員。目前,Gemini 2.0 Flash體驗(yàn)版模型已經(jīng)面向所有Gemini用戶開放。
Gemini 2.0 Flash是建立在1.5 Flash基礎(chǔ)之上的模型,此前1.5 Flash是谷歌最受開發(fā)者歡迎的版本。與1.5 Flash相比,Gemini 2.0 Flash在同樣快速的響應(yīng)時(shí)間下性能進(jìn)一步增強(qiáng)。谷歌方面稱,2.0 Flash在關(guān)鍵基準(zhǔn)測(cè)試中甚至超越了1.5 Pro,其速度是1.5 Pro的兩倍。
同時(shí)2.0 Flash還具有新功能,除了能夠支持圖片、視頻和音頻等多模態(tài)輸入,還可以支持多模態(tài)輸出,比如可直接生成圖像與文本混合的內(nèi)容,以及原生生成可控的多語言文本轉(zhuǎn)語音(TTS)音頻。它還可以原生調(diào)用Google Search、代碼執(zhí)行以及第三方用戶定義的函數(shù)等工具。
全球Gemini用戶現(xiàn)在可以在電腦端和移動(dòng)端體驗(yàn)基于2.0 Flash優(yōu)化后的聊天對(duì)話,并且該版本將很快在Gemini移動(dòng)應(yīng)用中推出。基于這個(gè)新模型,用戶還可以體驗(yàn)到Gemini助手。明年初,谷歌還會(huì)將Gemini 2.0擴(kuò)展到更多產(chǎn)品中。
Gemini 2.0最大的變化在于把重心轉(zhuǎn)向AI智能體,想要做所有AI智能體的基座模型。基于此,Gemini 2.0開發(fā)出了一系列原型,這些原型能夠幫助用戶完成相應(yīng)的任務(wù)。
其中,Project Astra的升級(jí)版,用于探索未來通用AI助手能力的研究原型。自從在Google I/O大會(huì)上推出Project Astra以來 ,谷歌一直向那些在Android手機(jī)上使用它的受信任的測(cè)試人員收集反饋。此次推出的升級(jí)版可以實(shí)現(xiàn)多種語言和混合語言之間的對(duì)話,也可使用 Google Search、Google Lens和Google Map等新工具,能夠記住長(zhǎng)達(dá)10分鐘的會(huì)話內(nèi)容,并可以近于人類對(duì)話的延遲來理解語言。
全新的Project Mariner從瀏覽器入手探索人與智能體交互的未來發(fā)展。Project Mariner 使用了Gemini 2.0構(gòu)建的早期研究原型,能夠理解和推理瀏覽器頁面中的信息,包括像素和文本、代碼、圖像和表單等網(wǎng)頁元素,然后通過實(shí)驗(yàn)性的Chrome擴(kuò)展程序幫助用戶完成相應(yīng)任務(wù)。此次升級(jí),Project Mariner改進(jìn)了原來速度較慢的問題。
簡(jiǎn)而言之,用戶可以用這項(xiàng)功能讓瀏覽器自己去幫你完成特定任務(wù),例如批量查找某些網(wǎng)站上郵箱地址,從而在一定程度上實(shí)現(xiàn)瀏覽器的“自動(dòng)運(yùn)行”。
Jules則是面向開發(fā)者的編碼智能體,它可以直接集成到GitHub工作流程中來協(xié)助開發(fā)者完成開發(fā)任務(wù)。
在谷歌的演示視頻中,演示人員輸入了一長(zhǎng)串含有詳細(xì)編程問題的提示語,之后Jules會(huì)對(duì)這些要求進(jìn)行分析,給出一個(gè)三步的編程解決方案,待點(diǎn)擊同意后,模型就會(huì)開啟自動(dòng)編程,生成代碼。這無疑有助于開發(fā)者進(jìn)一步提升工作效率。
去年年底,谷歌發(fā)布了Gemini 1.0模型,主要能力是整合和理解信息。而Gemini 2.0能讓信息變得更加有用。桑達(dá)爾·皮查伊表示,Gemini 2.0的進(jìn)展得益于谷歌長(zhǎng)達(dá)10年全棧式AI創(chuàng)新研究的投入,基于谷歌定制的硬件第六代TPU Trillium構(gòu)建而成。
就在谷歌以最強(qiáng)大模型吸睛之時(shí),OpenAI為期12天的產(chǎn)品發(fā)布活動(dòng)仍在進(jìn)行中。同一天,OpenAI對(duì)外展示了ChatGPT與蘋果Apple Intelligence的整合,內(nèi)容略顯平淡。谷歌Gemini 2.0的突然發(fā)布,顯然搶了不少OpenAI的風(fēng)頭。
在Gemini 2.0的加持下,谷歌一口氣推出三款智能體產(chǎn)品,也意味著其在和微軟綁定OpenAI、亞馬遜與Anthropic的競(jìng)爭(zhēng)中又邁出了重要一步。
智能體已經(jīng)成為大模型領(lǐng)域競(jìng)爭(zhēng)的核心方向。所謂智能體,是指能夠感知環(huán)境、進(jìn)行決策并采取行動(dòng)以實(shí)現(xiàn)特定目標(biāo)的系統(tǒng),被視作大語言模型(LLM)落地應(yīng)用的關(guān)鍵載體。
近兩個(gè)月前,微軟曾連發(fā)10個(gè)AI智能體,面向銷售、運(yùn)營(yíng)等場(chǎng)景,隨后又宣布Copilot Studio平臺(tái)已支持用戶構(gòu)建自主智能體,同時(shí)發(fā)布5款預(yù)構(gòu)建的智能體。而在剛剛結(jié)束的2024 re:Invent上,亞馬遜一口氣發(fā)布了6款大模型,其中Amazon Nova Premier同樣是多模態(tài)大模型,專為復(fù)雜推理任務(wù)而生。
無論在消費(fèi)端還是企業(yè)端場(chǎng)景中,AI智能體均有較多想象空間,商業(yè)化前景也較為明確。多位業(yè)內(nèi)人士預(yù)計(jì),2025年將是AI智能體商用爆發(fā)之年。屆時(shí),谷歌、OpenAI等科技巨頭圍繞智能體的競(jìng)爭(zhēng)勢(shì)必將愈發(fā)激烈。