正在閱讀:

AI Agent,下一個(gè)爆款級(jí)AI應(yīng)用?

掃一掃下載界面新聞APP

AI Agent,下一個(gè)爆款級(jí)AI應(yīng)用?

“大語言模型只能編個(gè)貪吃蛇,而AI Agent可以整出一個(gè)‘王者榮耀’?!?/p>

如果說AIGC開啟了內(nèi)容生成的智能時(shí)代,那么AI Agent則有機(jī)會(huì)把AIGC的能力真正產(chǎn)品化。

與ChatGPT等AI應(yīng)用相比,AI Agent像一位更具象的全能員工,被視為人工智能機(jī)器人的初級(jí)形態(tài),軟硬件兼顧的智能體能夠如同人類一般觀察周圍的世界、做出決策并自動(dòng)采取相應(yīng)的行動(dòng)。

AI Agent的想象力到底在哪?“大語言模型只能編個(gè)貪吃蛇,而AI Agent可以整出一個(gè)‘王者榮耀’?!边@是網(wǎng)上盛傳的回答,似乎并不夸張。比爾·蓋茨也曾說過,“誰能主宰AI Agent,那才是大事。因?yàn)槟銓⒂肋h(yuǎn)不用去搜索網(wǎng)站或者亞馬遜?!?/p>

從技術(shù)到場(chǎng)景,摸著石頭過河

從AIGC發(fā)展看,大致經(jīng)歷了三波浪潮。第一波是以GPT為代表的大模型的出現(xiàn);第二波是應(yīng)用層的快速創(chuàng)新,如微軟Copilot,使智能化從Chat向Work轉(zhuǎn)化;第三波則是深度業(yè)務(wù)場(chǎng)景的應(yīng)用,打通業(yè)務(wù)數(shù)字化全流程,服務(wù)實(shí)體經(jīng)濟(jì)。

在滿足企業(yè)智能化需求、打通業(yè)務(wù)場(chǎng)景的過程中,AI Agent作為一種理想的產(chǎn)品化落地形態(tài),正在承接日益復(fù)雜的提質(zhì)增效需求,并強(qiáng)化內(nèi)外部協(xié)同效能,釋放組織核心生產(chǎn)力,對(duì)抗組織熵增帶來的挑戰(zhàn)。

AI Agent通常被視為一種融合感知、分析、決策和執(zhí)行能力的智能體,它可以具備相當(dāng)顯著的主動(dòng)性,成為人類的理想智能助手。例如,AI Agent可以根據(jù)個(gè)人在線互動(dòng)和參與事務(wù)處置時(shí)的信息,了解和記憶個(gè)體的興趣、偏好、日常習(xí)慣,識(shí)別個(gè)體的意圖,主動(dòng)提出建議,并協(xié)調(diào)多個(gè)應(yīng)用程序去完成任務(wù)。

Agent的概念由Minsky在其1986年出版的《思維的社會(huì)》一書中提出,Minsky認(rèn)為社會(huì)中的某些個(gè)體經(jīng)過協(xié)商之后可求得問題的解,這些個(gè)體就是Agent。他還認(rèn)為,Agent應(yīng)具有社會(huì)交互性和智能性。Agent的概念由此被引入人工智能和計(jì)算機(jī)領(lǐng)域,并迅速成為研究熱點(diǎn)。但苦于數(shù)據(jù)和算力限制,想要實(shí)現(xiàn)真正智能的AI Agents缺乏必要的現(xiàn)實(shí)條件。

AI Agent和大模型的區(qū)別在于,大模型與人類之間的交互是基于提示詞(prompt)實(shí)現(xiàn)的。ChatGPT誕生后,AI從真正意義上具備了和人類進(jìn)行多輪對(duì)話的能力,并且能針對(duì)相應(yīng)問題給出具體回答與建議。用戶prompt是否清晰明確會(huì)影響大模型回答的效果,例如ChatGPT和這些Copilot都需要明確任務(wù)才能得到有用的回答。

當(dāng)AI從被使用的工具變成可以使用工具的主體,這種具備任務(wù)規(guī)劃和使用工具能力的AI系統(tǒng)可被稱為Auto-Pilot主駕駛,即AI Agent。在Co-Pilot模式下,AI是人類的助手,與人類協(xié)同參與到工作流程中;在Auto-Pilot模式下,AI是人類的代理,獨(dú)立地承擔(dān)大部分工作,人類只負(fù)責(zé)設(shè)定任務(wù)目標(biāo)和評(píng)估結(jié)果。

AI Agent的工作僅需給定一個(gè)目標(biāo),它就能夠針對(duì)目標(biāo)獨(dú)立思考并做出行動(dòng),它會(huì)根據(jù)給定任務(wù)詳細(xì)拆解出每一步的計(jì)劃步驟,依靠來自外界的反饋和自主思考,自己給自己創(chuàng)建prompt,來實(shí)現(xiàn)目標(biāo)。

從1997年“深藍(lán)”戰(zhàn)勝國際象棋世界冠軍卡斯帕羅夫開始,沃森在智力問答節(jié)目《危險(xiǎn)邊緣》中戰(zhàn)勝人類冠軍、ResNet在ImageNet圖像識(shí)別比賽中的準(zhǔn)確率超過人類、AlphaGo在圍棋比賽中戰(zhàn)勝李世石、OpenAI Five在多人策略游戲Dota2中戰(zhàn)勝人類職業(yè)戰(zhàn)隊(duì)冠軍、AlphaFold的蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)準(zhǔn)確率超過人類等,完成這些任務(wù)背后的能力涵蓋了人類智能感知、認(rèn)知、決策的各個(gè)方面,也不斷塑造著AI Agent的技術(shù)內(nèi)核。

實(shí)際上,人工智能自誕生之初就開始探索AI Agent的解決方案。最近經(jīng)歷了基于規(guī)則設(shè)計(jì)、基于強(qiáng)化學(xué)習(xí)和目前基于預(yù)訓(xùn)練大模型三種范式。其中基于強(qiáng)化學(xué)習(xí)的AI Agent代表是AlphaGo和OpenAI Five,這類方法仍然是面向?qū)S萌蝿?wù)的特定環(huán)境進(jìn)行交互。預(yù)訓(xùn)練大模型學(xué)習(xí)到了通用世界知識(shí),并可以通過語言的形式輸入和輸出,因而可以泛化到不同任務(wù)和環(huán)境。

基于預(yù)訓(xùn)練大模型的AI Agent又包括兩類,即智能代理和智能體。預(yù)訓(xùn)練大模型的“通用”能力不僅體現(xiàn)在內(nèi)容理解和生成上,還擴(kuò)展到了規(guī)劃和使用工具這類思考和決策任務(wù)。比如,我們對(duì)著一張有幾個(gè)孩子和一些小面包的圖片問“每個(gè)孩子可以平均分到幾個(gè)小面包”,大模型可以將任務(wù)規(guī)劃成檢測(cè)小面包、檢測(cè)孩子、做除法三步,并在每一步調(diào)用對(duì)應(yīng)的目標(biāo)檢測(cè)模型或除法工具來完成。

在圖靈獎(jiǎng)得主Yoshua Bengio設(shè)計(jì)的AGI五個(gè)層次中,AI Agent目前大致處于第三個(gè)層次——多模態(tài)感知和第四個(gè)層次——具身與行動(dòng)之間。

第一個(gè)層次是小數(shù)據(jù)訓(xùn)練小模型,過去幾十年的傳統(tǒng)方法都處于這個(gè)階段。

第二個(gè)層次是用互聯(lián)網(wǎng)規(guī)模的海量數(shù)據(jù)訓(xùn)練大模型,以GPT-3為代表。

第三個(gè)層次是從單模態(tài)到多模態(tài),比如GPT-4o和Gemini是文字視覺語音的多模態(tài)大模型。

第四個(gè)層次是從開環(huán)系統(tǒng)到閉環(huán)控制,就是說考慮環(huán)境反饋并結(jié)合自身狀態(tài),給出下一步操作對(duì)環(huán)境產(chǎn)生影響同時(shí)更新自身狀態(tài),比如以AutoGPT為代表的智能體和具身智能機(jī)器人。

第五個(gè)層次是從單智能體到多智能體協(xié)作,也包括機(jī)器與人類的協(xié)作,由群體智能完成復(fù)雜任務(wù),比如多智能體原型AutoGen模擬軟件公司的不同職位協(xié)作從而實(shí)現(xiàn)高質(zhì)量的代碼自動(dòng)開發(fā)和文檔自動(dòng)生成。

從應(yīng)用場(chǎng)景來看,AI Agent能夠幫助未來企業(yè)構(gòu)建以“人機(jī)協(xié)同”為核心的智能化運(yùn)營新常態(tài)。越來越多的業(yè)務(wù)活動(dòng)都將被委托給AI,而人類則只需要聚焦于企業(yè)愿景、戰(zhàn)略和關(guān)鍵路徑的決策上。人與大量AI實(shí)體之間的協(xié)同工作模式,將顛覆當(dāng)前企業(yè)的運(yùn)行基礎(chǔ),讓企業(yè)運(yùn)營成效獲得成倍提升。

比如在電商領(lǐng)域,AI Agent能夠根據(jù)用戶的購物歷史、瀏覽行為和偏好提供個(gè)性化的產(chǎn)品推薦,這不僅能提高用戶滿意度,還能增加銷售額和客戶忠誠度;AI Agent還可以作為智能客服,通過自然語言處理和機(jī)器學(xué)習(xí)技術(shù)自動(dòng)回答用戶咨詢,處理訂單問題和退貨請(qǐng)求,從而提高客戶服務(wù)效率。

在教育領(lǐng)域,AI Agent可以根據(jù)學(xué)生的學(xué)習(xí)進(jìn)度、興趣和能力提供個(gè)性化的學(xué)習(xí)資源和輔導(dǎo);而在金融領(lǐng)域,AI Agent可以幫助用戶管理個(gè)人財(cái)務(wù),提供投資建議,甚至預(yù)測(cè)股票走勢(shì)。

在交通領(lǐng)域,AI Agent可以通過分析交通數(shù)據(jù)和實(shí)時(shí)路況提供最佳的路線規(guī)劃和交通建議。

在醫(yī)療領(lǐng)域,AI Agent可以幫助醫(yī)生進(jìn)行疾病診斷和治療方案的制定。

在社會(huì)交互方面,AI Agent的一個(gè)重要場(chǎng)景是虛擬陪伴,從任務(wù)復(fù)雜度和容錯(cuò)率兩方面看都是短期容易實(shí)現(xiàn)的,已經(jīng)出現(xiàn)的是像Character.ai、Talkie、Linky等面向成年人的IP類和交友類應(yīng)用,未來面向老年人和兒童的AI Agent虛擬陪伴可能是更具社會(huì)價(jià)值的。從技術(shù)的角度看,提升大模型的角色扮演能力、分析和調(diào)整大模型的性格特征等都是兼具研究意義和應(yīng)用價(jià)值的方向。

大數(shù)據(jù),進(jìn)化之路的最大變量

從AI發(fā)展角度看,大模型為AI Agent和機(jī)器人領(lǐng)域所帶來的是更強(qiáng)大的感知能力,這種強(qiáng)感知能力是建立在大參數(shù)模型和巨量數(shù)據(jù)展現(xiàn)出來的智能。

AI Agent的出現(xiàn),使得大模型從“超級(jí)大腦”進(jìn)化為人類的“全能助手”。AI Agent不僅需要具備處理任務(wù)和問題的智能能力,還需要擁有與人類進(jìn)行自然交互的社交智能。

在AI Agent和機(jī)器人領(lǐng)域,一個(gè)最大的難點(diǎn)便是缺乏與物理世界的真實(shí)數(shù)據(jù),而得不到這些數(shù)據(jù),就無從進(jìn)行訓(xùn)練;即使是互聯(lián)網(wǎng)上得到的信息,在過去也很難根據(jù)這些信息進(jìn)行擴(kuò)展,并使AI Agent和機(jī)器人更好地理解世界。

而大模型則很好地解決了這一問題。如今的大模型已經(jīng)實(shí)現(xiàn)了視覺語言上的智能涌現(xiàn),這就意味著,通過互聯(lián)網(wǎng)上的數(shù)據(jù),機(jī)器人的感知已經(jīng)出現(xiàn)了相當(dāng)強(qiáng)的泛化,因此能夠更好地理解真實(shí)的物理世界。

實(shí)際上,除了AI Agent,被大模型隨之帶火的還有自動(dòng)駕駛。像英國自動(dòng)駕駛獨(dú)角獸Wayve在融資當(dāng)天,不惜花大量筆墨描繪了一個(gè)屬于“AI Agent”的未來,類似的言論也同樣出現(xiàn)在不少機(jī)器人公司的內(nèi)部。

AI大模型對(duì)于AI Agent能力提升的重要性,主要體現(xiàn)在三個(gè)方面。

首先,大模型顯著提升了AI Agent解決復(fù)雜任務(wù)的能力,根據(jù)理解,把復(fù)雜任務(wù)拆解成一系列可執(zhí)行的任務(wù)。

之后,在多模態(tài)大模型的能力下,AI Agent可以依托視覺、觸覺等在更復(fù)雜的場(chǎng)景里做事。

最后,體現(xiàn)在運(yùn)動(dòng)能力上,AI Agent可以根據(jù)AI合成的數(shù)據(jù)做模擬訓(xùn)練。如果沒有大模型,機(jī)器人實(shí)現(xiàn)的功能會(huì)相對(duì)受限。

由此也看出,數(shù)據(jù)是除了大模型技術(shù)外,制約機(jī)器人下一步進(jìn)化最為關(guān)鍵的要素。

如今的AI Agent與2015、2016年的自動(dòng)駕駛更為類似,兩者的難點(diǎn)都在于高質(zhì)量數(shù)據(jù)的獲取。而如果以L0-L5幾個(gè)階段來詮釋,目前大多數(shù)AI Agent公司都處于L0到L4的過程中,而到真正的L5則還有一段距離。具體而言,L4狀態(tài)指大多數(shù)場(chǎng)景下,機(jī)器人可以完成某個(gè)指定動(dòng)作;而L5則指任意場(chǎng)景下,機(jī)器人可以完成某一動(dòng)作。

為了獲取足夠用于AI Agent和機(jī)器人訓(xùn)練的數(shù)據(jù),不少廠商通過真實(shí)數(shù)據(jù)和仿真數(shù)據(jù)結(jié)合的方式解決。在真實(shí)數(shù)據(jù)的獲取中,廠商一般通過真人動(dòng)作和機(jī)器人遙操作的方式,將任務(wù)過程中的數(shù)據(jù)“喂”給大模型。而仿真數(shù)據(jù)則是通過搭建一個(gè)盡量真實(shí)的場(chǎng)景,設(shè)定盡可能多的建模和現(xiàn)實(shí)參數(shù),讓虛擬化的機(jī)器人進(jìn)行訓(xùn)練。

不過,上述的兩種方式還是存在著各自的短板,當(dāng)前AI Agent還遠(yuǎn)未達(dá)到數(shù)據(jù)飛輪的啟動(dòng)時(shí)刻。一方面真實(shí)數(shù)據(jù)的成本極高,AI Agent當(dāng)前還達(dá)不到自動(dòng)駕駛般的普及度。在真實(shí)數(shù)據(jù)足夠多之前,廠商需要花長時(shí)間和配備數(shù)據(jù)標(biāo)準(zhǔn)團(tuán)隊(duì)來一點(diǎn)點(diǎn)積累。而對(duì)于仿真數(shù)據(jù)而言,最大的問題還是現(xiàn)實(shí)仿真不夠真實(shí)。AI Agent在模擬世界能成功,但導(dǎo)入到現(xiàn)實(shí)世界就會(huì)有一定的失敗率。

現(xiàn)階段,對(duì)AI Agent最大的一個(gè)限制,還是數(shù)據(jù)質(zhì)量、數(shù)據(jù)規(guī)模、應(yīng)用場(chǎng)景不足。AI模型、AI訓(xùn)練數(shù)據(jù)集、AI場(chǎng)景落地部署,都遠(yuǎn)遠(yuǎn)不夠。而隨著更高效的算法和算法的泛化能力提升,未來AI Agent學(xué)習(xí)一個(gè)技能的數(shù)據(jù)量將會(huì)從現(xiàn)在的幾千、幾萬,下降到一千甚至幾百幾十的數(shù)量級(jí)。

參考自動(dòng)駕駛行業(yè)由量產(chǎn)帶來的數(shù)據(jù)飛輪,為了進(jìn)一步解決數(shù)據(jù)問題,不少機(jī)器人廠商正在探索從量產(chǎn)中獲取數(shù)據(jù)。

邁出實(shí)驗(yàn)室,還要答好幾道題?

AI Agent的想象力不言而喻,但現(xiàn)在的情況是廠商都在說自己是做Agent的,那么現(xiàn)階段Agent到底能做什么,沒人可以說得清楚。

雖然與大模型相比,Agent更貼近產(chǎn)業(yè),但不論是對(duì)客戶還是對(duì)開發(fā)者,Agent帶來的收益是否邁過了成本的門檻仍是未知數(shù)。Agent的發(fā)展基于大模型,而當(dāng)前大模型賽道的特點(diǎn)是技術(shù)門檻高、資金投入多、商業(yè)模式尚且發(fā)展不成熟。

首先,現(xiàn)有的技術(shù)條件下,如何解決大模型幻覺是大模型走向全面產(chǎn)業(yè)應(yīng)用的難點(diǎn)。所謂大模型幻覺,主要指的是模型輸出了和現(xiàn)實(shí)世界不一致的內(nèi)容,例如捏造事實(shí)、分不清虛構(gòu)與現(xiàn)實(shí)、相信謠言和傳說等,也就是常說的“一本正經(jīng)的胡說八道”。

這個(gè)問題若不解決,在實(shí)際應(yīng)用場(chǎng)景中,這不僅會(huì)影響模型的準(zhǔn)確性和穩(wěn)定性,還制約了大模型在真實(shí)場(chǎng)景中的廣泛應(yīng)用的可靠性,這就還有很長的一步路走。

眾所周知,AI Agent發(fā)展的前提條件是多模態(tài)。在很多情況下,如智能客服場(chǎng)景,用戶可能會(huì)通過多種方式提供信息,多模態(tài)具有很好的感知價(jià)值。但至今在解決一些邏輯、推理等核心問題上,Agent的能力還有偏弱。因此,Agent各模塊之間如何配合、多個(gè)Agent如何交互、人類與Agent如何互動(dòng)等方面,Agent技術(shù)尚處于早期階段。

其次,如何控制高昂的調(diào)用成本是擺在AI Agent面前的另一大難題。接入Agent后,所有需要處理的業(yè)務(wù)場(chǎng)景,都會(huì)轉(zhuǎn)化成需要底層大模型理解的數(shù)據(jù),產(chǎn)生高昂的推理成本。舉個(gè)例子,斯坦福的虛擬小鎮(zhèn)框架開源后,每個(gè)Agent一天就需要消耗20美金的Token數(shù),比用人成本還要高。

第三,國內(nèi)智能算力較為短缺的現(xiàn)狀下,各家大模型在持續(xù)投入人力、算力、資金并實(shí)現(xiàn)商業(yè)化落地方面,可能會(huì)面臨較大挑戰(zhàn)。因此,Agent想要真正實(shí)現(xiàn)規(guī)?;涞?,道阻且長。

還有很重要的一點(diǎn),Agent如何保證用戶的數(shù)據(jù)安全和隱私。Agent一旦投入應(yīng)用,勢(shì)必會(huì)接觸到客戶的核心數(shù)據(jù),倘若數(shù)據(jù)泄漏,可能讓用戶和社會(huì)蒙受巨大損失。

對(duì)于AI Agent,一個(gè)很殘酷的現(xiàn)實(shí)是,看項(xiàng)目的大有人在,投項(xiàng)目的屈指可數(shù)。

如今,各行各業(yè)都已不是PPT融資的時(shí)代了,無論多么前沿的技術(shù),也只有落地走通盈利模式才能實(shí)現(xiàn)價(jià)值。AI Agent的未來一定是一場(chǎng)馬拉松,只有扎實(shí)做好大模型技術(shù)和找到商業(yè)化落地的路徑,才能在未來有機(jī)會(huì)不被趕下“牌桌”。

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請(qǐng)聯(lián)系原著作權(quán)人。

評(píng)論

暫無評(píng)論哦,快來評(píng)價(jià)一下吧!

下載界面新聞

微信公眾號(hào)

微博

AI Agent,下一個(gè)爆款級(jí)AI應(yīng)用?

“大語言模型只能編個(gè)貪吃蛇,而AI Agent可以整出一個(gè)‘王者榮耀’?!?/p>

如果說AIGC開啟了內(nèi)容生成的智能時(shí)代,那么AI Agent則有機(jī)會(huì)把AIGC的能力真正產(chǎn)品化。

與ChatGPT等AI應(yīng)用相比,AI Agent像一位更具象的全能員工,被視為人工智能機(jī)器人的初級(jí)形態(tài),軟硬件兼顧的智能體能夠如同人類一般觀察周圍的世界、做出決策并自動(dòng)采取相應(yīng)的行動(dòng)。

AI Agent的想象力到底在哪?“大語言模型只能編個(gè)貪吃蛇,而AI Agent可以整出一個(gè)‘王者榮耀’?!边@是網(wǎng)上盛傳的回答,似乎并不夸張。比爾·蓋茨也曾說過,“誰能主宰AI Agent,那才是大事。因?yàn)槟銓⒂肋h(yuǎn)不用去搜索網(wǎng)站或者亞馬遜?!?/p>

從技術(shù)到場(chǎng)景,摸著石頭過河

從AIGC發(fā)展看,大致經(jīng)歷了三波浪潮。第一波是以GPT為代表的大模型的出現(xiàn);第二波是應(yīng)用層的快速創(chuàng)新,如微軟Copilot,使智能化從Chat向Work轉(zhuǎn)化;第三波則是深度業(yè)務(wù)場(chǎng)景的應(yīng)用,打通業(yè)務(wù)數(shù)字化全流程,服務(wù)實(shí)體經(jīng)濟(jì)。

在滿足企業(yè)智能化需求、打通業(yè)務(wù)場(chǎng)景的過程中,AI Agent作為一種理想的產(chǎn)品化落地形態(tài),正在承接日益復(fù)雜的提質(zhì)增效需求,并強(qiáng)化內(nèi)外部協(xié)同效能,釋放組織核心生產(chǎn)力,對(duì)抗組織熵增帶來的挑戰(zhàn)。

AI Agent通常被視為一種融合感知、分析、決策和執(zhí)行能力的智能體,它可以具備相當(dāng)顯著的主動(dòng)性,成為人類的理想智能助手。例如,AI Agent可以根據(jù)個(gè)人在線互動(dòng)和參與事務(wù)處置時(shí)的信息,了解和記憶個(gè)體的興趣、偏好、日常習(xí)慣,識(shí)別個(gè)體的意圖,主動(dòng)提出建議,并協(xié)調(diào)多個(gè)應(yīng)用程序去完成任務(wù)。

Agent的概念由Minsky在其1986年出版的《思維的社會(huì)》一書中提出,Minsky認(rèn)為社會(huì)中的某些個(gè)體經(jīng)過協(xié)商之后可求得問題的解,這些個(gè)體就是Agent。他還認(rèn)為,Agent應(yīng)具有社會(huì)交互性和智能性。Agent的概念由此被引入人工智能和計(jì)算機(jī)領(lǐng)域,并迅速成為研究熱點(diǎn)。但苦于數(shù)據(jù)和算力限制,想要實(shí)現(xiàn)真正智能的AI Agents缺乏必要的現(xiàn)實(shí)條件。

AI Agent和大模型的區(qū)別在于,大模型與人類之間的交互是基于提示詞(prompt)實(shí)現(xiàn)的。ChatGPT誕生后,AI從真正意義上具備了和人類進(jìn)行多輪對(duì)話的能力,并且能針對(duì)相應(yīng)問題給出具體回答與建議。用戶prompt是否清晰明確會(huì)影響大模型回答的效果,例如ChatGPT和這些Copilot都需要明確任務(wù)才能得到有用的回答。

當(dāng)AI從被使用的工具變成可以使用工具的主體,這種具備任務(wù)規(guī)劃和使用工具能力的AI系統(tǒng)可被稱為Auto-Pilot主駕駛,即AI Agent。在Co-Pilot模式下,AI是人類的助手,與人類協(xié)同參與到工作流程中;在Auto-Pilot模式下,AI是人類的代理,獨(dú)立地承擔(dān)大部分工作,人類只負(fù)責(zé)設(shè)定任務(wù)目標(biāo)和評(píng)估結(jié)果。

AI Agent的工作僅需給定一個(gè)目標(biāo),它就能夠針對(duì)目標(biāo)獨(dú)立思考并做出行動(dòng),它會(huì)根據(jù)給定任務(wù)詳細(xì)拆解出每一步的計(jì)劃步驟,依靠來自外界的反饋和自主思考,自己給自己創(chuàng)建prompt,來實(shí)現(xiàn)目標(biāo)。

從1997年“深藍(lán)”戰(zhàn)勝國際象棋世界冠軍卡斯帕羅夫開始,沃森在智力問答節(jié)目《危險(xiǎn)邊緣》中戰(zhàn)勝人類冠軍、ResNet在ImageNet圖像識(shí)別比賽中的準(zhǔn)確率超過人類、AlphaGo在圍棋比賽中戰(zhàn)勝李世石、OpenAI Five在多人策略游戲Dota2中戰(zhàn)勝人類職業(yè)戰(zhàn)隊(duì)冠軍、AlphaFold的蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)準(zhǔn)確率超過人類等,完成這些任務(wù)背后的能力涵蓋了人類智能感知、認(rèn)知、決策的各個(gè)方面,也不斷塑造著AI Agent的技術(shù)內(nèi)核。

實(shí)際上,人工智能自誕生之初就開始探索AI Agent的解決方案。最近經(jīng)歷了基于規(guī)則設(shè)計(jì)、基于強(qiáng)化學(xué)習(xí)和目前基于預(yù)訓(xùn)練大模型三種范式。其中基于強(qiáng)化學(xué)習(xí)的AI Agent代表是AlphaGo和OpenAI Five,這類方法仍然是面向?qū)S萌蝿?wù)的特定環(huán)境進(jìn)行交互。預(yù)訓(xùn)練大模型學(xué)習(xí)到了通用世界知識(shí),并可以通過語言的形式輸入和輸出,因而可以泛化到不同任務(wù)和環(huán)境。

基于預(yù)訓(xùn)練大模型的AI Agent又包括兩類,即智能代理和智能體。預(yù)訓(xùn)練大模型的“通用”能力不僅體現(xiàn)在內(nèi)容理解和生成上,還擴(kuò)展到了規(guī)劃和使用工具這類思考和決策任務(wù)。比如,我們對(duì)著一張有幾個(gè)孩子和一些小面包的圖片問“每個(gè)孩子可以平均分到幾個(gè)小面包”,大模型可以將任務(wù)規(guī)劃成檢測(cè)小面包、檢測(cè)孩子、做除法三步,并在每一步調(diào)用對(duì)應(yīng)的目標(biāo)檢測(cè)模型或除法工具來完成。

在圖靈獎(jiǎng)得主Yoshua Bengio設(shè)計(jì)的AGI五個(gè)層次中,AI Agent目前大致處于第三個(gè)層次——多模態(tài)感知和第四個(gè)層次——具身與行動(dòng)之間。

第一個(gè)層次是小數(shù)據(jù)訓(xùn)練小模型,過去幾十年的傳統(tǒng)方法都處于這個(gè)階段。

第二個(gè)層次是用互聯(lián)網(wǎng)規(guī)模的海量數(shù)據(jù)訓(xùn)練大模型,以GPT-3為代表。

第三個(gè)層次是從單模態(tài)到多模態(tài),比如GPT-4o和Gemini是文字視覺語音的多模態(tài)大模型。

第四個(gè)層次是從開環(huán)系統(tǒng)到閉環(huán)控制,就是說考慮環(huán)境反饋并結(jié)合自身狀態(tài),給出下一步操作對(duì)環(huán)境產(chǎn)生影響同時(shí)更新自身狀態(tài),比如以AutoGPT為代表的智能體和具身智能機(jī)器人。

第五個(gè)層次是從單智能體到多智能體協(xié)作,也包括機(jī)器與人類的協(xié)作,由群體智能完成復(fù)雜任務(wù),比如多智能體原型AutoGen模擬軟件公司的不同職位協(xié)作從而實(shí)現(xiàn)高質(zhì)量的代碼自動(dòng)開發(fā)和文檔自動(dòng)生成。

從應(yīng)用場(chǎng)景來看,AI Agent能夠幫助未來企業(yè)構(gòu)建以“人機(jī)協(xié)同”為核心的智能化運(yùn)營新常態(tài)。越來越多的業(yè)務(wù)活動(dòng)都將被委托給AI,而人類則只需要聚焦于企業(yè)愿景、戰(zhàn)略和關(guān)鍵路徑的決策上。人與大量AI實(shí)體之間的協(xié)同工作模式,將顛覆當(dāng)前企業(yè)的運(yùn)行基礎(chǔ),讓企業(yè)運(yùn)營成效獲得成倍提升。

比如在電商領(lǐng)域,AI Agent能夠根據(jù)用戶的購物歷史、瀏覽行為和偏好提供個(gè)性化的產(chǎn)品推薦,這不僅能提高用戶滿意度,還能增加銷售額和客戶忠誠度;AI Agent還可以作為智能客服,通過自然語言處理和機(jī)器學(xué)習(xí)技術(shù)自動(dòng)回答用戶咨詢,處理訂單問題和退貨請(qǐng)求,從而提高客戶服務(wù)效率。

在教育領(lǐng)域,AI Agent可以根據(jù)學(xué)生的學(xué)習(xí)進(jìn)度、興趣和能力提供個(gè)性化的學(xué)習(xí)資源和輔導(dǎo);而在金融領(lǐng)域,AI Agent可以幫助用戶管理個(gè)人財(cái)務(wù),提供投資建議,甚至預(yù)測(cè)股票走勢(shì)。

在交通領(lǐng)域,AI Agent可以通過分析交通數(shù)據(jù)和實(shí)時(shí)路況提供最佳的路線規(guī)劃和交通建議。

在醫(yī)療領(lǐng)域,AI Agent可以幫助醫(yī)生進(jìn)行疾病診斷和治療方案的制定。

在社會(huì)交互方面,AI Agent的一個(gè)重要場(chǎng)景是虛擬陪伴,從任務(wù)復(fù)雜度和容錯(cuò)率兩方面看都是短期容易實(shí)現(xiàn)的,已經(jīng)出現(xiàn)的是像Character.ai、Talkie、Linky等面向成年人的IP類和交友類應(yīng)用,未來面向老年人和兒童的AI Agent虛擬陪伴可能是更具社會(huì)價(jià)值的。從技術(shù)的角度看,提升大模型的角色扮演能力、分析和調(diào)整大模型的性格特征等都是兼具研究意義和應(yīng)用價(jià)值的方向。

大數(shù)據(jù),進(jìn)化之路的最大變量

從AI發(fā)展角度看,大模型為AI Agent和機(jī)器人領(lǐng)域所帶來的是更強(qiáng)大的感知能力,這種強(qiáng)感知能力是建立在大參數(shù)模型和巨量數(shù)據(jù)展現(xiàn)出來的智能。

AI Agent的出現(xiàn),使得大模型從“超級(jí)大腦”進(jìn)化為人類的“全能助手”。AI Agent不僅需要具備處理任務(wù)和問題的智能能力,還需要擁有與人類進(jìn)行自然交互的社交智能。

在AI Agent和機(jī)器人領(lǐng)域,一個(gè)最大的難點(diǎn)便是缺乏與物理世界的真實(shí)數(shù)據(jù),而得不到這些數(shù)據(jù),就無從進(jìn)行訓(xùn)練;即使是互聯(lián)網(wǎng)上得到的信息,在過去也很難根據(jù)這些信息進(jìn)行擴(kuò)展,并使AI Agent和機(jī)器人更好地理解世界。

而大模型則很好地解決了這一問題。如今的大模型已經(jīng)實(shí)現(xiàn)了視覺語言上的智能涌現(xiàn),這就意味著,通過互聯(lián)網(wǎng)上的數(shù)據(jù),機(jī)器人的感知已經(jīng)出現(xiàn)了相當(dāng)強(qiáng)的泛化,因此能夠更好地理解真實(shí)的物理世界。

實(shí)際上,除了AI Agent,被大模型隨之帶火的還有自動(dòng)駕駛。像英國自動(dòng)駕駛獨(dú)角獸Wayve在融資當(dāng)天,不惜花大量筆墨描繪了一個(gè)屬于“AI Agent”的未來,類似的言論也同樣出現(xiàn)在不少機(jī)器人公司的內(nèi)部。

AI大模型對(duì)于AI Agent能力提升的重要性,主要體現(xiàn)在三個(gè)方面。

首先,大模型顯著提升了AI Agent解決復(fù)雜任務(wù)的能力,根據(jù)理解,把復(fù)雜任務(wù)拆解成一系列可執(zhí)行的任務(wù)。

之后,在多模態(tài)大模型的能力下,AI Agent可以依托視覺、觸覺等在更復(fù)雜的場(chǎng)景里做事。

最后,體現(xiàn)在運(yùn)動(dòng)能力上,AI Agent可以根據(jù)AI合成的數(shù)據(jù)做模擬訓(xùn)練。如果沒有大模型,機(jī)器人實(shí)現(xiàn)的功能會(huì)相對(duì)受限。

由此也看出,數(shù)據(jù)是除了大模型技術(shù)外,制約機(jī)器人下一步進(jìn)化最為關(guān)鍵的要素。

如今的AI Agent與2015、2016年的自動(dòng)駕駛更為類似,兩者的難點(diǎn)都在于高質(zhì)量數(shù)據(jù)的獲取。而如果以L0-L5幾個(gè)階段來詮釋,目前大多數(shù)AI Agent公司都處于L0到L4的過程中,而到真正的L5則還有一段距離。具體而言,L4狀態(tài)指大多數(shù)場(chǎng)景下,機(jī)器人可以完成某個(gè)指定動(dòng)作;而L5則指任意場(chǎng)景下,機(jī)器人可以完成某一動(dòng)作。

為了獲取足夠用于AI Agent和機(jī)器人訓(xùn)練的數(shù)據(jù),不少廠商通過真實(shí)數(shù)據(jù)和仿真數(shù)據(jù)結(jié)合的方式解決。在真實(shí)數(shù)據(jù)的獲取中,廠商一般通過真人動(dòng)作和機(jī)器人遙操作的方式,將任務(wù)過程中的數(shù)據(jù)“喂”給大模型。而仿真數(shù)據(jù)則是通過搭建一個(gè)盡量真實(shí)的場(chǎng)景,設(shè)定盡可能多的建模和現(xiàn)實(shí)參數(shù),讓虛擬化的機(jī)器人進(jìn)行訓(xùn)練。

不過,上述的兩種方式還是存在著各自的短板,當(dāng)前AI Agent還遠(yuǎn)未達(dá)到數(shù)據(jù)飛輪的啟動(dòng)時(shí)刻。一方面真實(shí)數(shù)據(jù)的成本極高,AI Agent當(dāng)前還達(dá)不到自動(dòng)駕駛般的普及度。在真實(shí)數(shù)據(jù)足夠多之前,廠商需要花長時(shí)間和配備數(shù)據(jù)標(biāo)準(zhǔn)團(tuán)隊(duì)來一點(diǎn)點(diǎn)積累。而對(duì)于仿真數(shù)據(jù)而言,最大的問題還是現(xiàn)實(shí)仿真不夠真實(shí)。AI Agent在模擬世界能成功,但導(dǎo)入到現(xiàn)實(shí)世界就會(huì)有一定的失敗率。

現(xiàn)階段,對(duì)AI Agent最大的一個(gè)限制,還是數(shù)據(jù)質(zhì)量、數(shù)據(jù)規(guī)模、應(yīng)用場(chǎng)景不足。AI模型、AI訓(xùn)練數(shù)據(jù)集、AI場(chǎng)景落地部署,都遠(yuǎn)遠(yuǎn)不夠。而隨著更高效的算法和算法的泛化能力提升,未來AI Agent學(xué)習(xí)一個(gè)技能的數(shù)據(jù)量將會(huì)從現(xiàn)在的幾千、幾萬,下降到一千甚至幾百幾十的數(shù)量級(jí)。

參考自動(dòng)駕駛行業(yè)由量產(chǎn)帶來的數(shù)據(jù)飛輪,為了進(jìn)一步解決數(shù)據(jù)問題,不少機(jī)器人廠商正在探索從量產(chǎn)中獲取數(shù)據(jù)。

邁出實(shí)驗(yàn)室,還要答好幾道題?

AI Agent的想象力不言而喻,但現(xiàn)在的情況是廠商都在說自己是做Agent的,那么現(xiàn)階段Agent到底能做什么,沒人可以說得清楚。

雖然與大模型相比,Agent更貼近產(chǎn)業(yè),但不論是對(duì)客戶還是對(duì)開發(fā)者,Agent帶來的收益是否邁過了成本的門檻仍是未知數(shù)。Agent的發(fā)展基于大模型,而當(dāng)前大模型賽道的特點(diǎn)是技術(shù)門檻高、資金投入多、商業(yè)模式尚且發(fā)展不成熟。

首先,現(xiàn)有的技術(shù)條件下,如何解決大模型幻覺是大模型走向全面產(chǎn)業(yè)應(yīng)用的難點(diǎn)。所謂大模型幻覺,主要指的是模型輸出了和現(xiàn)實(shí)世界不一致的內(nèi)容,例如捏造事實(shí)、分不清虛構(gòu)與現(xiàn)實(shí)、相信謠言和傳說等,也就是常說的“一本正經(jīng)的胡說八道”。

這個(gè)問題若不解決,在實(shí)際應(yīng)用場(chǎng)景中,這不僅會(huì)影響模型的準(zhǔn)確性和穩(wěn)定性,還制約了大模型在真實(shí)場(chǎng)景中的廣泛應(yīng)用的可靠性,這就還有很長的一步路走。

眾所周知,AI Agent發(fā)展的前提條件是多模態(tài)。在很多情況下,如智能客服場(chǎng)景,用戶可能會(huì)通過多種方式提供信息,多模態(tài)具有很好的感知價(jià)值。但至今在解決一些邏輯、推理等核心問題上,Agent的能力還有偏弱。因此,Agent各模塊之間如何配合、多個(gè)Agent如何交互、人類與Agent如何互動(dòng)等方面,Agent技術(shù)尚處于早期階段。

其次,如何控制高昂的調(diào)用成本是擺在AI Agent面前的另一大難題。接入Agent后,所有需要處理的業(yè)務(wù)場(chǎng)景,都會(huì)轉(zhuǎn)化成需要底層大模型理解的數(shù)據(jù),產(chǎn)生高昂的推理成本。舉個(gè)例子,斯坦福的虛擬小鎮(zhèn)框架開源后,每個(gè)Agent一天就需要消耗20美金的Token數(shù),比用人成本還要高。

第三,國內(nèi)智能算力較為短缺的現(xiàn)狀下,各家大模型在持續(xù)投入人力、算力、資金并實(shí)現(xiàn)商業(yè)化落地方面,可能會(huì)面臨較大挑戰(zhàn)。因此,Agent想要真正實(shí)現(xiàn)規(guī)?;涞兀雷枨议L。

還有很重要的一點(diǎn),Agent如何保證用戶的數(shù)據(jù)安全和隱私。Agent一旦投入應(yīng)用,勢(shì)必會(huì)接觸到客戶的核心數(shù)據(jù),倘若數(shù)據(jù)泄漏,可能讓用戶和社會(huì)蒙受巨大損失。

對(duì)于AI Agent,一個(gè)很殘酷的現(xiàn)實(shí)是,看項(xiàng)目的大有人在,投項(xiàng)目的屈指可數(shù)。

如今,各行各業(yè)都已不是PPT融資的時(shí)代了,無論多么前沿的技術(shù),也只有落地走通盈利模式才能實(shí)現(xiàn)價(jià)值。AI Agent的未來一定是一場(chǎng)馬拉松,只有扎實(shí)做好大模型技術(shù)和找到商業(yè)化落地的路徑,才能在未來有機(jī)會(huì)不被趕下“牌桌”。

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請(qǐng)聯(lián)系原著作權(quán)人。