界面新聞?dòng)浾?| 伍洋宇
界面新聞編輯 | 宋佳楠
接管人類設(shè)備的AI Agent(智能體),曾經(jīng)只是科幻片中的設(shè)定,今天卻已成為股市中的熱點(diǎn)。
就在10月23日,美國AI大模型公司Anthropic推出全新Claude 3.5 Haiku和升級(jí)版Sonnet。Sonnet帶來了全新AI體驗(yàn)“計(jì)算機(jī)使用”,它可以像人類一樣操作電腦,例如查看屏幕、移動(dòng)光標(biāo)、點(diǎn)擊、通過虛擬鍵盤輸入等。
兩天后,智譜AI緊隨Anthropic步伐,發(fā)布了AutoGLM,其目標(biāo)明確,也是以個(gè)人助理身份“掌控”用戶手機(jī)。它可以獨(dú)立執(zhí)行微信互動(dòng)、外賣下單,甚至搶紅包等個(gè)性化任務(wù),主要針對(duì)微信、淘寶、美團(tuán)、小紅書等App中的用戶常用操作。
這兩款產(chǎn)品代表著AI從聊天機(jī)器邁入使用工具解決問題的階段,讓AI智能體逐步向現(xiàn)實(shí)中的實(shí)用化產(chǎn)品邁進(jìn)。
這股AI Agent潮流隨即引發(fā)了資本市場(chǎng)的震動(dòng)。
10月28日早間開盤,智譜相關(guān)概念股迅速漲停,并行科技、首都在線、創(chuàng)業(yè)黑馬、豆神教育、傳智教育、電廣傳媒等股票強(qiáng)勢(shì)上漲,其中多只股票漲停,漲幅達(dá)20%至30%。
資本市場(chǎng)的迅速響應(yīng),反映了對(duì)AI Agent的商業(yè)化前景充滿期待。但從本質(zhì)上看,由于相關(guān)應(yīng)用仍處于市場(chǎng)早期,這一波漲停潮還無法排除市場(chǎng)情緒與投機(jī)屬性。
AI Agent究竟是未來科技的長(zhǎng)期趨勢(shì),還是短期風(fēng)口?
從技術(shù)上來看,主打“Computer Use”(計(jì)算機(jī)使用)和“Phone Use”(手機(jī)使用)的AI Agent的崛起,標(biāo)志著AI的發(fā)展從單一語言理解,逐漸擴(kuò)展到復(fù)雜的任務(wù)執(zhí)行。
Anthropic的Claude Sonnet和智譜的AutoGLM不僅會(huì)處理自然語言對(duì)話,還能直接控制用戶的設(shè)備執(zhí)行具體操作,這是人機(jī)交互的一個(gè)新階段。Anthropic的Sonnet演示顯示,其可以應(yīng)對(duì)代碼編寫、數(shù)據(jù)分析等任務(wù),甚至可以在出錯(cuò)時(shí)嘗試不同解決方法,這種靈活性表明AI開始具備一定的“執(zhí)行力”。
智譜的AutoGLM則重點(diǎn)落在了手機(jī)場(chǎng)景中。通過OCR技術(shù)理解UI組件,以及通過鏈?zhǔn)剿季S訓(xùn)練理解組件功能,AutoGLM能夠識(shí)別用戶手機(jī)屏幕上的不同組件,理解其功能,從而按指令執(zhí)行,如自動(dòng)化微信互動(dòng)和電商下單等操作。
不過,這類產(chǎn)品在用戶體驗(yàn)和商業(yè)化上仍存在局限性。
雖然AutoGLM讓手機(jī)操作更智能化,但也引發(fā)了對(duì)隱私和安全問題的擔(dān)憂:用戶是否會(huì)因便利性而放棄部分隱私保護(hù)?此外,AutoGLM目前仍然需要明確的指令,并在跨平臺(tái)適配性和操作精準(zhǔn)性上有所限制——要實(shí)現(xiàn)真正無縫的自動(dòng)化,還需持續(xù)優(yōu)化。
就真正的“智能”而言,AutoGLM也還有進(jìn)步的空間。例如,中信建投證券在研報(bào)中指出,在官方演示視頻中,AutoGLM在下單瑞幸咖啡時(shí)支付了18元以上,有著明顯的溢價(jià),似乎還沒有掌握這些品牌復(fù)雜的“搶優(yōu)惠券”玩法。
在具體的商業(yè)化落地上,9月,智譜和榮耀成立了AI大模型技術(shù)聯(lián)合實(shí)驗(yàn)室,讓行業(yè)看到AI Agent在終端應(yīng)用上的落地潛力。但由于支持這一功能的手機(jī)品牌有限,真正的大規(guī)模應(yīng)用仍需時(shí)間。據(jù)IDC預(yù)計(jì),2027年,中國市場(chǎng)AI手機(jī)和AI PC的市占率將分別超過50%、80%。
從科技巨頭們的布局動(dòng)作來看,AI Agent的確是大模型領(lǐng)域的重要戰(zhàn)場(chǎng)。
根據(jù)公開信息,OpenAI預(yù)計(jì)年底將推出自己的AI Agent軟件Orion,而蘋果也將于下月在iOS 18.1中加入Apple Intelligence。微軟開源了屏幕解析工具OmniParser,可以完成自動(dòng)訂票等功能。谷歌的Geimini 2.0則有望在12月推出,同時(shí)正在開發(fā)同類新項(xiàng)目“Project Jarvis”,能將Chrome網(wǎng)頁任務(wù)自動(dòng)化。
這意味著,AI智能體不斷從實(shí)驗(yàn)室產(chǎn)品走向大眾應(yīng)用,其身后的巨頭們也在加緊占領(lǐng)市場(chǎng)。
硅谷的風(fēng)投趨勢(shì)顯示,越來越多的公司正從AI基礎(chǔ)設(shè)施轉(zhuǎn)向應(yīng)用層面,更垂直細(xì)分的AI應(yīng)用處于蓬勃發(fā)展態(tài)勢(shì)。但當(dāng)前AI Agent技術(shù)還面臨挑戰(zhàn),如跨平臺(tái)操作能力不足、對(duì)指令依賴較大、個(gè)性化體驗(yàn)有待優(yōu)化等。要想徹底打入主流市場(chǎng),AI Agent不僅要在功能上更加完善,還需在隱私和數(shù)據(jù)安全上取得公眾信任。
短期來看,AI Agent的應(yīng)用范圍仍然有限,但其帶來的高效和便利有足夠吸引力。一旦技術(shù)和隱私問題得到解決,AI智能體將有更大機(jī)會(huì)推進(jìn)人類生活中的智能化應(yīng)用。