文|侃科技
今年的蘋果WWDC結(jié)束之后,盡管媒體的評(píng)價(jià)都是“沒(méi)有驚喜”,但作為頭號(hào)黑粉的羅永浩卻異常安靜,上一條“懟人”的微博還是今年一月怒斥榮耀抄襲。
反倒是馬斯克連發(fā)了7條推文 ,狂噴蘋果全面接入OpenAI的ChatGPT,他甚至到庫(kù)克的帖子下貼臉開大,說(shuō)如果庫(kù)克不阻止這種令人毛骨悚然的植入型軟件,他將禁止蘋果設(shè)備進(jìn)入其公司,并貢獻(xiàn)了一張被科技圈廣為流傳的表情包。
雖然外界也好奇馬斯克為何如此暴躁,但主要的關(guān)注點(diǎn)還是在“沒(méi)有驚喜”的Apple Intelligence(蘋果智能)上。著名果鏈分析師郭明錤一邊給蘋果敲警鐘,一邊不忘提醒消費(fèi)者,稱AI可能會(huì)是蘋果區(qū)隔高低端機(jī)種的新標(biāo)簽。
WWDC發(fā)布會(huì)后,蘋果股價(jià)做了一圈過(guò)山車,先是發(fā)布當(dāng)天應(yīng)聲跌了2%,第二天又神奇般大漲7%。
從不滿到追捧,資本市場(chǎng)的態(tài)度在24小時(shí)內(nèi)發(fā)生了驚天反轉(zhuǎn),是投資人誤會(huì)了庫(kù)克嗎?倒是原本樂(lè)見(jiàn)其成的國(guó)產(chǎn)廠商,仍在不遺余力制造蘋果落后的話題。
倒也不是國(guó)產(chǎn)廠商蹭熱度,主要在AI手機(jī)這件事上,之所以蘋果會(huì)被評(píng)價(jià)“沒(méi)有驚喜”,是因?yàn)橛幸徊糠窒M(fèi)者已經(jīng)用上了國(guó)產(chǎn)AI手機(jī)。換言之,WWDC上蘋果拿出來(lái)的那些東西,國(guó)產(chǎn)廠商都已經(jīng)教育一遍市場(chǎng)了。
那么問(wèn)題來(lái)了,這一次蘋果還能走在國(guó)產(chǎn)廠商前面嗎?
AI手機(jī)行至第二階段
在討論先后的問(wèn)題前,先來(lái)說(shuō)說(shuō)AI手機(jī)到哪個(gè)階段了。
廣泛層面上,AI手機(jī)被分為App化、功能化和原生化三個(gè)階段。簡(jiǎn)單來(lái)說(shuō),去年年初各種類chatGPT的App出現(xiàn)就是第一階段,而隨著OPPO、三星等廠商推出AI手機(jī),第二階段也已到來(lái)。
這一階段的AI手機(jī),如今年1月發(fā)布的OPPO Find X7 和三星Galaxy S24,帶有典型的AI功能化特征:支持通話摘要、AIGC消除以及AI語(yǔ)音助手等。
而且在AI手機(jī)的整體思路上,各家都趨于一致:將大模型的能力內(nèi)化到操作系統(tǒng)中,不再以顯眼的AI應(yīng)用呈現(xiàn),而是進(jìn)一步落地到具體手機(jī)使用場(chǎng)景,最終目的是讓AI功能看似不存在卻又無(wú)處不在。
具體功能集中在以下幾類:
1、輸入法。將生成式AI集成到鍵盤軟件,提供風(fēng)格建議和智能重寫等功能。如三星Galaxy AI允許用戶以不同的風(fēng)格和情緒改寫句子,同時(shí)還提供拼寫和語(yǔ)法改正。
2、實(shí)時(shí)翻譯和轉(zhuǎn)錄。如三星Galaxy S24和華碩Zenfone 11 Ultra可利用設(shè)備端AI功能,實(shí)現(xiàn)通話實(shí)時(shí)翻譯。此外,S24的實(shí)時(shí)翻譯功能提供電話的實(shí)時(shí)轉(zhuǎn)錄,在屏幕上顯示文本以方便參考,Zenfone的AI Transcript可自動(dòng)將語(yǔ)音轉(zhuǎn)換為書面文本。
3、圖像內(nèi)容生成和編輯。如小米14和小米14Ultra引入了“AI人像”功能,允許用戶在手機(jī)上使用圖庫(kù)里自己的照片來(lái)做訓(xùn)練,訓(xùn)練完成后用戶只需輸入文本提示,即可在幾乎任何設(shè)置中生成逼真的AI自拍。OPPO Find X7 Ultra可實(shí)現(xiàn)AIGC橡皮擦功能,允許在離線狀態(tài)下,從照片中刪除不需要的物體或人物。
4、通過(guò)LLM實(shí)現(xiàn)AI驅(qū)動(dòng)的個(gè)性化功能。三星Galaxy S24可根據(jù)提示生成類似人類的文本能力,也可協(xié)助編寫郵件或文檔。OPPO Find X7 Ultra提供了上下文感知的多回合對(duì)話,也提供了虛擬助手。
5、生成式AI界面工具。榮耀的任意門功能允許用戶在應(yīng)用程序之間拖放文本或圖像等元素,AI預(yù)測(cè)用戶意圖并建議相關(guān)的應(yīng)用程序來(lái)共享內(nèi)容。
按照上述功能來(lái)看,蘋果之所以被評(píng)價(jià)“沒(méi)有驚喜”,也是因?yàn)樗闹饕δ茳c(diǎn)一樣落在了文本類、圖片類、語(yǔ)音轉(zhuǎn)錄、語(yǔ)義搜索和語(yǔ)音助手上。換言之,強(qiáng)如蘋果也仍停留在AI手機(jī)的第二階段。
不過(guò),蘋果似乎故意弄了一套障眼法,沒(méi)有在發(fā)布會(huì)上公布自研大模型,加之“沒(méi)有驚喜”的Apple Intelligence,導(dǎo)致股價(jià)短暫震蕩。但在發(fā)布會(huì)后,蘋果又在一篇低調(diào)發(fā)表的技術(shù)博客中暗搓搓的介紹,端側(cè)模型和云模型都是自己開發(fā)的。
其中,端側(cè)模型是一個(gè)30億參數(shù)(3B)的小模型,云上模型具體參數(shù)蘋果沒(méi)有公布。3B級(jí)小模型和主流幾個(gè)7B級(jí)模型能力上蘋果都能基本勝出,而其云端模型則直接打到了GPT-4 Turbo級(jí)。
并且,也有分析認(rèn)為,即便蘋果實(shí)現(xiàn)的AI功能并不突出,但因?yàn)樗贏I功能落地方面能做的更好,所以仍舊具有一定優(yōu)勢(shì)。
以文生圖功能為例,一般用戶使用手機(jī)并沒(méi)有生圖需求,但是蘋果將此功能落到真正需求上:如顏表情GenEmoji、聊天message中配圖、iPad文檔處理草圖變精圖等,AI介入將這些功能變得真實(shí)有用,帶動(dòng)用戶需求。
而這還不是蘋果最大的野心。
從功能化到原生化
去年12月,騰訊發(fā)表了一篇題為《AppAgent: Multimodal Agents as Smartphone Users》的論文,直譯過(guò)來(lái)是“作為智能手機(jī)用戶的多模式代理”。里面介紹了一種新穎的基于LLM的多模態(tài)Agent框架,旨在操作智能手機(jī)應(yīng)用程序。
簡(jiǎn)單點(diǎn)說(shuō)就是騰訊設(shè)計(jì)了一個(gè)框架,能使智能體模仿人類的點(diǎn)擊、滑動(dòng)等交互操作,從而達(dá)到控制手機(jī)的目的。關(guān)鍵是,這種方法無(wú)需訪問(wèn)系統(tǒng)后端,也就是說(shuō)它在不同App中有高度的適用性。
騰訊為AppAgent設(shè)定了三個(gè)核心功能:
1) 自主探索學(xué)習(xí):智能體可以獨(dú)立地探索應(yīng)用程序,無(wú)需外部指導(dǎo)。
2) 觀察人類演示學(xué)習(xí):智能體通過(guò)觀察用戶的操作演示來(lái)學(xué)習(xí)任務(wù)執(zhí)行。
3) 知識(shí)庫(kù)構(gòu)建:智能體通過(guò)上述學(xué)習(xí)過(guò)程積累經(jīng)驗(yàn),構(gòu)建知識(shí)庫(kù),用于跨應(yīng)用執(zhí)行復(fù)雜任務(wù)。
理論意義上,AppAgent是一個(gè)幫你操作所有App的應(yīng)用。類似于蘋果在發(fā)布會(huì)上的演示,用戶告訴Siri想去接機(jī),Siri可調(diào)取郵件里的航班信息、查找最新航班資訊、調(diào)用地圖App形成路線,最終生成一份完整的建議。
將多模態(tài)能力用戶UI界面,通過(guò)理解UI來(lái)執(zhí)行智能體指令,或是AI手機(jī)從功能化邁向原生化的一個(gè)重要轉(zhuǎn)折標(biāo)志。蘋果發(fā)布的Ferret UI大模型,就意圖在操作系統(tǒng)層學(xué)習(xí)用戶使用習(xí)慣、并有望替代用戶執(zhí)行操作。
基于對(duì)UI的理解,配合端側(cè)智能體的任務(wù)規(guī)劃和分配能力,AI手機(jī)具備了可實(shí)現(xiàn)如下重大跨越的潛力:用戶使用自然語(yǔ)言下達(dá)指令,AI手機(jī)理解意圖并將其拆分為具體工作流,然后從UI層面模擬用戶操作以執(zhí)行指令。最終實(shí)現(xiàn)跨App的操作與復(fù)雜任務(wù)執(zhí)行。如此一個(gè)AI原生的手機(jī)操作系統(tǒng)的主要架構(gòu)就完成了。
舉例來(lái)說(shuō),當(dāng)用戶以自然語(yǔ)言向AI手機(jī)輸入指令“幫我買一張明天下午2點(diǎn)去北京的靠窗的火車票”,手機(jī)智能體先接受語(yǔ)音、做語(yǔ)義分析和意圖理解,然后進(jìn)行任務(wù)拆分,拆分為:打開12306 App、選擇搜索車票、選擇地址“北京”、選擇“明天下午2點(diǎn)”、選擇“靠窗”、選擇“乘客姓名”、點(diǎn)擊“購(gòu)買”;并通過(guò)UI類模型,解讀App上不同的UI界面,并模擬用戶點(diǎn)擊操作,實(shí)現(xiàn)整個(gè)流程。
這一系列操作是不是與蘋果在發(fā)布會(huì)上的演示很像,只不過(guò)蘋果現(xiàn)階段沒(méi)有使用智能體的稱呼,而是稱之為理解用戶情境,實(shí)現(xiàn)跨App操作。
類似的產(chǎn)品在今年MWC展上也出現(xiàn)了。Brain.ai的展示的基于App-less交互模式的概念手機(jī)T-Phone,用戶只需在對(duì)話框中輸入需求,即可得到快速響應(yīng)。T-Phone的核心概念是拋棄傳統(tǒng)的圍繞App設(shè)計(jì)的手機(jī),轉(zhuǎn)而通過(guò)AI使用上下文預(yù)測(cè)來(lái)生成界面,幫助用戶完成任務(wù)。
國(guó)內(nèi)廠商中,榮耀在魔法OS上推出的任意門功能也是AI手機(jī)原生化的雛形。它允許用戶在應(yīng)用程序之間拖放文本或圖像等元素,雖然被羅永浩怒懟抄襲,但其核心能力是“AI預(yù)測(cè)用戶意圖并建議相關(guān)的App來(lái)共享內(nèi)容”。榮耀當(dāng)時(shí)宣稱,在推出時(shí)預(yù)計(jì)支持全球約100個(gè)最常用的應(yīng)用程序。
無(wú)論蘋果、騰訊、榮耀或者Brain.ai,這些公司希望最終達(dá)成的目標(biāo)是:
用戶只需要輸入想要獲得的服務(wù)(通過(guò)語(yǔ)音、文字等形式),手機(jī)會(huì)直接跳轉(zhuǎn)到服務(wù)頁(yè)面,或是由AI智能體直接完成用戶所需要的服務(wù)。
但基于AI智能體的多元、自然交互體驗(yàn),必須要有足夠的甚至所有的功能和服務(wù)支撐。在此基礎(chǔ)上,AI智能體的交互才能從傳統(tǒng)GUI(Graphical User Interface)發(fā)展成VUI(Voice User Interface),最終升級(jí)為全新Agent(App-less)UI,意味著用戶與手機(jī)的交互將發(fā)生在AI智能體和用戶之間,弱化APP的存在感。
所以這一演進(jìn)預(yù)計(jì)不會(huì)一蹴而就,未來(lái)很長(zhǎng)一段時(shí)間內(nèi),AI智能體與App會(huì)同時(shí)活躍在AI手機(jī)里。而且不僅手機(jī)廠商,頭部App也可能圍繞自己的業(yè)務(wù)生態(tài)打造專用AI智能體,例證就是騰訊發(fā)表的那篇論文。
尾聲
再回到文初我們提出的問(wèn)題,在AI手機(jī)這件事上,蘋果是否還能領(lǐng)先。從表面看,蘋果似乎沒(méi)有突破已有AI手機(jī)特征,但有三點(diǎn)是非常值得關(guān)注的。
第一,蘋果利用Siri實(shí)現(xiàn)的跨App操作,已經(jīng)非常接近AI手機(jī)原生化階段的智能體了,目前國(guó)產(chǎn)品牌在這方面仍然落后;
第二,在第二階段的演進(jìn)上,蘋果仍保留著技術(shù)優(yōu)勢(shì)。比如在解決大模型手機(jī)內(nèi)存瓶頸的問(wèn)題上,蘋果和國(guó)產(chǎn)品牌就選擇了不同的技術(shù)路線。
蘋果的思路是通過(guò)內(nèi)存優(yōu)化來(lái)解決小內(nèi)存運(yùn)營(yíng)大模型的問(wèn)題,其構(gòu)建了一個(gè)以閃存為基礎(chǔ)的推理成本模型,并使用窗口化(Windowing)以及行列捆綁(Row-Column Bundling)兩項(xiàng)關(guān)鍵技術(shù),來(lái)最小化數(shù)據(jù)傳輸并最大化閃存吞吐量。
簡(jiǎn)單來(lái)說(shuō),蘋果做到了讓8G內(nèi)存的iPhone 15 Pro跑通3B參數(shù)模型,而同樣是8G內(nèi)存的Pixel 8和8a,今年5月才跑通1.8B的Gemnini Nano。
相較之下,國(guó)產(chǎn)廠商之所能在12G內(nèi)存機(jī)型上跑通7B參數(shù)大模型,是因?yàn)檫x擇了壓縮路線。
如vivo和OPPO都已在端側(cè)跑通7B參數(shù)大模型,不過(guò)核心能力來(lái)自聯(lián)發(fā)科,借助后者的混合精度INT4量化技術(shù)和NeuroPilot Compression技術(shù),能將130億參數(shù)LLM所需的內(nèi)存空間,從13GB減少到5GB。
榮耀在今年4月也宣布,基于自家平臺(tái)級(jí)AI壓縮技術(shù),7B模型能在12GB內(nèi)存設(shè)備上快速啟動(dòng)。
總之,在AI手機(jī)這件事上的競(jìng)爭(zhēng),已經(jīng)不再是有沒(méi)有大模型了,而是如何以更低成本提供更好服務(wù)。
第三,就是蘋果宣布開放AI SDK,這可能是被很多人忽略的一個(gè)重磅信息。
未來(lái)開發(fā)者可調(diào)用蘋果手機(jī)的AI SDK,基于用戶情境理解,完善第三方App的AI功能。作為目前用戶手機(jī)的主要使用場(chǎng)景,未來(lái)第三方應(yīng)用搭載AI能力后,AI手機(jī)的使用體驗(yàn)將得到增強(qiáng)。
但對(duì)于國(guó)產(chǎn)廠商來(lái)說(shuō),這可能是一件比較難的工作。所以,國(guó)產(chǎn)廠商的問(wèn)題就變成了,雖然在想法和布局上領(lǐng)先了蘋果,但在技術(shù)和生態(tài)層面依舊要追趕,而這恰恰是蘋果難以被超越的護(hù)城河。
參考資料
[1] AppAgent:Multimodal Agents as Smartphone Users,騰訊團(tuán)隊(duì)
[2] 為什么有華為麒麟9000s,還需要聯(lián)發(fā)科9300S?極客視界
[3] 蘋果發(fā)布多模態(tài)模型Ferret-UI,部分手機(jī)UI任務(wù)超越GPT-4V,雷峰網(wǎng)leiphone
[4] 馬斯克全面禁用蘋果設(shè)備,隱私泄露賊喊捉賊?太平洋科技
[5] 股價(jià)暴漲7%!我們深挖了兩份低調(diào)公布的資料后,發(fā)現(xiàn)了蘋果AI的秘密,騰訊科技
[6] AI端側(cè)深度報(bào)告之AI手機(jī),中銀國(guó)際
[7] 蘋果2024 WWDC點(diǎn)評(píng),中銀國(guó)際