界面新聞記者 | 陸柯言
界面新聞編輯 | 宋佳楠
“所有的產(chǎn)品都值得用AI重做一遍?!蔽④汣EO薩提亞·納德拉一句展望時代的話,成為了AI硬件行業(yè)的創(chuàng)業(yè)圣經(jīng)。一群消費(fèi)電子行業(yè)的創(chuàng)業(yè)者正試圖用AI闖出一條新路。
耳機(jī)成為首選賽道之一,越來越多植入AI功能的耳機(jī)在市場涌現(xiàn)。蘋果剛剛推送的Apple Intelligence中就首次加入了通話錄音功能,小米近期發(fā)布的Xiaomi Buds5也同樣支持通話錄音,這被視為語音智能交互的第一步。
初創(chuàng)公司中,未來智能推出的iFLYBUDS系列、時空壺翻譯耳機(jī),WISHEE強(qiáng)調(diào)聊天陪伴功能的Ai Ear,以及主打“AI+音頻”的塞那,都在近幾年連續(xù)推出新品。
今年5月,字節(jié)跳動收購開放式耳機(jī)品牌Oladance,也被認(rèn)為是布局AI硬件賽道的一種準(zhǔn)備。錘子科技創(chuàng)始人羅永浩以及前魅族CMO李楠成立的怒喵科技,同樣將推出智能耳機(jī)產(chǎn)品。
在AI耳機(jī)領(lǐng)域,未來智能是很難繞過的一家廠商。2021年底,科大訊飛耳機(jī)團(tuán)隊(duì)獨(dú)立,成立主攻AI硬件賽道的未來智能。這家公司主要瞄準(zhǔn)會議及辦公場景,陸續(xù)推出iFLYBUDS Pro、iFLYBUDS Air、iFLYBUDS Nano+等多款會議,支持錄音轉(zhuǎn)寫、智能轉(zhuǎn)譯、會議整理等功能。
未來智能CTO王松在接受界面新聞專訪時表示,所有布局AI耳機(jī)或智能硬件賽道的公司,本質(zhì)上還是在押注下一代人機(jī)交互變革的機(jī)會。一種觀點(diǎn)是,語音是未來人機(jī)交互的入口,而耳機(jī)則是天然與語音掛鉤的設(shè)備,它并不容易被手機(jī)完全替代掉。
但耳機(jī)值得被AI重做一遍嗎?王松的答案是兩面的。在他看來,如果加上時間維度,的確所有的產(chǎn)品都值得被AI重做一遍,但現(xiàn)階段這句話并不適用。
原因在于,由于耳機(jī)本身算力有限,大部分AI能力也只能寄居在手機(jī)上,依賴于手機(jī)的算力和網(wǎng)絡(luò)能力。以現(xiàn)有的芯片與電池續(xù)航水平來看,耳機(jī)還很難成為一個獨(dú)立的計(jì)算產(chǎn)品。
IDC曾預(yù)測,2024年,中國市場上搭載AI功能的終端設(shè)備將超70%,AI終端占比將達(dá)55%。但僅搭載生成式AI功能,與AI真正成為核心驅(qū)動力,仍然是兩件完全不同的事。
媒體曝光的OpenAI AGI路線圖顯示,OpenAI將AI劃分為5個等級。其中,L1為聊天機(jī)器人,是具有對話能力的AI;L2為推理者,像人類一樣能夠解決問題的AI;L3為智能體,指不僅能思考,還可以采取行動的AI系統(tǒng);L4為創(chuàng)新者,能夠協(xié)助發(fā)明創(chuàng)造的AI;L5為組織者,可以完成組織工作的AI。
OpenAI認(rèn)為其AI模型正處于L1,但很快就會達(dá)到L2(推理者)。而根據(jù)該公司前研究員預(yù)測,L5級AGI最快將在2027年實(shí)現(xiàn)。
王松預(yù)計(jì),要等到L3,也就是智能體階段落地后,才能談?wù)嬲腁I耳機(jī)。目前包括未來智能在內(nèi),所有耳機(jī)廠商的探索都還處于非常原始的雛形階段。
“真正的智能耳機(jī)有一個重要的先決條件,它必須是一個可獨(dú)立聯(lián)網(wǎng)、獨(dú)立運(yùn)算的設(shè)備,即便脫離了手機(jī)也能夠使用?!蓖跛芍赋?,有了這兩項(xiàng)能力,耳機(jī)就能不依賴屏幕,獨(dú)立執(zhí)行一些操作,例如叫外賣、打車,打電話、聽音樂等等,大約可以占日常手機(jī)操作的10%。
即便如此,也需要技術(shù)的突破。相比其它硬件設(shè)備,耳機(jī)的體積偏小,這就限制了芯片和電池的體積,進(jìn)而限制了算力與續(xù)航。事實(shí)上,這也是當(dāng)前所有可穿戴設(shè)備面臨的挑戰(zhàn)。最典型的例子是,算力強(qiáng)大如Vision Pro也仍離不開外掛電池。
軟件同樣需要革新。手機(jī)和PC的交互遵循菜單層級結(jié)構(gòu),但耳機(jī)無法遵循這套交互邏輯,因?yàn)樗鼰o法像手機(jī)那樣,一層一層地去用語音打開新的菜單。它需要把所有的功能平鋪開來,通過語音一步直達(dá),這則需要軟件的改造和產(chǎn)品設(shè)計(jì)的更新。
未來智能在耳機(jī)獨(dú)立運(yùn)算層面進(jìn)行了一些探索。例如,iFLYBUDS主打的錄音功能可以做到單獨(dú)運(yùn)行,而不依賴手機(jī)。但想要實(shí)現(xiàn)更復(fù)雜的功能并不容易。
一個行業(yè)共識是,在電池和芯片出現(xiàn)突破性進(jìn)展之前,手機(jī)仍然會是最重要的計(jì)算平臺。但手機(jī)也有無法實(shí)現(xiàn)的功能,這是留給AI硬件的機(jī)會。
據(jù)王松透露,公司內(nèi)部在做一些研究,例如能夠?qū)崟r偵測周圍環(huán)境的功能,包括處于什么地方、周圍有哪些人。如果用手機(jī)只能通過舉起攝像頭來實(shí)現(xiàn),但這很怪異的,也無法每時每刻都舉著攝像頭。但一副耳機(jī)或者眼鏡,就能夠利用傳感器來監(jiān)測。
未來智能內(nèi)部有許多類似的探索,但由于目前大模型能力有限,很難做到100%的準(zhǔn)確率,也無法把類似功能快速推上線。他們擔(dān)心當(dāng)有偏差或幻覺時,會對用戶造成非常大的影響。倘若大模型的能力達(dá)到某種閾值,則可以馬上上線類似的功能。
自從蘋果在2016年推動TWS (True Wireless Stereo,真無線)耳機(jī)爆發(fā)之后,耳機(jī)行業(yè)已經(jīng)許久未現(xiàn)突破性的技術(shù)革新。在AIGC行業(yè)苦于尋找落地場景的當(dāng)下,耳機(jī)廠商試圖證明耳機(jī)承載的音頻創(chuàng)新是最理想的應(yīng)用之一。他們正在摸索,等待智能硬件迎來一場新的爆發(fā)。