文 | 連線Insight 王慧瑩
編輯 | 子夜
大模型應(yīng)用大戰(zhàn)即將一年整,競爭依然激烈。
12月18日的火山引擎Force冬季大會上,字節(jié)跳動“豆包全家桶”又迎來了新成員。豆包視覺理解模型正式亮相,其具備更強(qiáng)的內(nèi)容識別、理解和推理、視覺描述等能力;明年1月,豆包視頻生成大模型也將面向企業(yè)開放服務(wù)。
除了新成員的加入,豆包大模型多款產(chǎn)品也迎來更新迭代。比如,豆包通用模型pro已全面對齊GPT-4o;音樂模型從生成60秒的簡單結(jié)構(gòu),升級到生成3分鐘的完整作品;文生圖模型2.1版本接入即夢AI和豆包App……
用戶正在使用豆包視頻理解模型,圖源豆包微信公眾號
無論是基礎(chǔ)層,還是應(yīng)用層,字節(jié)都在綜合布局并持續(xù)迭代升級。截至目前,字節(jié)正在運營的AI應(yīng)用大約有20款,且大部分是在2024年以后發(fā)布的。
進(jìn)入到今年下半年,隨著越來越多大模型應(yīng)用的出現(xiàn),行業(yè)卷起了新高度:C端卷用戶,B端卷價格。
“飽和式”攻擊的豆包,在哪個領(lǐng)域都上演了“后來者居上”的戲碼。
用戶上,據(jù)QuestMobile數(shù)據(jù),字節(jié)豆包App今年9月的日活已達(dá)760萬,成為中國日活最大的AI產(chǎn)品。
價格上,此次豆包視覺理解模型千tokens輸入價格僅為3厘,比行業(yè)價格便宜85%;此前豆包文字大模型0.8厘就能處理1500多個漢字的價格,比行業(yè)便宜99.3%。
“卷王”豆包的另一面是行業(yè)正式進(jìn)入混戰(zhàn)后的生存之戰(zhàn)。盡管現(xiàn)在談?wù)摗癒iller APP”還為時尚早,但商業(yè)化是個繞不開的話題。瘋狂投入后,豆包也要學(xué)會賺錢。
與年初字節(jié)跳動CEO梁汝波在全員會上反思“慢”截然不同,這一年字節(jié)以豆包家族在大模型行業(yè)進(jìn)行的進(jìn)攻,又快又狠。豆包在行業(yè)的增長再次驗證了字節(jié)“大力出奇跡”的路線,也給行業(yè)帶來新的沖擊和思考。
01 降價、買量,豆包拼力謀增長
今年年初,字節(jié)跳動CEO梁汝波在內(nèi)部講話中提到“遲鈍”二字,直指字節(jié)對大模型的敏感度不如創(chuàng)業(yè)公司。
“直到2023年才開始討論GPT,而業(yè)內(nèi)做得比較好的大模型創(chuàng)業(yè)公司都是在2018年至2021年創(chuàng)立的”梁汝波直言。
今年5月,大模型名字統(tǒng)一“豆包”后,字節(jié)正式走向了大模型發(fā)展的高速路。據(jù)DataEye研究院不完全統(tǒng)計,去年8月至今,字節(jié)跳動在AI領(lǐng)域一共推出包括豆包大模型家族在內(nèi)的17款大模型、2個智能體開發(fā)平臺。
正值大模型從“百模大戰(zhàn)”轉(zhuǎn)向應(yīng)用落地期,各家都在緊密跟隨行業(yè)的風(fēng)口,以期走在前列。
在應(yīng)用層面,素有“APP工廠”之稱的字節(jié),決心更大。據(jù)不完全統(tǒng)計,2024年至今,字節(jié)在國內(nèi)外推出包括豆包在內(nèi)的20余款A(yù)pp,覆蓋AI聊天助手、AI視頻工具、AI娛樂應(yīng)用、辦公等多個領(lǐng)域。
其中,有對標(biāo)ChatGPT的“豆包”、對標(biāo)Sora的“即夢”、對標(biāo)MiniMax旗下社交AI星野的“貓箱”、對標(biāo)妙鴨相機(jī)的“星繪”、對標(biāo)Suno AI 的“海綿音樂”……
12月18日的火山引擎Force冬季大會上,字節(jié)跳動正式發(fā)布豆包視覺理解模型、豆包3D模型。會上,火山引擎宣布2025年春季將推出具備更長視頻生成能力的豆包視頻生成模型1.5版,豆包端到端實時語音模型也將很快上線。
其中,跑得最快的莫過于以豆包為中心的大模型生態(tài)。
據(jù)量子位智庫數(shù)據(jù),今年5-7月,豆包APP日新增用戶從20萬迅速飆升至90萬,并在9月率先成為國內(nèi)用戶規(guī)模破億的首個AI應(yīng)用;11月,平均每天有80萬新用戶下載豆包,單日活躍用戶近900萬,MAU僅次于ChatGPT;截至11月底,豆包2024年的累計用戶規(guī)模已超過1.6億。
豆包這匹“黑馬”奔跑的速度如此之快,離不開字節(jié)的“大力出奇跡”。
今年年中開始,大模型C端應(yīng)用陷入了一場激烈的流量爭奪賽。無論是線上平臺,還是線下公開場所,都能看到大模型廠商的身影。創(chuàng)業(yè)公司和互聯(lián)網(wǎng)巨頭,無一例外地陷入了大模型應(yīng)用的“用戶焦慮”。
據(jù)AppGrowing統(tǒng)計,截至11月15日,國內(nèi)十款A(yù)I原生應(yīng)用合計投放金額達(dá)15億元,其中10月超過3.5億元,為歷史最高。其中,Kimi和豆包是投放最瘋狂的兩個產(chǎn)品,分別投放了5.4億元和4億元。
拉長時間線看,豆包的投流顯然更猛烈。據(jù)AppGrowing統(tǒng)計,2024年4月—5月,豆包投放金額預(yù)計為1500萬元-1750萬元。6月上旬,豆包再次啟動新一輪大規(guī)模的廣告投放活動,投放金額高達(dá)1.24億元。
背靠抖音這一大流量池,豆包的出現(xiàn)頻率也越來越高。在抖音,字節(jié)幾乎屏蔽了除豆包以外所有AI應(yīng)用的投放,只留給自家的豆包。
不得不承認(rèn),面對同質(zhì)化的市場競爭,燒錢換流量,是移動互聯(lián)網(wǎng)時代的慣用做法,而豆包背靠強(qiáng)大的字節(jié)生態(tài),有著天生的優(yōu)勢。
大模型的特殊性在于,AI產(chǎn)品仍存在用戶接受度和留存率的挑戰(zhàn),重金投流能否換來超級應(yīng)用無法確定,但至少目前給豆包帶來了肉眼可見的用戶增長。
同樣是花錢,與C端花錢投流相對,隨著大模型推理側(cè)成本的下降,在B端大模型廠商今年集體降價,行業(yè)從“以分計價”進(jìn)入“以厘計價”的時代。
豆包降價的動作同樣很明顯。今年5月火山引擎Force秋季大會上,豆包主力模型在企業(yè)市場的定價比行業(yè)價格降低了99.3%,0.8厘就能處理1500多個漢字的價格;此次的火山引擎Force冬季大會上,豆包視覺理解模型千tokens輸入價格僅為3厘,一元錢就可處理284張720P的圖片,比行業(yè)價格便宜85%。
廠商讓利降價的意圖很明顯,讓算力技術(shù)普惠的同時,讓企業(yè)用戶使用AI應(yīng)用的意愿更高端。數(shù)據(jù)顯示,截至12月中旬,豆包通用模型的日均tokens使用量已超過4萬億,較七個月前首次發(fā)布時增長了33倍。
回過頭來看2024年,圍繞豆包生態(tài),字節(jié)做AI的決心很大,也從資源、速度等方面證明了自己作為互聯(lián)網(wǎng)巨頭的實力。增長的底氣有了,下一步的關(guān)鍵便是讓大模型更好用。
02 一邊提技術(shù)、一邊“接地氣”,豆包能否更接近用戶是關(guān)鍵
AI浪潮奔涌兩年,行業(yè)不斷進(jìn)入新階段,不變的是玩家們對技術(shù)的迭代。
今年下半年,一個明顯的變化在于,以ChatGPT為代表的大語言模型局限性日益顯現(xiàn)。
語言大模型無法與物理世界互動,也不具備對人類價值觀的理解能力,玩家們都在尋找下一個更“類人”的模型或應(yīng)用。9月,OpenAI推出的會思考的o1推理模型;12月,李飛飛推出的3D世界模型都是在這一思路下應(yīng)運而生。
大模型這列列車高速前進(jìn),對于玩家而言,最重要的是拿到車票。反觀國內(nèi),對標(biāo)OpenAI,豆包也算是走在技術(shù)前列的大模型玩家。
此次大會上,豆包發(fā)布的視覺理解模型,具備更強(qiáng)的內(nèi)容識別、理解和推理、視覺描述等能力。
新的視頻理解模型下,用戶可以同時輸入文本和圖像相關(guān)的問題,使用起來更便捷;同時,模型能夠綜合理解能力給出準(zhǔn)確的回答。
也就是說,相比于此前的文生視頻大模型,此次視覺理解模型更能讀懂人的需求,也能幫助人類提高復(fù)雜工作的工作效率。比如,在教育場景中,為學(xué)生優(yōu)化作文、科普知識;在旅游場景中,幫助游客看外文菜單、講解照片中建筑的背景知識等。
據(jù)火山引擎介紹,目前豆包視覺理解模型已經(jīng)接入豆包App和PC端產(chǎn)品。某種意義上,視覺理解大模型是行業(yè)技術(shù)迭代的標(biāo)志。相比于語言大模型,視頻大模型能拓展大模型的能力邊界,同時也會降低人們與大模型交互的門檻,為大模型解鎖更豐富的應(yīng)用場景。
視覺能力是大模型能力的核心已經(jīng)是共識,視覺輸入占據(jù)人類交互信息的絕大多數(shù),為了讓大模型離AGI更進(jìn)一步,大家都在加速。
實際上,字節(jié)對視覺化、多模態(tài)模型的重視度肉眼可見的提升。12月11日,據(jù)智能涌現(xiàn)報道,字節(jié)提升了即夢的產(chǎn)品優(yōu)先級,嘗試用新的路徑打造AI時代的“抖音”。字節(jié)計劃后續(xù)把更多資源向更多模態(tài)的產(chǎn)品形態(tài)轉(zhuǎn)移,即夢會承擔(dān)更大的希望。
即夢AI隸屬于字節(jié)跳動旗下剪映業(yè)務(wù),定位是AI內(nèi)容平臺,支持通過自然語言及圖片輸入,生成高質(zhì)量的圖像及視頻。
此次大會上,剪映業(yè)務(wù)負(fù)責(zé)人張楠表示,“即夢,希望成為想象力世界的相機(jī)”似乎也在回應(yīng)這一戰(zhàn)略。具體動作上,即夢AI圖片模型2.1正式上線,其可以“一句話生成海報”,支持通過簡單的指令,控制文字的顏色和位置等元素,快速生成中英文圖像海報。
值得一提的是,豆包還發(fā)布了3D生成模型,該模型與火山引擎數(shù)字孿生平臺veOmniverse結(jié)合使用,可以完成智能訓(xùn)練、數(shù)據(jù)合成和數(shù)字資產(chǎn)制作,成為一套支持AIGC創(chuàng)作的物理世界仿真模擬器。
不僅如此,豆包大模型家族多款產(chǎn)品都迎來重要更新。
豆包通用模型pro新版本綜合任務(wù)處理能力較5月份提升32%,全面對齊GPT-4o,使用價格僅為后者的1/8在推理上提升13%;
豆包音樂模型4.0支持三分鐘的全曲創(chuàng)作,支持歌詞局部修改,曲風(fēng)連貫等功能;
豆包文生圖模型2.1支持“一鍵P圖”,可以高精度指令理解,對中英文、專有名詞“來者不拒”。
至此,豆包全家桶升級的同時,豆包補(bǔ)足其在視覺交互上的短板,又開拓了自身模型的場景邊界,還在算力成本上做了下降,本質(zhì)上,都是為了讓大模型更接近用戶。
今年5月,字節(jié)跳動產(chǎn)品與戰(zhàn)略副總裁朱駿分享了字節(jié)跳動為豆包這類產(chǎn)品定義了三個產(chǎn)品設(shè)計原則:第一條,“擬人化”;第二條,離用戶很近,隨時伴隨用戶,嵌入用戶的不同使用環(huán)境,應(yīng)該是豆包到用戶身邊,而不是用戶到豆包身邊;第三條,個性化。
讓豆包回歸用戶,很重要的一點是讓用戶了解AI,滿足用戶對AI的好奇心。據(jù)中國企業(yè)家報道,在豆包官方用戶群里,每當(dāng)新功能發(fā)布時,豆包小助手就會在群里發(fā)布公告,并鼓勵用戶提供優(yōu)質(zhì)反饋。
這也證明了,字節(jié)做產(chǎn)品的思維,在大模型領(lǐng)域同樣適用。如今,大模型已經(jīng)經(jīng)歷了卷技術(shù)、卷應(yīng)用、卷用戶的階段,想要拿到下半場的船票,字節(jié)也必須帶著豆包一邊“提技術(shù)”,一邊“接地氣”。
03 拓場景、商業(yè)化,是豆包必須探索的
這一年,大模型行業(yè)除了技術(shù)迭代和產(chǎn)品更新速度的比拼,還有一個更重要的比拼維度,即商業(yè)化賺錢和場景落地的速度。
玩家進(jìn)入的熱情有多火熱,市場對回報周期的需求就有多迫切。
對于字節(jié)這樣的巨頭而言,即便是賺錢的速度再快,也抵不過大模型的燒錢速度。算力成本、用戶拓新等都需要真金白銀。
還在投入期的豆包,繞不開商業(yè)化的命題。
經(jīng)歷了C端燒錢投流后,豆包是國內(nèi)日活最多的AI產(chǎn)品,但一個突出的問題在于用戶留存。
這讓字節(jié)對豆包的商業(yè)化也有了新的思考。據(jù)智能涌現(xiàn)報道,盡管豆包AI對話類產(chǎn)品月活表現(xiàn)不錯,但豆包目前活躍度并不高。豆包每周僅活躍2至3天,且每天用戶發(fā)送消息輪次僅為5到6次,單次2分鐘左右,用戶人均使用時長僅為10分鐘左右。上述這些數(shù)據(jù)在過去一年中的增長幅度并不顯著。
基于此,字節(jié)管理層判斷,像豆包這樣的AI對話類產(chǎn)品可能只是AI產(chǎn)品的“中間態(tài)”。字節(jié)內(nèi)部判斷,付費訂閱模式在中國不太可能走通。而時長和輪次太低,又導(dǎo)致潛在的廣告空間較小,這都構(gòu)成了這類產(chǎn)品的隱形天花板。
長期來看,更低門檻、更“多模態(tài)”的產(chǎn)品形式更具落地可能,剪映和即夢可能是合適的入口,這也是此次大會豆包將部分重點放在視頻模型的本質(zhì)原因。
如果說豆包在C端是不停地探索應(yīng)用與用戶付費意愿的適配度,那在用戶付費意愿更強(qiáng)的B端,豆包的重點在于探索豆包大模型與客戶的契合度。
今年5月份,豆包已經(jīng)確定了在B端的業(yè)務(wù)落地思路:火山引擎負(fù)責(zé)基座模型、開發(fā)者生態(tài)的構(gòu)建,豆包負(fù)責(zé)應(yīng)用的開發(fā)和調(diào)試。
得益于火山引擎“更強(qiáng)模型、更低成本、更易落地”的發(fā)展理念,視覺理解模型進(jìn)入“以厘計價”的同時,火山引擎還升級了火山方舟、扣子和HiAgent三款平臺產(chǎn)品,幫助企業(yè)構(gòu)建好自身的AI能力中心,高效開發(fā)AI應(yīng)用。
實際上,按照字節(jié)期待的飛輪效應(yīng),算力調(diào)用測試推動豆包大模型產(chǎn)品降價,大模型降價再吸引B端客戶合作,客戶的使用數(shù)據(jù)再給豆包帶來更多的調(diào)用量。
目前,據(jù)火山引擎數(shù)據(jù),豆包大模型已經(jīng)與八成主流汽車品牌合作,并接入到多家手機(jī)、PC等智能終端,覆蓋終端設(shè)備約3億臺,來自智能終端的豆包大模型調(diào)用量在半年時間內(nèi)增長100倍。
此外,在與企業(yè)生產(chǎn)力相關(guān)的場景中,豆包也有新的增長。最近3個月,豆包大模型在信息處理場景的調(diào)用量增長了39倍,客服與銷售場景增長16倍,硬件終端場景增長13倍,AI工具場景增長9倍。
除了針對B、C端開放應(yīng)用外,豆包還下場做起了今年的新風(fēng)口智能硬件產(chǎn)品——Ola Friend。據(jù)介紹,該款耳機(jī)植入了豆包大模型,并與字節(jié)對話類AI應(yīng)用豆包App結(jié)合:戴上智能耳機(jī)后,用戶可通過語音對話隨時使用豆包,在豆包App上也可以操控這款耳機(jī)。
此外,據(jù)ITBEAR報道,字節(jié)AI硬件團(tuán)隊還在積極推動豆包大模型與其他手機(jī)廠商的智能助手進(jìn)行合作,以期在更廣泛的場景下發(fā)揮大模型的強(qiáng)大能力。
種種信號表明,豆包正以各種方式打開大模型商業(yè)化的大門。商業(yè)化是擺在所有玩家面前共同的問題,學(xué)會賺錢,也是豆包的必修課。
于豆包而言,用“大力出奇跡”卷完應(yīng)用之后,也要有進(jìn)入下半場高歌猛進(jìn)的資本,那就是一條更為清晰的商業(yè)路徑。