正在閱讀:

Sora爆火,AI電商打開新世界的大門

掃一掃下載界面新聞APP

Sora爆火,AI電商打開新世界的大門

誰會為它買單?

圖片來源:界面新聞 YXX

文|億邦動力網(wǎng) 胡鏷心

編輯|張睿

當主播在直播間講解沖鋒衣時,她可以瞬移般轉(zhuǎn)場到戶外、雪山、漫天風雪中,展示沖鋒衣的使用場景;當主播在在直播間賣連衣裙時,則可以自然地走進不同城市街頭咖啡館,展示日常場景中的穿著效果……

這不是魔法,也不是電影特效,而是文生視頻模型與電商直播的結(jié)合。

OpenAI發(fā)布的Sora將視頻生成能力帶到了新的高度,相應地也帶來了豐富的應用想象空間。

IDC中國研究總監(jiān)盧言霞認為,視頻生成將最先應用于短視頻、廣告、互娛、影視、媒體等領(lǐng)域。當前Sora生成的是1分鐘的視頻,對于行業(yè)已經(jīng)是重大突破,只是下一步何時能生成2分鐘5分鐘以上的視頻,不可預測。

顯然,視頻營銷的生產(chǎn)方式將徹底重構(gòu),無論是將主播和商品置于虛擬場景中,還是為商品創(chuàng)作更豐富的營銷素材,品牌方、營銷公司、視頻平臺、消費者,將欣喜地迎接抑或無奈地接受一個光怪陸離的新世界。

背后的核心問題是:基于大模型的AI電商到底長什么樣子?

最新消息,Sora已于2月26日開放對外申請。目前有兩種方式能用上官方版的Sora,第一,著名藝術(shù)從業(yè)者優(yōu)先;第二,加入Red Teaming(專家社區(qū),為OpenAI 提供風險評估)。同時,字節(jié)跳動剪映旗下的AI創(chuàng)作平臺DreaminaAI也即將上線視頻生成能力,目前已開始接收內(nèi)測申請。

01 從視頻營銷到情感電商,Sora改變了什么?

當下的電商營銷視頻主要包括直播切片和商品展示兩類。比如極??萍嫉漠a(chǎn)品iCut,可以自動從直播中識別商品賣點,剪輯片段、保留語音、生成字幕,還能自動增加配樂、轉(zhuǎn)場特效、標題、側(cè)幕、品牌Logo等元素供品牌分發(fā)。賣家可以一邊直播一邊實時獲得海量短視頻素材。

“我們的工作更多是從1到100生產(chǎn)素材,Sora則可以幫助我們從0到1生產(chǎn)素材。”極??萍糃EO武彬說。

武彬介紹,此前電商不能用視頻生成模型,主要原因有三:第一,視頻時長太短,無法進行商品講解。第二,清晰度不夠。第三,可控性較差。

從生成效果來說,Sora彌補了電商營銷素材生成的部分短板。

在Sora展示出的demo中,清晰度和完整度很好,一分鐘也是一個常見的視頻長度,適合賣家去制作并發(fā)布到淘寶逛逛、京東種草秀或抖音上。

Sora可以生成吸引眼球的空鏡,比如蝴蝶在海底飛。

來源:Sora

還可以更換商品背景,配合展示。比如,在直播間講解沖鋒衣的主播,可以流暢地轉(zhuǎn)場到戶外、雪山、漫天風雪中,展示沖鋒衣的使用場景。在直播間賣連衣裙的主播,則可以自然地走進都市街頭咖啡館,在日常場景中講解商品。

來源:Sora

極??萍家龅膭t是將此前積累的商品、場景、細節(jié)等行業(yè)知識,組合成合適的Prompt,完成內(nèi)容生產(chǎn)。

同為電商營銷的奧創(chuàng)光年也希望通過AIGC提升原始素材的創(chuàng)建速度,“因為用戶給的素材可能是不夠的,再加上平臺現(xiàn)在的判重機制更嚴格,內(nèi)容是否起量有一定隨機性,需要我們提高視頻生成的質(zhì)量和效率,加快創(chuàng)意方向的探索和迭代,我們也希望把原始素材生成的比例提高?!眾W創(chuàng)光年研發(fā)負責人張紅春指出。

他指出,Sora對prompt的遵循能力與理解能力令人驚訝,視頻補全、穿插過渡都非常自然,不管是3D的、多角度的、一鏡到底的,數(shù)據(jù)cover得很全,因此可以生成更多原始素材,實現(xiàn)單點突破。

從成本角度,AI比攝影師和模特的成本更低。按DALL·E-3生成單張圖片的價格來初步估算(DALL·E-3生成一張1024×1024的照片收費0.04美元),Sora生成1分鐘視頻的成本大約500多元。但因Sora參數(shù)規(guī)模增大,推理效率的優(yōu)化也需要時間,現(xiàn)階段應高于這個預估價。對于大B商家來說,找人實拍1分鐘視頻的成本在1000-2000元,隨著模型可控能力、推理能力的迭代提升,在效果滿足的情況下,成本降低至預估價范圍,AI應用可以更加普及。

但電商營銷要求“貨對版”,不管是細微的色差,還是裝飾品1厘米的誤差,對電商來說都算虛假宣傳。為此,奧創(chuàng)光年通過商品實拍和背景生成分開的方式來生產(chǎn)視頻?!耙徊糠謱嵟摹⒁徊糠趾铣?。在商品已固定,展示環(huán)節(jié)已固定的情況下,圍繞商品的所有的元素都可以通過Sora生成?!睆埣t春說。

“Sora解決不了貨不對板的問題,意味著它并不真的理解物理世界,需要人的邏輯來彌補它的短板。”凌迪科技Style3D首席科學家王華民認為,“很多人夸大了Sora所代表的智能,它其實用海量數(shù)據(jù),達到了很淺的智能,而且它的邏輯性和對物理世界底層的理解是有瑕疵的,最好由3D和物理仿真技術(shù)來提供整個邏輯關(guān)系,由AI來潤色?,F(xiàn)在的AI更適合扮演Copilot的角色?!?/p>

凌迪科技Style3D的思路是,提供從產(chǎn)品設(shè)計到銷售展示的全鏈路3D+AI工具。

在設(shè)計階段,凌迪科技Style3D提供的Style3D iCreate,幫助設(shè)計師或建模師以AI的發(fā)散性快速獲取創(chuàng)意靈感;

確定款式后,使用Style3D Studio制作成精準的、可用于生產(chǎn)的3D虛擬樣衣;

在上身展示環(huán)節(jié),可以調(diào)用Style3D Studio資源庫中的數(shù)字人模特,模特的表情、姿勢、發(fā)型、配飾及背景都可進行調(diào)整;

基于3D虛擬樣衣,結(jié)合AI優(yōu)化,還可以一鍵生成電商上新圖及詳情頁。整個過程最快僅需24小時。

“我們更偏向于做AI Agent,輔助從業(yè)者做好每一步。至于Sora所代表的視頻生成,對我們肯定有幫助,但目前我想不出視頻生成對設(shè)計師作用有多大。”王華民莞爾。

圖片來源:Style3D

武彬認為,Sora更多是能力上的補充,并不能改變to B的產(chǎn)品邏輯。

電商營銷素材的制作包括三個環(huán)節(jié):素材整理,智能生成,多渠道分發(fā)。Sora在視頻生成環(huán)節(jié)起作用,但在素材整理和渠道分發(fā)上,還是使用原有工具?!皩τ谖覀儊碚f,模型是什么樣,智能到什么程度不重要,重要的是能夠?qū)崿F(xiàn)目標,那就是一個好的AI?!蔽浔虮硎尽?/p>

Sora剛發(fā)布了demo,硅基智能已經(jīng)開始訓練demo中的數(shù)字人開口說話。

硅基智能的業(yè)務是為大V制造數(shù)字人分身直播,并且為MCN機構(gòu)提供數(shù)字人主播帶貨。那么Sora將如何改變直播帶貨?

在硅基智能CEO司馬華鵬看來,下一代電商不一定是貨架電商形式,“不能因為你給馬車加了一盞電燈,就認為這是電氣化?!?/p>

他提到一家以情感、陪伴、信任為中心的AI企業(yè)——Character AI,使用方式類似于鋼鐵俠的智能助手Javis,鋼鐵俠問Javis:“今天跟女朋友第一次約會,給我推薦一套西裝?!盝avis提供備選產(chǎn)品,確定后就安排送貨上門。在溝通中完成購買,相當于“情感電商”。

“我有一個非常中立、非常愛我、非常替我考慮的AI助理,我今天問他晚上吃什么,它會基于我的個人信息、喜好、體質(zhì)進行推薦,我覺得這有可能是新的電商,每個人接下來都會有個助理,這個事情會會對所有商業(yè)產(chǎn)生非常大的顛覆?!彼抉R華鵬如是說。

而數(shù)字人就是這個AI助理的載體,目前,硅基智能不僅將數(shù)字人克隆技術(shù)從8000元降到4元,而且Sora能生成場景和數(shù)字人原型,結(jié)合硅基的數(shù)字人訓練技術(shù),給內(nèi)容產(chǎn)業(yè)帶來的沖擊是巨大的。此外硅基智能試水數(shù)字人短劇拍攝,通過數(shù)字人+AI工具,成本降低10倍。

02 視頻生成群雄競出,Open AI緣何一枝獨秀?

2024年的視頻生成領(lǐng)域熱鬧非凡。1月4日,阿里云的“全民舞王”(Animate Anyone模型)橫掃社交媒體。1月11日,字節(jié)跳動發(fā)布文生視頻模型MagicVideo-V2,支持生成4K、8K分辨率,以及不同繪畫風格的視頻。1月17日,騰訊AI實驗室發(fā)布了視頻生成模型VideoCrafter2。同一天,來自百度的團隊發(fā)布了視頻生成模型UniVG。

在技術(shù)架構(gòu)上,Sora相較于當下的視頻生成模型,至少領(lǐng)先一代。

張紅春介紹,像Pika、Runway,animatediff系列等視頻生成模型,為充分地利用image diffusion的預訓練權(quán)重和知識,都是在單幀圖片的spatial模塊后面,加一個時序(temporal)模塊,來學習幀與幀之間的連貫性。這種通過空間和時間解耦的方式來建模,并非最優(yōu)的視頻表征和建模方法。

相比之下,不論是Google的W.A.L.T和Sroa,都在整個pipeline各模塊上對空間(spatiotemporal)統(tǒng)一建模,同時借鑒DiT的思想,把unet替換為transformer,提升模型scaling up的能力;相對W.A.L.T,Sora在數(shù)據(jù)質(zhì)量、數(shù)據(jù)多樣性、多尺寸多分辨率等方面,又做了很多工作,多因素的累加讓最終效果一騎絕塵。

來源:Sora技術(shù)文檔

從大語言模型到多模態(tài)大模型,核心難點是把各個模態(tài)轉(zhuǎn)成token喂到語言模型中去。張紅春介紹,文本天然是token化的,圖片和視頻也有壓縮方式進行token化,比如谷歌的MAGVIT;音頻領(lǐng)域,谷歌也推出音頻生成技術(shù)做底層的音頻token化。所以谷歌和OpenAI都儲備了音頻、視頻、圖片、文本的token化技術(shù)。

但是國內(nèi)目前談論較多的是文本和圖片的token化,音頻、視頻的token化能力還不多見。

來源:Google

XR創(chuàng)業(yè)者謝明炫認為,Sora展示了一種實時生成數(shù)字內(nèi)容和虛擬世界的可能性,這讓虛擬空間會成為新一代的大眾媒介,取代短視頻平臺。

元宇宙的難點在于數(shù)字內(nèi)容的生產(chǎn)效率太低——先要3D建模、貼圖,再到游戲引擎中去制作,過程復雜,門檻過高。Sora的機制則是一種全新渲染引擎的可能性,以后的內(nèi)容制作方式可以基于提示詞創(chuàng)建3D內(nèi)容?;赟ora,數(shù)字內(nèi)容的生產(chǎn)中,腳本是自然語言,而不是編程語言,大幅降低數(shù)字世界的門檻,每個人都可以去很快速的去建造一個數(shù)字世界。

至于Sora自身的發(fā)展方式,大多從業(yè)者的共識還是,Sora還會被塞到大語言模型GPT-5中,形成類似谷歌Videopoet的產(chǎn)品形態(tài)?!袄碚撋蟂ora應該是放到上下文里面去,基于更長的上下文去做理解推理、生成和交互。語言模型最適合做基礎(chǔ),也最適合做各個模型之間的大一統(tǒng),放到語言模型中才能更好和人交互?!睆埣t春總結(jié)。

文字生成領(lǐng)域沒有太成熟的商業(yè)模式,以至于Open AI也不確定GPT生成的文字應該如何定價。但是視頻生成有非常成熟的商業(yè)模式,一個短視頻能賣多少錢,一部電影/電視劇多少錢,都有對應標準?!癝ora開放后,如果測評好,千億美元收入是可以的。按照市銷率幾十倍來估算,很容易做到萬億市值,我覺得這個事情并不難。”司馬華鵬表示。

“視頻生成這個路徑會給OpenAI會帶來非常大的收入,我預計會超過千億美元?!彼抉R華鵬補充。

回到Sora背后的Open AI,為何它的模型能夠一枝獨秀?

有國內(nèi)AI企業(yè)高管告訴億邦動力,2019年他試圖挖一個OpenAI員工。溝通中他介紹,我們的愿景是幫助人類從碳基走向硅基。OpenAI員工回復,我們的愿景是創(chuàng)造上帝。

03 技術(shù)路線見頂,AI之王的盛世隱憂?

另一方面,相當數(shù)量的AI從業(yè)者看到Sora背后的技術(shù)隱憂。

OpenA遵循“大數(shù)據(jù)、大模型、大算力”的技術(shù)路線,把Scale當作核心價值觀之一:我們相信規(guī)模——在我們的模型、系統(tǒng)、自身、過程以及抱負中——具有魔力。當有疑問時,就擴大規(guī)模,Sora就是這一思路的代表。

王華民認為,很多從業(yè)者都看到了這一技術(shù)路徑的上限,震驚于對Sora一邊倒的贊美。

OpenAI的能力突破來自于率先使用了前人沒用過的數(shù)據(jù),數(shù)據(jù)量可以很快上漲。但大模型需要的數(shù)據(jù)量呈指數(shù)級增長,而全球的高質(zhì)量語言數(shù)據(jù)預計將于2024年用盡?!拔覀儗?shù)據(jù)量太過樂觀,全球數(shù)據(jù)上限會比算力上限更早到來?!?span>王華民分析。

數(shù)據(jù)量達到上限,暴力美學的技術(shù)路線也將達到上限,而機器合成的數(shù)據(jù)會讓模型效果變差,我們的不少訪談對象都認同這一觀點。

高質(zhì)量語言數(shù)據(jù)耗盡速度,來源:科技博主Dwarkesh Patel

Meta首席科學家楊立昆也認為,隨著數(shù)據(jù)量見頂,模型性能會趨于飽和,我們需要其他維度的突破,要依靠科學研究,而不是追求數(shù)據(jù)量的增長?!艾F(xiàn)階段沒有這種技術(shù)能讓AI像嬰兒觀察世界一樣來學習。我們正在研究這個問題,希望得到突破?!?/p>

2023年,楊立昆提出一個新構(gòu)思,即根據(jù)大腦運行機制,建立一個端到端的仿生架構(gòu),包含6個核心模塊:配置器、感知模塊、世界模型、成本模塊、參與者模塊和短期記憶模塊,他基于該理念設(shè)計出V-JEPA“非生成模型”。

這至少代表暴力美學路徑之外的另一條路徑。在王華民看來,“楊立昆在做的事情,我們不敢保證他是不是能做成,但起碼他們團隊對這些事情是有認知的,知道現(xiàn)有的問題在哪。如果你連問題是什么都不知道,那就根本不可能去解決它?!?/p>

楊立昆的自主智能系統(tǒng)的架構(gòu)示意圖,來源《通向自主機器智能的路徑版本0.9.2, 2022-06-27》

技術(shù)發(fā)展是非線性的,一個技術(shù)路線走到一定程度就會停止,之后會有新技術(shù)路線冒出來,超越它,達到更高的程度。“AI也是一樣,Sora這一浪目前看是到不了理解物理,實現(xiàn)AGI的程度,后面會有新技術(shù)出來把它覆蓋掉,最終我們是可以把AGI或者世界模型做出來的?!?span>王華民總結(jié)。

沒人知道OpenAI在想什么,“Sora發(fā)布前,外界并不知道他們在干什么,做到什么程度?!庇袆?chuàng)業(yè)者告訴億邦動力,“OpenAI內(nèi)部已經(jīng)軍事化管理,OpenAI的模型不止Sora一種,但大家并不知道有什么,而且他們在深度使用這些模型?!?/p>

或許在新一輪技術(shù)浪潮到來之前,我們期待Sora能在更多的場景中落地。

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請聯(lián)系原著作權(quán)人。

評論

暫無評論哦,快來評價一下吧!

下載界面新聞

微信公眾號

微博

Sora爆火,AI電商打開新世界的大門

誰會為它買單?

圖片來源:界面新聞 YXX

文|億邦動力網(wǎng) 胡鏷心

編輯|張睿

當主播在直播間講解沖鋒衣時,她可以瞬移般轉(zhuǎn)場到戶外、雪山、漫天風雪中,展示沖鋒衣的使用場景;當主播在在直播間賣連衣裙時,則可以自然地走進不同城市街頭咖啡館,展示日常場景中的穿著效果……

這不是魔法,也不是電影特效,而是文生視頻模型與電商直播的結(jié)合。

OpenAI發(fā)布的Sora將視頻生成能力帶到了新的高度,相應地也帶來了豐富的應用想象空間。

IDC中國研究總監(jiān)盧言霞認為,視頻生成將最先應用于短視頻、廣告、互娛、影視、媒體等領(lǐng)域。當前Sora生成的是1分鐘的視頻,對于行業(yè)已經(jīng)是重大突破,只是下一步何時能生成2分鐘5分鐘以上的視頻,不可預測。

顯然,視頻營銷的生產(chǎn)方式將徹底重構(gòu),無論是將主播和商品置于虛擬場景中,還是為商品創(chuàng)作更豐富的營銷素材,品牌方、營銷公司、視頻平臺、消費者,將欣喜地迎接抑或無奈地接受一個光怪陸離的新世界。

背后的核心問題是:基于大模型的AI電商到底長什么樣子?

最新消息,Sora已于2月26日開放對外申請。目前有兩種方式能用上官方版的Sora,第一,著名藝術(shù)從業(yè)者優(yōu)先;第二,加入Red Teaming(專家社區(qū),為OpenAI 提供風險評估)。同時,字節(jié)跳動剪映旗下的AI創(chuàng)作平臺DreaminaAI也即將上線視頻生成能力,目前已開始接收內(nèi)測申請。

01 從視頻營銷到情感電商,Sora改變了什么?

當下的電商營銷視頻主要包括直播切片和商品展示兩類。比如極睿科技的產(chǎn)品iCut,可以自動從直播中識別商品賣點,剪輯片段、保留語音、生成字幕,還能自動增加配樂、轉(zhuǎn)場特效、標題、側(cè)幕、品牌Logo等元素供品牌分發(fā)。賣家可以一邊直播一邊實時獲得海量短視頻素材。

“我們的工作更多是從1到100生產(chǎn)素材,Sora則可以幫助我們從0到1生產(chǎn)素材?!睒O睿科技CEO武彬說。

武彬介紹,此前電商不能用視頻生成模型,主要原因有三:第一,視頻時長太短,無法進行商品講解。第二,清晰度不夠。第三,可控性較差。

從生成效果來說,Sora彌補了電商營銷素材生成的部分短板。

在Sora展示出的demo中,清晰度和完整度很好,一分鐘也是一個常見的視頻長度,適合賣家去制作并發(fā)布到淘寶逛逛、京東種草秀或抖音上。

Sora可以生成吸引眼球的空鏡,比如蝴蝶在海底飛。

來源:Sora

還可以更換商品背景,配合展示。比如,在直播間講解沖鋒衣的主播,可以流暢地轉(zhuǎn)場到戶外、雪山、漫天風雪中,展示沖鋒衣的使用場景。在直播間賣連衣裙的主播,則可以自然地走進都市街頭咖啡館,在日常場景中講解商品。

來源:Sora

極睿科技要做的則是將此前積累的商品、場景、細節(jié)等行業(yè)知識,組合成合適的Prompt,完成內(nèi)容生產(chǎn)。

同為電商營銷的奧創(chuàng)光年也希望通過AIGC提升原始素材的創(chuàng)建速度,“因為用戶給的素材可能是不夠的,再加上平臺現(xiàn)在的判重機制更嚴格,內(nèi)容是否起量有一定隨機性,需要我們提高視頻生成的質(zhì)量和效率,加快創(chuàng)意方向的探索和迭代,我們也希望把原始素材生成的比例提高?!眾W創(chuàng)光年研發(fā)負責人張紅春指出。

他指出,Sora對prompt的遵循能力與理解能力令人驚訝,視頻補全、穿插過渡都非常自然,不管是3D的、多角度的、一鏡到底的,數(shù)據(jù)cover得很全,因此可以生成更多原始素材,實現(xiàn)單點突破。

從成本角度,AI比攝影師和模特的成本更低。按DALL·E-3生成單張圖片的價格來初步估算(DALL·E-3生成一張1024×1024的照片收費0.04美元),Sora生成1分鐘視頻的成本大約500多元。但因Sora參數(shù)規(guī)模增大,推理效率的優(yōu)化也需要時間,現(xiàn)階段應高于這個預估價。對于大B商家來說,找人實拍1分鐘視頻的成本在1000-2000元,隨著模型可控能力、推理能力的迭代提升,在效果滿足的情況下,成本降低至預估價范圍,AI應用可以更加普及。

但電商營銷要求“貨對版”,不管是細微的色差,還是裝飾品1厘米的誤差,對電商來說都算虛假宣傳。為此,奧創(chuàng)光年通過商品實拍和背景生成分開的方式來生產(chǎn)視頻。“一部分實拍、一部分合成。在商品已固定,展示環(huán)節(jié)已固定的情況下,圍繞商品的所有的元素都可以通過Sora生成?!睆埣t春說。

“Sora解決不了貨不對板的問題,意味著它并不真的理解物理世界,需要人的邏輯來彌補它的短板?!绷璧峡萍糞tyle3D首席科學家王華民認為,“很多人夸大了Sora所代表的智能,它其實用海量數(shù)據(jù),達到了很淺的智能,而且它的邏輯性和對物理世界底層的理解是有瑕疵的,最好由3D和物理仿真技術(shù)來提供整個邏輯關(guān)系,由AI來潤色?,F(xiàn)在的AI更適合扮演Copilot的角色?!?/p>

凌迪科技Style3D的思路是,提供從產(chǎn)品設(shè)計到銷售展示的全鏈路3D+AI工具。

在設(shè)計階段,凌迪科技Style3D提供的Style3D iCreate,幫助設(shè)計師或建模師以AI的發(fā)散性快速獲取創(chuàng)意靈感;

確定款式后,使用Style3D Studio制作成精準的、可用于生產(chǎn)的3D虛擬樣衣;

在上身展示環(huán)節(jié),可以調(diào)用Style3D Studio資源庫中的數(shù)字人模特,模特的表情、姿勢、發(fā)型、配飾及背景都可進行調(diào)整;

基于3D虛擬樣衣,結(jié)合AI優(yōu)化,還可以一鍵生成電商上新圖及詳情頁。整個過程最快僅需24小時。

“我們更偏向于做AI Agent,輔助從業(yè)者做好每一步。至于Sora所代表的視頻生成,對我們肯定有幫助,但目前我想不出視頻生成對設(shè)計師作用有多大。”王華民莞爾。

圖片來源:Style3D

武彬認為,Sora更多是能力上的補充,并不能改變to B的產(chǎn)品邏輯。

電商營銷素材的制作包括三個環(huán)節(jié):素材整理,智能生成,多渠道分發(fā)。Sora在視頻生成環(huán)節(jié)起作用,但在素材整理和渠道分發(fā)上,還是使用原有工具?!皩τ谖覀儊碚f,模型是什么樣,智能到什么程度不重要,重要的是能夠?qū)崿F(xiàn)目標,那就是一個好的AI?!蔽浔虮硎尽?/p>

Sora剛發(fā)布了demo,硅基智能已經(jīng)開始訓練demo中的數(shù)字人開口說話。

硅基智能的業(yè)務是為大V制造數(shù)字人分身直播,并且為MCN機構(gòu)提供數(shù)字人主播帶貨。那么Sora將如何改變直播帶貨?

在硅基智能CEO司馬華鵬看來,下一代電商不一定是貨架電商形式,“不能因為你給馬車加了一盞電燈,就認為這是電氣化?!?/p>

他提到一家以情感、陪伴、信任為中心的AI企業(yè)——Character AI,使用方式類似于鋼鐵俠的智能助手Javis,鋼鐵俠問Javis:“今天跟女朋友第一次約會,給我推薦一套西裝。”Javis提供備選產(chǎn)品,確定后就安排送貨上門。在溝通中完成購買,相當于“情感電商”。

“我有一個非常中立、非常愛我、非常替我考慮的AI助理,我今天問他晚上吃什么,它會基于我的個人信息、喜好、體質(zhì)進行推薦,我覺得這有可能是新的電商,每個人接下來都會有個助理,這個事情會會對所有商業(yè)產(chǎn)生非常大的顛覆?!彼抉R華鵬如是說。

而數(shù)字人就是這個AI助理的載體,目前,硅基智能不僅將數(shù)字人克隆技術(shù)從8000元降到4元,而且Sora能生成場景和數(shù)字人原型,結(jié)合硅基的數(shù)字人訓練技術(shù),給內(nèi)容產(chǎn)業(yè)帶來的沖擊是巨大的。此外硅基智能試水數(shù)字人短劇拍攝,通過數(shù)字人+AI工具,成本降低10倍。

02 視頻生成群雄競出,Open AI緣何一枝獨秀?

2024年的視頻生成領(lǐng)域熱鬧非凡。1月4日,阿里云的“全民舞王”(Animate Anyone模型)橫掃社交媒體。1月11日,字節(jié)跳動發(fā)布文生視頻模型MagicVideo-V2,支持生成4K、8K分辨率,以及不同繪畫風格的視頻。1月17日,騰訊AI實驗室發(fā)布了視頻生成模型VideoCrafter2。同一天,來自百度的團隊發(fā)布了視頻生成模型UniVG。

在技術(shù)架構(gòu)上,Sora相較于當下的視頻生成模型,至少領(lǐng)先一代。

張紅春介紹,像Pika、Runway,animatediff系列等視頻生成模型,為充分地利用image diffusion的預訓練權(quán)重和知識,都是在單幀圖片的spatial模塊后面,加一個時序(temporal)模塊,來學習幀與幀之間的連貫性。這種通過空間和時間解耦的方式來建模,并非最優(yōu)的視頻表征和建模方法。

相比之下,不論是Google的W.A.L.T和Sroa,都在整個pipeline各模塊上對空間(spatiotemporal)統(tǒng)一建模,同時借鑒DiT的思想,把unet替換為transformer,提升模型scaling up的能力;相對W.A.L.T,Sora在數(shù)據(jù)質(zhì)量、數(shù)據(jù)多樣性、多尺寸多分辨率等方面,又做了很多工作,多因素的累加讓最終效果一騎絕塵。

來源:Sora技術(shù)文檔

從大語言模型到多模態(tài)大模型,核心難點是把各個模態(tài)轉(zhuǎn)成token喂到語言模型中去。張紅春介紹,文本天然是token化的,圖片和視頻也有壓縮方式進行token化,比如谷歌的MAGVIT;音頻領(lǐng)域,谷歌也推出音頻生成技術(shù)做底層的音頻token化。所以谷歌和OpenAI都儲備了音頻、視頻、圖片、文本的token化技術(shù)。

但是國內(nèi)目前談論較多的是文本和圖片的token化,音頻、視頻的token化能力還不多見。

來源:Google

XR創(chuàng)業(yè)者謝明炫認為,Sora展示了一種實時生成數(shù)字內(nèi)容和虛擬世界的可能性,這讓虛擬空間會成為新一代的大眾媒介,取代短視頻平臺。

元宇宙的難點在于數(shù)字內(nèi)容的生產(chǎn)效率太低——先要3D建模、貼圖,再到游戲引擎中去制作,過程復雜,門檻過高。Sora的機制則是一種全新渲染引擎的可能性,以后的內(nèi)容制作方式可以基于提示詞創(chuàng)建3D內(nèi)容?;赟ora,數(shù)字內(nèi)容的生產(chǎn)中,腳本是自然語言,而不是編程語言,大幅降低數(shù)字世界的門檻,每個人都可以去很快速的去建造一個數(shù)字世界。

至于Sora自身的發(fā)展方式,大多從業(yè)者的共識還是,Sora還會被塞到大語言模型GPT-5中,形成類似谷歌Videopoet的產(chǎn)品形態(tài)?!袄碚撋蟂ora應該是放到上下文里面去,基于更長的上下文去做理解推理、生成和交互。語言模型最適合做基礎(chǔ),也最適合做各個模型之間的大一統(tǒng),放到語言模型中才能更好和人交互?!睆埣t春總結(jié)。

文字生成領(lǐng)域沒有太成熟的商業(yè)模式,以至于Open AI也不確定GPT生成的文字應該如何定價。但是視頻生成有非常成熟的商業(yè)模式,一個短視頻能賣多少錢,一部電影/電視劇多少錢,都有對應標準?!癝ora開放后,如果測評好,千億美元收入是可以的。按照市銷率幾十倍來估算,很容易做到萬億市值,我覺得這個事情并不難。”司馬華鵬表示。

“視頻生成這個路徑會給OpenAI會帶來非常大的收入,我預計會超過千億美元?!彼抉R華鵬補充。

回到Sora背后的Open AI,為何它的模型能夠一枝獨秀?

有國內(nèi)AI企業(yè)高管告訴億邦動力,2019年他試圖挖一個OpenAI員工。溝通中他介紹,我們的愿景是幫助人類從碳基走向硅基。OpenAI員工回復,我們的愿景是創(chuàng)造上帝。

03 技術(shù)路線見頂,AI之王的盛世隱憂?

另一方面,相當數(shù)量的AI從業(yè)者看到Sora背后的技術(shù)隱憂。

OpenA遵循“大數(shù)據(jù)、大模型、大算力”的技術(shù)路線,把Scale當作核心價值觀之一:我們相信規(guī)?!谖覀兊哪P?、系統(tǒng)、自身、過程以及抱負中——具有魔力。當有疑問時,就擴大規(guī)模,Sora就是這一思路的代表。

王華民認為,很多從業(yè)者都看到了這一技術(shù)路徑的上限,震驚于對Sora一邊倒的贊美。

OpenAI的能力突破來自于率先使用了前人沒用過的數(shù)據(jù),數(shù)據(jù)量可以很快上漲。但大模型需要的數(shù)據(jù)量呈指數(shù)級增長,而全球的高質(zhì)量語言數(shù)據(jù)預計將于2024年用盡?!拔覀儗?shù)據(jù)量太過樂觀,全球數(shù)據(jù)上限會比算力上限更早到來?!?span>王華民分析。

數(shù)據(jù)量達到上限,暴力美學的技術(shù)路線也將達到上限,而機器合成的數(shù)據(jù)會讓模型效果變差,我們的不少訪談對象都認同這一觀點。

高質(zhì)量語言數(shù)據(jù)耗盡速度,來源:科技博主Dwarkesh Patel

Meta首席科學家楊立昆也認為,隨著數(shù)據(jù)量見頂,模型性能會趨于飽和,我們需要其他維度的突破,要依靠科學研究,而不是追求數(shù)據(jù)量的增長?!艾F(xiàn)階段沒有這種技術(shù)能讓AI像嬰兒觀察世界一樣來學習。我們正在研究這個問題,希望得到突破。”

2023年,楊立昆提出一個新構(gòu)思,即根據(jù)大腦運行機制,建立一個端到端的仿生架構(gòu),包含6個核心模塊:配置器、感知模塊、世界模型、成本模塊、參與者模塊和短期記憶模塊,他基于該理念設(shè)計出V-JEPA“非生成模型”。

這至少代表暴力美學路徑之外的另一條路徑。在王華民看來,“楊立昆在做的事情,我們不敢保證他是不是能做成,但起碼他們團隊對這些事情是有認知的,知道現(xiàn)有的問題在哪。如果你連問題是什么都不知道,那就根本不可能去解決它?!?/p>

楊立昆的自主智能系統(tǒng)的架構(gòu)示意圖,來源《通向自主機器智能的路徑版本0.9.2, 2022-06-27》

技術(shù)發(fā)展是非線性的,一個技術(shù)路線走到一定程度就會停止,之后會有新技術(shù)路線冒出來,超越它,達到更高的程度?!癆I也是一樣,Sora這一浪目前看是到不了理解物理,實現(xiàn)AGI的程度,后面會有新技術(shù)出來把它覆蓋掉,最終我們是可以把AGI或者世界模型做出來的?!?span>王華民總結(jié)。

沒人知道OpenAI在想什么,“Sora發(fā)布前,外界并不知道他們在干什么,做到什么程度?!庇袆?chuàng)業(yè)者告訴億邦動力,“OpenAI內(nèi)部已經(jīng)軍事化管理,OpenAI的模型不止Sora一種,但大家并不知道有什么,而且他們在深度使用這些模型?!?/p>

或許在新一輪技術(shù)浪潮到來之前,我們期待Sora能在更多的場景中落地。

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請聯(lián)系原著作權(quán)人。