正在閱讀:

【獨家】字節(jié)即夢將在Sora發(fā)布前上線視頻生成模型PixelDance

掃一掃下載界面新聞APP

【獨家】字節(jié)即夢將在Sora發(fā)布前上線視頻生成模型PixelDance

PixelDance正式面向公眾開放,或意味著其在技術上已較為成熟。

圖片來源:界面

界面新聞記者 | 肖芳

11月14日,界面新聞從多個知情人士處獲悉,字節(jié)跳動視頻生成模型PixelDance將很快在即夢AI上線,面向公眾開放使用,具體的上線時間將會早于Sora正式發(fā)布的時間。

Runway聯(lián)合創(chuàng)始人Cristóbal Valenzuela曾在11月9日稱,OpenAI計劃在大約兩周內(nèi)發(fā)布Sora。Cristóbal Valenzuela曝出該消息之前,OpenAI公布了一條聯(lián)合倫敦藝術家Jon Uriarte創(chuàng)作的短片,似乎是在為Sora的正式發(fā)布預熱。

這意味著,PixelDance很可能會在最近幾天內(nèi)發(fā)布。界面新聞向字節(jié)跳動方面求證此事,截至發(fā)稿,對方暫未回應。

字節(jié)跳動在大模型領域一直動作頻頻。9月24日,該公司一口氣發(fā)布了豆包視頻生成PixelDance、豆包視頻生成Seaweed兩款大模型,并通過即夢AI和火山引擎面向創(chuàng)作者和企業(yè)客戶小范圍邀測。據(jù)知情人士透露,PixelDance除了即將在即夢AI上線之外,還將于近期在豆包開啟內(nèi)測。

從其此前展示的視頻生成效果來看,豆包視頻生成模型無論是語義理解能力,多個主體運動的復雜交互畫面,還是多鏡頭切換的內(nèi)容一致性方面,都表現(xiàn)出不錯的效果。

其中一個視頻輸入是,“特寫?個??的面部,有些??,戴上了?副墨鏡,這時?個男?從畫?右側?進來抱住了她?!币曨l畫面顯示,其不僅遵循了這個復雜指令,還能夠按指令的時序去完成連續(xù)的動作,兩個主體之間也能比較順暢地進行交互,且人物表情較為準確傳達了指令所描述的情緒。

據(jù)界面新聞了解,人物動作是當下視頻生成模型共同面臨的挑戰(zhàn),即使是Sora在人物動作上做得也不夠好。OpenAI在今年年初公布的視頻樣片顯示,Sora還是以運鏡和基礎動作為主,復雜動作較差,但豆包視頻模型生成公布的樣片在動作上有了明顯提升。

一位多模態(tài)大模型科學家對比PixelDance和Sora公布的樣片后告訴界面新聞,如果樣片效果保真的話,字節(jié)跳動的視頻生成大模型確實是相當不錯。從學術角度或者模型能力角度來說,其肯定達到了Sora的水平,尤其在人物動作上非常棒。

火山引擎總裁譚待此前也透露,豆包視頻模型經(jīng)過剪映、即夢AI等業(yè)務場景的持續(xù)打磨和迭代,優(yōu)化了Transformer結構,大幅提升了豆包視頻生成的泛化能力。同時,豆包視頻生成模型基于DiT架構,讓視頻在大動態(tài)與運鏡中自由切換,擁有變焦、環(huán)繞、平搖、縮放、目標跟隨等多鏡頭語言能力。在鏡頭切換時可同時保持主體、風格、氛圍的一致性是豆包視頻生成模型的技術創(chuàng)新所在。

而從OpenAI近期公布的最新短片來看,Sora也在著重提升其在人物動作上的能力。該短片處理的是多人坐在椅子上飛行的場景,無論是照片質(zhì)量還是細節(jié)處理上,都更接近照片的水準,人物動作也更加自然。

若PixelDance正式面向公眾開放,或意味著其在技術上已較為成熟。對于豆包視頻生成模型的發(fā)布節(jié)奏,譚待曾透露,豆包系列大模型并不是按照某個固定的時間計劃發(fā)布的,有好東西就盡快推出。

“我們的邏輯是推出的產(chǎn)品要質(zhì)量可靠,有充分的用戶反饋,不能是半成品。就像視頻和語言模型發(fā)布一樣,不一定要搶第一,要推出成熟的產(chǎn)品?!弊T待說。

未經(jīng)正式授權嚴禁轉載本文,侵權必究。

評論

暫無評論哦,快來評價一下吧!

下載界面新聞

微信公眾號

微博

【獨家】字節(jié)即夢將在Sora發(fā)布前上線視頻生成模型PixelDance

PixelDance正式面向公眾開放,或意味著其在技術上已較為成熟。

圖片來源:界面

界面新聞記者 | 肖芳

11月14日,界面新聞從多個知情人士處獲悉,字節(jié)跳動視頻生成模型PixelDance將很快在即夢AI上線,面向公眾開放使用,具體的上線時間將會早于Sora正式發(fā)布的時間。

Runway聯(lián)合創(chuàng)始人Cristóbal Valenzuela曾在11月9日稱,OpenAI計劃在大約兩周內(nèi)發(fā)布Sora。Cristóbal Valenzuela曝出該消息之前,OpenAI公布了一條聯(lián)合倫敦藝術家Jon Uriarte創(chuàng)作的短片,似乎是在為Sora的正式發(fā)布預熱。

這意味著,PixelDance很可能會在最近幾天內(nèi)發(fā)布。界面新聞向字節(jié)跳動方面求證此事,截至發(fā)稿,對方暫未回應。

字節(jié)跳動在大模型領域一直動作頻頻。9月24日,該公司一口氣發(fā)布了豆包視頻生成PixelDance、豆包視頻生成Seaweed兩款大模型,并通過即夢AI和火山引擎面向創(chuàng)作者和企業(yè)客戶小范圍邀測。據(jù)知情人士透露,PixelDance除了即將在即夢AI上線之外,還將于近期在豆包開啟內(nèi)測。

從其此前展示的視頻生成效果來看,豆包視頻生成模型無論是語義理解能力,多個主體運動的復雜交互畫面,還是多鏡頭切換的內(nèi)容一致性方面,都表現(xiàn)出不錯的效果。

其中一個視頻輸入是,“特寫?個??的面部,有些??,戴上了?副墨鏡,這時?個男?從畫?右側?進來抱住了她?!币曨l畫面顯示,其不僅遵循了這個復雜指令,還能夠按指令的時序去完成連續(xù)的動作,兩個主體之間也能比較順暢地進行交互,且人物表情較為準確傳達了指令所描述的情緒。

據(jù)界面新聞了解,人物動作是當下視頻生成模型共同面臨的挑戰(zhàn),即使是Sora在人物動作上做得也不夠好。OpenAI在今年年初公布的視頻樣片顯示,Sora還是以運鏡和基礎動作為主,復雜動作較差,但豆包視頻模型生成公布的樣片在動作上有了明顯提升。

一位多模態(tài)大模型科學家對比PixelDance和Sora公布的樣片后告訴界面新聞,如果樣片效果保真的話,字節(jié)跳動的視頻生成大模型確實是相當不錯。從學術角度或者模型能力角度來說,其肯定達到了Sora的水平,尤其在人物動作上非常棒。

火山引擎總裁譚待此前也透露,豆包視頻模型經(jīng)過剪映、即夢AI等業(yè)務場景的持續(xù)打磨和迭代,優(yōu)化了Transformer結構,大幅提升了豆包視頻生成的泛化能力。同時,豆包視頻生成模型基于DiT架構,讓視頻在大動態(tài)與運鏡中自由切換,擁有變焦、環(huán)繞、平搖、縮放、目標跟隨等多鏡頭語言能力。在鏡頭切換時可同時保持主體、風格、氛圍的一致性是豆包視頻生成模型的技術創(chuàng)新所在。

而從OpenAI近期公布的最新短片來看,Sora也在著重提升其在人物動作上的能力。該短片處理的是多人坐在椅子上飛行的場景,無論是照片質(zhì)量還是細節(jié)處理上,都更接近照片的水準,人物動作也更加自然。

若PixelDance正式面向公眾開放,或意味著其在技術上已較為成熟。對于豆包視頻生成模型的發(fā)布節(jié)奏,譚待曾透露,豆包系列大模型并不是按照某個固定的時間計劃發(fā)布的,有好東西就盡快推出。

“我們的邏輯是推出的產(chǎn)品要質(zhì)量可靠,有充分的用戶反饋,不能是半成品。就像視頻和語言模型發(fā)布一樣,不一定要搶第一,要推出成熟的產(chǎn)品?!弊T待說。

未經(jīng)正式授權嚴禁轉載本文,侵權必究。