正在閱讀:

圍攻光明頂:Sora效應(yīng)下的AI視頻生成競(jìng)賽

掃一掃下載界面新聞APP

圍攻光明頂:Sora效應(yīng)下的AI視頻生成競(jìng)賽

Sora橫空出世,同行們?cè)趺礃恿耍?/p>

圖片來(lái)源:界面新聞 YXX

文|新火種 一號(hào)

編輯|美美

Sora的出現(xiàn),讓AI視頻生成領(lǐng)域真正“活”了起來(lái)。

2024年2月,OpenAI發(fā)布Sora,在生成式AI領(lǐng)域扔下了重磅炸彈。

盡管在去年,Runway、Pika以及Stable Video等就已經(jīng)涉足AI視頻生成領(lǐng)域,并且也曾經(jīng)帶給人們很多驚艷的時(shí)刻,甚至讓馬斯克都直呼,2024會(huì)是AI視頻生成的元年。就在大家還在期待著這些公司會(huì)在2024年帶給大家更多驚喜的時(shí)候,Sora放出的Demo,60秒、動(dòng)作流暢,涂抹感不強(qiáng),憑借一己之力抬高了視頻生成領(lǐng)域的標(biāo)準(zhǔn),對(duì)于之前只能生成幾秒鐘的AI視頻來(lái)說(shuō),簡(jiǎn)直就是降維打擊。

因此,不僅在社交媒體上人們對(duì)Sora贊不絕口,在官方媒體以及一眾企業(yè)家眼中,Sora也成了AI界中明星般的存在。盡管已經(jīng)過(guò)去了一個(gè)月,光是靠著在TikTok上更新Sora生成的視頻,OpenAI剛開(kāi)通不久的賬號(hào)就已經(jīng)漲了數(shù)十萬(wàn)粉。這樣的熱度,讓不少的公司都開(kāi)始想著如何與Sora競(jìng)爭(zhēng),如何復(fù)現(xiàn)Sora。

AI視頻生成的戰(zhàn)場(chǎng),因?yàn)镾ora,開(kāi)始真正熱了起來(lái)。

Sora橫空出世,同行們?cè)趺礃恿耍?/h4>

在Sora橫空出世后,因?yàn)锳I繪畫(huà)開(kāi)源模型Stable Diffusion而被人們所熟知的Stability AI率先帶頭沖鋒,將在去年展現(xiàn)過(guò)的Stable Video拿出來(lái)進(jìn)行了公測(cè)。在SV官網(wǎng)上,提供了圖像和文字生成兩個(gè)選擇,在輸入提示詞之后,可以生成四張圖像供人選擇,并且還能選擇鏡頭運(yùn)動(dòng)的方式,但目前還只能生成4秒鐘的視頻,不少人實(shí)際體驗(yàn)下來(lái),覺(jué)得差強(qiáng)人意。

而要說(shuō)去年炙手可熱的兩大AI視頻生成工具,那一定是Runway的Gen 2以及初創(chuàng)公司Pika。在Sora發(fā)布之前,Runway和Pika都被認(rèn)為是視頻生成領(lǐng)域上的佼佼者,而在Sora展示了Demo之后,很多人認(rèn)為,效果已經(jīng)能夠輕松吊打這兩家新興獨(dú)角獸公司了,不少人開(kāi)始擔(dān)憂(yōu)這些創(chuàng)業(yè)者的命運(yùn)。

不過(guò),Pika創(chuàng)始人,華人女學(xué)霸郭文景卻并不心灰意冷,她在采訪中回應(yīng)稱(chēng),“我們覺(jué)得這是一個(gè)很振奮人心的消息,我們已經(jīng)在籌備直接沖,將直接對(duì)標(biāo)Sora?!倍聦?shí)上,Pika也開(kāi)始在最近幾周開(kāi)始了頻繁的更新,但并不是和Sora硬剛。Pika先是更新了讓視頻中的人物能夠根據(jù)輸入的音頻實(shí)現(xiàn)對(duì)口型的Lip Syne功能,主打一個(gè)電影臺(tái)詞還是電影最重要的部分。隨后又更新了視頻音效生成的功能,畢竟有聲電影比無(wú)聲電影還是要精彩得多的。

而Runway則是自去年P(guān)ika刷屏之后,就說(shuō)下一步的研究方向是世界模型,因此到現(xiàn)在為止,除了更新了一下用于控制視頻生成效果的運(yùn)動(dòng)筆刷,就沒(méi)有什么大的消息了。

此外,還有一家來(lái)自以色列的公司LTX Studio另辟蹊徑,上線(xiàn)了一個(gè)電影制作平臺(tái),直接把視頻生成、編輯、剪輯還有旁白一條龍全都搞定了。

國(guó)內(nèi)企業(yè)也在暗暗追趕Sora

除了國(guó)外AI視頻生成領(lǐng)域原本的佼佼者開(kāi)始對(duì)Sora奮起直追外,飽受吐槽的國(guó)產(chǎn)AI實(shí)際上也并沒(méi)有讓人失望。

首先是國(guó)內(nèi)大廠,與Pika一樣,阿里巴巴同樣選擇了音頻和視頻結(jié)合的賽道來(lái)進(jìn)行“彎道超車(chē)”,推出了一個(gè)基于音頻生成視頻的模型EMO,只要上傳一張照片和一段音頻,就能讓照片里的人開(kāi)口說(shuō)話(huà)、唱歌,并且不限時(shí)長(zhǎng)。像什么小李子版說(shuō)唱,蒙娜麗莎開(kāi)口說(shuō)話(huà)以及奧黛麗赫本演講等等都不在話(huà)下。

Sora Demo視頻中的這個(gè)東京女郎,也成為了能說(shuō)會(huì)道的女士。而且效果也比PIka強(qiáng)不少,也因此在社交媒體上刷了一波屏,該說(shuō)不說(shuō),大廠不愧是大廠。

而字節(jié)跳動(dòng),則是早在Sora發(fā)布之前,就已經(jīng)展現(xiàn)了一款名為Boximator的視頻生成模型。它能夠精準(zhǔn)空時(shí)視頻中的物體,用戶(hù)無(wú)需編寫(xiě)復(fù)雜的文本提示詞,直接在參考圖像中框選對(duì)象,然后添加一些方框和線(xiàn)條來(lái)定義目標(biāo)的結(jié)束位置或跨幀的整個(gè)運(yùn)動(dòng)路徑,盡管目前產(chǎn)品還未落地,但也體現(xiàn)了在視頻生成上的一大創(chuàng)意。

除了大廠,在今年3月5日的超訊通信X七火山大會(huì)上,一家名為七火山的公司推出了一個(gè)融合了Diffusion和Transformer的AI視頻生成模型Etna,實(shí)現(xiàn)了15秒4K 60幀的超逼真視頻生成效果,并且同樣具備一定的時(shí)空理解能力,可以說(shuō)是當(dāng)前國(guó)內(nèi)最接近Sora的模型之一了。

Sora成功激活了AI視頻市場(chǎng)

除了國(guó)內(nèi)外不同企業(yè)的追趕,Sora的出現(xiàn)不僅給同是AI視頻生成領(lǐng)域的創(chuàng)業(yè)公司帶來(lái)了壓力,也同樣給他們帶來(lái)了希望。

早在Sora展現(xiàn)Demo之前,國(guó)內(nèi)就有一家名為智子引擎的公司在快1年以前提出了基于Transformer的Video統(tǒng)一生成框架,他們拿著這篇論文十分費(fèi)勁地為投資人、求知者講了大半年,卻屢屢碰壁。而如今因?yàn)镾ora的火爆,他們也收到了不同投資人的電話(huà),想要學(xué)習(xí)Sora、學(xué)習(xí)他們的論文成果。

同樣因?yàn)镾ora而收到關(guān)注的,還有一家名為愛(ài)詩(shī)科技的公司。它們的目標(biāo)是3-6個(gè)月趕超Sora。它由字節(jié)跳動(dòng)前視覺(jué)技術(shù)負(fù)責(zé)人王長(zhǎng)虎于2023年4月創(chuàng)辦,他們致力于打造全球頂尖的AI視頻生成模型及應(yīng)用。如今它已經(jīng)完成了億級(jí)A1輪融資,資金將主要用于底層視頻大模型的技術(shù)研發(fā)和團(tuán)隊(duì)搭建等方面。

企業(yè)之外,高校也并未落隊(duì)。北大團(tuán)隊(duì)發(fā)起了一項(xiàng)Sora復(fù)現(xiàn)計(jì)劃——Open Sora,希望集結(jié)開(kāi)源社區(qū)的力量,盡可能完成對(duì)Sora的復(fù)現(xiàn)。這個(gè)初始團(tuán)隊(duì)一共有13人:帶隊(duì)的是北大信息工程學(xué)院助理教授、博導(dǎo)袁粒和北大計(jì)算機(jī)學(xué)院教授、博導(dǎo)田永鴻等人。消息一經(jīng)公布,就有北大校友兼AnimateDiff貢獻(xiàn)者等人進(jìn)行了回應(yīng),究竟這個(gè)“國(guó)產(chǎn)版Sora”的新挑戰(zhàn)者能否成功實(shí)現(xiàn)復(fù)現(xiàn),我們拭目以待。

顯然Sora的誕生已經(jīng)成功激活了AI視頻生成領(lǐng)域,相信一部完全由AI生成的院線(xiàn)電影可能會(huì)比我們想象中更快到來(lái)。

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請(qǐng)聯(lián)系原著作權(quán)人。

OpenAI

  • 強(qiáng)達(dá)電路年交付產(chǎn)品型號(hào)近10萬(wàn)款,業(yè)內(nèi)領(lǐng)先!
  • OpenAI和微軟據(jù)悉就轉(zhuǎn)型后的股權(quán)分割聘請(qǐng)投資銀行

評(píng)論

暫無(wú)評(píng)論哦,快來(lái)評(píng)價(jià)一下吧!

下載界面新聞

微信公眾號(hào)

微博

圍攻光明頂:Sora效應(yīng)下的AI視頻生成競(jìng)賽

Sora橫空出世,同行們?cè)趺礃恿耍?/p>

圖片來(lái)源:界面新聞 YXX

文|新火種 一號(hào)

編輯|美美

Sora的出現(xiàn),讓AI視頻生成領(lǐng)域真正“活”了起來(lái)。

2024年2月,OpenAI發(fā)布Sora,在生成式AI領(lǐng)域扔下了重磅炸彈。

盡管在去年,Runway、Pika以及Stable Video等就已經(jīng)涉足AI視頻生成領(lǐng)域,并且也曾經(jīng)帶給人們很多驚艷的時(shí)刻,甚至讓馬斯克都直呼,2024會(huì)是AI視頻生成的元年。就在大家還在期待著這些公司會(huì)在2024年帶給大家更多驚喜的時(shí)候,Sora放出的Demo,60秒、動(dòng)作流暢,涂抹感不強(qiáng),憑借一己之力抬高了視頻生成領(lǐng)域的標(biāo)準(zhǔn),對(duì)于之前只能生成幾秒鐘的AI視頻來(lái)說(shuō),簡(jiǎn)直就是降維打擊。

因此,不僅在社交媒體上人們對(duì)Sora贊不絕口,在官方媒體以及一眾企業(yè)家眼中,Sora也成了AI界中明星般的存在。盡管已經(jīng)過(guò)去了一個(gè)月,光是靠著在TikTok上更新Sora生成的視頻,OpenAI剛開(kāi)通不久的賬號(hào)就已經(jīng)漲了數(shù)十萬(wàn)粉。這樣的熱度,讓不少的公司都開(kāi)始想著如何與Sora競(jìng)爭(zhēng),如何復(fù)現(xiàn)Sora。

AI視頻生成的戰(zhàn)場(chǎng),因?yàn)镾ora,開(kāi)始真正熱了起來(lái)。

Sora橫空出世,同行們?cè)趺礃恿耍?/h4>

在Sora橫空出世后,因?yàn)锳I繪畫(huà)開(kāi)源模型Stable Diffusion而被人們所熟知的Stability AI率先帶頭沖鋒,將在去年展現(xiàn)過(guò)的Stable Video拿出來(lái)進(jìn)行了公測(cè)。在SV官網(wǎng)上,提供了圖像和文字生成兩個(gè)選擇,在輸入提示詞之后,可以生成四張圖像供人選擇,并且還能選擇鏡頭運(yùn)動(dòng)的方式,但目前還只能生成4秒鐘的視頻,不少人實(shí)際體驗(yàn)下來(lái),覺(jué)得差強(qiáng)人意。

而要說(shuō)去年炙手可熱的兩大AI視頻生成工具,那一定是Runway的Gen 2以及初創(chuàng)公司Pika。在Sora發(fā)布之前,Runway和Pika都被認(rèn)為是視頻生成領(lǐng)域上的佼佼者,而在Sora展示了Demo之后,很多人認(rèn)為,效果已經(jīng)能夠輕松吊打這兩家新興獨(dú)角獸公司了,不少人開(kāi)始擔(dān)憂(yōu)這些創(chuàng)業(yè)者的命運(yùn)。

不過(guò),Pika創(chuàng)始人,華人女學(xué)霸郭文景卻并不心灰意冷,她在采訪中回應(yīng)稱(chēng),“我們覺(jué)得這是一個(gè)很振奮人心的消息,我們已經(jīng)在籌備直接沖,將直接對(duì)標(biāo)Sora?!倍聦?shí)上,Pika也開(kāi)始在最近幾周開(kāi)始了頻繁的更新,但并不是和Sora硬剛。Pika先是更新了讓視頻中的人物能夠根據(jù)輸入的音頻實(shí)現(xiàn)對(duì)口型的Lip Syne功能,主打一個(gè)電影臺(tái)詞還是電影最重要的部分。隨后又更新了視頻音效生成的功能,畢竟有聲電影比無(wú)聲電影還是要精彩得多的。

而Runway則是自去年P(guān)ika刷屏之后,就說(shuō)下一步的研究方向是世界模型,因此到現(xiàn)在為止,除了更新了一下用于控制視頻生成效果的運(yùn)動(dòng)筆刷,就沒(méi)有什么大的消息了。

此外,還有一家來(lái)自以色列的公司LTX Studio另辟蹊徑,上線(xiàn)了一個(gè)電影制作平臺(tái),直接把視頻生成、編輯、剪輯還有旁白一條龍全都搞定了。

國(guó)內(nèi)企業(yè)也在暗暗追趕Sora

除了國(guó)外AI視頻生成領(lǐng)域原本的佼佼者開(kāi)始對(duì)Sora奮起直追外,飽受吐槽的國(guó)產(chǎn)AI實(shí)際上也并沒(méi)有讓人失望。

首先是國(guó)內(nèi)大廠,與Pika一樣,阿里巴巴同樣選擇了音頻和視頻結(jié)合的賽道來(lái)進(jìn)行“彎道超車(chē)”,推出了一個(gè)基于音頻生成視頻的模型EMO,只要上傳一張照片和一段音頻,就能讓照片里的人開(kāi)口說(shuō)話(huà)、唱歌,并且不限時(shí)長(zhǎng)。像什么小李子版說(shuō)唱,蒙娜麗莎開(kāi)口說(shuō)話(huà)以及奧黛麗赫本演講等等都不在話(huà)下。

Sora Demo視頻中的這個(gè)東京女郎,也成為了能說(shuō)會(huì)道的女士。而且效果也比PIka強(qiáng)不少,也因此在社交媒體上刷了一波屏,該說(shuō)不說(shuō),大廠不愧是大廠。

而字節(jié)跳動(dòng),則是早在Sora發(fā)布之前,就已經(jīng)展現(xiàn)了一款名為Boximator的視頻生成模型。它能夠精準(zhǔn)空時(shí)視頻中的物體,用戶(hù)無(wú)需編寫(xiě)復(fù)雜的文本提示詞,直接在參考圖像中框選對(duì)象,然后添加一些方框和線(xiàn)條來(lái)定義目標(biāo)的結(jié)束位置或跨幀的整個(gè)運(yùn)動(dòng)路徑,盡管目前產(chǎn)品還未落地,但也體現(xiàn)了在視頻生成上的一大創(chuàng)意。

除了大廠,在今年3月5日的超訊通信X七火山大會(huì)上,一家名為七火山的公司推出了一個(gè)融合了Diffusion和Transformer的AI視頻生成模型Etna,實(shí)現(xiàn)了15秒4K 60幀的超逼真視頻生成效果,并且同樣具備一定的時(shí)空理解能力,可以說(shuō)是當(dāng)前國(guó)內(nèi)最接近Sora的模型之一了。

Sora成功激活了AI視頻市場(chǎng)

除了國(guó)內(nèi)外不同企業(yè)的追趕,Sora的出現(xiàn)不僅給同是AI視頻生成領(lǐng)域的創(chuàng)業(yè)公司帶來(lái)了壓力,也同樣給他們帶來(lái)了希望。

早在Sora展現(xiàn)Demo之前,國(guó)內(nèi)就有一家名為智子引擎的公司在快1年以前提出了基于Transformer的Video統(tǒng)一生成框架,他們拿著這篇論文十分費(fèi)勁地為投資人、求知者講了大半年,卻屢屢碰壁。而如今因?yàn)镾ora的火爆,他們也收到了不同投資人的電話(huà),想要學(xué)習(xí)Sora、學(xué)習(xí)他們的論文成果。

同樣因?yàn)镾ora而收到關(guān)注的,還有一家名為愛(ài)詩(shī)科技的公司。它們的目標(biāo)是3-6個(gè)月趕超Sora。它由字節(jié)跳動(dòng)前視覺(jué)技術(shù)負(fù)責(zé)人王長(zhǎng)虎于2023年4月創(chuàng)辦,他們致力于打造全球頂尖的AI視頻生成模型及應(yīng)用。如今它已經(jīng)完成了億級(jí)A1輪融資,資金將主要用于底層視頻大模型的技術(shù)研發(fā)和團(tuán)隊(duì)搭建等方面。

企業(yè)之外,高校也并未落隊(duì)。北大團(tuán)隊(duì)發(fā)起了一項(xiàng)Sora復(fù)現(xiàn)計(jì)劃——Open Sora,希望集結(jié)開(kāi)源社區(qū)的力量,盡可能完成對(duì)Sora的復(fù)現(xiàn)。這個(gè)初始團(tuán)隊(duì)一共有13人:帶隊(duì)的是北大信息工程學(xué)院助理教授、博導(dǎo)袁粒和北大計(jì)算機(jī)學(xué)院教授、博導(dǎo)田永鴻等人。消息一經(jīng)公布,就有北大校友兼AnimateDiff貢獻(xiàn)者等人進(jìn)行了回應(yīng),究竟這個(gè)“國(guó)產(chǎn)版Sora”的新挑戰(zhàn)者能否成功實(shí)現(xiàn)復(fù)現(xiàn),我們拭目以待。

顯然Sora的誕生已經(jīng)成功激活了AI視頻生成領(lǐng)域,相信一部完全由AI生成的院線(xiàn)電影可能會(huì)比我們想象中更快到來(lái)。

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請(qǐng)聯(lián)系原著作權(quán)人。