正在閱讀:

AI文生視頻,會(huì)在明年迎來(lái)“GPT時(shí)刻”

掃一掃下載界面新聞APP

AI文生視頻,會(huì)在明年迎來(lái)“GPT時(shí)刻”

AI文生視頻這條賽道,將為各行業(yè)帶來(lái)新的增量與繁榮。

圖片來(lái)源:pexels-Pixabay

文|阿爾法工場(chǎng)

在當(dāng)下的AI賽道上,AI生文、生圖的應(yīng)用,早已層出不窮,相關(guān)的技術(shù),也在不斷日新月異。

而與之相比,AI文生視頻,卻是一個(gè)遲遲未被“攻下”的陣地。

抖動(dòng)、閃現(xiàn)、時(shí)長(zhǎng)太短,這一系列缺陷,讓AI生成的視頻只能停留在“圖一樂(lè)”的層面,很難拿來(lái)使用,更不要說(shuō)提供商業(yè)上的賦能。

直到最近,某個(gè)爆火的應(yīng)用,再次燃起了人們對(duì)這一賽道的關(guān)注。

關(guān)于這個(gè)叫做Pika的文生視頻AI,這些天想必大家已經(jīng)了解了很多。

因此,這里不再贅述Pika的各種功能、特點(diǎn),而是單刀直入地探討一個(gè)問(wèn)題,那就是:

Pika的出現(xiàn),是否意味著AI文生視頻距離人們期望中的理想效果,還有多遠(yuǎn)?

01 難題與瓶頸

實(shí)事求是地說(shuō),目前的AI文生視頻賽道,難度和價(jià)值都很大。

而其中最大的難點(diǎn),莫過(guò)于讓畫面變得“抽風(fēng)”的抖動(dòng)問(wèn)題。

關(guān)于這一點(diǎn),任何使用過(guò)Gen-2 Runway 等文生視頻AI的人,都會(huì)深有體會(huì)。

抖動(dòng)、閃現(xiàn),以及不時(shí)出現(xiàn)的畫面突變,讓人們很難獲得一個(gè)穩(wěn)定的生成效果。

而這種“鬼畜”現(xiàn)象的背后,其實(shí)是幀與幀之間聯(lián)系不緊密導(dǎo)致的。

具體來(lái)說(shuō),目前AI生成視頻技術(shù),與早期的手繪動(dòng)畫很相似,都是先繪制很多幀靜止的圖像,之后將這些圖像連接起來(lái),并通過(guò)一幀幀圖像的漸變,實(shí)現(xiàn)畫面的運(yùn)動(dòng)。

但無(wú)論是手繪動(dòng)畫還是AI生成的視頻,首先都需要確定關(guān)鍵幀。因?yàn)殛P(guān)鍵幀定義了角色或物體在特定時(shí)刻的位置和狀態(tài)。

之后,為了讓畫面看起來(lái)更流暢,人們需要在這些關(guān)鍵幀之間添加一些過(guò)渡畫面(也稱為“過(guò)渡幀”或“內(nèi)插幀”)。

可問(wèn)題就在于,在生成這些“過(guò)渡幀”時(shí),AI生成的幾十幀圖像,看起來(lái)雖然風(fēng)格差不多,但連起來(lái)細(xì)節(jié)差異卻非常大,視頻也就容易出現(xiàn)閃爍現(xiàn)象。

這樣的缺陷,也成了AI生成視頻最大的瓶頸之一。

而背后的根本原因,仍舊是所謂的“泛化”問(wèn)題導(dǎo)致的。

用大白話說(shuō),AI的對(duì)視頻的學(xué)習(xí),依賴于大量的訓(xùn)練數(shù)據(jù)。如果訓(xùn)練數(shù)據(jù)中沒(méi)有涵蓋某種特定的過(guò)渡效果或動(dòng)作,AI就很難學(xué)會(huì)如何在生成視頻時(shí)應(yīng)用這些效果。

這種情況,在處理某些復(fù)雜場(chǎng)景和動(dòng)作時(shí),就顯得尤為突出。

除了關(guān)鍵幀的問(wèn)題外,AI生成視頻還面臨著諸多挑戰(zhàn),而這些挑戰(zhàn),與AI生圖這種靜態(tài)的任務(wù)相比,難度根本不在一個(gè)層面。

例如:動(dòng)作的連貫性:為了讓視頻看起來(lái)自然,AI需要理解動(dòng)作的內(nèi)在規(guī)律,預(yù)測(cè)物體和角色在時(shí)間線上的運(yùn)動(dòng)軌跡。長(zhǎng)期依賴和短期依賴:在生成視頻時(shí),一些變化可能在較長(zhǎng)的時(shí)間范圍內(nèi)發(fā)生(如角色的長(zhǎng)期動(dòng)作),而另一些變化可能在較短的時(shí)間范圍內(nèi)發(fā)生(如物體的瞬時(shí)運(yùn)動(dòng))。

為了解決這些難點(diǎn),研究人員采用了各種方法,如使用循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)、長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(LSTM)和門控循環(huán)單元(GRU)來(lái)捕捉時(shí)間上的依賴關(guān)系等等。

但關(guān)鍵在于,目前的AI文生視頻,并沒(méi)有形成像LLM那樣統(tǒng)一的,明確的技術(shù)范式,關(guān)于怎樣生成穩(wěn)定的視頻,業(yè)界其實(shí)都還處于探索階段。

02 難而正確的事

AI文生視頻賽道,難度和價(jià)值都很大。其價(jià)值,就在于其能真切地解決很多行業(yè)的痛點(diǎn)和需求,而不是像現(xiàn)在的很多“套殼”應(yīng)用那樣,要么錦上添花,要么圈地自萌。

關(guān)于這點(diǎn),可以從“時(shí)間”和“空間”兩個(gè)維度上,對(duì)AI文生視頻的將來(lái)的價(jià)值空間做一番審視。

從時(shí)間維度上來(lái)說(shuō),判斷一種技術(shù)是不是“假風(fēng)口”、假繁榮,一個(gè)最重要的標(biāo)準(zhǔn),就是看人們對(duì)這類技術(shù)的未來(lái)使用頻率。

根據(jù)月狐iAPP統(tǒng)計(jì)的數(shù)據(jù),從2022年Q2到今年6月,在移動(dòng)互聯(lián)網(wǎng)的所有類別的APP中,短視頻的使用時(shí)長(zhǎng)占比均高達(dá)30%以上,為所有類別中最高。

除了時(shí)間這一“縱向”維度外,倘若要在空間維度上,考量一種技術(shù)的生命力,最關(guān)鍵的指標(biāo),就是看其究竟能使多大范圍內(nèi)的群體受益。

因?yàn)槿魏渭夹g(shù)想要“活”下來(lái),就必須像生物體那樣,不斷地傳播、擴(kuò)散自己,并在不同環(huán)境中自我調(diào)整,從而增加多樣性和穩(wěn)定性。

例如在媒體領(lǐng)域,根據(jù)Tubular Labs的《2021年全球視頻指數(shù)報(bào)告》,新聞?lì)悇e的視頻觀看量在2020年同比增長(zhǎng)了40%。

同樣地,在電子商務(wù)方面,根據(jù)Adobe的一項(xiàng)調(diào)查,大約60%的消費(fèi)者在購(gòu)物時(shí)更愿意觀看產(chǎn)品視頻,而不是閱讀產(chǎn)品描述。

而在醫(yī)療領(lǐng)域,根據(jù)MarketsandMarkets的報(bào)告,全球醫(yī)學(xué)動(dòng)畫市場(chǎng)預(yù)計(jì)從2020年到2025年將以12.5%的復(fù)合年增長(zhǎng)率增長(zhǎng)。

在金融行業(yè)中,HubSpot的一項(xiàng)研究表明,視頻內(nèi)容在轉(zhuǎn)化率方面表現(xiàn)優(yōu)異。視頻內(nèi)容的轉(zhuǎn)化率比圖文內(nèi)容高出4倍以上。

這樣的需求,表明了從時(shí)間、空間這兩個(gè)維度上來(lái)說(shuō),視頻制作領(lǐng)域,都是一個(gè)蘊(yùn)含著巨大增量的“蓄水池”。

然而,要想將這個(gè)“蓄水池”的潛力完全釋放出來(lái),卻并不是一件容易的事。

因?yàn)樵诟鱾€(gè)行業(yè)中,對(duì)于非專業(yè)人士來(lái)說(shuō),學(xué)習(xí)如何使用復(fù)雜的視頻制作工具(如Adobe Premiere Pro、Final Cut Pro或DaVinci Resolve)可能非常困難。

而對(duì)于專業(yè)人士來(lái)說(shuō),制作視頻還是個(gè)耗時(shí)的過(guò)程。他們得從故事板開(kāi)始,規(guī)劃整個(gè)視頻的內(nèi)容和結(jié)構(gòu),然后進(jìn)行拍攝、剪輯、調(diào)色等等。有時(shí)候,僅僅一分半的廣告視頻,就可能耗時(shí)一個(gè)月之久。

從這個(gè)角度來(lái)說(shuō),打開(kāi)了AI文生視頻這條賽道,就相當(dāng)于疏通了連接在這個(gè)蓄水池管道里的“堵塞物”。

在這之后,暗藏的財(cái)富之泉,將噴涌而出,為各個(gè)行業(yè)帶來(lái)新的增量與繁榮。

從這樣的角度來(lái)看,文生視頻這條賽道,即使再難,也是正確的,值得的。

03 行業(yè)引領(lǐng)者

賽道既已確定,接下來(lái)更重要的,就是判斷在這樣的賽道中,有哪些企業(yè)或團(tuán)隊(duì)會(huì)脫穎而出,成為行業(yè)的引領(lǐng)者。

目前,在AI文生視頻這條賽道上,除了之前提到的Pika,其他同類企業(yè)也動(dòng)作頻繁。

科技巨頭Adobe Systems收購(gòu)了Rephrase.ai,Meta推出了Emu Video,Stability AI發(fā)布了Stable Video Diffusion,Runway對(duì)RunwayML進(jìn)行了更新。

而就在昨天,AI視頻新秀NeverEnds也推出了最新的2.0版本。

從目前來(lái)看,Pika、Emu Video、NeverEnds等應(yīng)用,已經(jīng)顯示出了不俗的實(shí)力,其生成的視頻,已大體上能保持穩(wěn)定,并減少了抖動(dòng)。

但從長(zhǎng)遠(yuǎn)來(lái)看,要想在AI文生視頻領(lǐng)域持續(xù)保持領(lǐng)先,至少需要具備三個(gè)方面的條件:1、強(qiáng)大的算力

在視頻領(lǐng)域,AI對(duì)算力的要求,比以往的LLM更甚。

這是因?yàn)?,視頻數(shù)據(jù)包含的時(shí)間維度和空間維度,都要比圖片和文字?jǐn)?shù)據(jù)更高。同時(shí)為了捕捉視頻中的時(shí)間動(dòng)態(tài)信息,視頻模型通常需要具有更復(fù)雜的結(jié)構(gòu)。

更復(fù)雜的結(jié)構(gòu),就意味著更多的參數(shù),而更多的參數(shù),則意味著所需的算力倍增。

因此,在將來(lái)的AI視頻賽道上,算力資源仍舊是一個(gè)必須跨過(guò)的“硬門檻”。2、跨領(lǐng)域合作

與圖片或文字大模型相比,視頻大模型通常涉及更多的領(lǐng)域,綜合性更強(qiáng)。

其需要整合多種技術(shù),例如來(lái)實(shí)現(xiàn)高效的視頻分析、生成和處理。包括但不限于:圖像識(shí)別、目標(biāo)檢測(cè)、圖像分割、語(yǔ)義理解等。

如果將當(dāng)前的生成式AI比作一棵樹(shù),那么LLM就是樹(shù)的主干,文生圖模型則是主干延伸出的枝葉和花朵,而視頻大模型,則是汲取了各個(gè)部位(不同類型數(shù)據(jù))的養(yǎng)分后,結(jié)出的最復(fù)雜的果實(shí)。

因此,如何通過(guò)較強(qiáng)的資源整合能力,進(jìn)行跨領(lǐng)域的交流、合作,就成了決定團(tuán)隊(duì)創(chuàng)新力的關(guān)鍵。3、技術(shù)自主性

誠(chéng)如之前所說(shuō),在目前的文生視頻領(lǐng)域,業(yè)界并沒(méi)有形成像LLM那樣明確的、統(tǒng)一的技術(shù)路線。業(yè)界都在往各種方向嘗試。

而在一個(gè)未確定的技術(shù)方向上,如何給予一線的技術(shù)人員較大的包容度,讓其不斷試錯(cuò),探索,就成了打造團(tuán)隊(duì)創(chuàng)新機(jī)制的關(guān)鍵。

對(duì)于這個(gè)問(wèn)題,最好解決辦法,就是讓技術(shù)人員親自掛帥,使其具有最大的“技術(shù)自主性”。

誠(chéng)如Pika Labs的創(chuàng)始人Chenlin所說(shuō):“如果訓(xùn)練數(shù)據(jù)集不夠好看,模型學(xué)到的人物也不會(huì)好看,因此最終你需要一個(gè)具有藝術(shù)審美修養(yǎng)的人,來(lái)選擇數(shù)據(jù)集,把控標(biāo)注的質(zhì)量。

在各企業(yè)、團(tuán)隊(duì)不斷競(jìng)爭(zhēng),行業(yè)新品不斷涌現(xiàn)的情況下,文生視頻AI的爆發(fā)期,就成了一件十分具體的,可以預(yù)期的態(tài)勢(shì)。

按照Pika Labs創(chuàng)始人Demi的判斷,行業(yè)也許會(huì)在明年迎來(lái)AI視頻的“GPT時(shí)刻”。

盡管技術(shù)的發(fā)展,有時(shí)并不會(huì)以人的意志為轉(zhuǎn)移,但當(dāng)對(duì)一種技術(shù)的渴望,成為業(yè)界的共識(shí),并使越來(lái)越多的資源向其傾斜時(shí),變革的風(fēng)暴,就終將會(huì)到來(lái)。

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請(qǐng)聯(lián)系原著作權(quán)人。

評(píng)論

暫無(wú)評(píng)論哦,快來(lái)評(píng)價(jià)一下吧!

下載界面新聞

微信公眾號(hào)

微博

AI文生視頻,會(huì)在明年迎來(lái)“GPT時(shí)刻”

AI文生視頻這條賽道,將為各行業(yè)帶來(lái)新的增量與繁榮。

圖片來(lái)源:pexels-Pixabay

文|阿爾法工場(chǎng)

在當(dāng)下的AI賽道上,AI生文、生圖的應(yīng)用,早已層出不窮,相關(guān)的技術(shù),也在不斷日新月異。

而與之相比,AI文生視頻,卻是一個(gè)遲遲未被“攻下”的陣地。

抖動(dòng)、閃現(xiàn)、時(shí)長(zhǎng)太短,這一系列缺陷,讓AI生成的視頻只能停留在“圖一樂(lè)”的層面,很難拿來(lái)使用,更不要說(shuō)提供商業(yè)上的賦能。

直到最近,某個(gè)爆火的應(yīng)用,再次燃起了人們對(duì)這一賽道的關(guān)注。

關(guān)于這個(gè)叫做Pika的文生視頻AI,這些天想必大家已經(jīng)了解了很多。

因此,這里不再贅述Pika的各種功能、特點(diǎn),而是單刀直入地探討一個(gè)問(wèn)題,那就是:

Pika的出現(xiàn),是否意味著AI文生視頻距離人們期望中的理想效果,還有多遠(yuǎn)?

01 難題與瓶頸

實(shí)事求是地說(shuō),目前的AI文生視頻賽道,難度和價(jià)值都很大。

而其中最大的難點(diǎn),莫過(guò)于讓畫面變得“抽風(fēng)”的抖動(dòng)問(wèn)題。

關(guān)于這一點(diǎn),任何使用過(guò)Gen-2 Runway 等文生視頻AI的人,都會(huì)深有體會(huì)。

抖動(dòng)、閃現(xiàn),以及不時(shí)出現(xiàn)的畫面突變,讓人們很難獲得一個(gè)穩(wěn)定的生成效果。

而這種“鬼畜”現(xiàn)象的背后,其實(shí)是幀與幀之間聯(lián)系不緊密導(dǎo)致的。

具體來(lái)說(shuō),目前AI生成視頻技術(shù),與早期的手繪動(dòng)畫很相似,都是先繪制很多幀靜止的圖像,之后將這些圖像連接起來(lái),并通過(guò)一幀幀圖像的漸變,實(shí)現(xiàn)畫面的運(yùn)動(dòng)。

但無(wú)論是手繪動(dòng)畫還是AI生成的視頻,首先都需要確定關(guān)鍵幀。因?yàn)殛P(guān)鍵幀定義了角色或物體在特定時(shí)刻的位置和狀態(tài)。

之后,為了讓畫面看起來(lái)更流暢,人們需要在這些關(guān)鍵幀之間添加一些過(guò)渡畫面(也稱為“過(guò)渡幀”或“內(nèi)插幀”)。

可問(wèn)題就在于,在生成這些“過(guò)渡幀”時(shí),AI生成的幾十幀圖像,看起來(lái)雖然風(fēng)格差不多,但連起來(lái)細(xì)節(jié)差異卻非常大,視頻也就容易出現(xiàn)閃爍現(xiàn)象。

這樣的缺陷,也成了AI生成視頻最大的瓶頸之一。

而背后的根本原因,仍舊是所謂的“泛化”問(wèn)題導(dǎo)致的。

用大白話說(shuō),AI的對(duì)視頻的學(xué)習(xí),依賴于大量的訓(xùn)練數(shù)據(jù)。如果訓(xùn)練數(shù)據(jù)中沒(méi)有涵蓋某種特定的過(guò)渡效果或動(dòng)作,AI就很難學(xué)會(huì)如何在生成視頻時(shí)應(yīng)用這些效果。

這種情況,在處理某些復(fù)雜場(chǎng)景和動(dòng)作時(shí),就顯得尤為突出。

除了關(guān)鍵幀的問(wèn)題外,AI生成視頻還面臨著諸多挑戰(zhàn),而這些挑戰(zhàn),與AI生圖這種靜態(tài)的任務(wù)相比,難度根本不在一個(gè)層面。

例如:動(dòng)作的連貫性:為了讓視頻看起來(lái)自然,AI需要理解動(dòng)作的內(nèi)在規(guī)律,預(yù)測(cè)物體和角色在時(shí)間線上的運(yùn)動(dòng)軌跡。長(zhǎng)期依賴和短期依賴:在生成視頻時(shí),一些變化可能在較長(zhǎng)的時(shí)間范圍內(nèi)發(fā)生(如角色的長(zhǎng)期動(dòng)作),而另一些變化可能在較短的時(shí)間范圍內(nèi)發(fā)生(如物體的瞬時(shí)運(yùn)動(dòng))。

為了解決這些難點(diǎn),研究人員采用了各種方法,如使用循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)、長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(LSTM)和門控循環(huán)單元(GRU)來(lái)捕捉時(shí)間上的依賴關(guān)系等等。

但關(guān)鍵在于,目前的AI文生視頻,并沒(méi)有形成像LLM那樣統(tǒng)一的,明確的技術(shù)范式,關(guān)于怎樣生成穩(wěn)定的視頻,業(yè)界其實(shí)都還處于探索階段。

02 難而正確的事

AI文生視頻賽道,難度和價(jià)值都很大。其價(jià)值,就在于其能真切地解決很多行業(yè)的痛點(diǎn)和需求,而不是像現(xiàn)在的很多“套殼”應(yīng)用那樣,要么錦上添花,要么圈地自萌。

關(guān)于這點(diǎn),可以從“時(shí)間”和“空間”兩個(gè)維度上,對(duì)AI文生視頻的將來(lái)的價(jià)值空間做一番審視。

從時(shí)間維度上來(lái)說(shuō),判斷一種技術(shù)是不是“假風(fēng)口”、假繁榮,一個(gè)最重要的標(biāo)準(zhǔn),就是看人們對(duì)這類技術(shù)的未來(lái)使用頻率。

根據(jù)月狐iAPP統(tǒng)計(jì)的數(shù)據(jù),從2022年Q2到今年6月,在移動(dòng)互聯(lián)網(wǎng)的所有類別的APP中,短視頻的使用時(shí)長(zhǎng)占比均高達(dá)30%以上,為所有類別中最高。

除了時(shí)間這一“縱向”維度外,倘若要在空間維度上,考量一種技術(shù)的生命力,最關(guān)鍵的指標(biāo),就是看其究竟能使多大范圍內(nèi)的群體受益。

因?yàn)槿魏渭夹g(shù)想要“活”下來(lái),就必須像生物體那樣,不斷地傳播、擴(kuò)散自己,并在不同環(huán)境中自我調(diào)整,從而增加多樣性和穩(wěn)定性。

例如在媒體領(lǐng)域,根據(jù)Tubular Labs的《2021年全球視頻指數(shù)報(bào)告》,新聞?lì)悇e的視頻觀看量在2020年同比增長(zhǎng)了40%。

同樣地,在電子商務(wù)方面,根據(jù)Adobe的一項(xiàng)調(diào)查,大約60%的消費(fèi)者在購(gòu)物時(shí)更愿意觀看產(chǎn)品視頻,而不是閱讀產(chǎn)品描述。

而在醫(yī)療領(lǐng)域,根據(jù)MarketsandMarkets的報(bào)告,全球醫(yī)學(xué)動(dòng)畫市場(chǎng)預(yù)計(jì)從2020年到2025年將以12.5%的復(fù)合年增長(zhǎng)率增長(zhǎng)。

在金融行業(yè)中,HubSpot的一項(xiàng)研究表明,視頻內(nèi)容在轉(zhuǎn)化率方面表現(xiàn)優(yōu)異。視頻內(nèi)容的轉(zhuǎn)化率比圖文內(nèi)容高出4倍以上。

這樣的需求,表明了從時(shí)間、空間這兩個(gè)維度上來(lái)說(shuō),視頻制作領(lǐng)域,都是一個(gè)蘊(yùn)含著巨大增量的“蓄水池”。

然而,要想將這個(gè)“蓄水池”的潛力完全釋放出來(lái),卻并不是一件容易的事。

因?yàn)樵诟鱾€(gè)行業(yè)中,對(duì)于非專業(yè)人士來(lái)說(shuō),學(xué)習(xí)如何使用復(fù)雜的視頻制作工具(如Adobe Premiere Pro、Final Cut Pro或DaVinci Resolve)可能非常困難。

而對(duì)于專業(yè)人士來(lái)說(shuō),制作視頻還是個(gè)耗時(shí)的過(guò)程。他們得從故事板開(kāi)始,規(guī)劃整個(gè)視頻的內(nèi)容和結(jié)構(gòu),然后進(jìn)行拍攝、剪輯、調(diào)色等等。有時(shí)候,僅僅一分半的廣告視頻,就可能耗時(shí)一個(gè)月之久。

從這個(gè)角度來(lái)說(shuō),打開(kāi)了AI文生視頻這條賽道,就相當(dāng)于疏通了連接在這個(gè)蓄水池管道里的“堵塞物”。

在這之后,暗藏的財(cái)富之泉,將噴涌而出,為各個(gè)行業(yè)帶來(lái)新的增量與繁榮。

從這樣的角度來(lái)看,文生視頻這條賽道,即使再難,也是正確的,值得的。

03 行業(yè)引領(lǐng)者

賽道既已確定,接下來(lái)更重要的,就是判斷在這樣的賽道中,有哪些企業(yè)或團(tuán)隊(duì)會(huì)脫穎而出,成為行業(yè)的引領(lǐng)者。

目前,在AI文生視頻這條賽道上,除了之前提到的Pika,其他同類企業(yè)也動(dòng)作頻繁。

科技巨頭Adobe Systems收購(gòu)了Rephrase.ai,Meta推出了Emu Video,Stability AI發(fā)布了Stable Video Diffusion,Runway對(duì)RunwayML進(jìn)行了更新。

而就在昨天,AI視頻新秀NeverEnds也推出了最新的2.0版本。

從目前來(lái)看,Pika、Emu Video、NeverEnds等應(yīng)用,已經(jīng)顯示出了不俗的實(shí)力,其生成的視頻,已大體上能保持穩(wěn)定,并減少了抖動(dòng)。

但從長(zhǎng)遠(yuǎn)來(lái)看,要想在AI文生視頻領(lǐng)域持續(xù)保持領(lǐng)先,至少需要具備三個(gè)方面的條件:1、強(qiáng)大的算力

在視頻領(lǐng)域,AI對(duì)算力的要求,比以往的LLM更甚。

這是因?yàn)椋曨l數(shù)據(jù)包含的時(shí)間維度和空間維度,都要比圖片和文字?jǐn)?shù)據(jù)更高。同時(shí)為了捕捉視頻中的時(shí)間動(dòng)態(tài)信息,視頻模型通常需要具有更復(fù)雜的結(jié)構(gòu)。

更復(fù)雜的結(jié)構(gòu),就意味著更多的參數(shù),而更多的參數(shù),則意味著所需的算力倍增。

因此,在將來(lái)的AI視頻賽道上,算力資源仍舊是一個(gè)必須跨過(guò)的“硬門檻”。2、跨領(lǐng)域合作

與圖片或文字大模型相比,視頻大模型通常涉及更多的領(lǐng)域,綜合性更強(qiáng)。

其需要整合多種技術(shù),例如來(lái)實(shí)現(xiàn)高效的視頻分析、生成和處理。包括但不限于:圖像識(shí)別、目標(biāo)檢測(cè)、圖像分割、語(yǔ)義理解等。

如果將當(dāng)前的生成式AI比作一棵樹(shù),那么LLM就是樹(shù)的主干,文生圖模型則是主干延伸出的枝葉和花朵,而視頻大模型,則是汲取了各個(gè)部位(不同類型數(shù)據(jù))的養(yǎng)分后,結(jié)出的最復(fù)雜的果實(shí)。

因此,如何通過(guò)較強(qiáng)的資源整合能力,進(jìn)行跨領(lǐng)域的交流、合作,就成了決定團(tuán)隊(duì)創(chuàng)新力的關(guān)鍵。3、技術(shù)自主性

誠(chéng)如之前所說(shuō),在目前的文生視頻領(lǐng)域,業(yè)界并沒(méi)有形成像LLM那樣明確的、統(tǒng)一的技術(shù)路線。業(yè)界都在往各種方向嘗試。

而在一個(gè)未確定的技術(shù)方向上,如何給予一線的技術(shù)人員較大的包容度,讓其不斷試錯(cuò),探索,就成了打造團(tuán)隊(duì)創(chuàng)新機(jī)制的關(guān)鍵。

對(duì)于這個(gè)問(wèn)題,最好解決辦法,就是讓技術(shù)人員親自掛帥,使其具有最大的“技術(shù)自主性”。

誠(chéng)如Pika Labs的創(chuàng)始人Chenlin所說(shuō):“如果訓(xùn)練數(shù)據(jù)集不夠好看,模型學(xué)到的人物也不會(huì)好看,因此最終你需要一個(gè)具有藝術(shù)審美修養(yǎng)的人,來(lái)選擇數(shù)據(jù)集,把控標(biāo)注的質(zhì)量。

在各企業(yè)、團(tuán)隊(duì)不斷競(jìng)爭(zhēng),行業(yè)新品不斷涌現(xiàn)的情況下,文生視頻AI的爆發(fā)期,就成了一件十分具體的,可以預(yù)期的態(tài)勢(shì)。

按照Pika Labs創(chuàng)始人Demi的判斷,行業(yè)也許會(huì)在明年迎來(lái)AI視頻的“GPT時(shí)刻”。

盡管技術(shù)的發(fā)展,有時(shí)并不會(huì)以人的意志為轉(zhuǎn)移,但當(dāng)對(duì)一種技術(shù)的渴望,成為業(yè)界的共識(shí),并使越來(lái)越多的資源向其傾斜時(shí),變革的風(fēng)暴,就終將會(huì)到來(lái)。

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請(qǐng)聯(lián)系原著作權(quán)人。