正在閱讀:

商湯科技數(shù)字文娛事業(yè)部總經(jīng)理欒青:未來三到五年,更多大模型應(yīng)用場(chǎng)景將逐步解鎖 | REAL大會(huì)

掃一掃下載界面新聞APP

商湯科技數(shù)字文娛事業(yè)部總經(jīng)理欒青:未來三到五年,更多大模型應(yīng)用場(chǎng)景將逐步解鎖 | REAL大會(huì)

在視頻生成領(lǐng)域,商湯在7月發(fā)布首個(gè)“可控”人物視頻生成大模型Vimi。

商湯科技數(shù)字文娛事業(yè)部總經(jīng)理欒青。圖源:界面圖庫

界面新聞?dòng)浾?| 陳振芳

界面新聞編輯 | 文姝琪

9月6日上午,在界面新聞舉辦的2024 REAL科技大會(huì)上, 商湯數(shù)字文娛事業(yè)部總經(jīng)理欒青在演講中介紹,商湯為AI大模型全方位布局,覆蓋算力基礎(chǔ)層、AI模型層與上層應(yīng)用。

商湯大裝置管理的算力實(shí)現(xiàn)了全國聯(lián)網(wǎng)的統(tǒng)一調(diào)度,在上海、深圳、廣州、福州、濟(jì)南、重慶等地都拓展了新的計(jì)算節(jié)點(diǎn),截止2024年7月,總算力規(guī)模高達(dá)20000 petaFLOPS ,已有超5.4萬塊GPU。

今年7月,商湯發(fā)布“日日新5o”模型,交互體驗(yàn)對(duì)標(biāo)GPT-4o,實(shí)現(xiàn)全新AI交互模式。該模型能夠整合跨模態(tài)信息,通過基于聲音、文本、圖像和視頻等多種形式,呈現(xiàn)實(shí)時(shí)的流式多模態(tài)交互。

在視頻生成領(lǐng)域,商湯在7月發(fā)布首個(gè)“可控”人物視頻生成大模型Vimi,該模型主要面向C端用戶,支持聊天、唱歌、舞動(dòng)等多種娛樂互動(dòng)場(chǎng)景。Vimi可生成長達(dá)1分鐘的單鏡頭人物類視頻,畫面效果不會(huì)隨著時(shí)間的變化而劣化或失真,通過一張任意風(fēng)格的照片就能生成和目標(biāo)動(dòng)作一致的人物類視頻,通過已有人物視頻、動(dòng)畫、聲音、文字等多種元素進(jìn)行驅(qū)動(dòng)。

欒青提出,2024年將成為AI視頻的應(yīng)用元年,未來三到五年,更多應(yīng)用場(chǎng)景將隨著模型能力提升和推理成本下降逐步解鎖。

其次,AI視頻生成將重塑傳統(tǒng)視頻制作工作,整合音視頻創(chuàng)作的流程方法變?yōu)橐粋€(gè)整體,降低AI視頻內(nèi)容的制作門檻,并以全新視頻交互界面展現(xiàn)。

過去十幾年,視頻產(chǎn)業(yè)一直不斷地發(fā)展,制作一個(gè)視頻從幾百人的團(tuán)隊(duì),精簡(jiǎn)至幾十個(gè)人的網(wǎng)劇團(tuán)隊(duì),再到個(gè)人也可以創(chuàng)作短視頻。技術(shù)推動(dòng)下,視頻團(tuán)隊(duì)和制作時(shí)間不斷精簡(jiǎn),而視頻數(shù)量卻在指數(shù)級(jí)的爆增,人類的消費(fèi)習(xí)慣從曾經(jīng)的看文案、圖片、新聞,變成了看視頻。

欒青認(rèn)為,當(dāng)視頻的生成速度更快,甚至達(dá)到實(shí)時(shí)生成視頻,AI能夠帶來新的交互體驗(yàn),例如通過算法自動(dòng)地控制人物動(dòng)作,實(shí)時(shí)可交互的視頻。

當(dāng)前,AI視頻生成有兩大方向,一是用文字提示生成視頻;另一個(gè)則是用其他信號(hào),比如可控的邏輯性信號(hào)。例如動(dòng)畫設(shè)計(jì)師會(huì)捕捉人體和自然信號(hào),再讓人工智能學(xué)習(xí),最終完成。這樣生成的人物不僅合理,還能隨著可控的信號(hào)進(jìn)行變化。

欒青也提到,AI視頻大模型在人物類視頻生成上存在三大挑戰(zhàn):人物動(dòng)作、表情難以精確控制,出效果僅靠大量“抽卡” ;人物身份穩(wěn)定性不高,“常常換長相” ;僅支持穩(wěn)定生成3-4秒時(shí)長,難以滿足需求。因此,日常視頻創(chuàng)作尚未達(dá)到可用的階段。

“當(dāng)前人們每天看到的視頻80%都是人物為主題的視頻?!?/p>

欒青介紹,商湯正在嘗試用APP幫助用戶來生成視頻寫真大片,利用AI算法控制運(yùn)鏡、光影變化、人物背景,讓內(nèi)容變得更真實(shí)和自然。例如用戶輸入一張照片,大模型產(chǎn)品也可以用不同的動(dòng)畫方式去制作內(nèi)容,讓內(nèi)容形式更為豐富。

欒青認(rèn)為,隨著AGI技術(shù)在視頻領(lǐng)域的深入,除了生產(chǎn)效率的變化,更多的是全新體驗(yàn)。大模型的能力可以讓普通人更好的進(jìn)行創(chuàng)作。

未經(jīng)正式授權(quán)嚴(yán)禁轉(zhuǎn)載本文,侵權(quán)必究。

商湯科技

2.6k
  • 歷史上港股在美聯(lián)儲(chǔ)降息時(shí)點(diǎn)表現(xiàn)普遍理想,港股科技30ETF(513160)高漲,美團(tuán)-W、嗶哩嗶哩-W、中國軟件國際、商湯-W等領(lǐng)漲。
  • 2024界面新聞REAL科技大會(huì)在上海舉辦,共話大模型落地如何重塑現(xiàn)實(shí)

評(píng)論

暫無評(píng)論哦,快來評(píng)價(jià)一下吧!

下載界面新聞

微信公眾號(hào)

微博

商湯科技數(shù)字文娛事業(yè)部總經(jīng)理欒青:未來三到五年,更多大模型應(yīng)用場(chǎng)景將逐步解鎖 | REAL大會(huì)

在視頻生成領(lǐng)域,商湯在7月發(fā)布首個(gè)“可控”人物視頻生成大模型Vimi。

商湯科技數(shù)字文娛事業(yè)部總經(jīng)理欒青。圖源:界面圖庫

界面新聞?dòng)浾?| 陳振芳

界面新聞編輯 | 文姝琪

9月6日上午,在界面新聞舉辦的2024 REAL科技大會(huì)上, 商湯數(shù)字文娛事業(yè)部總經(jīng)理欒青在演講中介紹,商湯為AI大模型全方位布局,覆蓋算力基礎(chǔ)層、AI模型層與上層應(yīng)用。

商湯大裝置管理的算力實(shí)現(xiàn)了全國聯(lián)網(wǎng)的統(tǒng)一調(diào)度,在上海、深圳、廣州、福州、濟(jì)南、重慶等地都拓展了新的計(jì)算節(jié)點(diǎn),截止2024年7月,總算力規(guī)模高達(dá)20000 petaFLOPS ,已有超5.4萬塊GPU。

今年7月,商湯發(fā)布“日日新5o”模型,交互體驗(yàn)對(duì)標(biāo)GPT-4o,實(shí)現(xiàn)全新AI交互模式。該模型能夠整合跨模態(tài)信息,通過基于聲音、文本、圖像和視頻等多種形式,呈現(xiàn)實(shí)時(shí)的流式多模態(tài)交互。

在視頻生成領(lǐng)域,商湯在7月發(fā)布首個(gè)“可控”人物視頻生成大模型Vimi,該模型主要面向C端用戶,支持聊天、唱歌、舞動(dòng)等多種娛樂互動(dòng)場(chǎng)景。Vimi可生成長達(dá)1分鐘的單鏡頭人物類視頻,畫面效果不會(huì)隨著時(shí)間的變化而劣化或失真,通過一張任意風(fēng)格的照片就能生成和目標(biāo)動(dòng)作一致的人物類視頻,通過已有人物視頻、動(dòng)畫、聲音、文字等多種元素進(jìn)行驅(qū)動(dòng)。

欒青提出,2024年將成為AI視頻的應(yīng)用元年,未來三到五年,更多應(yīng)用場(chǎng)景將隨著模型能力提升和推理成本下降逐步解鎖。

其次,AI視頻生成將重塑傳統(tǒng)視頻制作工作,整合音視頻創(chuàng)作的流程方法變?yōu)橐粋€(gè)整體,降低AI視頻內(nèi)容的制作門檻,并以全新視頻交互界面展現(xiàn)。

過去十幾年,視頻產(chǎn)業(yè)一直不斷地發(fā)展,制作一個(gè)視頻從幾百人的團(tuán)隊(duì),精簡(jiǎn)至幾十個(gè)人的網(wǎng)劇團(tuán)隊(duì),再到個(gè)人也可以創(chuàng)作短視頻。技術(shù)推動(dòng)下,視頻團(tuán)隊(duì)和制作時(shí)間不斷精簡(jiǎn),而視頻數(shù)量卻在指數(shù)級(jí)的爆增,人類的消費(fèi)習(xí)慣從曾經(jīng)的看文案、圖片、新聞,變成了看視頻。

欒青認(rèn)為,當(dāng)視頻的生成速度更快,甚至達(dá)到實(shí)時(shí)生成視頻,AI能夠帶來新的交互體驗(yàn),例如通過算法自動(dòng)地控制人物動(dòng)作,實(shí)時(shí)可交互的視頻。

當(dāng)前,AI視頻生成有兩大方向,一是用文字提示生成視頻;另一個(gè)則是用其他信號(hào),比如可控的邏輯性信號(hào)。例如動(dòng)畫設(shè)計(jì)師會(huì)捕捉人體和自然信號(hào),再讓人工智能學(xué)習(xí),最終完成。這樣生成的人物不僅合理,還能隨著可控的信號(hào)進(jìn)行變化。

欒青也提到,AI視頻大模型在人物類視頻生成上存在三大挑戰(zhàn):人物動(dòng)作、表情難以精確控制,出效果僅靠大量“抽卡” ;人物身份穩(wěn)定性不高,“常常換長相” ;僅支持穩(wěn)定生成3-4秒時(shí)長,難以滿足需求。因此,日常視頻創(chuàng)作尚未達(dá)到可用的階段。

“當(dāng)前人們每天看到的視頻80%都是人物為主題的視頻?!?/p>

欒青介紹,商湯正在嘗試用APP幫助用戶來生成視頻寫真大片,利用AI算法控制運(yùn)鏡、光影變化、人物背景,讓內(nèi)容變得更真實(shí)和自然。例如用戶輸入一張照片,大模型產(chǎn)品也可以用不同的動(dòng)畫方式去制作內(nèi)容,讓內(nèi)容形式更為豐富。

欒青認(rèn)為,隨著AGI技術(shù)在視頻領(lǐng)域的深入,除了生產(chǎn)效率的變化,更多的是全新體驗(yàn)。大模型的能力可以讓普通人更好的進(jìn)行創(chuàng)作。

未經(jīng)正式授權(quán)嚴(yán)禁轉(zhuǎn)載本文,侵權(quán)必究。