記者 | 崔鵬
4月25日,騰訊云首次對外公布小樣本數(shù)智人生產(chǎn)平臺,該平臺具有訓(xùn)練樣本小、生產(chǎn)效率高、自動化生產(chǎn)等特性,可以實現(xiàn)低成本“自助式”數(shù)智人生產(chǎn)制作。
雖然數(shù)字人越來越受企業(yè)和廣告主的歡迎,但高昂的制作和運營成本問題仍然有待解決。過往復(fù)雜的訓(xùn)練樣本數(shù)據(jù)采集,導(dǎo)致數(shù)字人定制過程長、成本高,一定程度上限制了數(shù)字人的快速應(yīng)用落地。
本次騰訊云智能推出的平臺,依托騰訊自研AI能力和技術(shù)經(jīng)驗,只需要3分鐘真人口播視頻、100句語音素材,平臺便可通過音頻、文本多模態(tài)數(shù)據(jù)輸入,實時建模并生成高清人像,在24小時內(nèi)制作出與真人近似的“數(shù)智人”。
借助該平臺,數(shù)字人制作能實現(xiàn)千元級別的成本和小時級的制作時長,大幅降低數(shù)字人使用門檻。
騰訊云智能數(shù)智人產(chǎn)品總經(jīng)理陳磊表示,騰訊云智能希望建設(shè)自動化的“AI+數(shù)智人工廠”,依靠“產(chǎn)、銷、服”的一站式平臺,實現(xiàn)“自助式”購買、生產(chǎn)和應(yīng)用數(shù)智人。
騰訊云智能依托于自研小樣本數(shù)智人驅(qū)動技術(shù)框架,以及基于自監(jiān)督機制的通用多模態(tài)模型,讓用戶實現(xiàn)提交少數(shù)樣本數(shù)據(jù)進(jìn)行AI訓(xùn)練。
例如3分鐘真人口播視頻、100句語音素材,就能獲得與真人形象、語音近似的數(shù)智人,生產(chǎn)周期縮短至天級別,價格也能低至千元級別。
陳磊表示,小樣本數(shù)智人支持半身、全身形象展示,手勢動作會根據(jù)內(nèi)容靈活調(diào)整,也支持錄制背景任意更換,適用于直播帶貨等更廣泛的商用場景。
相較于2D真人精品數(shù)字人,小樣本數(shù)智人無需專業(yè)影棚錄制素材,成本更低;相較于照片生成、僅能呈現(xiàn)面部形態(tài)的數(shù)字人,小樣本數(shù)智人可根據(jù)文本設(shè)計手勢,唇動、口型、表情復(fù)現(xiàn)真人風(fēng)格。
以知識分享口播視頻生產(chǎn)為例,小樣本數(shù)智人可以代醫(yī)生、律師等專業(yè)人士出鏡,大大節(jié)省視頻錄制時間。
為了加速數(shù)智人服務(wù)普及,騰訊云智能還提出自動化“AI+數(shù)智人工廠”的方向。開箱即用的數(shù)智人生產(chǎn)服務(wù),依托騰訊云TI平臺,內(nèi)置超過10項AI算法能力。未來,無需任何算法、研發(fā)經(jīng)驗,只要在平臺導(dǎo)入視頻、語音訓(xùn)練素材,即可通過“自助式”服務(wù),完成大批量數(shù)智人形象、音色定制。
針對數(shù)智人的運營,騰訊還提供了播報數(shù)智人平臺和交互數(shù)智人平臺服務(wù)。播報數(shù)智人平臺支持通過文字、語音輸入快速生成數(shù)智人視頻;交互數(shù)智人平臺可打造數(shù)智員工,定制專屬問答庫,提供7*24小時人機雙向交互服務(wù),還能實現(xiàn)數(shù)智人直播服務(wù),自由切換真人語音接管,與用戶問答互動。
騰訊自2018年開始投入數(shù)智人研發(fā)和服務(wù),是國內(nèi)最早投入數(shù)字人領(lǐng)域的企業(yè)之一,已發(fā)布數(shù)百篇相關(guān)技術(shù)頂會、期刊論文、專利近百份。
對于騰訊數(shù)字人的技術(shù)特點,騰訊優(yōu)圖實驗室研究總監(jiān)汪鋮杰稱,2D小樣本技術(shù)的背后是3D技術(shù)。
“小樣本數(shù)智人從直觀上感受是2D視頻,背后其實是3D人像在做支撐,是一個從‘文本/音頻’信息到‘3D人像驅(qū)動’,再到‘2D人像視頻’的模式。通過對3D人臉結(jié)構(gòu)的先驗信息引入,使數(shù)智人口型、表情更到位。”汪鋮杰表示。
另一方面,基于自監(jiān)督機制的通用多模態(tài)模型經(jīng)過大規(guī)模數(shù)據(jù)訓(xùn)練,可以將語音、文本與人像的表情、口型進(jìn)行關(guān)聯(lián)。
汪鋮杰表示,小樣本數(shù)智人使用門檻、成本都大幅降低,但騰訊希望通過綜合運用多項視覺AI技術(shù),提升小樣本數(shù)智人品質(zhì),其中就包括高精度人像分割、光照優(yōu)化、人像美化、視線矯正等。
在聲音復(fù)刻方面,基于騰訊自研的新一代小樣本音色定制技術(shù),以及深度學(xué)習(xí)的聲學(xué)模型及神經(jīng)網(wǎng)絡(luò)聲碼器,小樣本數(shù)智人改善了傳統(tǒng)聲學(xué)模型語音韻律單一,語調(diào)平淡的問題,讓語音合成更加精細(xì)。
此外,通過構(gòu)建大規(guī)模高質(zhì)量音色數(shù)據(jù)的預(yù)訓(xùn)練基底模型,未來小樣本數(shù)智人還將支持用戶只錄制普通話即可合成英文及方言語音。
目前,騰訊云智能數(shù)智人已經(jīng)覆蓋3D寫實、3D半寫實、3D卡通、2D真人、2D卡通五種形象風(fēng)格,可實現(xiàn)超細(xì)微面部情感表情以及數(shù)百種肢體動作,支持形象資產(chǎn)管理、業(yè)務(wù)服務(wù)配置及內(nèi)容生產(chǎn)相關(guān)服務(wù)。據(jù)悉已有數(shù)十家合作伙向行業(yè)提供數(shù)智人直播SaaS、知識口播SaaS應(yīng)用,覆蓋醫(yī)療、傳媒、金融多個行業(yè)。