文|商隱社 阿空
編輯|齊馬
“一個(gè)數(shù)字人可以頂10-20個(gè)主播!”
“數(shù)字人自動(dòng)回復(fù)顧客問題,傻瓜都可以操作!”
“數(shù)字人形象靚麗,不用請假,不會(huì)離職,更不會(huì)塌房!”
“4980終身使用,就按一年來算,一天只要5塊錢,24小時(shí)自動(dòng)產(chǎn)生收益!”
誘人的銷售話術(shù),以假亂真的形象,低廉的試錯(cuò)成本,讓沉寂多年的數(shù)字人突然成為一條火熱的賽道。
數(shù)字人真能降本增效,讓人一夜暴富嗎?
商隱社與多名業(yè)內(nèi)人士聊了聊,得出的基本共識(shí)是:沒想好應(yīng)用場景,別做數(shù)字人;運(yùn)營不好真人,也做不好數(shù)字人。
一、被數(shù)字人收割的韭菜們
王老板平時(shí)做點(diǎn)小生意,身邊的朋友今年紛紛做起了抖音直播,他也眼饞。
一問成本,賺的錢還不夠養(yǎng)直播團(tuán)隊(duì):主播底薪1萬元加5%成交額提成,運(yùn)營月薪1萬元,做鏈接的月薪8000元,還要配攝影、剪輯、采購、客服,并支付場地費(fèi)。
王老板擺擺手:還是算了。
沒過多久,王老板碰上一個(gè)數(shù)字人銷售,聲稱只要3萬元就能買到一個(gè)數(shù)字人,還免費(fèi)提供直播培訓(xùn)。
“你想啊,請一個(gè)主播多少錢?”“一個(gè)主播還需要配一個(gè)運(yùn)營,兩個(gè)人加起來,成本多少?”“主播培養(yǎng)成熟跑了,你損失多少?”“你對手做直播一年幾千萬,你不做行嗎?”“未來是數(shù)字人時(shí)代,你們公司在這方面有沒有占坑?”
王老板聽了很心動(dòng),3萬元說多不多,說少不少,萬一真能抓住風(fēng)口呢。
沒多少猶豫,王老板爽快下單,很快得到了一個(gè)美女?dāng)?shù)字人主播。結(jié)果剛在抖音開播不到一分鐘,就被禁止直播一星期。
銷售口中的“日不落”直播間,還沒升起就落了。
小劉所在的汽車公司也打算定制一個(gè)數(shù)字人,以后放在一樓展廳,外人來參觀時(shí)可以跟它互動(dòng)了解企業(yè),顯得比較科技范兒。
在小劉看來,公司目前確定的數(shù)字人公司只是運(yùn)氣好,其實(shí)能力不強(qiáng),競標(biāo)后除了要錢基本無法溝通。
一開始對方光開發(fā)費(fèi)就收了40萬,后面再加上主機(jī)、展示柜、收擴(kuò)音設(shè)備、透明柜等硬件設(shè)備,整個(gè)項(xiàng)目將近70萬。
此外,小劉所在公司目前跟對方簽了三年合同,后面如果還想續(xù)約,要加錢;除招手、揮手、歡迎、鼓掌等動(dòng)作外,要想再加新動(dòng)作,也需要加錢;對方提供AI配音,換的話也得加錢。
據(jù)小劉分析,乙方公司并沒有非常核心的技術(shù),人物形象、語音識(shí)別、硬件設(shè)備這些都是外包的。到現(xiàn)在,項(xiàng)目已經(jīng)開啟了兩個(gè)月,還停留在造型和聲音評審階段。
小劉逐漸相信,這個(gè)項(xiàng)目可能達(dá)不到預(yù)期效果。
某大公司員工定制了一個(gè)仙俠風(fēng)格、帥氣逼人的數(shù)字人男主,美滋滋介紹給老板。
老板狂怒:這個(gè)做得是挺好看,它能給我們公司帶來什么?怎么跟我們的商業(yè)模式結(jié)合?未來怎么規(guī)劃?
大家啞口無言。
二、數(shù)字人直播帶貨,靠譜嗎?
午夜時(shí)分,數(shù)字人悄悄登場。
姣好的形態(tài)、迷人的微笑、純正的播音腔,一切看起來非常完美。但沒過一陣兒,畫面和聲音就開始重復(fù)。
數(shù)字人之所以只在午夜出沒,是因?yàn)榻衲?月抖音發(fā)布了針對數(shù)字人的平臺(tái)規(guī)范,明確指出:使用已注冊的虛擬人形象進(jìn)行直播時(shí),必須由真人驅(qū)動(dòng)進(jìn)行實(shí)時(shí)互動(dòng),不允許完全由AI驅(qū)動(dòng)進(jìn)行互動(dòng)。
一紙規(guī)范,引發(fā)行業(yè)地震。這段時(shí)間,抖音封殺了大量數(shù)字人直播間,商家只有在審核比較松的時(shí)段才敢把數(shù)字人放出來。
網(wǎng)上有段很火的視頻看起來很詭異:凌晨某地,幾百平的房間空無一人,100臺(tái)電腦屏幕上,數(shù)字人們在瘋狂直播,仿佛一場沒有人類參與的AI狂歡。
想要躬身入局的商家,最懂得計(jì)算投入產(chǎn)出比。
目前,數(shù)字人直播間需要配備一名直播操控員和一名運(yùn)營人員,再加上數(shù)字人使用費(fèi)、場地費(fèi)和設(shè)備費(fèi),每月成本至少2萬元。
此外,使用數(shù)字人直播還有隨時(shí)可能被封的風(fēng)險(xiǎn)。如果帶來的流量轉(zhuǎn)化較少,獲得的收益將難以覆蓋運(yùn)營成本。
對于小商戶而言,數(shù)字人直播是一筆不小的負(fù)擔(dān),老板往往頂好幾個(gè)人用,既是中控又是主播,每天播兩三個(gè)小時(shí)就夠了,用不著每月多花2萬塊錢。
拋開成本,很多人比較直觀的感受是,目前數(shù)字人直播比較影響用戶體驗(yàn)。數(shù)字人一看上去就有點(diǎn)假,它不會(huì)跟觀眾進(jìn)行眼神交流,就像一個(gè)人在跟你說話,但是眼睛看向別處,讓人感覺特別不真誠。更不用說,數(shù)字人有時(shí)還一直官話套話重復(fù)循環(huán)。
現(xiàn)在數(shù)字人直播的客戶群體是40歲以上的中老年客戶,他們有時(shí)分辨不出屏幕里的人是真是假。但年輕人對主播表現(xiàn)力的要求比較高,一看比較假就會(huì)劃走,流量轉(zhuǎn)瞬即逝。
而且,當(dāng)用戶在直播中提問時(shí),數(shù)字人沒法及時(shí)回復(fù),訓(xùn)練不好還會(huì)胡說八道。真人主播在看屏幕鏡頭的同時(shí),還可以掃一眼直播大屏,快速給出回復(fù)。
比如有人問,這個(gè)產(chǎn)品45歲能用嗎?我已經(jīng)是兩個(gè)孩子的媽了。
數(shù)字人一般回答:能,好用,你現(xiàn)在就可以去拍。
而真人主播會(huì)針對問題做出延展性的想象。比如會(huì)先夸贊一番:你有兩個(gè)孩子好幸福!兩個(gè)孩子應(yīng)該都很愛你吧!再去引導(dǎo)顧客下單。
抖音電商從業(yè)者王予燦對數(shù)字人仍持觀望態(tài)度,他向商隱社表達(dá)了兩點(diǎn)顧慮:“數(shù)字人直播帶貨適合百元以下,能形成周期性復(fù)購的標(biāo)品,不適合新興品牌。而且更適合淘寶這種貨架電商,而不是抖音這種興趣電商?!?/p>
興趣電商本身是靠情緒驅(qū)動(dòng)的,刷到的商品大多可有可無,非標(biāo)品多一些,會(huì)給商家?guī)硪欢ǖ囊鐑r(jià)空間。
但像食品、美妝這些我們定期就要買的產(chǎn)品,遵循一個(gè)購買目標(biāo),多數(shù)情況下只要價(jià)格合適就直接買了,百元以下更不用糾結(jié)。這種不需要主播付出太多情緒去促成下單。當(dāng)然數(shù)字人目前也做不到真人的情緒流動(dòng),看起來還是一個(gè)會(huì)說話的機(jī)器在推銷商品。
這就對品牌信任度提出了更高的要求。品牌知名度、開設(shè)店鋪時(shí)間長短、一年內(nèi)的爆款數(shù)量、收獲了多少好評等,都會(huì)影響用戶對產(chǎn)品和品牌的信任感。
如果顧客信任度足夠高,刷到之后思考時(shí)間比較短,就很容易下單。
但大多數(shù)中小商家沒有這樣優(yōu)越的先天條件。在直播中,數(shù)字人的口型、互動(dòng)仍不夠真實(shí)自然。
這其實(shí)在變相消耗品牌積累的信任感。直播間盲目用數(shù)字人,相當(dāng)于慢性自殺。
“所以說,事在人為,技術(shù)擺在這里了,能不能用好還是看個(gè)人能力。如果真人直播都做不好,數(shù)字人直播也做不好。這說明細(xì)節(jié)沒有把控好,話術(shù)沒有打磨,流程沒有走明白,搞數(shù)字人沒用的?!蓖跤锠N直言。
此外,還有很大的一個(gè)問題是,數(shù)字人直播欠缺健全的規(guī)則。數(shù)字人承擔(dān)的法律責(zé)任界定比較模糊,直播過程中沒辦法實(shí)時(shí)監(jiān)控它的話術(shù),有時(shí)對數(shù)字人的訓(xùn)練不到位,會(huì)造成難以預(yù)料的影響。
三、解構(gòu)數(shù)字人
同樣是數(shù)字人,為什么有的能賣3萬,有的可以賣到幾十萬?數(shù)字人是如何工作的呢?我們來解構(gòu)一下數(shù)字人。
這就要先從數(shù)字人的類型說起。數(shù)字人有2D和3D兩種,根據(jù)背后是否有人驅(qū)動(dòng)又可以分為由AI驅(qū)動(dòng)的虛擬人,以及由人驅(qū)動(dòng)的“中之人”,目前中之人大部分只有3D可以支撐。
2D和3D是兩個(gè)不同的技術(shù)方向。3D建模的成本非常高,還要做關(guān)節(jié)綁定,綁定的點(diǎn)越多,動(dòng)作越靈活。這相當(dāng)于打造了一個(gè)扯線布偶,用你的手去拉扯操縱布偶,驅(qū)動(dòng)其做出面部表情和動(dòng)作。
2D不需要建模,生產(chǎn)過程也相對簡單,只要錄一段5分鐘的視頻,對視頻逐幀分析,再通過機(jī)器學(xué)習(xí)對真人形象和聲音進(jìn)行1:1的克隆。7個(gè)工作日后,你的專屬數(shù)字分身就搞定了。
2D的核心思路是改變像素,相當(dāng)于老照片修復(fù)。如果老照片缺了一角,通過生成式模型進(jìn)行學(xué)習(xí)后,可以把缺失一角的像素給補(bǔ)齊。
3D數(shù)字人可以在元宇宙里轉(zhuǎn)身,旋轉(zhuǎn)跳躍不停歇。2D雖然能夠?qū)W習(xí)人的動(dòng)作和表情,但沒法做到跟人一模一樣,而且交互性沒有3D那么強(qiáng)。
目前可用的2D數(shù)字人直播報(bào)價(jià)是3萬至5萬元/年,短視頻報(bào)價(jià)是8000元/年;3D數(shù)字人經(jīng)過建?;騃P形象設(shè)計(jì)制作,直播報(bào)價(jià)超過20萬元。
數(shù)字人克隆的價(jià)格主要差在形象和聲音兩方面。形象包括形象來源、面部表情、身體動(dòng)作,聲音包括語音語調(diào)、情感情緒等。
如果用開源的AIGC生成的虛擬形象,對清晰度和精度要求不高的話,最便宜兩三百的也有。
此外,公模也比定制的便宜。所謂“公?!保侵笖?shù)字人企業(yè)與模特經(jīng)紀(jì)公司合作,集中采購肖像授權(quán)產(chǎn)出的通用數(shù)字人。目前視頻平臺(tái)和數(shù)字人公司有很多場景的數(shù)字人模板,男生女生、職場戶外的都有,可以直接租來用。
語音克隆有兩種。一種是用現(xiàn)在比較成熟的TTS技術(shù)合成語音,一種是定制,高端的價(jià)格在1萬到5萬不等。便宜的幾百塊,但是情感情緒、語音語調(diào)、說話節(jié)奏會(huì)差很多。
很多形象克隆便宜是因?yàn)闆]有動(dòng)作,只能坐在那里,比較假。品質(zhì)高一些的克隆會(huì)根據(jù)文本自動(dòng)生成動(dòng)作和表情。
短視頻生成還要另外按時(shí)長收費(fèi),一條一分半以內(nèi)的短視頻報(bào)價(jià)在50元到100元,包月5000元左右,開源的可以做到十幾塊錢。
這些只是軟件的部分,數(shù)字人的呈現(xiàn)效果跟GPU的渲染有很大關(guān)系。買個(gè)數(shù)字人回來,如果電腦配置很低,體驗(yàn)就會(huì)很差,出現(xiàn)卡頓、嘴不對音等問題。一般電腦硬件的標(biāo)配在1.2萬元至1.5萬元之間。
數(shù)字人是怎么運(yùn)行的呢?
讓數(shù)字人說話很簡單,只要給到一段文字,就可以通過技術(shù)轉(zhuǎn)化成語音,聲音可以用免費(fèi)的或者定制的,再配合形象即時(shí)生成一段視頻。
互動(dòng)比較難,目前有三種方式。一種需要真人在后臺(tái)留意數(shù)字人的直播過程,實(shí)時(shí)抓取問題,再準(zhǔn)備好回答話術(shù)讓數(shù)字人說出來。
另一種可以提前針對產(chǎn)品的核心賣點(diǎn)準(zhǔn)備好問題庫,只要觸發(fā)關(guān)鍵詞就能自動(dòng)回復(fù)。
三是接入大模型,用AI實(shí)時(shí)生成文字,再轉(zhuǎn)化成語音。但現(xiàn)在大家對于通用大模型的使用比較謹(jǐn)慎,一般會(huì)輸入專業(yè)內(nèi)容、設(shè)置信息圍欄,控制著數(shù)字人不要亂說話,回答更加精確。
此外,還可以用AIGC幫助生成視頻文案,拓展思路,這種要會(huì)問問題。
交流是有主導(dǎo)性的,誰發(fā)起話題,就按照誰的邏輯來延展。AIGC就像擊劍比賽的對手,如果你的水平低,它的水平就低,如果你的水平高,它的水平也就高。它有時(shí)候會(huì)一本正經(jīng)地胡說八道,大多是因?yàn)樘釂柕膯栴}不專業(yè)。
本地生活服務(wù)商戴平告訴商隱社:“我們在訓(xùn)練一個(gè)AIGC模型的時(shí)候,會(huì)先從專業(yè)的角度拆分知識(shí)點(diǎn),再去提問。AIGC出來以后,世界上就分成兩種人,一種是AIGC的主人,他能力非常強(qiáng),能把它訓(xùn)練得非常好。另一種是AIGC的奴隸,他只會(huì)不停地問,泛泛地問,但不知道答案是對是錯(cuò)?!?/p>
而且AIGC現(xiàn)在的回答非常書面化,這就要問得足夠細(xì)。比如賣全家桶,不要直接讓它“推薦一下全家桶”,可以問它“下午朋友相聚的時(shí)候,在肯德基里買全家桶的體驗(yàn)是怎么樣的?”,這樣它給到的回答基本都是可以用的。
這樣大概5分鐘就可以生成一條短視頻,之前如果讓真人來拍,算上文案和錄制得花費(fèi)好幾個(gè)小時(shí)。
現(xiàn)在大量操作及運(yùn)營都比較差的公司,利用數(shù)字人的噱頭割韭菜,給行業(yè)造成了不好的影響。但這也是事物從無序向有序過渡的必經(jīng)階段,后面真正做事的公司會(huì)凸顯其商業(yè)價(jià)值。
四、想象與數(shù)字人共存的未來
令人倍感意外的是,早在上世紀(jì)80年代,就已經(jīng)出現(xiàn)了手工繪制、通過電視拍攝的數(shù)字人。后來逐步從電視電影走向網(wǎng)絡(luò)媒體,從極少數(shù)人的專業(yè)制作,變得越來越大眾化,每個(gè)人都可以擁有自己的數(shù)字分身或者數(shù)字助手。
前面只提到了數(shù)字人短視頻或者直播帶貨,實(shí)際上目前數(shù)字人可以利用的場景非常廣泛。
比如可以用洛天依這樣的純數(shù)字人,或者明星的數(shù)字分身進(jìn)行娛樂表演,電視臺(tái)報(bào)社還有虛擬主播。還可以在展館里設(shè)置數(shù)字人講解員,在商場安置數(shù)字人導(dǎo)購員,劇本殺里安排數(shù)字人NPC。
有人做了數(shù)字人名片,跟AR技術(shù)結(jié)合,只要拿手機(jī)小程序掃一掃,就會(huì)跳出來這個(gè)人的形象跟你打招呼、自我介紹。同理,這也可以應(yīng)用在錄取通知書里,用數(shù)字人的方式讓新生了解學(xué)校。
現(xiàn)在還出現(xiàn)了數(shù)字人手辦——在一個(gè)可視的盒子里嵌入偶像的3D數(shù)字人模型,它可以唱歌跳舞,也可以接入大模型跟用戶對話。
此外,企業(yè)的數(shù)字員工可以跟內(nèi)部系統(tǒng)綁定,員工可以跟它交流了解公司的規(guī)章制度,查詢各種信息等。
上面說的這些場景都屬于數(shù)字人產(chǎn)業(yè)鏈的應(yīng)用層。中間層是數(shù)字人制作公司,提供基礎(chǔ)的平臺(tái)能力,根據(jù)客戶的個(gè)性化需求去生產(chǎn)數(shù)字人。
再往下是提供技術(shù)引擎的廠商,涉及數(shù)字人用到的算力、云渲染。所謂引擎就是一種公共能力,提供生成形象、語音等的標(biāo)準(zhǔn)化組件。數(shù)字人生產(chǎn)廠商無需從零搭建平臺(tái),可以專心開發(fā)應(yīng)用。
最難的還是應(yīng)用層。實(shí)際上數(shù)字人技術(shù)沒有太大差別,大多數(shù)都是國外開源的技術(shù)。
所以,數(shù)字人不是一個(gè)技術(shù)問題,而是設(shè)計(jì)和運(yùn)營的問題,關(guān)鍵是要想清楚用它干什么,怎么能多發(fā)揮一些價(jià)值。以及如何做出IP,讓數(shù)字人有靈魂、有性格、有品牌,進(jìn)而更好地去做商業(yè)轉(zhuǎn)化。
這就像MCN公司發(fā)掘了一個(gè)很好看的素人,要成為網(wǎng)紅或者明星還需要一些包裝手法。
邱肅川在元宇宙行業(yè)深耕多年,他認(rèn)為:“數(shù)字人最終還是叫人,它還是社會(huì)分工的一個(gè)產(chǎn)物。在面向社會(huì)的時(shí)候,還是要提供特定的功能。它有什么用,決定了它值多少錢。”
與此同時(shí),數(shù)字人也存在侵犯隱私、電信詐騙等風(fēng)險(xiǎn)。一旦把自己的素材給了數(shù)字人公司,他們就有了你一套從聲音到形象的復(fù)刻素材,如果信息泄漏,影響會(huì)非常大。
我們現(xiàn)在很多支付都是人臉識(shí)別,如果我們的形象素材被非法使用,可能會(huì)導(dǎo)致財(cái)產(chǎn)流失。很多詐騙公司還會(huì)利用視頻造假或者用克隆的形象給親友打視頻電話,從而實(shí)施詐騙。
現(xiàn)在的解決方式是,如果數(shù)字人是商用,那每個(gè)數(shù)字人形象都必須有專項(xiàng)使用權(quán)的授權(quán)函,否則就不能用。
盡管如此,當(dāng)前很多場景都是對現(xiàn)實(shí)世界的功能性替代和優(yōu)化,數(shù)字人的想象空間還有待挖掘。
數(shù)字人更大的一個(gè)應(yīng)用場景是在虛擬空間,相當(dāng)于在現(xiàn)實(shí)世界里開辟了一個(gè)平行宇宙,會(huì)產(chǎn)生新的需求,創(chuàng)造新的生產(chǎn)和消費(fèi)活動(dòng)。
這個(gè)空間里有虛擬的數(shù)字經(jīng)濟(jì),有不同的人物、場景、經(jīng)濟(jì)體、各種各樣的玩法。
這相當(dāng)于進(jìn)入了一場游戲,只是游戲里的人物都是隔著屏幕才能看到,NPC都是程序直接設(shè)定的。
而在虛擬世界,真人的數(shù)字分身和數(shù)字人共同享有一個(gè)游戲世界,有經(jīng)濟(jì)系統(tǒng)、文明系統(tǒng)、社交系統(tǒng),也有獨(dú)特的價(jià)值創(chuàng)造。
之前邱肅川的朋友做過虛擬演唱會(huì),第一季是虛實(shí)結(jié)合,取景都在上海大劇院,交響樂團(tuán)也是實(shí)際的,所有參與演唱會(huì)的明星全都是數(shù)字明星。
后來第二季的時(shí)候他們就想:既然都進(jìn)入數(shù)字世界了,為什么還要遵循物理規(guī)律?我們的舞臺(tái)為什么不能搬到我們之前去不了的地方,比如在深海里,在火山上,在太空里?
“你之所以愿意進(jìn)入這種故事里,是因?yàn)樗鼛Ыo你完全不一樣的體驗(yàn),讓你到去不了的地方,做原來做不了的事。這在邏輯上是可行的,就是要等到相關(guān)技術(shù)、協(xié)議、標(biāo)準(zhǔn)、規(guī)范真正被大規(guī)模解決。”
“我不知道它什么時(shí)候會(huì)爆發(fā),這個(gè)過程要多長,但是它一定會(huì)走到那里去?!鼻衩C川相信。