正在閱讀:

全新虛擬人技術(shù)發(fā)布,蘋果原來還握著這么多元宇宙大招

掃一掃下載界面新聞APP

全新虛擬人技術(shù)發(fā)布,蘋果原來還握著這么多元宇宙大招

蘋果認知中的虛擬人乃至虛擬世界,都要以無限趨近真實世界作為目標。

文|Metaverse元宇宙

編輯|高樂

隨著年末的到來,半年前蘋果在頭顯領(lǐng)域的大招Vision Pro距離正式發(fā)售也越來越近。

雖然半年來,大家的目光都聚焦在Vision Pro可能帶來的全新沉浸式體驗上,但潛藏在其中關(guān)于虛擬人的探索亦有不少:

從五年前引領(lǐng)3D面部動捕的Animoji,到上周發(fā)布的可以生成真人數(shù)字分身的HUGS技術(shù),都展露出蘋果想探索出一條與眾不同虛擬人道路的決心。

而這些多年積累的技術(shù),也都將在Vision Pro上迎來高光時刻——不得不說,在為元宇宙續(xù)命這塊蘋果是會拿捏的,以半年為周期穩(wěn)定為元宇宙注入新的可能性。

1 全新技術(shù),讓虛擬人無限趨近現(xiàn)實

蘋果最新發(fā)布的 "HUGS"虛擬人技術(shù),全稱為Human Gaussian Splats,即人類高斯合成,這項技術(shù)基于3D Gaussian Splatting(3DGS)和SMPL身體模型,通過兩種先進技術(shù)融合來創(chuàng)造出更加生動和真實的數(shù)字人物。

較之傳統(tǒng)的虛擬人生成技術(shù),HUGS的一個關(guān)鍵優(yōu)勢在于其高效的數(shù)據(jù)處理能力,其僅需大約2到4秒的視頻(50-100幀),就能生成一個完整的數(shù)字分身,大大減少了創(chuàng)建虛擬人所需要的原始素材。

當然目前HUGS在捕捉細節(jié)方面還有局限,不過通過算法,HUGS能夠自動填充未被捕捉到的元素,確保了數(shù)字分身的整體質(zhì)量。此外,HUGS的生成速度是其另一個優(yōu)勢:蘋果發(fā)布的相關(guān)論文宣稱,HUGS能在約30分鐘內(nèi)完成數(shù)字人的生成,速度比當前市場上的其他同類產(chǎn)品快約100倍。

而在所需素材較少,生成速度較快的基礎(chǔ)上,HUGS在渲染質(zhì)量和速度上也有顯著提高:HUGS能夠以60 FPS的速度實現(xiàn)高質(zhì)量渲染,同時還能處理動態(tài)場景中的復(fù)雜挑戰(zhàn),如避免偽影并協(xié)調(diào)動畫過程中的運動。雖然動作設(shè)計有些鬼畜,但通過演示視頻可以看出,當前利用 HUGS"技術(shù)生成的數(shù)字人在動作流暢性、人物擬真性上都已經(jīng)趨近完成體。這也宣示著蘋果在數(shù)字渲染領(lǐng)域的一個顯著進步,特別是在動態(tài)場景中創(chuàng)建和渲染人類數(shù)字分身的能力上。因此在擁有Vinsion Pro后,通過相關(guān)技術(shù)快速生成數(shù)字人并在此基礎(chǔ)上開展多樣化應(yīng)用也成為了可能。

除了潛在的與Vinsion Pro結(jié)合的可能性,HUGS的這些特性也使其成為電影制作、游戲開發(fā)、虛擬現(xiàn)實等領(lǐng)域的一個有價值的工具,特別是在需要快速且高質(zhì)量地渲染動態(tài)人類角色的場景中。

通過HUGS技術(shù),創(chuàng)作者和開發(fā)者能夠更自由地實現(xiàn)新穎姿勢和視圖的合成,開辟數(shù)字創(chuàng)作的新可能性。

當然突破并非一蹴而就——近幾年,蘋果在虛擬人相關(guān)技術(shù)上進行的諸多探索,都一個個成為Vinsion Pro未來圖景的基石。

2 逐步積淀,空間計算穩(wěn)健前行

回顧蘋果的虛擬人相關(guān)的動作,2017年的Animoji無疑是其中的關(guān)鍵一步。

Animoji首次亮相于2017年的蘋果秋季發(fā)布會,與iPhone X一同亮相的Animoji在彼時展示出了一種全新的交互方式:

這一技術(shù)通過iPhone的前置TrueDepth相機系統(tǒng)精確捕捉用戶的面部動作,如嘴巴、眉毛和眼睛的運動,從而實時地將這些表情映射到獨角獸、機器人或貓頭鷹等各種動畫角色上。用戶可以選擇不同的動畫角色來錄制和發(fā)送含有語音的動畫消息,這些角色能夠精準地模擬并反映用戶的表情和聲音。

而后來發(fā)生的故事,我們已經(jīng)很熟悉:隨著技術(shù)的不斷進步,Animoji也被運用到更廣泛的場景,如社交媒體和視頻制作上。同時其他同類產(chǎn)品也開始瘋狂涌現(xiàn),通過面部捕捉生成自己虛擬形象的熱潮,每隔一段時間就會重復(fù)一次。

同時隨著時間的推進,蘋果在虛擬人相關(guān)技術(shù)的探索上也更進一步——其中的許多技術(shù)細節(jié)中,都不乏Animoji的影子。

據(jù)目前的消息,在Vision Pro上蘋果會提前錄入使用者的 3D 面孔數(shù)據(jù),生成出一個 3D 建模渲染的自己,也就是接近一比一還原的虛擬人,而為了讓虛擬人更加逼真,蘋果將采用一項名為“情緒識別”的新技術(shù)。

該技術(shù)旨在通過攝像頭,來分析用戶的面部表情和情緒。根據(jù)專利內(nèi)容,在這套系統(tǒng)中,需要使用面部識別技術(shù)來識別用戶身份,以便提供定制化的操作,而這一技術(shù)其實也源自蘋果早年的積淀。

該技術(shù)的最初開發(fā)其實是為了應(yīng)用在Siri上。彼時,為了減少語音請求被誤解的次數(shù),蘋果試圖通過分析用戶情緒來做到這一點,以進一步提高準確度。在早年的一份專利申請中,顯示蘋果正在開發(fā)一種全新的方法,通過在未來版本的Siri或其他系統(tǒng)中添加面部分析功能,來幫助Siri解讀用戶提出的請求。

伴隨著Vision Pro的問世,此前鋪墊的情緒識別技術(shù)無疑也即將迎來更大的用武之地。

除了在構(gòu)建更擬真虛擬人上的努力,對于虛擬人潛在的應(yīng)用場景,蘋果也早已開始探索。

蘋果公司最近獲得的元宇宙在線購物體驗專利,是一項旨在徹底改變在線購物方式的創(chuàng)新技術(shù)——在這個虛擬環(huán)境中,用戶可以直接與各種虛擬產(chǎn)品進行互動,就像在現(xiàn)實中一樣。

該技術(shù)主要運用計算機生成圖像(CGI)和擴展現(xiàn)實(CGR)技術(shù),以提升數(shù)字零售體驗至新的層次,系統(tǒng)允許用戶通過虛擬通信會話,實時與遠程銷售人員進行互動。

例如,用戶可以從一個虛擬電視上拿下一部虛擬智能手機,體驗其所有功能,這些互動的方式讓虛擬對象看起來和真實物理對象一樣具有真實感。此外,專利還提出了在VR環(huán)境中的應(yīng)用場景,包括虛擬零售商店、虛擬桌子和產(chǎn)品展示。這些應(yīng)用不僅限于展示現(xiàn)實世界中的產(chǎn)品,還可以包括顯示歷史地點或虛構(gòu)場景等虛擬位置。

通過這項專利,蘋果旨在解決在線購物中缺乏即時反饋和互動性的問題,使用戶即使在家中或任何遠程環(huán)境中也能享受到類似面對面購物的體驗。用戶可以通過簡單的手勢啟動CGR環(huán)境中的零售體驗,或互動體驗虛擬產(chǎn)品演示,同時銷售人員也可以遠程操縱產(chǎn)品來突出其特性和功能。

在很近的將來,通過Vision Pro用戶就能夠體驗到高度真實感的虛擬人物,還能在更加沉浸式的環(huán)境中與之互動——無論是在娛樂、教育還是遠程溝通方面都將開辟新的體驗方式。

3 技術(shù)融合,未來比想象中更近

至此,蘋果的虛擬人路徑已經(jīng)清晰展現(xiàn):那就是以真人數(shù)字分身作為主要方向,通過完善動作、細節(jié)、情感、場景等,使數(shù)字人無限趨近于真實。

有別于當前的超寫實虛擬人或卡通式虛擬人,蘋果選擇的道路更接近于通過真人素材構(gòu)建真人數(shù)字分身的路徑。

雖然當下的真人虛擬人已經(jīng)可以做到十分逼真的程度,但其應(yīng)用更多停留在2D平面,也就是手機、電腦等顯示屏中,生成的內(nèi)容以口播為主,需要出鏡的范圍也基本局限在上半身,且以面部動作為主,身體其他部分動作有限。

而在Vision Pro即將開啟的空間計算時代中,對真人數(shù)字人以及其全身動作擬真性的要求會達到前所未有的高度。

此前Meta Horizon Worlds中卡通人物呈現(xiàn)的低幼感,與只能顯示虛擬人物上半身的詭異感,成為其發(fā)展過程中的兩大重大阻礙:

一方面低幼感的形象會讓虛擬空間天然具備更多游戲性,從而阻礙其在生產(chǎn)力上的拓展;另一方面顯示人物上半身的詭異感會很輕易地破壞沉浸式體驗。

顯然,蘋果認知中的虛擬人乃至虛擬世界,都要以無限趨近真實世界作為目標。

iOS 17.2更新后正式亮相的空間視頻錄制功能同樣是實現(xiàn)這一目標的關(guān)鍵一步。雖然當下該功能只能實現(xiàn)1080P 60幀的內(nèi)容錄制,但根據(jù)已有的體驗反饋,其已經(jīng)可以實現(xiàn)接近現(xiàn)實世界的沉浸感。

雖然HUGS目前生成數(shù)字人30分鐘的時間依然略顯漫長,情緒識別功能的具體應(yīng)用效果、在線購物等場景能在多大程度上符合人們的期待都還要等Vision Pro發(fā)售后揭曉,空間視頻1080P的分辨率限制離頭顯對于內(nèi)容8K乃至16K的高標準要求還要一定距離,但一個關(guān)于真人數(shù)字人與真實場景構(gòu)建的虛擬世界的拼圖已經(jīng)越來越多。

在相關(guān)技術(shù)進一步完善與融合后,只需要一段視頻就可以構(gòu)建一個場景真實、人物逼真的虛擬世界的未來,其實比想象中更近。

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請聯(lián)系原著作權(quán)人。

蘋果

6.4k
  • 臨港集團獲得蘋果公司授權(quán)培訓(xùn)合作伙伴資質(zhì)
  • 印尼據(jù)悉批準蘋果公司10億美元的投資計劃,將取消對iPhone 16的銷售禁令

評論

暫無評論哦,快來評價一下吧!

下載界面新聞

微信公眾號

微博

全新虛擬人技術(shù)發(fā)布,蘋果原來還握著這么多元宇宙大招

蘋果認知中的虛擬人乃至虛擬世界,都要以無限趨近真實世界作為目標。

文|Metaverse元宇宙

編輯|高樂

隨著年末的到來,半年前蘋果在頭顯領(lǐng)域的大招Vision Pro距離正式發(fā)售也越來越近。

雖然半年來,大家的目光都聚焦在Vision Pro可能帶來的全新沉浸式體驗上,但潛藏在其中關(guān)于虛擬人的探索亦有不少:

從五年前引領(lǐng)3D面部動捕的Animoji,到上周發(fā)布的可以生成真人數(shù)字分身的HUGS技術(shù),都展露出蘋果想探索出一條與眾不同虛擬人道路的決心。

而這些多年積累的技術(shù),也都將在Vision Pro上迎來高光時刻——不得不說,在為元宇宙續(xù)命這塊蘋果是會拿捏的,以半年為周期穩(wěn)定為元宇宙注入新的可能性。

1 全新技術(shù),讓虛擬人無限趨近現(xiàn)實

蘋果最新發(fā)布的 "HUGS"虛擬人技術(shù),全稱為Human Gaussian Splats,即人類高斯合成,這項技術(shù)基于3D Gaussian Splatting(3DGS)和SMPL身體模型,通過兩種先進技術(shù)融合來創(chuàng)造出更加生動和真實的數(shù)字人物。

較之傳統(tǒng)的虛擬人生成技術(shù),HUGS的一個關(guān)鍵優(yōu)勢在于其高效的數(shù)據(jù)處理能力,其僅需大約2到4秒的視頻(50-100幀),就能生成一個完整的數(shù)字分身,大大減少了創(chuàng)建虛擬人所需要的原始素材。

當然目前HUGS在捕捉細節(jié)方面還有局限,不過通過算法,HUGS能夠自動填充未被捕捉到的元素,確保了數(shù)字分身的整體質(zhì)量。此外,HUGS的生成速度是其另一個優(yōu)勢:蘋果發(fā)布的相關(guān)論文宣稱,HUGS能在約30分鐘內(nèi)完成數(shù)字人的生成,速度比當前市場上的其他同類產(chǎn)品快約100倍。

而在所需素材較少,生成速度較快的基礎(chǔ)上,HUGS在渲染質(zhì)量和速度上也有顯著提高:HUGS能夠以60 FPS的速度實現(xiàn)高質(zhì)量渲染,同時還能處理動態(tài)場景中的復(fù)雜挑戰(zhàn),如避免偽影并協(xié)調(diào)動畫過程中的運動。雖然動作設(shè)計有些鬼畜,但通過演示視頻可以看出,當前利用 HUGS"技術(shù)生成的數(shù)字人在動作流暢性、人物擬真性上都已經(jīng)趨近完成體。這也宣示著蘋果在數(shù)字渲染領(lǐng)域的一個顯著進步,特別是在動態(tài)場景中創(chuàng)建和渲染人類數(shù)字分身的能力上。因此在擁有Vinsion Pro后,通過相關(guān)技術(shù)快速生成數(shù)字人并在此基礎(chǔ)上開展多樣化應(yīng)用也成為了可能。

除了潛在的與Vinsion Pro結(jié)合的可能性,HUGS的這些特性也使其成為電影制作、游戲開發(fā)、虛擬現(xiàn)實等領(lǐng)域的一個有價值的工具,特別是在需要快速且高質(zhì)量地渲染動態(tài)人類角色的場景中。

通過HUGS技術(shù),創(chuàng)作者和開發(fā)者能夠更自由地實現(xiàn)新穎姿勢和視圖的合成,開辟數(shù)字創(chuàng)作的新可能性。

當然突破并非一蹴而就——近幾年,蘋果在虛擬人相關(guān)技術(shù)上進行的諸多探索,都一個個成為Vinsion Pro未來圖景的基石。

2 逐步積淀,空間計算穩(wěn)健前行

回顧蘋果的虛擬人相關(guān)的動作,2017年的Animoji無疑是其中的關(guān)鍵一步。

Animoji首次亮相于2017年的蘋果秋季發(fā)布會,與iPhone X一同亮相的Animoji在彼時展示出了一種全新的交互方式:

這一技術(shù)通過iPhone的前置TrueDepth相機系統(tǒng)精確捕捉用戶的面部動作,如嘴巴、眉毛和眼睛的運動,從而實時地將這些表情映射到獨角獸、機器人或貓頭鷹等各種動畫角色上。用戶可以選擇不同的動畫角色來錄制和發(fā)送含有語音的動畫消息,這些角色能夠精準地模擬并反映用戶的表情和聲音。

而后來發(fā)生的故事,我們已經(jīng)很熟悉:隨著技術(shù)的不斷進步,Animoji也被運用到更廣泛的場景,如社交媒體和視頻制作上。同時其他同類產(chǎn)品也開始瘋狂涌現(xiàn),通過面部捕捉生成自己虛擬形象的熱潮,每隔一段時間就會重復(fù)一次。

同時隨著時間的推進,蘋果在虛擬人相關(guān)技術(shù)的探索上也更進一步——其中的許多技術(shù)細節(jié)中,都不乏Animoji的影子。

據(jù)目前的消息,在Vision Pro上蘋果會提前錄入使用者的 3D 面孔數(shù)據(jù),生成出一個 3D 建模渲染的自己,也就是接近一比一還原的虛擬人,而為了讓虛擬人更加逼真,蘋果將采用一項名為“情緒識別”的新技術(shù)。

該技術(shù)旨在通過攝像頭,來分析用戶的面部表情和情緒。根據(jù)專利內(nèi)容,在這套系統(tǒng)中,需要使用面部識別技術(shù)來識別用戶身份,以便提供定制化的操作,而這一技術(shù)其實也源自蘋果早年的積淀。

該技術(shù)的最初開發(fā)其實是為了應(yīng)用在Siri上。彼時,為了減少語音請求被誤解的次數(shù),蘋果試圖通過分析用戶情緒來做到這一點,以進一步提高準確度。在早年的一份專利申請中,顯示蘋果正在開發(fā)一種全新的方法,通過在未來版本的Siri或其他系統(tǒng)中添加面部分析功能,來幫助Siri解讀用戶提出的請求。

伴隨著Vision Pro的問世,此前鋪墊的情緒識別技術(shù)無疑也即將迎來更大的用武之地。

除了在構(gòu)建更擬真虛擬人上的努力,對于虛擬人潛在的應(yīng)用場景,蘋果也早已開始探索。

蘋果公司最近獲得的元宇宙在線購物體驗專利,是一項旨在徹底改變在線購物方式的創(chuàng)新技術(shù)——在這個虛擬環(huán)境中,用戶可以直接與各種虛擬產(chǎn)品進行互動,就像在現(xiàn)實中一樣。

該技術(shù)主要運用計算機生成圖像(CGI)和擴展現(xiàn)實(CGR)技術(shù),以提升數(shù)字零售體驗至新的層次,系統(tǒng)允許用戶通過虛擬通信會話,實時與遠程銷售人員進行互動。

例如,用戶可以從一個虛擬電視上拿下一部虛擬智能手機,體驗其所有功能,這些互動的方式讓虛擬對象看起來和真實物理對象一樣具有真實感。此外,專利還提出了在VR環(huán)境中的應(yīng)用場景,包括虛擬零售商店、虛擬桌子和產(chǎn)品展示。這些應(yīng)用不僅限于展示現(xiàn)實世界中的產(chǎn)品,還可以包括顯示歷史地點或虛構(gòu)場景等虛擬位置。

通過這項專利,蘋果旨在解決在線購物中缺乏即時反饋和互動性的問題,使用戶即使在家中或任何遠程環(huán)境中也能享受到類似面對面購物的體驗。用戶可以通過簡單的手勢啟動CGR環(huán)境中的零售體驗,或互動體驗虛擬產(chǎn)品演示,同時銷售人員也可以遠程操縱產(chǎn)品來突出其特性和功能。

在很近的將來,通過Vision Pro用戶就能夠體驗到高度真實感的虛擬人物,還能在更加沉浸式的環(huán)境中與之互動——無論是在娛樂、教育還是遠程溝通方面都將開辟新的體驗方式。

3 技術(shù)融合,未來比想象中更近

至此,蘋果的虛擬人路徑已經(jīng)清晰展現(xiàn):那就是以真人數(shù)字分身作為主要方向,通過完善動作、細節(jié)、情感、場景等,使數(shù)字人無限趨近于真實。

有別于當前的超寫實虛擬人或卡通式虛擬人,蘋果選擇的道路更接近于通過真人素材構(gòu)建真人數(shù)字分身的路徑。

雖然當下的真人虛擬人已經(jīng)可以做到十分逼真的程度,但其應(yīng)用更多停留在2D平面,也就是手機、電腦等顯示屏中,生成的內(nèi)容以口播為主,需要出鏡的范圍也基本局限在上半身,且以面部動作為主,身體其他部分動作有限。

而在Vision Pro即將開啟的空間計算時代中,對真人數(shù)字人以及其全身動作擬真性的要求會達到前所未有的高度。

此前Meta Horizon Worlds中卡通人物呈現(xiàn)的低幼感,與只能顯示虛擬人物上半身的詭異感,成為其發(fā)展過程中的兩大重大阻礙:

一方面低幼感的形象會讓虛擬空間天然具備更多游戲性,從而阻礙其在生產(chǎn)力上的拓展;另一方面顯示人物上半身的詭異感會很輕易地破壞沉浸式體驗。

顯然,蘋果認知中的虛擬人乃至虛擬世界,都要以無限趨近真實世界作為目標。

iOS 17.2更新后正式亮相的空間視頻錄制功能同樣是實現(xiàn)這一目標的關(guān)鍵一步。雖然當下該功能只能實現(xiàn)1080P 60幀的內(nèi)容錄制,但根據(jù)已有的體驗反饋,其已經(jīng)可以實現(xiàn)接近現(xiàn)實世界的沉浸感。

雖然HUGS目前生成數(shù)字人30分鐘的時間依然略顯漫長,情緒識別功能的具體應(yīng)用效果、在線購物等場景能在多大程度上符合人們的期待都還要等Vision Pro發(fā)售后揭曉,空間視頻1080P的分辨率限制離頭顯對于內(nèi)容8K乃至16K的高標準要求還要一定距離,但一個關(guān)于真人數(shù)字人與真實場景構(gòu)建的虛擬世界的拼圖已經(jīng)越來越多。

在相關(guān)技術(shù)進一步完善與融合后,只需要一段視頻就可以構(gòu)建一個場景真實、人物逼真的虛擬世界的未來,其實比想象中更近。

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請聯(lián)系原著作權(quán)人。