国产精品chinese,色综合天天综合精品网国产在线,成午夜免费视频在线观看,清纯女学生被强行糟蹋小说

    <td id="ojr13"><tr id="ojr13"><label id="ojr13"></label></tr></td>
        • <source id="ojr13"></source>
            <td id="ojr13"><ins id="ojr13"><label id="ojr13"></label></ins></td>

            當(dāng)前位置:文章中心>技術(shù)教程
            公告通知 新聞快遞 技術(shù)教程 產(chǎn)品展示

            虛擬偶像誕生記 - 數(shù)字人行業(yè)和技術(shù)探究

            發(fā)布時(shí)間:2022-02-24 點(diǎn)擊數(shù):1488
            簡(jiǎn)介: 為你講述當(dāng)前業(yè)界的現(xiàn)狀,包括不同行業(yè)中的showcase和優(yōu)秀的技術(shù)/創(chuàng)作平臺(tái),引出近幾年比較火熱的元宇宙概念,包含多個(gè)核心技術(shù)點(diǎn),同時(shí)暢想數(shù)字人在未來(lái)的技術(shù)增長(zhǎng)和業(yè)務(wù)價(jià)值,以及當(dāng)下我們?cè)撊绾尾季帧?/span>

            我們理解的數(shù)字人

            虛擬數(shù)字人.png

            近幾年數(shù)字人的概念在互聯(lián)網(wǎng)中異?;馃?,業(yè)界也出現(xiàn)了很多熱門(mén)虛擬數(shù)字人或虛擬偶像,比如Lil Miquela,洛天依、初音、鹿鳴、暖暖、AYAYI等。這些數(shù)字人的商業(yè)模式或市場(chǎng)價(jià)值通常是:通過(guò)運(yùn)營(yíng)積攢流量,依靠流量變現(xiàn)。例如:


            • 品牌代言(IP、事件)
            • 粉絲經(jīng)濟(jì)(二次元)
            • 虛擬主播(游戲、帶貨)

            本文為接下來(lái)講到的數(shù)字人,定義了三個(gè)核心要素:


            一、 - 具備人或擬人的外觀,具有特定的相貌等人物特征。

            二、動(dòng) - 擁有和人相似的行為,具有用語(yǔ)言、表情和肢體等表達(dá)的能力。

            三、 - 擁有比擬人的思想,具有識(shí)別外界環(huán)境、并能與人交流互動(dòng)的能力。


            這三條要素對(duì)于虛擬數(shù)字人的完成度來(lái)說(shuō)是一個(gè)遞進(jìn)的關(guān)系。


            市場(chǎng)現(xiàn)狀


            近幾年,虛擬數(shù)字人在電商、金融、影視、游戲和金融等行業(yè)都擁有不同大小的市場(chǎng)規(guī)模。例如:虛擬偶像行業(yè)2020年中國(guó)的市場(chǎng)規(guī)模為34.6億元,預(yù)計(jì)2021年將達(dá)到62.2億元。

            市場(chǎng)分析.png

            市場(chǎng)規(guī)模增長(zhǎng),也印證了技術(shù)的發(fā)展:制作成本逐年降低、形象外貌更加真實(shí)、語(yǔ)言交流更加自然。從出現(xiàn)虛擬數(shù)字人至今,已經(jīng)渡過(guò)了3個(gè)重要的時(shí)期:


            • 初創(chuàng)期:市場(chǎng)初見(jiàn)增長(zhǎng),技術(shù)不確定性,入行門(mén)檻高。
            • 發(fā)展期:市場(chǎng)競(jìng)爭(zhēng)者增多,技術(shù)逐漸成型,入行門(mén)檻低。
            • 平臺(tái)期:市場(chǎng)紅海到來(lái),平臺(tái)化成熟,領(lǐng)頭羊 + 小眾。


            解決方案

            在如今的平臺(tái)時(shí)期中,各個(gè)廠商也聚集在一起提供不同層次的解決方案:

            分層.png

            基礎(chǔ)層:為虛擬數(shù)字人提供基礎(chǔ)軟硬件支撐,硬件包括顯示設(shè)備、光學(xué)器件、傳感器、芯片等,基礎(chǔ)軟件包括建模軟件、渲染引擎。 僅有少數(shù)幾個(gè)頂尖科技公司才具備優(yōu)秀的軟硬件實(shí)力。


            平臺(tái)層:包括軟硬件系統(tǒng)、生產(chǎn)技術(shù)服務(wù)平臺(tái)、AI 能力平臺(tái),為虛擬形象的制作及開(kāi)發(fā)提供技術(shù)能力。提供平臺(tái)服務(wù)的企業(yè)非常多,通過(guò)出售服務(wù)和技術(shù)來(lái)服務(wù)其他企業(yè)。


            應(yīng)用層:除了最終的企業(yè)用戶,一些具備出色營(yíng)銷(xiāo)和運(yùn)營(yíng)能力的公司或團(tuán)隊(duì)也為這個(gè)行業(yè)帶來(lái)了不錯(cuò)的想法和創(chuàng)意。


            我們?cè)谧鍪裁?

            在今年年初,在阿里前端委員會(huì)的互動(dòng)圖形方向中成立了虛擬角色小組,這個(gè)小組有這幾只團(tuán)隊(duì)組成:大淘寶互動(dòng)團(tuán)隊(duì)、達(dá)摩院智慧數(shù)字人團(tuán)隊(duì)、優(yōu)酷數(shù)字人制播團(tuán)隊(duì)、考拉互動(dòng)&內(nèi)容導(dǎo)購(gòu)團(tuán)隊(duì)、螞蟻數(shù)字與金融內(nèi)容社區(qū)團(tuán)隊(duì)。他們一起分享和研究虛擬數(shù)字人領(lǐng)域的技術(shù)和應(yīng)用。業(yè)務(wù)涉及游戲、視頻、直播三個(gè)主要的場(chǎng)景。

            作品.png

            游戲:虛擬數(shù)字人在游戲行業(yè)基本是標(biāo)配,非常多的游戲都會(huì)需要塑造人物,其中能讓玩家通過(guò)自定義塑造人物形象功能的這一類(lèi)游戲,自定義塑造人物形象的功能也稱(chēng)為捏人。

            • 淘寶人生:這是手淘App內(nèi)一款可以打造虛擬形象的游戲,包含了捏臉、穿搭、美顏、拍照等功能,逛街、家園等玩法。
            • 養(yǎng)考拉:這是考拉海購(gòu)App內(nèi)的一款可以養(yǎng)成考拉的游戲,包含了裝扮功能,喂養(yǎng)等玩法。
            • 它們均采用Web為主的技術(shù)方案,通過(guò)自研的引擎完成渲染、表情、動(dòng)作等人物的形和行。


            視頻:虛擬數(shù)字人的短視頻可以給用戶帶來(lái)感官上的優(yōu)秀體驗(yàn),還能給業(yè)務(wù)帶來(lái)增量的收益。在制作虛擬數(shù)字人的視頻時(shí),可以通過(guò)動(dòng)作捕捉、智能識(shí)別、導(dǎo)演系統(tǒng)等方案,讓虛擬數(shù)字人栩栩如生。

            • 直播:直播和虛擬數(shù)字人的結(jié)合仍然處于早期的探索階段,因?yàn)閮煞N現(xiàn)象級(jí)的產(chǎn)業(yè)需要結(jié)合且形成新的或增量的商業(yè)模式并不容易。這其中涉及到的技術(shù)也有實(shí)時(shí)動(dòng)作捕捉、算法訓(xùn)練合成、在直播場(chǎng)景下的云渲染推流等等。


            我們一起來(lái)創(chuàng)作

            隨著應(yīng)用場(chǎng)景專(zhuān)業(yè)和深入,技術(shù)研究也會(huì)涵蓋工程和算法等多種綜合性的解決方案,且在不同的應(yīng)用場(chǎng)景下,側(cè)重點(diǎn)也會(huì)不太一樣。接下來(lái)以大淘寶互動(dòng)團(tuán)隊(duì)的淘寶人生業(yè)務(wù)為例子,分別從美術(shù)生產(chǎn)、渲染風(fēng)格、捏臉換裝、表情動(dòng)作、導(dǎo)演系統(tǒng)和語(yǔ)音合成六大主題為大家呈現(xiàn)如何打造超級(jí)虛擬偶像。


            這個(gè)章節(jié)我們來(lái)完成虛擬數(shù)字人的形 - “具備人或擬人的外觀,具有特定的相貌等人物特征。

            形.png

            從模子中刻出來(lái) - 美術(shù)工作流


            我們最先需要確定虛擬數(shù)字人的基礎(chǔ)形體特征,比如使用真人比例的7頭身,還是卡通比例的5頭身;男性,女性,還是動(dòng)物擬人等?;A(chǔ)形體特征確定后,可以交由3D美術(shù)來(lái)生產(chǎn)基礎(chǔ)形體。整個(gè)過(guò)程,通常是在傳統(tǒng)DCC軟件里完成,但3D美術(shù)和2D美術(shù)最大的不同是,2D內(nèi)容的美術(shù)生產(chǎn)中,技術(shù)可以在美術(shù)產(chǎn)物交付后再介入;而在3D內(nèi)容的美術(shù)生產(chǎn)中,技術(shù)就需要直接介入生產(chǎn)過(guò)程中。原因是:3D內(nèi)容的美術(shù)生產(chǎn)流程相對(duì)較長(zhǎng)也較復(fù)雜,美術(shù)和技術(shù)之間需要頻繁的合作才能保障交付質(zhì)量或交付效率。我們也稱(chēng)作這個(gè)過(guò)程為3D美術(shù)工作流。

             

            舉個(gè)形象例子:藝術(shù)家開(kāi)始設(shè)計(jì)并雕刻一個(gè)杯子模具,生產(chǎn)線需要解決模具用什么材料、如何將材料注入到模具中、以及如何順利脫模等技術(shù)性問(wèn)題。通常這些就是由技術(shù)來(lái)負(fù)責(zé),并需要提前和藝術(shù)家協(xié)商制作模具的規(guī)范才能確保后續(xù)的工程順利進(jìn)行,最終完成模具的交付。3D美術(shù)工作流也有很多大同小異的方案,大同是因?yàn)?span style="font-size:inherit;">3D內(nèi)容生產(chǎn)也是有一定的工業(yè)標(biāo)準(zhǔn)的,小異是因?yàn)榧?xì)節(jié)會(huì)和藝術(shù)家使用的軟件、技術(shù)實(shí)現(xiàn)的引擎有密切的關(guān)系。以淘寶人生中的美術(shù)工作流舉例大致經(jīng)歷這幾個(gè)步驟:


            1. Maya制作白模,骨骼,把過(guò)程產(chǎn)物暫存在OSS,并提供預(yù)覽工具
            2. Photoshop制作貼圖,把貼圖上傳至CDN
            3. Maya定制GLTF Exporter插件,導(dǎo)出glTF(包含模型數(shù)據(jù)、骨骼數(shù)據(jù)、材質(zhì)、貼圖數(shù)據(jù))
            4. Web端內(nèi)嵌材質(zhì)編輯器進(jìn)行自研材質(zhì)的效果調(diào)整
            5. EVA Figure引擎通過(guò)GLTF Importer導(dǎo)入人體的glTF,并定制材質(zhì)Shader進(jìn)行渲染。

            美術(shù)工作流.png

            經(jīng)過(guò)前期和藝術(shù)家的磨合,最終會(huì)形成一套針對(duì)當(dāng)前需求的美術(shù)工作流,并穩(wěn)定運(yùn)行下去。


            精雕細(xì)琢 - 捏臉

            完成了角色的基礎(chǔ)形體后,我們每個(gè)人都可以用它來(lái)繼續(xù)完成自己想要的那個(gè)樣子。雖然不同的長(zhǎng)相在美術(shù)環(huán)節(jié)中也能完成,但成本相當(dāng)?shù)母?,每個(gè)人喜歡的樣子都不一樣,那么就要很多次的美術(shù)生產(chǎn)或修改。所以我們?yōu)榛A(chǔ)形體加入了捏臉系統(tǒng),你就可以輕松的完成定制化的要求淘寶人生提供了捏臉功能,可以體驗(yàn)到捏臉的樂(lè)趣。捏臉技術(shù)的的實(shí)現(xiàn)基礎(chǔ)就是對(duì)已有的模型數(shù)據(jù)進(jìn)行局部的修改和變化,最終達(dá)到千人千變的目的。捏臉.png

            那是如何能通過(guò)這樣的系統(tǒng)來(lái)達(dá)到改變基礎(chǔ)模型的目的的呢?通常,一組模型數(shù)據(jù)就是頂點(diǎn)數(shù)據(jù)的集合,改變模型通常就是改變頂點(diǎn)的數(shù)據(jù),而改變頂點(diǎn)數(shù)據(jù)又通常有兩種方式:


            骨骼蒙皮

            通過(guò)外力對(duì)頂點(diǎn)施加某種變換,簡(jiǎn)單來(lái)說(shuō)就是包含了位移、旋轉(zhuǎn)和縮放三種變換的一組數(shù)學(xué)公式。為了完成這種變換,這股外力可以使用骨骼來(lái)完成。這里說(shuō)的骨骼同樣可以理解成人體的骨骼,當(dāng)手指上關(guān)節(jié)的作用發(fā)生運(yùn)動(dòng)變化時(shí),手型就會(huì)發(fā)生變化。在捏臉功能中,在淘寶人生中,我們給臉部預(yù)置了大約20多種骨骼,可以改變頭圍、眼球、眼角、眼眶、顴骨、臉型等等。

            骨骼蒙皮.png

            混合變形

            骨骼帶來(lái)的頂點(diǎn)變換很粗礦,無(wú)法完成對(duì)嘴形狀的定制,因?yàn)檫@樣一個(gè)看似簡(jiǎn)的外表,實(shí)際上在模型中會(huì)涉及數(shù)以萬(wàn)計(jì)的頂點(diǎn)進(jìn)行不同規(guī)律的變換。于是,我們就為這一組頂點(diǎn)變換專(zhuān)門(mén)設(shè)置變形器,業(yè)界一般稱(chēng)為“Morph Target”“Blend Shape”。這種變換的原理是給頂點(diǎn)準(zhǔn)備一個(gè)基準(zhǔn)位置,再提供一個(gè)極端變化后的最大位置,之后乘以一定的權(quán)重比例,就能讓這個(gè)頂點(diǎn)在基準(zhǔn)位置和極端位置中的任一位置。但因?yàn)槟槻啃枰植孔冃蔚牡胤教?,且一個(gè)變形可能涉及數(shù)以萬(wàn)計(jì)的頂點(diǎn),所以對(duì)實(shí)時(shí)計(jì)算壓力也是不小的。

             

            混合變形.png

             

            兩種技術(shù)比較來(lái)說(shuō),骨骼蒙皮簡(jiǎn)單高效但不夠靈活,而頂點(diǎn)變形更加自由但制作和計(jì)算成本都較高。所以在實(shí)際開(kāi)發(fā)中,哪些用骨骼,哪些用頂點(diǎn)變形,這是一個(gè)權(quán)衡效果效率的工作,需要具體去看,反復(fù)拿捏。在淘寶人生中,捏臉功能小部分使用了骨骼蒙皮,大部分使用了混合變形。這也是長(zhǎng)期磨合和經(jīng)驗(yàn)累積的結(jié)果。


            時(shí)尚穿搭 - 換裝和美顏

            有了基礎(chǔ)形體和長(zhǎng)相后,我們必須得給角色穿上時(shí)尚的衣服,畫(huà)上美麗的妝容。對(duì)于人類(lèi)來(lái)說(shuō),穿衣和畫(huà)妝是個(gè)動(dòng)作,在虛擬世界中,我們?nèi)匀灰芎芎玫耐瓿?span style="font-size:inherit;">“穿畫(huà)這兩件重要的事情。


            換裝

            換裝.png

            現(xiàn)實(shí)生活中,衣服穿在身上它就和皮膚緊貼著或者有一定空隙,這種想法放到虛擬世界中其實(shí)非常難實(shí)現(xiàn)。因?yàn)槠つw和衣服其實(shí)就是Mesh(網(wǎng)格),當(dāng)衣服穿在身上時(shí)實(shí)際上是兩組網(wǎng)格碰撞在一起,于是會(huì)引出如下兩個(gè)問(wèn)題:


            如何在身體做動(dòng)作時(shí),衣服也跟著身體做動(dòng)作。身體是擁有骨骼的,骨骼外包裹著一層皮膚,用同樣思路,衣服實(shí)際上也是包裹在同樣骨骼上的一層皮膚。在淘寶人生中,我們將身體和衣服采用同一套骨骼模板,并在渲染時(shí)實(shí)現(xiàn)了兩份骨骼數(shù)據(jù)的實(shí)時(shí)同步。

            骨骼.png

            如何解決身體的網(wǎng)格穿透到衣服外。用相同骨骼的方案解決衣服穿在身上的效果非常巧妙,但也容易出現(xiàn)問(wèn)題,比如某件衣服局部非常內(nèi)凹,那么就很容易出現(xiàn)身體的皮膚突出在衣服之外的問(wèn)題,俗稱(chēng)穿模。因?yàn)樽屑?xì)調(diào)整道具成本實(shí)在太高了,所以我們也做了個(gè)取巧的方案:通過(guò)把人體進(jìn)行切割,并對(duì)每件衣服遮擋的人體部位進(jìn)行標(biāo)記,當(dāng)渲染某件衣服時(shí),直接隱藏被遮擋部位Mesh即可。

            標(biāo)記.png 

            穿模.png

             

            有了這兩項(xiàng)技術(shù)的攻堅(jiān)后,我們通過(guò)和美術(shù)生產(chǎn)約定相關(guān)的規(guī)范和工作流程,就可以批量生產(chǎn)衣服,而換裝僅僅只是加載不同的模型而已,無(wú)須逐個(gè)特殊處理即可達(dá)到目的。


            美顏

            妝容.png

            妝容的細(xì)節(jié)要求非常多,所以最便捷的方式就是使用貼圖?;A(chǔ)形體的臉部已經(jīng)有一張基礎(chǔ)貼圖了,可以簡(jiǎn)單理解成素顏;要在素顏上畫(huà)不同的妝容,我們做法是動(dòng)態(tài)合成紋理。整個(gè)過(guò)程分為兩步。


            1. 渲染到紋理(Render To Texture):第一步創(chuàng)建一個(gè)可渲染對(duì)象(Render Target),把基礎(chǔ)紋理貼圖渲染到這個(gè)可渲染對(duì)象上,再把妝容紋理貼圖渲染到同一個(gè)可渲染對(duì)象上。這一步需要注意藝術(shù)家在繪制妝容紋理時(shí),需要和基礎(chǔ)紋理的UV是一一對(duì)應(yīng)的。
            2. 使用可渲染紋理:第二步就是把合成好的紋理渲染到模型上。

            美顏.png

            二次元還是三次元 - 渲染風(fēng)格

            最后到了給它設(shè)定風(fēng)格的時(shí)候。有人會(huì)喜歡真實(shí)系,有人也會(huì)喜歡卡通系,也會(huì)有人喜歡朋克風(fēng),也會(huì)有人喜歡純欲風(fēng),這些不同的風(fēng)格需要依靠渲染功能來(lái)完成。當(dāng)我們說(shuō)到渲染時(shí),都會(huì)提到圖形渲染管線,它可以根據(jù)不同的需求做很多組合和調(diào)整,比如最簡(jiǎn)單的渲染管線是:加載模型 ---> 頂點(diǎn)著色 ---> 片元著色 ---> 光柵化。其中片元著色的步驟,就是用來(lái)完成材質(zhì)紋理的繪制使之達(dá)到想要的角色風(fēng)格。對(duì)材質(zhì)紋理的繪制通常分為兩大類(lèi):

            PBR

            全稱(chēng)Physically Based Rendering,顧名思義是基于物理的渲染,既然是基于物理的,那么它渲染的最終結(jié)果會(huì)非常接近我們的真實(shí)世界。所以也就很好理解,這類(lèi)材質(zhì)可以決定人物是寫(xiě)實(shí)或超寫(xiě)實(shí)風(fēng)格的。此技術(shù)由8大核心理論和幾個(gè)重要的光照模型組成,在此不一一列舉,有興趣的同學(xué)可以去閱讀《Real-Time Rendering》中的PBR相關(guān)章節(jié),或是SIGGRAPH的《Physically Based Shading in Theory and Practice》系列文章。例如在淘寶人生中,根據(jù)不同部位選取漸變貼圖上采樣色的方式模擬了次表面散射的技術(shù),實(shí)現(xiàn)了人臉皮膚的紅潤(rùn)通透感。

            NPR

            全稱(chēng)Non-photorealistic Rendering,即非真實(shí)感繪制。其最主要的應(yīng)用之一,就是非常盛行的二次元風(fēng)格,特別是日式卡通風(fēng)格。和PBR不一樣,NPR不會(huì)去追求各種物理學(xué)模擬,而是從油畫(huà)、素描、卡通動(dòng)畫(huà)中得到啟發(fā)和靈感。比如,經(jīng)常被使用的人物描邊、卡通著色、邊緣光、頭發(fā)高光等。這些特殊的材質(zhì)渲染也都能在找到專(zhuān)業(yè)的論文和例子,大家可以自行搜索。

            渲染風(fēng)格.png

            動(dòng)

            這個(gè)章節(jié)我們來(lái)完成虛擬數(shù)字人的動(dòng) - “擁有和人相似的行為,具有用語(yǔ)言、表情和肢體等表達(dá)的能力。

            動(dòng).png

            表情和動(dòng)作

            成功塑造虛擬數(shù)字人的關(guān)鍵之一是真實(shí)且細(xì)膩的表情和動(dòng)作。真人的表情和動(dòng)作是依靠骨骼和肌肉相互作用而呈現(xiàn)的,在虛擬世界中,我們同樣用數(shù)字技術(shù)來(lái)模擬這些骨骼和肌肉的作用,呈現(xiàn)表情和動(dòng)作。在上面的章節(jié)里,已經(jīng)提到了臉部使用了骨骼蒙皮和混合變形的方式來(lái)改變頂點(diǎn),在動(dòng)的章節(jié)里,仍然會(huì)使用這兩項(xiàng)技術(shù),并且通過(guò)動(dòng)畫(huà)的方式讓頂點(diǎn)動(dòng)起來(lái),從而完成相應(yīng)的表情和動(dòng)作。

            動(dòng)作.png

            K動(dòng)畫(huà)

            在臉部表情的刻畫(huà)中,頂點(diǎn)動(dòng)畫(huà)(也就是Morph Target Animation)是主要實(shí)現(xiàn)技術(shù)之一。在淘寶人生的捏臉功能中骨骼蒙皮是用來(lái)確定臉的大小和五官的位置的?;旌献冃蝿t是用來(lái)完成五官包括臉頰、額頭部位的變形,其中用于表情動(dòng)畫(huà)的BlendShape多達(dá)50個(gè),它和蘋(píng)果的Animoji使用的BlendShape非常接近,這也是業(yè)界公認(rèn)的可以做到絕大多數(shù)表情(當(dāng)然很多微表情非常難達(dá)到)的設(shè)定。

            表情.png

            在肢體動(dòng)作的制作中,骨骼動(dòng)畫(huà)(也就是Skeletal Animation)是主要實(shí)現(xiàn)技術(shù)之一。骨骼動(dòng)畫(huà)包含了骨骼(Skeleton)和蒙皮(Skin)兩種數(shù)據(jù)。首先把Mesh的頂點(diǎn)綁定在骨骼上生成蒙皮,這些頂點(diǎn)會(huì)受到多個(gè)不同權(quán)重骨骼的影響,然后通過(guò)改變骨骼的朝向和位置來(lái)生成動(dòng)畫(huà),這時(shí)蒙皮就會(huì)跟著骨骼一起動(dòng)起來(lái)。

            骨骼動(dòng)畫(huà).png

            動(dòng)作捕捉

            制作動(dòng)畫(huà)的成本相對(duì)都比較高,原因是上述兩種動(dòng)畫(huà)技術(shù)通常是關(guān)鍵幀動(dòng)畫(huà)。假設(shè)一個(gè)人抬起手肘,那么手臂和手腕也會(huì)因此而產(chǎn)生連貫性的動(dòng)作。如果要實(shí)現(xiàn)這樣一段動(dòng)畫(huà),關(guān)鍵幀將會(huì)非常之多,制作起來(lái)也會(huì)異常困難。為了有效降低制作成本,我們需要用到動(dòng)作捕捉的技術(shù),通常我們把動(dòng)作捕捉技術(shù)分為2大方向4個(gè)類(lèi)別,可以用四象限圖來(lái)描述:

            動(dòng)捕.png

            我們用手機(jī)攝像頭完成的AR互動(dòng)游戲、AR面具等功能實(shí)際就是光學(xué)識(shí)別+無(wú)穿戴設(shè)備這一象限內(nèi)的技術(shù)。

            AR面具.png

            編排 - 導(dǎo)演系統(tǒng)

            我們?cè)賮?lái)對(duì)比下幾種方式制作的成本和靈活度。

            動(dòng)作制作對(duì)比.png

            K動(dòng)畫(huà)的制作成本無(wú)疑是最高的,靈活度和效果也是最好的,同時(shí)也要求經(jīng)驗(yàn)豐富的綁定師和動(dòng)畫(huà)師才能完成。動(dòng)作捕捉的制作需要一套專(zhuān)業(yè)的動(dòng)捕設(shè)備,一個(gè)能容納這些設(shè)備和能滿足做所需動(dòng)作的場(chǎng)地,一個(gè)動(dòng)作制作周期少則幾個(gè)小時(shí),多則幾天。在面臨諸如眾多舞蹈場(chǎng)景的運(yùn)營(yíng)需求下,最適合的方案是把多個(gè)已經(jīng)制作完成的動(dòng)作,自由或智能編排成一個(gè)劇本,就像拍戲時(shí)劇本是導(dǎo)演提前設(shè)計(jì)好的,演員只需依照劇本表演出來(lái)就行,故也稱(chēng)為導(dǎo)演系統(tǒng)。

            預(yù)設(shè)動(dòng)作編排.png

            動(dòng)作的串聯(lián)需要解決一個(gè)問(wèn)題:動(dòng)作1到動(dòng)作2如何過(guò)渡銜接。這便需要用到混合動(dòng)畫(huà)(Blending Animation)技術(shù)。混合動(dòng)畫(huà)的基礎(chǔ)原理是以動(dòng)作1當(dāng)前狀態(tài)為起點(diǎn)、動(dòng)作2的指定狀態(tài)為終點(diǎn),計(jì)算關(guān)鍵幀的插值。簡(jiǎn)單的可以使用線性插值,復(fù)雜的也可以使用貝塞爾曲線插值等。關(guān)于混合動(dòng)畫(huà)的知識(shí)點(diǎn)和方案非常多,也適用于不同的場(chǎng)景和需求,大家可以自行搜索,例如UnityUnreal也都提供了很多不同的混合方案。

            混合動(dòng)畫(huà).png

            有了導(dǎo)演系統(tǒng)后,就可以提供自由的組合能力,比如想舉行一場(chǎng)虛擬演唱會(huì),也可以通過(guò)導(dǎo)演系統(tǒng)完成表演。

            這個(gè)章節(jié)我們來(lái)探索虛擬數(shù)字人的神 - “擁有比擬人的思想,具有識(shí)別外界環(huán)境、并能與人交流互動(dòng)的能力。我們?cè)趯?duì)的研究上,仍然處于非常初級(jí)的階段,一方面它需要大數(shù)據(jù)的支撐,另一方面它對(duì)于前端這個(gè)崗位來(lái)說(shuō)已經(jīng)有相當(dāng)?shù)木嚯x了。為了讓虛擬數(shù)字人更加真實(shí),會(huì)是未來(lái)重點(diǎn)的研究方向。

            性格流露 - 自然語(yǔ)音合成

            虛擬數(shù)字人的語(yǔ)言表達(dá)能力需要用到語(yǔ)音合成技術(shù),比如TTSText To Speech。阿里達(dá)摩院有著非常完善的TTS引擎,用它就能讓虛擬數(shù)字人開(kāi)口說(shuō)話。不過(guò)這也僅僅是開(kāi)口說(shuō)話,大家其實(shí)都能感受到這樣的語(yǔ)言非常蒼白無(wú)力,毫無(wú)情感,無(wú)法在不同性格和情感時(shí)表達(dá)出來(lái)的不同語(yǔ)氣。在業(yè)界可以看到一些優(yōu)秀的成果:YAMAHA的歌聲合成系統(tǒng)VOCALOID(初音未來(lái)和洛天依均在使用),谷歌基于深度學(xué)習(xí)的端到端語(yǔ)音合成系統(tǒng)Tacotron,以及訊飛的語(yǔ)音合成系統(tǒng)等。阿里達(dá)摩院也在持續(xù)研究更加符合自然表達(dá)的語(yǔ)音合成系統(tǒng),通過(guò)為虛擬數(shù)字人設(shè)定性格,并借助大數(shù)據(jù)的深度學(xué)習(xí)來(lái)產(chǎn)生風(fēng)格迥異的情感型語(yǔ)氣。


            至此,在現(xiàn)有的技術(shù)下我們完成了一個(gè)超級(jí)虛擬偶像的登場(chǎng)。

            image.png

            我們向往的數(shù)字人

            淘寶人生是基于Web技術(shù)打造的數(shù)字人,在經(jīng)歷了2年的技術(shù)打磨和升級(jí)改造,我們也遇到了Web數(shù)字人技術(shù)的困境。在性能方面,Web應(yīng)用和原生應(yīng)用存在無(wú)可忽視的差距。WebGL(基于OpenGL ES 2.0)作為Web主要的圖形接口在VulkanDirectXMetal面前無(wú)論是能力還是性能上都無(wú)法追趕。再加上不同的移動(dòng)設(shè)備在軟硬件上仍會(huì)出現(xiàn)奇奇怪怪的兼容性問(wèn)題。這一系列困境已經(jīng)成為了Web中的數(shù)字人一個(gè)很難跨越的天花板。

            反觀行業(yè)中的數(shù)字人技術(shù),超寫(xiě)實(shí)渲染、微表情、肌肉模擬、物理材質(zhì)、光線追蹤等等,讓身處Web技術(shù)中的我們望塵莫及。同時(shí),阿里的虛擬數(shù)字人技術(shù)也才剛剛起步,其中基礎(chǔ)軟硬件、中臺(tái)技術(shù)、大數(shù)據(jù)支撐等也都起步較晚,這些都給我們帶來(lái)了不小的困難和阻力。

            Metahuman.png

            面對(duì)這些困境和差距,我們針對(duì)淘寶人生中虛擬數(shù)字人技術(shù)的發(fā)展也會(huì)從各個(gè)方向上去做努力和嘗試。


            首先是基于Web技術(shù)的優(yōu)化:在Serverless渲染云服務(wù)基礎(chǔ)上,在EVA Figure(虛擬人像渲染引擎)和Puppeteer技術(shù)的結(jié)合下,借助最新的WebGPU/WASM等,讓虛擬數(shù)字人的渲染效果和質(zhì)量得到提升。我們也在積極同阿里云云服務(wù)團(tuán)隊(duì)、大淘寶Node架構(gòu)團(tuán)隊(duì)一起合作建設(shè)Web技術(shù)下的云渲染流程。計(jì)劃把它應(yīng)用在一些非實(shí)時(shí)的渲染任務(wù)上,例如生產(chǎn)淘寶人生用戶形象的全身照片、短視頻、動(dòng)作幀圖等等。這些產(chǎn)物也能被淘寶人生業(yè)務(wù)或其他業(yè)務(wù)所使用。


            其次是對(duì)業(yè)務(wù)能力的升級(jí),在業(yè)務(wù)和技術(shù)相互滋養(yǎng)的土壤中,不斷將業(yè)務(wù)能力積累成平臺(tái)服務(wù),為阿里的虛擬數(shù)字人技術(shù)貢獻(xiàn)點(diǎn)點(diǎn)滴滴的經(jīng)驗(yàn),并將部分解決方案通過(guò)商業(yè)化上云的方式服務(wù)大眾。


            然后在元宇宙、超寫(xiě)實(shí)、XR/6G、腦機(jī)接口等等行業(yè)風(fēng)向標(biāo)的輻射下,暢想未來(lái)Web數(shù)字人技術(shù)可能性。


            文末特別感謝下阿里前端委員會(huì)圖形互動(dòng)虛擬角色小組成員的出色工作,讓我能完成此文章內(nèi)容。也歡迎大家持續(xù)關(guān)注虛擬角色小組和各個(gè)團(tuán)隊(duì)的成果。