9月23日,一位閃著數(shù)點金色光芒的巨型數(shù)字人從錢塘江踏浪而來,一步步跑到第十九屆亞運會開幕式主會場,在它點燃主火炬塔的同時也點燃了全球觀眾的熱情。
今年是AI狂奔的一年,也是數(shù)字人重新煥發(fā)新生命力的一年。伴隨著AI技術(shù)的成熟應(yīng)用,虛擬數(shù)“智”人將加速奔向大眾生活。
數(shù)字人需要更普惠
業(yè)內(nèi)人士指出,亞運會上的數(shù)字人在技術(shù)上其實不難實現(xiàn),但這個創(chuàng)意卻很新鮮,更重要的是對“數(shù)字人”這個概念做了重要的推廣,數(shù)字人的熱度再次升溫。
數(shù)字人不是新鮮詞。2021年,元宇宙還是風(fēng)口,被認(rèn)為是元宇宙不可或缺一環(huán)的數(shù)字人也成為資本追捧的寵兒。翻開數(shù)據(jù)表,2021-2022年,數(shù)字人賽道出現(xiàn)57起融資,總金額達44.61億元。熱錢砸過來,數(shù)字人借勢起跑。
然而,這項技術(shù)和產(chǎn)品要實現(xiàn)從小眾到大眾、從嘗鮮者到主流群體的廣泛應(yīng)用,還存在不少障礙和痛點。其中,最難就是權(quán)衡“技術(shù)性”和“經(jīng)濟性”。
在技術(shù)人的眼里,一切努力的指向便是讓數(shù)字人更像人。
亞運會之前,改編于國產(chǎn)“動漫之光”《異人之下》的同名電視劇也在優(yōu)酷上映。劇中,數(shù)字人厘里一襲黑色旗袍,五官精致,在劇中飾演“二壯”,這是數(shù)字演員首次與真人同臺競技,更驚喜的是,其演技竟然讓觀眾難辨真假。
對此,有網(wǎng)友評論稱:“以后都沒有演員了,全用AI可省錢了?!?/p>
可見,從技術(shù)上來看,數(shù)字人已經(jīng)能夠達到超寫實狀態(tài)了。
數(shù)字人公司良勝數(shù)字CEO張大勝回憶指出,最初,市面上爆紅的數(shù)字人大多是Q版(卡通)形象,而從超寫實虛擬數(shù)字人誕生之日起就繞開了“2D”“卡通”等特點,通過精細(xì)設(shè)計、技術(shù)合成,盡可能貼合真人形象。
但是,3D超寫實數(shù)字人由于缺少大規(guī)模的商用場景,僅憑借小部分B端需求實在難填數(shù)字人的燒錢無底洞,于是,數(shù)字人開始陷入“寒冬”。
例如,曾經(jīng)在抖音吸粉無數(shù),拿下超過200個品牌合作的“柳夜熙”,便在高昂的成本和較長的制作周期限制下,熱度大降。據(jù)悉,為了打造“柳夜熙”,其背后的公司僅制作投入就燒了百萬元,制作一條短視頻又花了幾十萬,“柳夜熙”在抖音快兩年,一共只發(fā)了48條短視頻。
小冰公司首席運營官徐元春曾指出,一個3D數(shù)字人運營一年可能要花掉五六百萬。更要命的是,成本很難砍下來。
“目前虛擬數(shù)字人生產(chǎn)、運營成本較高,市場接受度尚低,整個產(chǎn)業(yè)發(fā)展仍處于起步階段。”賽迪顧問人工智能產(chǎn)業(yè)研究中心高級分析師于凱迪在接受《中國電子報》記者采訪時指出,數(shù)字人如果要落地到各行各業(yè),就必須兼顧更廣大用戶的個性化定制需求,且更方便、更普惠。
大模型挽救數(shù)字人
直到生成式AI崛起,數(shù)字人的命運發(fā)生變化。
“過去,數(shù)字人受技術(shù)限制長得都差不多,而大模型拓寬了用戶自定義的自由度?!狈絼P作為亞運會數(shù)字火炬手研發(fā)團隊負(fù)責(zé)人,在接受采訪時介紹說。
原來,亞運會上的這位巨型數(shù)字人是由來自130多個國家和地區(qū)的超過1億名在線“數(shù)字火炬手”共同匯聚而成。在巨型數(shù)字人完成點火儀式結(jié)束后,這些“數(shù)字火炬手”還可獲得一張數(shù)字點火專屬證書,鐫刻著每位“數(shù)字火炬手”獨一無二的數(shù)字人形象。
為了讓“數(shù)字火炬手”的數(shù)字人達到“千人千面”的效果,方凱團隊在研發(fā)前期折騰許久,最終把目光投向了生成式AI。
“3D數(shù)字人的工作流比2D要復(fù)雜非常多,起初內(nèi)部評估工期,大家都很崩潰?!狈絼P表示。幸運的是,生成式AI極大提升了效率,拯救了焦頭爛額的技術(shù)團隊。
研發(fā)人員一共開發(fā)了58個“捏臉控制器”,生成式AI技術(shù)可以根據(jù)人臉識別,畫出數(shù)字火炬手的面孔,并生成虛擬形象,且用戶可以根據(jù)需求自由調(diào)整臉型、頭發(fā)、鼻子、嘴巴、眉毛等。據(jù)方凱透露,AI最多提供2萬億種形象搭配。此外,“數(shù)字人”研發(fā)團隊還研發(fā)了AI動作捕捉,只需輸入少量的真人動作,AI便可驅(qū)動數(shù)字人自主學(xué)習(xí)更多動作。
如果好看的外形是數(shù)字人的“名片”,那么AI將成為數(shù)字人的“內(nèi)核”。AI賦能數(shù)字人,未來能實現(xiàn)文本生成、音頻生成、圖像生成、視頻生成、3D模型生成等功能,延伸到多模態(tài)交互功能,進而實現(xiàn)跨維度升級。
在數(shù)字人制作方面,AI的接入讓其生產(chǎn)成本進一步降低。
今年4月,騰訊發(fā)布了AI智能創(chuàng)作助手“騰訊智影”,創(chuàng)作者通過上傳少量圖片、視頻和音頻素材,就能得到自己的數(shù)字人分身和定制音色,進而快速生成自己的數(shù)字人播報視頻;此前,百度智能云曦靈通過百度自研的語音、視覺等技術(shù),上傳一段真人視頻,不到30分鐘即可一比一復(fù)刻主播……
百度副總裁袁佛玉直言:“隨著百度AI算法的突破,能讓虛擬數(shù)字人制作成本十倍、百倍地下降,還能讓虛擬數(shù)字人生產(chǎn)周期,從動輒幾個月,縮短到小時級別。虛擬數(shù)字人的制作成本,將從百萬級降低到萬元級別。”
“大模型不僅直接降低了3D數(shù)字人的制作難度,更為數(shù)字人注入了靈魂?!毙乱伎萍糃EO雷濤指出,過去3D建模依賴傳統(tǒng)CG技術(shù),動作捕捉需要采集真人大量數(shù)據(jù),現(xiàn)在在新壹科技自研的依托于視頻大模型的數(shù)字人工具平臺上,算法可以高效生成3D模型,處理面部細(xì)節(jié)更加逼真。
為了提高數(shù)字人的真實度,前段時間英偉達更新了其Omniverse的AI能力,并宣稱將進一步引入對生成式AI的支持,用戶可以僅憑文本信息自動生成高質(zhì)量的材料。Adobe Substance 3D藝術(shù)和開發(fā)團隊使用Omniverse USD Composer合作創(chuàng)作了一個虛擬數(shù)字人形象。該虛擬角色不僅視效逼真,并且皮膚呈現(xiàn)了真實的光線效果,而生成式AI,則提升了面部表情以及唇形同步的質(zhì)量。
“大模型對數(shù)字人的影響是翻天覆地的。”張大勝表示,公司選擇與科大訊飛合作,在星火大模型的基礎(chǔ)上,研發(fā)小模型,作為3D數(shù)字人的“大腦”?!敖尤氪竽P湍芰Γ瑪?shù)字人將獲得'人設(shè)’?!彼f。
大模型對2D數(shù)字人的提效更加夸張。
AI的生成能力天然適配2D數(shù)字人。近幾個月,市面上出現(xiàn)了許多2D數(shù)字人定制工具,邏輯基本一致:只要你輸入文案素材,就能生成數(shù)字人形象。“我們的2D數(shù)字人售價一萬元左右,24小時就給你做好了?!崩诐f。
據(jù)記者了解,甚至有的2D數(shù)字人最低只需幾百塊便能快速生成。
今年4月,商湯科技發(fā)布了“商湯日日新大模型”,演示了2D數(shù)字人視頻生成平臺“如影SenseAvatar”,據(jù)稱僅需一段5分鐘的真人視頻素材,就可以生成聲音及動作自然、口型準(zhǔn)確、多語種精通的數(shù)字人分身。
多位從業(yè)者在接受采訪時,對數(shù)字人的未來表示樂觀。在他們眼里,技術(shù)迭代很快,這會讓數(shù)字人加速走向大眾。
作者丨谷月
來源:中國電子報