
圖片來源:由無界版圖AI工具生成
研討嘉賓
沈 威:NVIDIA 全球副總裁兼亞太區專業圖形計算總經理
虞晶怡:OSA /IEEE Fellow、上海科技大學副教務長
主持人
司 曉:騰訊集團副總裁、騰訊研究院院長
全真互聯時代正在悄然到來,加速線上線下的跨時空融合,作為全真互聯的重要入口,數字人可以推動線上和線下更加全面地一體化,打造出沉浸式的“全真”體驗與可操作的“互聯”交互。進入2022年以來,數字人在諸多應用場景大放光彩,特別是在北京冬奧會的開幕式表演、氣象播報、手語解說中頻頻現身,使其用戶基礎不斷擴大。爆點事件推動數字人產業被用戶不斷加深認知,數字人形態、技術及應用受到大量關注,而支持產業快速發展的底層元素則包括技術的發展、用戶新需求、生態完善和標準的支持等。
同時實現擁有“好看的皮囊”和“有趣的靈魂”,似乎還有較長的一段路需要走。而數字人未來也將成為我們全真互聯生活中的重要入口。因此,在數字人的進化旅程上,我們需要更多思考:未來數字人應用還將具有哪些可能性,技術路線會產生哪些變化?數字人火爆底層邏輯是什麼?數字化身有哪些應用場景?AIGC爆發是可預見的嗎?數字人如何擁有“有趣的靈魂”?數字人該不該被賦予獨立的主體身份?
2023年1月10日,騰訊研究院在T3未來科技對話的第三期,以《數字人何時會成為虛擬世界的主角-從好看的皮囊到有趣的靈魂》為主題具體討論了“數字人”這一概念的技術趨勢、應用場景、軟硬融合發展與未來挑戰等問題。
以下為圓桌研討環節的整理文章,供各領域思想者參考。
阿凡達1上映10餘年,數字人技術有哪些進步?
司曉:目前正在熱映的《阿凡達2》,距離第一部上映剛好是13年,兩部電影都大量使用數字人技術。這十餘年來數字人的技術的進步體現在哪些方面?
沈威:我覺得這十年是一個很特別的,很令大家興奮的十年,尤其在IT發展進程,2012年開始,整個深度學習這一部分有一個很大的進展,我想這個是一個很大的里程碑,現在我們可以看到,已經可以把AI加上CG一起來呈現了,這個在十年前我是沒有看到的,我想這是我個人認為最大的一個突破點。另外一個就實時渲染,通過實施渲染技術提升至少20倍的速率在做這個渲染,這個效率是非常明顯的。
虞晶怡:整個渲染和建模技術在過去的十年裡面有一個突飛猛進的進步,其實大家都很驚訝,AI居然能夠用來做渲染,原來大家一提到AI,第一反應就是做識別。但是發現其實基於數據驅動的模型,居然在建模居然在渲染上能有這麼大的一個效果。我記得大概在五六年前,用神經渲染(neuralrendering)逐漸進入到圖像領域,當時大家還是非常懷疑的一個態度,現在神經渲染已經成為了主流的方式。這個變化給大家帶來的,第一原來的高成本的製作,原來比如說一個電影一分鐘需要一個一百萬美元,現在的成本會降的非常的低,如果後面的生成任務能夠實現,整個的成本幾乎可以到忽略不計的程度,這就打開了to C端的大門,這個是給AI對於整個的製作流程和渲染流程的革命性的變化。
未來10年渲染技術發展趨勢如何?
司曉:我們說往後看十年,那離線渲染或者實時渲染的效果之間是不是有朝一日可以達成一個無限接近的狀態,離線渲染也會不計成本的使得虛擬真實更加真實,甚至超越真實,那這兩個之間的差距會進一步縮小嗎?這些技術大概演進方向可以做到什麼程度?
虞晶怡:如果要往後看十年,哪一天如果我們能夠做到輕量級的神經渲染,在頭盔端,那可能就是革命性質的,所以我是覺得有可能這個AI的算法會推動新一代渲染芯片的發展,使得渲染芯片逐漸輕量級化,以至於你今後的AR眼鏡都是很小的芯片,而不是在雲端渲染,雲端渲染我相信是在很長一段時間會成為過度。
沈威:未來十年可能在雲端這一部分,還是很難避免,這是我認為會是這樣,但是算法這部分確實會,所以讓大家在整個應用上面的成本,就我們成本好幾種,一個是我們硬件的投入,另外是整個的製作成本,這部分把時間縮短,所以這部分已經取得了很大的進展。我們可以預期在未來的十年,這部分隨着整個的AI的算法的進步,就我們芯片的迭代,我相信在這部分的整個的效能上面我們能夠得到更大的提升。第二個我觀察到的就是AIGC這部分,C這一部分變成是一個三維的,或者是變成是一個根本就是影視級別的。剛剛談到數字人的表層,還有靈魂這一部分,我怎麼能夠在表層底下就能夠跟你互動,我個人是非常樂觀的,這兩邊肯定還會碰撞出更大的火花,產生更好的效果。
司曉:我簡單的概括一下,就是大家作為個人用戶,未來可期的就是這種渲染和生成能力,就會像自來水一樣,很低廉的成本隨時可以調用,不一定是買芯片,通過雲計算的加持,通過AI的能力的進一步的進化,大家就可以按需索取,實現簡單的類似於或者無限接近電影渲染精度的效果,這個我覺得大家可以想像一下,就是在各種應用場景上面開騰訊會議,甚至今天這種線上研討會的場景,都會變的非常有意思。
數字人火爆底層邏輯是什麼?
司曉:我們也發現了越來越多的電影裡面用數字人作為演員,很多的品牌也都用數字人進行代言。數字人是不是真的火起來了,這個火起來數字人共同的特點和原因是什麼,行業裡面是否有是有這種冰火兩重天的現象,以及數字人的火爆會不會成為一個持續的現象?
虞晶怡:數字人一開始做起來肯定還是往影視方向,這個領域是能夠帶來效益的最好行業,包括你現在看到絕大部分都是在做廣告,而且是做2D的廣告的這樣一個效果,真正的3D的都還沒有真正的,可能一方面終端也不支持,另一方面可能也沒有這樣一個需求,所以這是很大的巨大的局限。我個人覺得數字人到底是不是應該跟真人長的非常非常的像,要長到有多像,這其實是非常難回答的問題。做技術的希望數字人越像越好,但是數字人本身如果完完全全的跟真人一樣,其實是非常乏味和無聊的一件事情,所以形象上也許可以做的很逼真,但是最後的賣點,一定是內容,肯定是內容為王的時代。內容如何和虛擬人的表情和表演結合,更讓用戶覺得有趣,才是今後的數字人發展的一個未來,而且不一定它需要很真實,但是它要變的有趣,所以我覺得有趣,不管是外貌上還是內容上,才是真正的今後的賣點。
沈威:過去跟很多的藝術創作者有討論過這個問題,是不是一定需要一個跟人很像的,這個是不是就這種藝術表達上來看,是不是有這個必要,這個東西有時候朦朧之美是不是更好,所以接下來的問題是你的內容是什麼,認為可能未來會有幾個發展方向吧,所以這不是說現在大家一窩蜂都要往這個做是好或者不好,就還有一些社會還有我們人文的接受度的這方面的考量。
數字人如何擁有“有趣的靈魂”?
司曉:我們已經討論了數字人相關的技術,怎樣實現一個好看的皮囊,我們如何讓數字人從外形上更像一個人,未來往更加逼真更加低成本的方向來走,大概會依賴於哪些的技術的發展。
沈威:我們如果要談靈魂,靈魂我們怎麼表現?必須要透過互動,不然沒有辦法來展現。其實這次看到的這部分,這裡面還是比較新,我看到了會越來越多,就我怎麼做這些語言學習,大語言模型LMMs這部分,怎麼來跟數字人做結合。我現在已經做出了不管說是一個漂亮的皮囊,或者說是模糊,但是很吸引人的皮囊,但是我如果沒有一個背後有一個很好的互動的機制,我這個皮囊做出來用途在哪裡。這個地方我們現在已經有這幾個禮拜大家看到,就整個的事件反映來看,還是很令人興奮的,應該是GPT3.5這樣一個引擎這個模型,假設我們是用GPT4,那是不是又可以帶出更多的精彩,這裡面就會有非常多的想像空間了,這是非常可以值得期待的。
司曉:今年不知道會不會大家總結會把它叫做AIGC的元年,但確實是從這半年圖片生成到今天展示的可以生成3D,對話上更像一個人,這個技術忽然到了一個爆發的增長點,那這個背後是有什麼原因?為什麼忽然有一個拐點?
虞晶怡:我覺得還是因為深度學習,在很長一段時間大家認為可能深度學習更適合做降維問題,比如識別,這都是一些降維問題,因為當時的算力也很有限,突然有一天大家不僅能做降維問題,也許也可以做升維問題,把一個低維的信號能夠變成高維的信號,我覺得這個是一個大家突然間意識到的問題。很大程度上要感謝英偉達的GPU。AIGC雖然很厲害,但是我個人覺得使用到數字人中,我覺得還是不夠的,什麼叫做有趣的靈魂,第一個這個人要有自己的性格特徵,千篇一律的靈魂就不是一個靈魂了。第二點就是我覺得缺少的是情感,我覺得情感是現在數字人裡面極其缺少的,如果一定要從數據的角度來看,也許就是從數據角度來說不重要的那些特徵反而是最重要的,學習和訓練的過程中都丟掉了,所以我覺得這個是非常極具挑戰的一個問題,如果做不到情感,我覺得很大程度上你這個數字人會變的相當的無趣。
沈威:我補充一下,最後的這個非常對,其實這也是我們觀察到的一個發展方向,剛剛在介紹老黃的那個時候,用了很多技術我們叫做Audio2face、Audio2gesture,其實接下來我覺得最重要的就是Audio2emotion,這個就很有意思了,這可能就可以反映剛剛提的,這個是一個亟待突破的問題,確實我們也在開始這件事情,請大家拭目以待。
如何看待軟硬件之間的融合發展關係?
司曉:如何理解軟件跟硬件之間的關係,或者我們今天聊了很多的只用於遊戲、影音娛樂領域的,或者說追求逼真的的軟的東西,跟硬件之間的更迭,大概是什麼樣的東西?
沈威:就拿英偉達自己本身來看,我相信在2012年之前,可能大家對英偉達的印象,就是顯卡公司,就是做遊戲的,其實我們2006年我們開發了CUDA之後,其實我們一隻腳進入HPC高性能運算這個領域了,就國內也用了很多,但就是一些非常特殊的行業,比如說我今天做一些高分子模擬等等這方面,在中科院或者高校用的很多,畢竟這還是一個小眾。CUDA是不是一個軟件,造成了我們今天的HPC的發展,肯定是的,當然2012年之後就是因為整個的深度學習開始了,這也是基於CUDA,在這個基礎上面我們跟谷歌合作,就可以做很多的訓練了。
未來的話從我們公司來看,我們認為這肯定會是一個硬件跟軟件并行的,我們過去可能只是考慮我們在做芯片的時候,就其實之前CUDA剛出來的時候,如果做芯片的設計,肯定要做很多妥協,可是實際上在那時候2012年之前,其實我們賣最多的還是顯卡,就一般的遊戲用的顯卡,你真正在高性能計算領域用的非常非常少的,那為什麼我們還要這樣做,就這個理由就已經很明顯了,所以我們現在已經有非常好的理由說我要往這個生態這樣子來繼續的來耕耘來發展。
我們今天看到今天介紹的Omniverse也是一個例子,芯片的發展不只是硬件方面的迭代,我們今天不只是傳統的顯卡的性能,比如在AI方面要做很多訓練,需要很快速的計算,就需要一些專業的軟件跟一些專業的顯卡來配合工作。一方面硬件方面會集成更多的AI跟傳統的CG能力集成上去,另外一方面我們會看到的是我們會往軟件這方面發展,會把很多我們認為就在行業中或者不同的領域會用到,會碰到的功能,通過軟件更好的集成到硬件中,我認為這個兩者的結合會越來越深入,所以我認為硬件和軟件是一個齊頭並進、融合發展的趨勢。
數字人該不該被賦予獨立的主體身份?
司曉:數字人在虛擬世界的分身,應該給不給它一個主體的身份,甚至把它作為生活中的主體當成獨立的人格,甚至賦予它法律的權利,兩位覺得應不應該給這個具有看起來獨立人格有趣靈魂,外表皮囊又很像人的數字人,或者甚至於是機器人,應不應該給他一個獨立的主體資格,甚至於賦予它一些法律權益。
沈威:我個人覺得可能可以看到的不會是全面性的全功能的數字人,我想可能還是會根據設計者賦予它的任務而形成的數字人,比如這裡面可能會我是一個服務型的數字人,可能會有一個特定的面對的對象群,比如我今天是服務型的,如果你取代比如銀行的櫃員,他的表現方式就以及可能的作為人類,可能期待它的反應,就是可以被預期的,如果往這個方面走,我不會覺得有太多的法律上的限制。
虞晶怡:數字人的訓練過程到底拿哪些數據去訓練,以及相關的模型,受制於另外一個設計者,你怎麼能夠定義說有一個獨立的思考能力,獨立的人格,所以這個事情本身我認為是一個就是偽命題。我認為這個偽命題在很大程度上是因為機器學習的方法的局限。不管是現在的AIGC也好還是什麼也好,其實在我看來並沒有突破掉能創造新的知識,那在我看來如果不能夠創造新的知識,其實就不是一個擁有獨立人格的一個主體,所以我覺得這件事情除非在整個的算法框架下能夠得到突破,那我覺得短期內這件數字人被賦予法律上獨立身份這個事情是不成立的。
本文鏈接:https://www.8btc.com/article/6799250
轉載請註明文章出處