AIGC:自動化內容生成,AI的下一個引爆點?

文 | 晨山資本,作者 | 吳文超
來源:鈦媒體

隨着5G大帶寬網絡時代的到來,人們對更具有視覺表現力的數字內容越來越渴望。傳統數字內容的生成效率已成為新時代的瓶頸。作為下一個探索熱點,「AI自動化內容生成」激發了大量行業需求,也讓我們看到了人工智能技術新的引爆點

自動化內容生成並不是第一天誕生。但過去的2D/3D非結構化內容生成效果不盡人意,而且遺留了很多歷史問題給創業者去解決。近年來,AI在CG領域的應用,尤其是若干革命性模型的提出,給整個方向帶來全新思路,其影響還在持續發酵中但技術終將服務於商業。我們也看到,AI內容生成技術正在各類顯性的商業場景中落地,創造越來越多的現實價值

本文將闡述AI與內容生成的發展現狀,探究目前技術的難點和機會,同時也會帶大家從不同角度看未來的商業價值。

自動化內容生成並不是第一天出現 

2022百度世界大會上,百度首席技術官王海峰展示了利用AI「補全」《富春山居圖》讓歷史畫作重現當代。風格與現存真跡的一致程度也讓專家大為震撼。

AIGC:自動化內容生成,AI的下一個引爆點?

▲ 浙江博物館館藏《富春山居圖·剩山圖》局部(左),台北故宮博物院館藏《富春山居圖·無用師卷》局部(右)

AIGC:自動化內容生成,AI的下一個引爆點?

▲ AI補全《富春山居圖》並題詩(上圖紅框處)

李彥宏在大會上分享了AIGC(AI Generated Content)將走過的三個發展階段:

第一階段是「助手階段」,AIGC輔助人類進行內容生產;第二階段是「協作階段」,AIGC以虛實並存的虛擬人形態出現,形成人機共生的局面;第三階段是「原創階段」,AIGC將獨立完成內容創作。

AIGC這個詞聽上去比較時髦,但自動化內容生成並不是個很新的概念。利用計算機輔助人類進行內容生產其實很早就出現,比如在計算機編程領域IDE的代碼提示、使用Office Word編輯內容的錯誤修正,到後來利用NLG自動化文本生成等都可以算作這個範圍。

近年來,承載內容的媒介越來越豐富,從最早的文本到圖文、視頻到3D內容。同時也帶來了對內容快速生產的更大訴求,激發了大家持續探索自動內容生成的動力。深度學習的出現和發展,進一步帶來了從CV(Computer Vision)延展到CG(Computer Graphics)領域的各種新嘗試。讓傳統的通過規則、數據的富媒體內容生成方法逐步延伸到基於深度學習的內容生成。這也是目前大家狹義理解的AIGC概念。

2D/3D非結構化內容生成更具有挑戰性 

數字內容的載體越來越豐富,針對各種形態的AI內容生成的研究也越來越多,包括文字的NLG(自然語言生成)、圖片/視頻的自動風格遷移和生成、通過點雲/圖片信息自動生成3D內容等。本文更加關注和深度學習算法更加契合也更有視覺表現力的「2D和3D非結構化內容生成」

2D內容生成

毋庸置疑,2D最常見的表現形式是圖像,視頻本質上是多幀的連續圖像。

傳統的2D圖像生成的主流方式是通過攝像頭拍攝的方式物理採集實景圖片,或者通過Photoshop等設計/繪圖工具繪製數字圖片。實景拍攝圖片受限於環境、光照和拍攝技術等因素,導致優質圖片的生成難度較高。而數字圖片更多是體現作者的繪畫和美術功底。

如何通過既有素材快速且批量生產可用優質圖片,也是近年來2D內容生成的重要研究方向,而這裡面大放異彩的深度學習算法莫過於GAN(對抗神經網絡)

3D內容生成

3D內容生成更加複雜。要理解3D內容生成,首先可能還是得明確下什麼是3D內容。

D是dimension的縮寫,顧名思義,3D是指物體本身的3個緯度(X-Y-Z)。在物理世界比較好理解,大家能看到的空間中所有物體都是三維的,因為我們的空間就存在XYZ三個緯度。

但在2D平面的計算機世界3D又該如何理解?

其實很簡單,以我們常見的3D建模軟件為例,我們建立的模型雖然是在2D屏幕上呈現,但你可以按照計算機設定的XYZ三個坐標軸進行移動(Move、Rotate、Scale)來從各個角度看到物體的各個面。所以多角度的概念才是我們通常理解的3D數字內容。

如果要在體驗上有真正的3D感,需要突破2D屏幕的限制,那就只能等待AR/VR、全息顯示等新交互設備的發展了。

AIGC:自動化內容生成,AI的下一個引爆點?

▲ Blender中的三維模型可以按XYZ三個坐標軸多維變化

除了幾何形狀,完整的3D內容還包含材質(貼皮),再結合光照,最終通過渲染形成多角度的RGB圖片。

AIGC:自動化內容生成,AI的下一個引爆點?

▲ 3D內容是將形狀和外觀進行組合渲染形成多維度視角的2D圖片

3D內容生成的本質是如何構建物體的幾何、材質和光照。元素的多樣性和複雜性,讓3D內容生成成為CG領域的一個難點

以第一步的幾何形狀的表達來看,業內目前沒有統一的表達方式。常見的幾何表達包括顯式和隱式兩類。顯式更多的是指以肉眼可見的方式來表達幾何圖形。常見的顯式表達方式包括在機器視覺應用較多的點雲(Point Cloud)、在遊戲場景應用較多的體素(Voxel,類似Roblox)和3D建模軟件中常用的網格(Mesh)。隱式表達則是用參數化方程的方式來描述一個3D幾何,比較知名的如有向距離場(SDF),通過每個像素(體素)記錄自己與距離自己最近物體之間的距離來表達,如果在物體內,則距離為負,正好在物體邊界上則為0。

不同的3D表達方式沒有統一的規範,導致3D內容的生成和製作與2D相比難度更上一層樓

AIGC:自動化內容生成,AI的下一個引爆點?

▲ 多樣的3D幾何表徵方式

傳統3D內容生成需要設計師使用Maya、3DMax、工程建模CAD等3D建模軟件手動建模/渲染出來,但軟件學習成本高、建模本身效率低等原因導致該方案難以快速批量生成3D內容。

一種創新方法是通過既有2D數據自動重建3D模型。傳統三維重建方式為通過激光掃描生成目標物體的點雲數據後進行三維重建,但這種方式採集的點雲數據是離散並且無嚴格拓撲關係的,導致無法生成高分辨率的模型。

目前AIGC研究的重點方向,是通過若干2D圖片以計算機視覺算法重建方式來生成更多的3D內容。基於圖片的3D內容生成可以理解為下面的流程,通過現有2D圖片(輸入)進行3D幾何、材質等重建,再結合光照渲染能力重新恢復2D高清的多維度圖片。

AIGC:自動化內容生成,AI的下一個引爆點?

雖然2D圖片採集相對容易,但問題在於,很難把物體任意維度的數據都拍得很完整,而且有些物體反光、透明等原因導致拍攝的圖片質量不高。如何在有限的數據量和有限質量的數據下根據先驗知識構建成一個完整的多維數據,正是深度學習擅長的問題。

除了靜態的人/物體/場景本身,如何構建更加複雜的動態內容也是內容生成的重要部分。以人舉例,3D內容包含人的動作、物理碰撞模擬(物理引擎)等也都是AI內容生成需要進一步解決的問題。

當然問題越多,給予創業企業突破創新的機會也才越多。

AI給CG領域帶來全新的技術變革

近年來,AI給二維和三維的內容生成帶來了許多新變化。

GAN神經網絡

在二維領域,最重大突破便是Goodfellow在2014年提出的GAN神經網絡。GAN包含有兩個模型,一個是生成模型(generative model),一個是判別模型(discriminative model)。可以通俗理解為:生成模型像「一個造假團伙,試圖生產和使用假幣」,而判別模型像「檢測假幣的警察」

生成器(generator)試圖欺騙判別器(discriminator),判別器則努力不被生成器欺騙。模型經過交替優化訓練,兩種模型都能得到提升,但最終我們要得到的是效果提升到很高很好的生成模型(造假團伙),這個生成模型(造假團伙)所生成的產品能達到真假難分的地步

利用GAN網絡衍生的如CycleGAN、StyleGAN等神經網絡模型,就可以通過既有圖片進行圖片的風格遷移、人臉編輯、圖像修復、補全等操作而形成新的內容。前文中提到《富春山居圖》的補全也一定程度上是這類算法的延伸。

AIGC:自動化內容生成,AI的下一個引爆點?

▲ GAN網絡生成器和判別器「對抗訓練」

在三維領域,因為表達形式的複雜性,業界圍繞不同表達形式也在各個方向進行探索。

點雲重建

由於採集成本高、遮擋等問題,點雲無法連續採集物體表面的信息,而更加容易表徵空間定位信息。點雲3D重建在自動駕駛、機器人等空間定位和掃描場景應用更多,並不太適合用於視覺表現。要生成更加稠密包括適合視覺觀測的3D內容的表面,需要生成更加稠密的點來補充離散點雲的稀疏問題。這其中也有些研究者利用深度學習的方法,通過特徵擴展、GAN擴展網絡等方式生成更加稠密的點雲信息。

AIGC:自動化內容生成,AI的下一個引爆點?

▲ 深度學習+點雲進行3D表面重建

傳統圖片3D重建

從2D圖片重建3D模型並非在近年來AI大發展之後才出現,比較早的算法如Structure From Motion(SFM,1979年前)、Multi-View Stereo(MVS,2006年以前)、PMVS(2010)和COLMAP(2016)等。

以效果還不錯的PMVS算法舉例,從圖片裡面提取特徵再做三角測量的點,獲得點雲數據,然後根據這些點重建物體表面,並進行紋理映射,就可以還原出三維場景和物體了。

AIGC:自動化內容生成,AI的下一個引爆點?

▲ 結合SFM和MVS的PMVS算法

但這種方法同樣因為噪聲、點雲稀疏問題無法形成完整的幾何結構,需要更多的人工加工,才能真正為圖形學使用。而一個完美的圖像渲染過程需要一個完美的多幾何結構和材質,所以這種方式很難達到渲染需要的質量。

AIGC:自動化內容生成,AI的下一個引爆點?

▲ 點雲稀疏問題導致無法形成完美質量的3D幾何結構

基於AI算法的圖片3D重建

深度學習等AI算法的提出,最先解決了計算機視覺領域中物體識別、內容理解等問題。隨着近年來不同深度學習模型的提出,大家逐步關注到如何把深度神經網絡應用在CG領域。

要進行3D重建,首先要解決的便是幾何的表徵方式選擇問題,即選擇顯式還是隱式表達

顯式表達近年來湧現出不少優秀的研究成果:GQN(2018)、CodeSLAM(2018)、DeepVoxels(2019)、Neural Volumes(2019)、Latent Fusion(2020)。但顯式表達最大的問題在於幾何表徵本身是離散的,幾何拓撲關係難以優化。導致生成的三維內容的分辨率受到比較大的限制。

為了獲得更加準確、高分辨率的3D內容,隱式表達方式開始成為大家主要研究的方向。隱式表達中,最容易想到的便是對現有隱式表達利用深度學習改造,如DeepSDF模型,但受限於表達方式的缺陷,效果也不盡如人意。2020年,谷歌研究院的Pratul Srinivasan、Benjamin Mildenhall等提出的NeRF方法引爆了整個3D重建領域。NeRF的提出激發了大量的後續研究,原始研究文獻實現了增長極快的引用率,迄今NeRF的引用量已破千。

我們來一探這個可能開啟CG領域新時代的深度學習算法:NeRF是Neural Radiance Fields的縮寫,其中的Radiance Fields是指一個函數,也就是前面提到的隱式表達中的表達函數,當然除了表徵幾何,Radiance函數同樣帶上顏色信息來完成對材質-貼圖的表徵。

NeRF將場景表示為空間中任何點的volume density σ(簡單理解為不透明度) 和顏色值c 。有了以NeRF形式存在的場景表示后,就可以對該場景進行渲染,生成新視角的模擬圖片。NeRF的輸入為空間點的位置和方向,通過求解穿過場景的任何光線的顏色,從而渲染合成新的圖像。

AIGC:自動化內容生成,AI的下一個引爆點?

▲ NeRF的簡單描述(輸入是空間位置信息,輸出是透明度+顏色)

可以看出NeRF最大的創新在於對場景的隱式表徵方式的創新,通過連續的隱式表徵,可以用少量的圖片渲染重建出更加逼真的三維內容

AIGC:自動化內容生成,AI的下一個引爆點?

▲ NeRF網絡和現有深度神經網絡效果對比

NeRF也不是沒有缺點——由於需計算大量的點位信息導致推理過程過於耗時而很難實現實時渲染;缺乏顯示錶征而帶來內容編輯難度較高。因此,圍繞后NeRF時代的神經網絡模型和方法也層出不窮。通過將GAN和NeRF兩大內容生成的AI技術相結合的GRAF9(Generative Radiance Fields)。2021年CVPR的最佳論文GIRAFFE通過GAN網絡實現NeRF的可控編輯等。

AI+Motion

現實世界是在敘事基礎上建立,而敘事由人物關係展開,所以人是現實世界最重要的元素

除了外形表現,人更重要的是靈活的動作/表情的表達和交互,只有配合動作/表情,人物的「神」和「態」才能完整地被表達出來。可以說,沒有動作的人物模型毫無意義

模型建立雖然有不同層次的成本,但始終可以通過手工或者半自動的方式完成,製作門檻並不高。但如何生成符合人體運動學的動作和表情則更加需要數據的支撐,也非常適合利用AI算法來進行模型的訓練。

動作生成的難度在於如何用相對標準化的方式來驅動不同外形的人物,同時模型本身足夠的協調和自然。這不僅是指動作本身的協調程度,更重要的是還要和語音、文本等多模態輸入能夠完美結合

近年來,隨着動捕技術發展、視頻內容數據的豐富,動作數據的積累也變得更加簡單。大量圍繞動作驅動的AI工作也陸續被大家提出。2019年以後大量的工作基於RNN網絡進行動作預測(Motion Prediction)、基於 RL(Reinforcement Learning,增強學習)的動作控制算法(Motion Control)和Ginosar、Alexanderson等人提出的基於語音、文本甚至音樂的多模態動作驅動的CNN模型(Cross-modal motion synthesis)。

AIGC:自動化內容生成,AI的下一個引爆點?

▲ 通過語音驅動手勢動作示例

AI+CG的價值落地明確並且正在發生

我們並沒有必要過多討論具體的算法,更應該關注的是,在當前技術成熟度下AI+CG能創造多大的商業價值

首先我們來看看CV領域的趨勢,在2012年AlexNet被提出以前,計算機視覺中的檢測、目標識別其實已經有超40年的發展歷史,但由於技術成熟度的原因遲遲沒有很好的商業落地。隨着深度學習等AI技術被驗證,大量的相關工作在隨後的6-7年內被提出,隨之而來的是AI被應用在各個商業場景。

這其中首先有殺手級的應用——人臉識別,在支付、安防、身份認證等領域都得到了廣泛的應用。除了人臉相關,我們再擴展到物體的視覺檢測方向,有工業視覺檢測、機器視覺等行業應用。這些應用帶來了大量的生產力提升,同時也創造了極大的社會價值和投資機會。

那AI+CG領域是否存在同樣的機會呢?

從技術發展的角度看,CG似乎和CV領域一樣,正迎來AI在CG領域的大爆發的前期。整個發展路徑非常類似,其中比較有代表性的兩類模型是GAN和NeRF以及大量的延伸工作,但提出的時間比AlexNet和ResNet等晚了3-5年,技術仍處於爬坡期。然而我們更需要關注的是,目前具有一定AI技術成熟度的CG領域,未來到底有多少商業價值呢?

AIGC:自動化內容生成,AI的下一個引爆點?

無論是2D還是3D,更多是為了視覺而服務,我們能想到或者日常能夠體驗到的視覺場景大致包括以下幾類:視覺內容營銷、線上的商業服務、行業仿真和新的交互方式帶來的泛娛樂內容的需求

AIGC:自動化內容生成,AI的下一個引爆點?

視覺內容營銷

互聯網時代開啟后,營銷是流量企業最主要變現方式之一。而承載營銷最重要的方式便是更加具有視覺衝擊力的圖文、視頻等富媒體內容

首先從視頻類(圖文類似)內容生成成本角度來看,傳統的營銷類視頻以拍攝+後期製作的方式為主。視頻的生產過程都耗費大量的人力,並且視頻多樣化往往需要簡單重複勞動來獲得。

舉個最簡單例子,同一個產品營銷類視頻,產品在不同的國家進行售賣,可能需要當地風格的模特進行視頻表現,但如果使用GAN系列模型通過AI生成和風格遷移的方式,可以較為完美地進行人物風格切換,快速降低內容製作成本。

AIGC:自動化內容生成,AI的下一個引爆點?

▲ 由GAN網絡生成的不同圖片風格

其次從效果來看,傳統線上視頻類營銷往往以產品介紹、特點宣傳為主。和線下營銷關注「人貨場」的概念差別比較大,這其中最大的差別在於如何在二維的屏幕模擬出3D的沉浸感,給人以3D式的營銷體驗。而要有3D沉浸感首先得有3D可交互的內容。

從「人」的角度來看,就涉及到現在比較火的3D數字人的生成。3D人可以賦予視頻內容中人物更加多角度、更多動作、更加可控的展現形態,疊加上深度圖效果和語言,讓人物更加具有表現力。當然如果能做成「老黃」那樣超寫實的虛擬人就更加能夠以假亂真了。

而這其中就可以利用前面提到的AI的方式進行3D模型和動作的生成,當然僅僅通過AI實現超寫實的3D人物構建,在效果上目前還是有些難度,而表情和動作的生成已經做的非常逼真。晨山投資的中科深智便在人物表情和動作生成方面具有多年的積累,並且較早就在行業得到廣泛應用。

AIGC:自動化內容生成,AI的下一個引爆點?
AIGC:自動化內容生成,AI的下一個引爆點?

▲ 3D數字人給營銷以更加強的表現力

從「貨」的角度來看,大家或許已經發現,某些電商平台的內容展示更加立體,會從各個角度來呈現客戶想要購買的商品。品牌方通過拍攝多角度照片,利用AI+3D重建來進行3D商品展示的方式已經越來越普遍,細節表現力也更強。隨着NeRF等算法的改進,重建成本逐步降低,未來商品的3D化也將是趨勢。

AIGC:自動化內容生成,AI的下一個引爆點?

▲ 某電商品牌的3D內容展示

在「場」的層面,如何重現線下體驗,追求品牌的「永久在線」,是現在很多平台在探索的方向。通過線上空間3D化,可以讓參與者更加有沉浸感。這就涉及到如何進行空間的建模,通過AI+點雲/機器視覺重建的工作已經在一些領域被大家提出和應用。

線上商業服務

近年來,從傳統的工業到線下服務業,大家開始使用硬件機器人來替換重複勞動的工作以達到降本增效的目的。

但我們往前一步看,線上重複的服務工作如客服、電商/電視的主播、播報員甚至部分節目主持人,未來同樣有被虛擬機器人替換的可能。舉個例子,大家看天氣預報,會因為主持人換了而不看天氣預報的可能性有多大?而且他們原生就在線上輸出服務,擁有的數字基礎其實更好。

AIGC:自動化內容生成,AI的下一個引爆點?

▲ 機器替人的場景在不可逆地發生

很明顯,數字員工在降低勞動成本,全天候工作提升工作效率,填補人才缺口,降低人員流動風險等方面有天然的優勢。但前提是如何通過AI的方式結合3D人物生成、更加靈活的動作驅動、更加平滑的解決用戶問題,實現更加擬人化甚至無差別化服務。這些都是是需要根據具體場景,結合進一步的技術驅動來完成的,其中的工作量不容小覷。

或許很多人都會說擬人畢竟還是假人,尤其是虛擬人不夠形象,但時代在變,大家的習慣也在變化。對大部分95后、00後來說,二次元或許更受他們青睞。據統計,B站用戶平均年齡為21歲,這些人成年後依然保持着對虛擬人物和二次元文化的熱愛。

行業仿真

根據最終用途,仿真類應用大致分為管理類仿真和設計類仿真。對應到我們經常聽到的概念便是數字孿生和工業設計軟件。二者除了應用方向的區別外,在技術上,前者更加關注效果和數據的結合,而後者關注的更多是物理/幾何世界的數字化模擬

AIGC:自動化內容生成,AI的下一個引爆點?
AIGC:自動化內容生成,AI的下一個引爆點?

▲ 數字孿生vs.工業設計

無論數字孿生還是工業設計,歷史上的生產方式還是依靠大量的人力在進行內容的建模。這其中不僅僅有重複勞動,而且無論宏觀如數字孿生還是微觀如工業結構件,其中的模型數量都非常大。如何通過AI快速生產內容、更好地渲染,都是大家目前在努力的方向。

AR/VR

這個方向一直反覆成為投資人追捧的熱點。因為大家知道,前面所有的場景,只有能把屏幕變成3D的,那3D才能完全發揮它的能量。這個趨勢雖然跌跌撞撞,但它卻在悄然發生。

2020年發布的Oculus Quest 2已達到消費級水平,在顯示參數、外觀設計和價格等方面均滿足了VR用戶的基本需求。據IDC數據顯示,2021年全球VR出貨量達1,095萬台,已突破年出貨量一千萬台的行業重要拐點。

除了設備本身,內容生態同樣重要。Oculus為代表的內容數量也在快速提升,截止2022年4月,Oculus Rift、Quest、APP Lab平台分別擁有1,381、357、1,074款應用。這其中的內容包括VR遊戲、沉浸式社交等各種3D內容構建的場景。

未來VR加速發展離不開內容的快速生成,當設備不再是瓶頸后,如何搶佔內容開發者,高效地給開發者提供更加智能化、AI化的生產力工具才是平台廠商下一步需要布局的重點。這其中Meta已經做出了表率:2021年10月,Meta宣布設立1,000萬美元的「創作者基金」,鼓勵更多內容創作者進行VR內容創作。至於AR,大家似乎都在等另一個巨頭的聲音。

AI算法的使用可深可淺,所以一個領域的爆發必然帶來魚龍混雜的企業競爭。AI的行業應用也不可能一步到位,不成熟是行業早期的必然現象,真正需要創業團隊做的是耐心且長期地深入產業打磨產品。AIGC方向從業企業對技術、場景和數據的理解和積累顯得尤為重要,晨山將持續關注擁有自身技術和經驗積澱的匠人,同時又對商業價值充滿信心的優秀團隊。

本文鏈接:https://www.8btc.com/article/6773478

轉載請註明文章出處

(0)
上一篇 2022-08-25 17:35
下一篇 2022-08-25 18:24

相关推荐