AIGC之AI繪畫: 技術與應用雙突破，生產力變革在即

來源&作者：分析師謝漠煙

圖片來源：由無界版圖 AI 工具生成

投資要點

AI繪畫是AIGC重要的應用分支。近兩年包含擴散模型在內的關鍵技術取得突破，技術可用性顯著提高，技術轉化為生產力的契機產生。隨着Stable Diffusion等應用破圈，用戶接受度和參與度持續提高，適用行業不斷拓展，未來B端、AIGC+3D的商業化潛力值得期待。

□ 發展進入快車道，迎來轉變為生產力的拐點

2022年被稱為AIGC元年。8月，憑藉AI繪畫作品《太空歌劇院》，參賽者沒有繪畫基礎卻獲得美國科羅拉多州新興數字藝術家競賽一等獎，引發熱議。Stable Diffusion、Midjourney等AI繪畫應用推動技術進入民用領域，幾月內產出效果便有直觀改善，被設計師、遊戲工作室等廣泛用於輔助生產，生產力變革來臨。

□ 關鍵技術取得突破，圖像生成效果效率均顯著提升

AI繪畫是基於深度學習技術的。生成式對抗網絡GAN配合可對比語言-圖像預訓練算法CLIP，解決了跨模態問題，支持文本生成圖像；而AI繪畫的實操可分為四個環節：加噪點、去噪點、復原圖片和作畫。隨着圖像掩碼建模MIM、特徵處理器Transformer、擴散模型Diffusion Model和神經輻射場NeRF出現，在上述四個環節中發揮作用，AI“畫技”顯著提升。未來，我們預計深度學習領域將有兩大主要前進趨勢：大模型和人工通用智能。

□ 商業化前景廣闊，B端和三維化或為突破口

AI繪畫產品不斷豐富，體驗持續提升，已具備較好的用戶基礎。但AI繪畫產品目前少有營收或實現盈利，目前相關產品變現方式較為單一。對於普通C端用戶，缺乏性價比加高的商業應用場景，付費意願不強。已有的賦能收費項目集中在付費提速或者增加清晰度方面，變相彌補現有使用局限。我們認為：

B端變現路徑更為多元、成熟，如廣告和營銷行業均有可想見的應用情景能挖掘出較為可行的商業模型，付費的可能性和水平相對更高；
此外，人們對於未來元宇宙的期待是三維化、AI化及開放式的，AIGC＋3D是必由之路。AIGC+3D是豐富遊戲、影視、VR等數字內容，降低其製作成本的有力工具，目前已有部分2D產品具備3D遷移能力。

□ 產業鏈初具規模，上下游現藍海

產業鏈層面，AI繪畫涉及到硬件、NLP、算法算力、應用、數據提供與處理等多環節，當前產業布局於算法和應用開發環節較為集中和領先，而在產業鏈上下游還有諸多可開發的藍海領域。

具體到投資標的：

首先是擁有相關應用產品和場景的公司。圖文類推薦關注視覺中國（素材庫+數字藏品）、中文在線（AI繪畫+AI文字+小說平台）、萬興科技（“萬興AI繪畫”軟件）、三人行（AI平面設計+營銷場景）；AIGC+3D作為動態數字內容輔助創作工具，或可顯著降低遊戲、影視、VR/AR行業製作成本，利好相關廠商，推薦關注騰訊控股、網易、完美世界；其他AIGC模態推薦關注崑崙萬維（Star X音樂平台+AI作曲）、藍色光標（虛擬人+營銷場景）；
AIGC和AI繪畫依賴自然語言處理、計算機視覺和人工智能技術，我們推薦關注百度集團（文心大模型+文心一格）、拓爾思（語義智能技術）、商湯（人工智能+計算機視覺）、科大訊飛（語音識別+人工智能龍頭）等。

□ 風險提示

1）AI 繪畫相關技術發展不及預期風險；2）商業化拓展進度和效果低於預期風險；3）AI繪畫涉及的作品侵權、名人肖像侵權等風險。

正文

1 發展進入快車道，迎來轉變為生產力的拐點

1.1 AI繪畫是AIGC重要的應用分支

AIGC既是一種內容分類方式，又是一種內容生產方式，還是用於內容自動化生成的一類技術集合。AIGC全稱為Al-Generated Content，指基於生成對抗網絡GAN、大型預訓練模型等人工智能技術，通過已有數據尋找規律，並通過適當的泛化能力生成相關內容的生產方式。

作為全新的內容生產方式，AIGC潛力無限，而我們當前處於向AIGC進發的過渡階段。根據a16z，內容生態的發展則可分為四個階段：專家生成內容（Professionally-Generated Content，PGC）、用戶生成內容（User-Generated Content，UGC）、AI 輔助生產內容（AI-assisted Generated Content）及 AI 生成內容（AI-Generated Content，AIGC）。目前我們仍處於一、二階段為主，第三階段為輔的境況。

按照模態對AIGC進行劃分最為常見。AIGC可分為音頻生成、文本生成、圖像生成、視頻生成及圖像、視頻、文本間的跨模態生成，其中跨模態生成需要重點關注。事實上，人工通用智能（Artificial General Intelligence，AGI）概念的出現反映出許多人工智能業界人士認為，在未來，基礎的人工智能模型將是跨模態的，這意味着相同的模型將被用於生成不同體裁的內容，包括但不限於文本、圖像、視頻等等。

AI繪畫是AIGC重要的應用分支。AI繪畫工具中，用戶通過輸入不同的詞彙，例如不同的藝術家風格、構圖、色彩、透視方法以及修飾詞，就能得到相對應的畫作。目前相關生成工具已相對成熟，易用性較好，生成結果直觀、易傳播，部分成果在效率和質量上有不錯的表現，切實觸動了廣大內容生產和消費者，進入主流視野。

上圖展示了AI繪畫領域具有標誌性的事件，2022年8月，在美國科羅拉多州舉辦的新興數字藝術家競賽中，參賽者提交了AIGC繪畫作品《太空歌劇院》，參賽者沒有繪畫基礎但是卻獲得了此次比賽“數字藝術/數字修飾照片”類別一等獎，引發熱議。

1.2 今年起AIGC發展按下加速鍵

PGC和UGC的發展曾為我們帶來內容生產和消費的空前繁榮，AIGC的興起是生產力革新的成果，亦是孕育自廣大消費者的實際需要，具有廣闊的想象空間和重要意義。

從供給側角度來看，AIGC的興起源於深度學習技術的快速突破。在人工智能發展初期，相關算法多基於預先定義的規則或者模板，AI在創造力層面進展緩慢，更多地在替代人類從事可重複性高的“dirty work”。近年來，深度學習算法快速迭代，神經網絡的規模呈指數級增長，技術強大到可以執行非模板化的工作，更加貼近AI所指代的智能化概念。
從需求側角度來看，日益增長的數字內容供給需求驅動着AIGC蓬勃發展。傳統內容生產手段受限於人力有限的製造能力，在絕對產能、產能與質量的協調關係上愈發吃力。AIGC依託其技術屬性，可襄助內容生產以更加具有絕對效率和性價比的方式進行，更好地滿足市場需要。

我們將AIGC的發展分為四個階段：

早期萌芽時期：此階段AIGC僅限於小範圍實驗。80年代中期，IBM基於隱形馬爾科夫鏈模型（Hidden Markov Model，HMM）創造了語音控制打字“坦戈拉（Tangora）”。雖然對AIGC進行了一些初步嘗試，但受限各種因素，實際產出效果還遠遠算不上是智能創作內容的程度。
沉澱積累時期：AIGC從實驗性向實用性逐漸轉變。軟件上，2006年，深度學習算法取得重大突破；硬件上，圖形處理器（Graphics Processing Unit，GPU）、張量處理器（Tensor Processing Unit，TPU）等算力設備性能不斷提升；數據上，互聯網使用數據規模快速膨脹並為各類人工智能算法提供了海量訓練數據，使人工智能發展取得了顯著的進步。2007年，紐約大學人工智能研究員羅斯古德溫裝配的人工智能系統通過對公路旅行中的一切所見所聞進行記錄和感知，撰寫出世界第一部完全由人工智能創作的小說。2012年，微軟公開展示了一個全自動同聲傳譯系統，基於深層神經網絡（Deep Neural Network，DNN）可以自動將英文演講者的內容通過語音識別、語言翻譯、語音合成等技術生成中文語音。
快速發展時期：眾多關鍵模型就位規模化基礎已具備。2017年，AI圖像生成、自動生成唇形視頻、圖像高清化、圖像編輯、圖像風格遷移、wavnet語音合成等技術快速發展。2018年，預訓練語言模型出現，降低了標註需求和成本。2019年，隨着以生成式對抗網絡（Generative Adversarial Network，GAN）逐漸成熟，AIGC技術研究迎來關鍵拐點，DeepMind發布了DVD-GAN模型用以生成連續視頻，在草地、廣場等明確場景下表現突出。2020年，自監督學習成為業界主流，模型體量和複雜度不斷提升，其中Open AI發布的CPT3極具代表性。2021年，MAE的出現使得視覺可以用NLP自然語言同樣的架構訓練預訓練模型，疊加多模態多任務領域發展，文本圖像對齊的研究爆發。
起飛破圈時期：AIGC概念伴隨AI繪畫應用出圈。2022年，技術上，擴散生成模型得到廣泛研究與應用，文本生成圖像模型可準確把握文本信息進行創作。商業化基礎已初步具備，國內外互聯網巨頭和獨角獸紛紛下場。Open AI更新了DALL-E-2，可創作出相應極高質量的卡通、寫實，抽象等風格的繪畫作品。把AIGC創作最終推向平民化的是Stability.ai推出的Stable Diffusion，個人電腦即可驅動，且幾個月內產出效果具有直觀的改善。AI繪畫迅速在微博、小紅書等多平台上，內容創作者、技術研究者、投資人等各圈層里形成了聲勢。

1.3 技術轉化為生產力的契機產生

2022年被稱為AIGC元年，這一年AIGC取得了里程碑式的成績，引發了市場廣泛熱烈的興趣，我們認為主要因素是：

包含擴散模型在內的關鍵技術取得突破，技術可用性顯著提高，產出效率不斷提高，產出效果出現分水嶺，技術轉化為生產力的契機產生。2021年之前，AIGC生成的主要還是文字，而新一代模型可以處理的模態大為豐富且可支持跨模態產出，可支持AI插畫，文字生成配套營銷視頻等常見應用場景；
通過國內外科技公司的應用轉化，技術進入民用領域，引起了廣大行業從業者、文娛愛好者和投資人的關注。“智能圖文轉視頻”和AI作畫成功破圈，相關應用迭代速度呈現指數級爆發。以AI作畫工具為例，水平上限有長足進步，雖發揮並不穩定，但結果輸出極快，可量變引起質變，彌補其在創意、想象等方面的不足，滿足一般市場需求。

2 關鍵技術取得突破，圖像生成效果效率均顯著提升

2.1 GAN+CLIP解決跨模態問題

2.1.1 生成式對抗網絡GAN—圖像到圖像的生成

GAN（Generative Adversarial Nets，生成式對抗網絡）在2014年提出后，是生成器和判別器的一代代博弈。生成器通過輸入數據生成圖像，並將其混入原始數據中送交判別器區分。判別器依據二分類網絡，將生成器生成圖像作為負樣本，真實圖像作為正樣本。雙方的訓練過程交替進行，對抗的過程使得生成器生成的圖像越來越逼真，判別器的分辨能力也越來越強。

GAN有三個不足：

GAN對輸出結果的控制力較弱，容易產生隨機圖像。對此，CGAN通過把無監督的GAN變成半監督或者有監督的模型，為訓練加上目標，而DCGAN通過縮小CNN在監督學習與無監督學習之間的差距使得訓練過程更加穩定和可控。
GAN生成的圖像分辨率較低，對此，PGGAN逐漸的向生成器和判別器網絡中添加層，以此增加生成圖片的空間分辨率，StyleGAN則能夠生成極其逼真的圖像數據並且做到了高層特徵可控；
由於GAN需要用判別器來判斷生產的圖像是否與其他圖像屬於同一類別，這就導致生成的圖像是對現有作品的模仿和微調，不能通過文字提示生成新圖像，因此CLIP被引入。

2.1.2 可對比語言-圖像預訓練算法CLIP—文字到圖像生成

CLIP（Contrastive Language-Image Pre-training）是OpenAI在2021年提出的多模態預訓練的算法，建於NLP（Natural Language Processing，自然語言理解）和CV（Computer Vision，計算機視覺）相結合的基礎上。算法使用已經標註好的“文字-圖像”數據對訓練。一邊對文字進行模型訓練，一邊對圖像進行模型訓練，不斷調整參數，使得輸出的文字特徵集和圖像特徵集相匹配。

CLIP方法具有結構簡單，訓練速度快，效果好等諸多優良特性。CLIP具有非常好的遷移學習能力，預訓練好的模型可以在任意一個視覺分類數據集上取得不錯的效果。而且算法是 Zero-Shoot 的，即不需要再去新數據集上做訓練，就能得到不錯的結果。

現被廣泛應用的StyleCLIP 融合了 StyleGAN 和 CLIP 雙方的特性。之前的StyleGAN的語義控制發現方法會涉及手動檢查、大量帶註釋的數據、或者需要預訓練的分類器，且只能按照預設的語義方向操作圖像，嚴重限制了用戶的創造力和想象力，若需要添加一個未映射的方向，需要大量的手工工作或大量的註釋數據。StyleCLIP支持普通用戶基於文本的直觀語義圖像操作，也不限於預設的操作方向。

2.2 深度學習助力AI畫技進步

AI繪畫的實際操作大體可以分為四個步驟：加噪點、去噪點、復原圖片和作畫。其中，加噪點即添加高斯噪聲或者關鍵詞，通過固定公式來實現，這方面，快速更新迭代的MIM方法表現出彩。去噪點即仿生物視覺神經網絡在去噪過程中開展學習（透視、顏色等），目前Transformer正取代CNN卷積神經網絡成為主流方法。而在復原圖片和作畫方面，AI的“畫技”主要由擴散模型Diffusion Model和神經輻射場模型NeRF決定。

2.2.1 圖像掩碼建模 MIM — 高效簡潔的預訓練方法

MIM（Masked Image Modeling，圖像掩碼建模）是一種自監督表徵學習算法。它的主要思路是，對輸入圖像進行分塊和隨機掩碼操作，然後對掩碼區域做一些預測，進而猜測全圖。掩碼信號建模在多個模型中應用發展，例如OpenAI的iGPT模型（通過馬賽克進行信號的遮蔽和轉換）、ViT模型等。

基於 MIM 的模型在不同類型和複雜程度的廣泛視覺任務上實現了非常高的微調精度，使得AI作畫從生成不完整圖像進步到可成完整圖像的跨越。MIM 在語義較弱的幾何 / 運動任務或細粒度分類任務中的表現明顯優於有監督模型；對於有監督模型擅長的任務（語義覆蓋較好的語義理解任務），MIM 模型仍然可以取得極具競爭力的遷移性能。

目前較受認可的MAE模型產自何愷明對MIM的優化。MIM在預訓練圖像編碼器的時候，太關注細節損失了高維抽象能力。MAE的非對稱編碼器-解碼器結構，使模型分工明確，編碼器負責抽取高維表示，解碼器則負責細粒度還原；MAE同時對輸入圖像進行高比例遮蔽。將以上兩種設計結合，結果用來訓練大模型：訓練速度提升三倍以上，同時保持高準確率，具備很好的泛化能力。

MAE廣泛應用於人臉識別等多個領域。例如，FaceMAE作為隱私保護人臉識別範式，同時考慮了人臉隱私和識別性能，可以適配任何人臉數據集，以降低隱私泄露風險。

由北京大學、香港大學研究者在2022年5月提出的CAE模型、微軟亞研院提出的SimMIM是對MAE方法的改進。CAE可以更多地挖掘編碼器的潛力；而SimMIM對MAE進行了化簡。它們學到的表徵可以區分不同類別的物體，舉例來說，看到一隻貓的頭部可以預測出它的身體部分，看到一小片天空可以預測出它的周圍大概率也是一片天空。

2.2.2 特徵處理器Transformer — 優化的自然語言處理模型

Transformer是當前綜合表現最優的特徵提取器。模型首創於2017年的Google論文《Attention is All You Need》。它的性能優於傳統的 RNN和CNN特徵提取器。

Transformer為視覺領域帶來了革新性的變化，它讓視覺領域中目標檢測、視頻分類、圖像分類和圖像生成等多個領域實現了長足的進步。2020 年 10 月，谷歌提出了Vision Transformer（ViT），它是Transformer用於CV領域的傑出例子，它在大型數據集上表現處於領先地位。2021年1月，OpenAI 用的 DALL·E 和 CLIP 兩個模型都利用 Transformer 達到了較好效果，前者可以基於本文直接生成圖像，後者則能完成圖像與文本類別的匹配。

Transformer的研究才剛剛起步，因此仍有很大研究和發展空間。在研究領域，CNN研究已趨向於成熟，考慮到模型成熟度和性價比，CNN在短期內仍不會被淘汰。

現有的 Visual Transformer 參數量和計算量過大，內存佔用量超過可承受範圍，效率方面還需要提升，亟需開發高效 Transformer for CV。
現有的 Visual Transformer 都還是將 NLP 中 Transformer 的結構套到視覺任務做了一些初步探索，未來針對 CV 的特性設計更適配視覺特性的 Transformer 將會帶來更好的性能提升。
現有的 Visual Transformer 一般是一個模型做單個任務，近來有一些模型可以單模型做多任務，比如 IPT，我們期待未來出現世界模型，處理全局任務。

2.2.3 擴散模型Diffusion Model — 新一代圖像生成主流模型

Diffusion Model代指擴散模型，擁有比GAN更優的能力並快速崛起。相關研究最早可以追溯到2015年，奠基研究是2020年《Denoising Diffusion Probabilistic Models》。2022年，藉助AI繪畫應用，擴散模型在圖像生成領域展現卓越實力。

擴散模型的工作原理，是通過連續添加高斯噪聲來破壞訓練數據，然後通過反轉這個噪聲過程，來學習恢複數據。一幅畫當中，衣服的紋樣、樹葉、雲彩等帶有很多細節紋理的地方，其實細節越多，越接近一個隨機的噪點。對於這些地方，也許只需要幾次高斯噪點的摻入（可理解為高斯模糊），就能破壞原來的紋樣，接近正態分佈。訓練后，可以使用擴散模型將隨機採樣的噪聲傳入模型中，通過學習去噪過程來生成數據。都是給定噪聲xT生成圖片x0，相比GAN，Diffusion所需數據更少，生成效果更優。

擴散模型在計算機視覺、自然語言處理、波形信號處理、多模態學習、分子圖生成、時間序列以及對抗學習等七大應用方向中都有應用。

在AI繪畫領域，除Disco Diffusion，最先進的文本生成圖像系統OpenAI 的DALL·E 2和 Google 的 Imagen，都是基於擴散模型來完成的。

擴散模型還在發展中，改進研究在採樣速度提升、最大似然增強和數據泛化增強等領域持續進步。

2.2.4 神經輻射場 NeRF — 順應3D內容消費趨勢

NeRF（neural implicit representation，神經隱式表示）利用深度學習完成了計算機圖形學中的3D渲染任務。這一技術從2019年開始興起，在2020年NeRF獲得ECCV best paper之後受到了廣大關注。

NerF在很大程度上克服了樣本特徵受限的問題。此前，2D到3D生成的領域也包含GAN方面的嘗試，比如英偉達20-21年推出的GANverse3D能夠自定義對象和交換背景。但由於GAN在對抗訓練中會受限於樣本特徵，該模型當時僅適用於汽車、馬匹和鳥類。

NeRF模型的基本原理是：將場景的體積表示優化為向量融數，該函數由位置和視圖方向組成的連續5D坐標定義。具體而言，是沿相機射線採樣5D坐標來合成圖像，將場景表示參數化為一個完全連接深度網絡（MLP），該網絡將通過5D坐標信息，輸出對應的顏色和體積密度值。

NeRF對於虛擬人創建、3D訓練環境構建、增強現實、線上遊戲及電影特效等都具有重要意義。自NeRF在ECCV2020提出后，NeRF模型也持續在生成範圍、生成效果、乃至於所需基礎數據上進行改進。例如陸續支持光影變化效果、動態NeRF，類實時生成，全場景NeRF、單張生成模型、3D幾何數據生成。

在AI繪畫中，NeRF通過將場景表示為隱式的神經輻射場，渲染時通過神經網絡查詢位置上的場景信息生成新視角圖像。直觀來講，渲染就是用計算機模擬照相機拍照，它們的結果都是生成一張照片。NeRF將場景表示為空間中任何點的容積密度和顏色值，有了以NeRF形式存在的場景表示后，可以對該場景進行渲染，生成新視角的模擬圖片。NeRF使用經典體積渲染（volume rendering）的原理，求解穿過場景的任何光線的顏色，從而渲染合成新的圖像。

在NeRF之後，有人提出了GRAF，引入了GAN來實現神經輻射場，並使用Conditional GAN實現對渲染內容的可控性。在GRAF之後，GIRAFFE實現了構成。在NeRF、GRAF中，一個神經輻射場表示一個場景。而在GIRAFFE中，一個神經輻射場只表示一個物體（背景也算一個物體）。這樣做可以隨意組合不同場景的物體，可以改變同一場景中不同物體間的相對位置，渲染生成更多訓練數據中沒有的全新圖像。

未來NeRF發展主要是基於NeRF問題的改進。NeRF的簡潔性具有優勢，但也因此帶來一些問題：

1. 計算量大導致耗時長：NeRF生成圖像時，每個像素都需要近200次MLP深度模型的前向預測。儘管單次計算規模不大，但完成整幅圖像渲染的計算量還是很可觀的，NeRF針對每個場景進行訓練的耗時較長。對此，迭代過後的Depth-supervised NeRF能夠實現更少的視角輸入和更快的訓練速度。

2. 只針對靜態場景：對於無法拓展到動態場景的問題，主要和單目視頻做結合，從單目視頻中學習場景的隱式表示。Neural Scene Flow Fields將動態場景建模為外觀、幾何體和三維場景運動的時變連續函數。該方法只需要一個已知攝像機姿勢的單目視頻作為輸入。

3. 泛化性差：NeRF無法直接擴展到沒有見過的場景，這顯然與人們追求泛化性的目標相違背。因此一些文章開始對NeRF進行泛化性的改進。GRF學習2D圖像中每個像素的局部特徵，然後將這些特徵投影到3D點，從而產生通用和豐富的點表示。與之類似的還有IBRnet、pixelNeRF等，比較核心的想法都是卷積與NeRF相結合。目前這種泛化都還不夠成熟，無法在複雜場景中取得理想效果。

4. 需要大量視角：儘管NeRF方法能夠實現出色的視角合成效果，但是它需要大量的（數百張）視角來進行訓練，這限制了它在現實中的應用。針對視角數量的改進，目前還局限在比較封閉的測試環境下，如合成物體或者單個物體。擴展其在實操中的可用性也是未來的一大方向。

2.3 大模型和人工通用智能指引發展方向

我們觀察到，深度學習領域有兩大前進趨勢：大模型和人工通用智能。

2.3.1 大模型催生基石模型公司崛起

深度學習領域，模型越大越好。在過去三年裡，人工智能模型的規模已經增長了萬倍以上。

讓每家公司都進入大模型建設並不現實，我們認為市場將由少數具有先發和成本優勢的供應商主導。OpenAI作為行業領先者，開發了GPT語言模型和DALL-E圖像生成模型，並不斷提升其模型複雜性和規模，OpenAI亦是大模型供應商的有力選手，而其他公司可以付費購買其更底層的API等服務。同時，大模型趨勢也將給雲計算公司如Googe、亞馬遜，和GPU廠商如英偉達帶來機會。

2.3.2 人工通用智能不僅僅是想象

AI技術被區分為弱人工智能、通用人工智能、超級人工智能三種模式。弱人工智能也被稱為狹義人工智能，是專攻某一領域的人工智能，例如在圍棋上大放異彩的AlphaGo都屬於弱人工智能。通用人工智能(Artificial General Intelligence, AGI)也叫強人工智能，或人類級人工智能，通用人工智能指的是一台像人類一樣擁有全面智能的計算機，人類能解決的智力問題他都能解決。落到AIGC領域，人工智能模型將是多模態的，這意味着相同的模型將被用於文本、圖像、視頻等等。超級人工智能被定義為“在幾乎所有領域，包括科學創造力、一般智慧和社交技能，都比最優秀的人類大腦聰明得多的智力。

通用人工智能處理複雜情況的能力無比誘人，但實現難度極高，AIGC或為曙光。受困於技術、資源、應用方向等因素的局限，通用人工智能的發展在短期內較難突破。AIGC的興起，一方面可以給到一個相對特定的、具象範圍的AGI應用空間，降低難度，再舉一反三；另一方面，AIGC提供了AI廣泛施為的機會，無論是數據的大量生產，還是眾多專業力量和資本的投入，都有利於推動技術向前演進。

3 商業化前景廣闊，B端和三維化或為突破口

3.1 應用迅速豐富，用戶接受度較高

AI繪畫產品不斷豐富，體驗持續提升。近兩年，海外流行藉助Disco Diffusion、MidJourney等AI繪畫軟件來進行藝術創作，Stable Diffusion各渠道累計日活用戶超過1000萬，面向消費者的DreamStudio則已獲得了超過150萬用戶。在國內，2022年是AI繪畫產品井噴之年，諸如文心一格、TIAMAT等產品均於今年上線，他們接受中文描述語輸入、更能理解中國文化審美和用戶需求，並主動利用小紅書、微博等平台拓展影響力。

AI作畫操作進過多次簡化，已經大大降低了使用門檻，可支持文字成圖、圖像轉化、使用文字修飾圖像等。上圖我們以stable diffusion為例，展示了較為通用的AI作畫流程：

1）註冊discord賬號后登陸進Midjourney主頁。

2）點擊進入隨意一個newbies新手社區。

3）向機器人輸入“/image”命令，在prompt后輸入文字指令，完成後按enter。

4）等待一分鐘即可得到AI作畫成品。

用戶認知層面，已經有相當一部分用戶認可AI繪畫對人類工作的助益。根據 6pen 的調研，有50%以上的用戶認為AI繪畫能替代一部分，甚至完全顛覆目前的工作方式。隨着更多人接受並參與進來，AI繪畫愛好者甚至已經開始形成自有生態，反哺AI繪畫的發展。他們組建了相關社群交流技術，將作畫過程戲稱為“魔法吟唱”。用戶在社群中分享輸入參數和輸出結果。

3.2 變現仍處於嘗試階段，B端或為切入點

AI繪畫產品目前少有營收或實現盈利。根據南方財經，視覺中國官方披露，公司擁有AIGC技術儲備和素材資源，曾在元視覺藝術網發行過相關作品，相關作品確能產生營收，但佔比極低，2022年上半年，元視覺藝術網一共創收約1500萬元。而Stable Diffusion和Midjourney這兩家公司都還未實現盈利。究其原因，或有以下因素：

AI繪畫商業化方面仍處於摸索階段，變現方式較為單一。用戶多為生成數量或者使用時間付費，常見付費方式為訂閱制或按次付費，以幾大主流AI作畫軟件的商業模式為例：

Stable Diffusion目前尚未形成明確的盈利模式，目前的收費方式是首次註冊 DreamStudio beta 將獲得價值 2 英鎊的積分，大約相當於 200 次單張圖免費生成的額度。試用后，可以按10英鎊的增量購買額外的積分。但Stability AI的CEO稱其未來商業模式類似紅帽和MongoDB，開源版本免費，通過商業版本盈利；
Midjourney採用了訂閱制，新用戶可免費生成25張，之後對於個人用戶或公司年收入少於100萬美元的企業員工用戶，有兩個檔位的訂閱套餐，分別是：1）基本計劃每月花費 10 美元，200分鐘 GPU 時間（每次生成大約 5 美分）；2）標準計劃每月花費 30 美元，15 小時 GPU 時間（每次生成大約 3 美分）。而對於大公司客戶，單人一年收費約為600美元，生成的作品可以商用。

對於普通C端用戶，應用場景商業化性價比較低，付費意願有待提升。根據 6pen 的調研，60% 的用戶從未在AI 繪畫產品上有過付費行為，剩下40%的用戶中，付費超過100元佔比僅10%。我們認為主要原因是：

商業應用場景缺失：普通大眾使用AI繪畫進行創作后，若自用（如用做頭像）或者分享在社交媒體，免費軟件足夠嘗鮮。而若用於約稿等用途，產出的作品受到素材和技術的限制，為滿足客戶需求，仍需大量加工以得到成品，性價比較低。《太空歌劇院》這幅作品在AI生成之後，設計師還進行了上千次的修改，花費了近80個小時才完成。雖有人在抖音上做壁紙號，在閑魚上賣描述語，或將作品賣給包裝廠，但這些還未達到產業的高度，傳導鏈條也較長。
當前AI繪畫平台大多為輕量級的工具應用，能夠操作的玩法和賦能服務都比較有限。已有的賦能收費項目集中在付費提速或者增加清晰度方面，或類似PromptBase公司創立了一個DALL-E 2、GPT-3提示詞在線交易平台，允許用戶以1.99美元的價格買賣提示詞，此幾種主要在變相彌補現有產品在成像速度、質量和精確性上的局限。

基於上述分析，我們認為，B端變現路徑更為多元、成熟，如若B端能挖掘出較為可行的商業模型，付費的可能性和水平相對更高。B端可能會在以下方向產生收入：

3.3 三維化打開遊戲、影視、VR等應用空間

三維化是AIGC視覺發展的必然趨勢。從長遠趨勢來看，人們對於未來元宇宙的期待是三維化、AI化及開放式的，AIGC＋3D內容是可見途徑。中短期維度上，AIGC+3D是豐富遊戲、影視、VR等數字內容，降低其製作成本的有力工具。

3D內容生產藉助AI繪畫產品快速普及。我們看到，AIGC進入3D內容領域，有效降低了參與門檻，讓全民參與到 3D 內容創作和消費當中，在3D領域升起UGC的浪潮，我們認為這將大為豐富3D內容創作的有生力量，正如視頻拍攝和剪輯工具平民化推動視頻內容行業的繁榮，3D內容創作行業也將因此迎來全新發展契機。AI繪畫產品三維化方面，代表性的產品有Dream Fusion 、Stable Diffusion、GET3D等，並已有多種場景應用實例，覆蓋多種應用場景的可能性：

Dream Fusion 是Google 的大型AI圖像模型 Imagen 與 NeRF 的3D功能相結合。Dream Fusion 訓練后的模型可以在任意角度、任意光照條件、任意三維環境中基於給定的文本提示生成模型，整個過程既不需要3D訓練數據，也無需修改圖像擴散模型，完全依賴預訓練擴散模型作為先驗。但使用該項目的GitHub 頁面只允許從一系列預設文本提示中進行選擇生成3D 模型，暫不不允許用戶輸入自己的文本描述，數字資產本身的分辨率也較低。

Dream Fusion 的在線畫廊展示了一系列 .glb 格式的模型，適合在 AR 項目中使用，或者作為可以手動細化以用於更高細節工作的基礎網格。

Stable Diffusion原本是2D美術生成工具，通過和Touch Designer可視化編程工具結合可創建VR場景，並且用機器學習算法為這些場景生成了文本查詢對象。目前，已經成功地在虛擬現實中創建了成熟的場景，這些場景以 60 fps 的速度實時渲染。

已有諸多廠商在研究將AI創作的3D場景用於遊戲生產，如依賴程序生成的Roguelike遊戲，開發者未來或許可利用AI製作的場景直接作為遊戲關卡，大量節省遊戲製作成本。

GET3D是英偉達推出的模型，通過2D圖像訓練后，該模型可生成具有高保真紋理和複雜幾何細節的3D形狀。它生成的是顯式紋理3D網格，也就是說，它創建的形狀是三角形網格的形式，就像紙模型一樣，上面覆蓋著紋理材質。因此GET3D不僅可以生成多種多樣、高質量的模型，還可以將生成模型導入到遊戲引擎、3D建模器和電影渲染器中，對它們進行編輯，並且將GET3D生成的模型導出到圖形應用程序后可以在模型所在的場景中移動或旋轉時應用逼真的照明效果。

基於GET3D已建成一個用照片自動生成三維模型的平台。在實際應用過程中，文物研究人員藉助攝影測量的方法實現文物三維數字化，工作人員只需用相機或手機，按照建模拍照的教程採集照片，再登錄網站上傳照片，雲服務能夠自動計算生成高精度三維模型。現產品被用於石窟寺調查，平台上已有不少石窟寺模型。

3.4 產業鏈初見規模，部分空缺現藍海

中關村大數據產業聯盟發布的《中國AI數字商業展望2021-2025》報告披露，至2025年，中國AI數字商業核心支柱產業鏈規模將達到1853億元，未來五年複合增長率約57.7%。其中，AI數字商業內容產業規模將達到495億元，AIGC和AI繪畫當屬此類。

就AIGC和繪畫而言，其產業鏈涉及到硬件、NLP、算法算力、應用、數據提供與處理等多環節，當前產業布局於算法和應用開發環節較為集中和領先，而在產業鏈上下游還有諸多可開發的藍海領域。

和國外類似，參與主力分為了兩類：1）相關行業內已有一定規模的公司，多為龍頭；2）初創公司。前者代表為百度，8月發布了AI藝術和創意輔助平台文心一格，它使用了百度自主研發的產業級知識增強大模型—文心大模型。另一AI繪畫大熱產品TIAMAT背後則為初創團隊，其成立於2021年，一年內就積累了可觀的社區用戶和商業客戶，已獲得DCM數百萬美元天使輪融資。參見互聯網發展的歷史，未來規模較大的公司很可能通過自研或者收購融合多種技術，提供更優的體驗，打通不同場景，連接創作者、消費者、供應商等各方。我們認為，產業集中度將不斷提升，AIGC也將集成進入元宇宙的複雜系統。

4 基建待完善，發展中風險與希望並存

我國AIGC行業仍處於起步階段，面臨來自版權、倫理、社會等各方面的困擾因素。

一方面，AI繪畫的能力之強引起了行業從業者的擔憂乃至於恐慌。AI通過龐大的數據量，無休止的深度學習飛速進步，短期內就掌握了許多新人畫手要練數年的人體、透視與光影技術，已經有能力威脅到了底層畫師的生存問題。

另一方面，批判者認為AI創作沒有任何情緒和靈魂，難以和人類的藝術創作相提並論。且AI作畫仍需學習人類創作的素材，且創作者反覆修改文本內容和調整成圖才能得出相對滿意的結果，這意味着AI作畫仍然依賴人類的智慧和勞動，創作的主動性仍掌握在人類手上，即AI作畫實際是個偽命題。

此外，AI繪畫涉及的作品侵權、名人肖像侵權等都是巨大的行業風險點。日本繪畫領域就曾掀起爭論，不少畫師公開表示禁止AI學習自己的作品。根據 6pen對原創藝術家的問卷調研，超過90%的原創藝術家持相對保留態度，約37%的原創藝術家呼籲向版權付費或有所標註。這也阻礙了AI繪畫創收。AI模型訓練所使用的大量素材，可能包含了未經授權的，有明確版權方的圖片數據，版權歸屬是否應該由模型指定也未有定論。因此使用此類作品並以此盈利很有可能為使用者帶來法律上的糾紛。

但AI繪畫也同樣帶來了全新的希望。通過採用最新的AI技術來分析已故漫畫大師手塚治虫生前的漫畫作品，AI在2020年執筆畫出了“手塚治虫新作漫畫”。

我們相信，隨着相關法律法規約束的健全，AIGC行業必能在內容創作領域找到自己合適、合規的發展之路。

5 建議關注

6 風險提示