萬字長文講透AI藝術：緣起、意義和未來（下篇）

作者：劉秋杉 「無界AI」負責人

前言

AI 藝術更為直接的是一場新消費變革，但以未來為終局，其必將是一場新技術變革，這是自十多年前移動互聯網革命以來久違的一幕，讓開源生態點燃的這星星之火燃遍新十年創業的每個角落。與區塊鏈引領的加密變革稍有不同，AIGC（AI 藝術所歸屬的大類）帶給人們的興奮感並不來自純金融和財富預期（“多巴胺”），更多的是發自人類內心本質的對嶄新未來的渴望，那是一種真正的“內啡肽”。

未來：技術為王

由於當前最大的開源生態是以 SD 為導向，因此本文所談論的技術動向皆來自於 SD 大生態。MJ 在算法本質上與 SD 同宗同源且大同小異，其關鍵為不斷進化的數據集和美學算法增強，期待 MJ 開源的那一日，與世人共享其普惠萬物的力量。

（一）二次元模型開闢可商用垂直模型先河

以 NovelAI Diffusion、Waifu Diffusion、trinart 等為代表的二次元模型以其驚人的“平圖”效果極大地拓展了 SD 模型和生態的想象空間，其近乎可商業化的使用體驗也開闢了“萬物皆可垂直”的垂直模型先河，彌補了像 SD 這種大通用模型在個別美學領域的“力不從心”。當然在這個過程中也是伴隨着詬病、質疑和抨擊，但商業與技術應該一分為二去看待。

以 NovelAI Diffusion 為例

由原本做 AIGC 生成小說內容的商業實體 Novel 推出，基於 SD 算法框架和 Danbooru 二次元圖庫數據集進行訓練和優化，被外網稱為“最強二次元生成模型”。除去手部細節，NovelAI 的出圖質量可謂上乘。最大的功勞來自 Danbooru，是一個二次元圖片堆圖網站，會標註畫師名、原作、角色，以及像文字描述一遍畫面內容的詳細 tag（可能會詳細到角色的髮型發色、外貌特徵、服裝、姿勢表情、包含一些其他可識別內容的程度），而這些對擴散模型的訓練尤為重要，省去了大量的人工篩選標註工作。Danbooru 的商業定位也給了 NovelAI “可乘之機”：根據搜索結果內容量來看，這個網站是其他用戶自發保存（例如在推上有一些熱度的繪畫作品）並上傳上去的，所以在日本一直有這個網站無授權轉載的爭議。關於這次 AI 學習素材庫的事情，Danbooru方面也有做出回應：與包括NovelAI 在內的 AI 作畫網站沒什麼關係，且不認可他們的行為。

（註：以上相關內容引用自微博大 V：夜露·苟·布魯圖斯）

NovelAI Diffusion 生成作品

但從正面意義來看，NovelAI 的確也在技術上給 SD 帶來了新的空間，就連 StabilityAI 的老闆 Emad 也在推特上宣傳到：“NovelAI 的技術工作是對 SD 極大的提升，包括手指修復、任意分辨率等等。”對技術感興趣的可以看一看官方博客blog.novelai.net/novelai-improvements-on-stable-diffusion-e10d38db82ac中對 SD 的改進工作，大致是修改了 SD 模型架構及訓練過程。

像 NovelAI 這類的二次元模型對於用戶輸入的描述詞的專業程度要求較高，如下所示：

colorful painting, ((chinese colorful ink)), (((Chinese color ink painting style))), (((masterpiece))), (((best quality))),((Ultra-detailed, very precise detailed)),
(((a charming Chinese girl,1girl,solo,delicate beautiful face))), (Floating),(illustration),(Amazing),(Absurd),((sharp focus)), ((extremely detailed)), ((high saturation)), (surrounded by color ink splashes),((extremely detailed body)),((colorful))

不僅需要描述人物，更是要對人物的二次元細節進行刻畫，甚至還要加一些有助於畫質增強的詞彙，這一系列操作被網友戲稱為“咒語”，就像要進入一個二次元世界一般，首先你要學會“念咒”。好在社區力量是無限的，陸續出現了很多“寶典”，如《元素法典》元素法典——Novel AI 元素魔法全收錄docs.qq.com/doc/DWHl3am5Zb05QbGVs和元素法典第二卷——Novel AI 元素魔法全收錄docs.qq.com/doc/DWEpNdERNbnBRZWNL，將二次元的“心法口訣”公諸於眾，且全民共創，這很“二次元”。

（二）AI 畫二次元漫畫逐漸可行

二次元模型對於畫特定形象的人物十分擅長，比如在如下的連續出圖中，我們大致可以認為都是一個“主人公”（稱之為白小蘇蘇）在變 Pose 或者換裝。因為我們給予 AI 的描述中對該人物進行了極為細緻的刻畫，就像固定了她的基因一般，加上二次元模型本身對於人物的勾畫（平圖）相對於真實人物就“粗放”一些，只要重要人物特徵一致，便可以判別為同一個人。

{profile picture},{an extremely delicate and beautiful girl}, cg 8k wallpaper, masterpiece, cold expression, handsome, upper body, looking at viewer, school uniform, sailor suit, insanity, white hair, messy long hair, red eyes, beautiful detailed eyes {{a black cross hairpin}}, handsome，Hair glows,dramatic angle

直譯為：

{頭像}，{一個極其精緻美麗的女孩}，cg 8k牆紙，傑作，冷漠的表情，英俊，上半身，看着觀眾，校服，水手服，瘋狂，白髮，凌亂的長發，紅色的眼睛，美麗細緻的眼睛{{一個黑色的十字髮夾}}，英俊，頭髮發光，戲劇性的角度

於是進一步的，可以通過“底圖模式”去約束人物的動作表達或者情節表達，再配上同樣的人物特徵關鍵詞描述，便可以輸出該人物動漫劇情般的“生命周期”，她不再活在一幅圖中。何為“底圖”控制，如下所示：

圖片來源：wuhu動畫人空間《AI 隨便畫畫就在二次元繪畫區殺瘋了？！》

給 AI 上傳左邊的“粗製圖”，是為底圖，底圖負責勾勒畫面的大體結構，但未對人物細節進行刻畫，隨後由 AI 將人物特徵細節進行“填充”，便會出現同一主人公擺出不同 Pose 的漫畫劇情。

圖片來源：wuhu動畫人空間《AI 隨便畫畫就在二次元繪畫區殺瘋了？！》

最後再配上文字、漫畫格式框，稍微經過 PS 整合，便能出來一幅像模像樣的漫畫了。

圖片來源：wuhu動畫人空間《AI 隨便畫畫就在二次元繪畫區殺瘋了？！》

當然上述都是基於現在 AI 模型的發展所提出的“妥協”手段，實際上我們在畫二次元漫畫時應該追求絕對的主人公一致性（真正是同一個人物）和更為精準的動作控制、背景控制甚至數量控制和表情控制等等，而這些都需要藉助更為先進的技術，即如下所要講述的模型訓練和以交叉注意力為代表的精準控制技術。

（三）開放模型訓練催生“萬物皆可垂直”

隨着二次元模型的成功流行，人們也越來越渴望更多類似的模型出現，以解決五花八門的創作需求。一個中心化的商業平台便需要做出一個大而全的產品以迎合用戶需求，但面對指數級的市場增長，這顯然是不現實的。最佳解決辦法便是交給一個去中心化的自組織生態，像迸發二次元模型一樣實現模型的“湧現”，去解決人們日益增長的創作需求。這便特別需要一種開放模型的力量，而 SD 在開源之處便將這種力量完全交給了所有人，每個人都可以去獲得算法模型，都可以去訓練自己的模型。於是，創作無限，模型湧現！

模型訓練技術分 Checkpoint Merger（檢查點合併）、Textual Inversion（Embedding 嵌入模型）、Hypernetwork（超網絡模型）、Aesthetic Gradient（審美梯度）以及重量級的 Dreambooth 等。其中以 Textual Inversion 和 Dreambooth 最為流行，分別有着不同的技術原理和優勢。

知名博主“Simon 的白日夢“在微博分享了自己使用 SD 的 Textual Inversion 技術訓練的“黏菌衛星圖”案例。首先需要準備訓練數據集，大概一萬張衛星地圖；我們都知道 SD 模型本身要麼只能單獨出城市衛星圖，要麼只能出黏菌圖；博主通過 Textual Inversion 再次訓練之後，成功地把城市衛星圖肌理和黏菌的微觀結構融合在了一起。

再分享另外一個知名博主“大谷 Spitzer”使用 Textual Inversion 進行“分鏡設計”的案例。我們在上面提到要做二次元漫畫離不開固定主人公形象，所謂分鏡設計便是能否用 AI 繪製出獨特且相貌保持連續性的動漫角色。大谷用 Textual Inversion + 自製數據集訓練了 6、7 種不同的相貌作為臉部基因。之後在輸入給 AI 的文字中，即可通過改變訓練好的幾個相貌 tag 的比例權重，融合出現實里不存在，同時在系列圖片里長相可以保持一致的角色。如下兩幅圖便是不同比例權重下出現的兩位“主人公”，而對於同一位主人公，可以通過 AI 讓其出現在各種各樣的場景。比如“太空之聲”里的女孩是同一個形象的不同故事表達，而“都市探員”里的主人公膚色更深、形象健碩，真的像一名探員。

在具體操作上，正如“Simon 的白日夢”所說：

當你輸入一個模型中沒有的概念，例如生成一個“Simon 的白日夢 up 主的照片”，因為 sd 模型沒有見過我，自然不能生成我的照片。但是注意，其實 sd 模型中是具備生成我的照片的所有要素的的能力，畢竟我只是一個普通的中國技術宅，模型中應該有不少亞洲人的特徵可以用於合成。
那這時候給出幾張我的照片（坐標也可以通過編碼圖片獲得），對比剛才說的文字提示，訓練 textual inversion，其實是告訴模型“我是誰”，從而獲得根據我的文字提示獲得一個更準確的坐標。因此，訓練完后，我們會發現並沒有生成新的模型 ckpt 文件，而是得到了一個幾十 k 大小的 .pt 文件，然後下次啟動 stable diffuison webui 的時候就可以掛載這個文件，當我下次再輸入“Simon 的白日夢 up 主的照片”這段文字的時候，模型就會讀取這個 .pt 文件裡邊的準確坐標，並和其它文字描述包含的坐標融合，然後生成更符合文字描述的圖片。

社區也在利用 Textual Inversion 為二次元模型豐富其尚不能繪製的形象，比如很多國產動漫角色，如秦時明月。只要有合法的數據集，技術都是現成的，通過算力讓人物形象在 AI 的世界“凝聚”。

embedding即為Textual Inversion

Textual Inversion 的優勢是輕量級、簡單上手。它可以對主體（object）進行訓練，讓 AI 記住這個“人”或“物”，也可以對畫風（style）進行訓練，比如可以記住某位在世藝術家的畫風然後讓 AI 以此畫風來畫任何事物；訓練出的模型文件可以直接掛載到 SD 模型框架中，類似 Linux 開放時代不斷完善的動態連接庫，因此對 SD 也是友好的。但劣勢是，效果較為粗糙，目前尚未有可以進入商業化產品效果的模型出現，社區更多期待給予了另外一項技術——Dreambooth。

相較於 Textual Inversion 等在 SD 框架上的增添，Dreambooth 是直接調整整個 SD 模型本身，SD 模型是一個大概 4G 左右的 ckpt 文件，經過 Dreambooth 重訓模型后，會生成一個新的 ckpt 文件，是一種深度融合。因此 Dreambooth 的訓練會更為複雜苛刻。

由於 dreambooth 會將訓練對模型的影響鎖定在某一種物體的類別內，所以訓練的時候不僅需要描述的文字、對應圖片，還需要告訴模型你訓練的物體的類別（訓練完使用的時候，也要同時在 prompt 中包含類別和 token 關鍵字），並且用訓練前的模型先生成一系列這一種類物體的正則化圖片（regularization image）用於後續和你給的圖片做半監督訓練。所以，生成正則化圖片要消耗額外的圖片（一般要 1K+，但是可以用別人生成好的）；訓練的時候因為是調整整個模型（即便只是模型中的部分參數），對算力和時間要求也比較高。我在本地一塊 3090 上訓練時顯存佔用達到 23.7G，訓練 10K 張 10000epoch 需要 4 個半小時。—— Simon 的白日夢

黏菌衛星圖模型兩種訓練效果對比，dreambooth更勝一籌

再回到二次元這個話題，同樣有大 V 利用 Dreambooth 訓練出了一個賽博風的二次元模型——Cyberpunk Anime Diffusion，由“大谷 Spitzer”開發，現已開源。

Cyberpunk Anime Diffusion開源huggingface.co/DGSpitzer/Cyberpunk-Anime-Diffusion

提這種模型並不是打廣告，而是致敬其開創意義，起碼在國內都是值得後來者去模仿和超越的。Cyberpunk Anime Diffusion 汲取了大量《賽博朋克：邊緣行者》畫風素材，在基礎模型上使用的是一個基於 Waifu Diffusion V1.3 + Stable Diffusion V1.5 VAE 的融合模型，然後用 Dreambooth 導入自定義數據集訓練了 13700 步就獲得了以下的生成效果（使用方法，在 prompt 中加入關鍵詞"dgs illustration style"）。

憑藉著對底層基礎模型更為深度地改進，Dreambooth 也被稱為“核彈級技術”。同 textual inversion 一樣，dreambooth 也可以訓練主體、記住主體，比如輸入幾張自己的照片（家裡的小狗），dreambooth 就會記住照片中的物體長什麼樣，然後就能把這個物體作為關鍵詞套用到任何場景和風格中，“一鍵實現無限分鏡”。

Dreambooth技術最早來自google論文，此為論文中的案例，一隻現實小狗無限藝術分鏡

同樣可以人也可以，比如給自己來張自拍，然後讓自己出現在藝術的大千世界中。

也有網友用 dreambooth 為“胡歌”訓練了藝術模型。

記住主體更大的意義是，可以對主體進行“屬性修改”。比如當 AI 記住了輸入的“小汽車”后，便可以隨心所欲地對其顏色進行更改，而其他特徵保持一致。再回到二次元漫畫那個話題，這種精準屬性控制技術也是其關鍵推動技術之一。

正如《上線一個月成為準獨角獸、上萬人排隊註冊，AI Art是下一個NFT？》一文中寫到：

“2022 年，可稱為被 Diffusion 開啟的 AI Art 元年。接下來的三至五年內，AI Art 將會往更加自由的方向發展，比如展現出更強的耦合性，可被用戶定製的空間更大，也就是說更貼近“主觀創作”的過程，藝術作品中也會分化和體現出越來越細緻的用戶想法。Google 近期上線的 DreamBooth AI 已經展現出了這一特點。“

除了上述對主體的訓練，Dreambooth 最常被用來“記住”畫風，即訓練 style。上述博主（“地球土著座一億”）用了十張夏阿老師的畫，通過 dreambooth “記住”了他的畫風，效果對比如下。

（備註：夏阿是出生於揚州，定居於南京的 80 后插畫師。因 2014 年經常在網上發布“穿越”“混搭”“搞笑”類的國畫作品，深受網友喜愛而“走紅”。）

如下為夏阿的原作——

如下為 dreambooth 的訓練效果出圖——

不論是輕量級的 Textual Inversion，還是重量級的 Dreambooth，抑或介於二者之間的如 Hypernetwork（超網絡模型）和 Aesthetic Gradient（審美梯度）等，包括更多的原生模型訓練方式：模型融合、微調（Fine Tuning）等，都是現階段輸出更加可商業化新模型的利器。短短一個月時間便已經湧現出了大量在概念驗證階段的垂直模型，五彩繽紛。

社區基於 Textual Inversion 訓練的模型大全開源庫——

sd-concepts-libraryhuggingface.co/sd-concepts-library

社區基於 Dreambooth 訓練的模型大全開源庫——

sd-dreambooth-library (Stable Diffusion Dreambooth Concepts Library)huggingface.co/sd-dreambooth-library

採用更多訓練技術的模型大全站點 Civitai——

Civitai | Share your modelscivitai.com/?continueFlag=9d30e092b76ade9e8ae74be9df3ab674&model=20

如果說 SD 為 AI 藝術打開了第一扇窗戶，那麼今天這些五光十色、極具創意的“大千”模型則為 AI 藝術打開了第一扇大門。尤其在 Dreambooth 模型生態中，有能夠實現迪士尼風的模型、有當下 MJ 生態最火的機甲風模型……

https://huggingface.co/nitrosocke/mo-di-diffusion

https://github.com/nousr/robo-diffusion

（四）交叉注意力實現畫面的精準控制

開放模型的出現給予了降維解決一切難題的方式，真正實現了“創造”二字。與此同時，也不能忽略一些輔助技術的發展，還是拿二次元漫畫為例，我們不免要對一些更細節的繪製表現進行控制。如下，我們希望保留汽車和樹木背景，但改變在它上面的“主人公”；或者將一幅現實照片進行漫畫風格的變化，以做漫畫敘事背景設計。

開源連接——

Cross Attention Controlgithub.com/bloc97/CrossAttentionControl/blob/main/CrossAttention_Release.ipynb

這就是所謂的交叉注意力控制（Cross-Attention Control）技術，連 StabilityAI 創始人也不禁為這項技術點贊：“在類似技術幫助下，你可以去創造任何你夢想的事物。”

該項目開源連接——

GitHub – google/prompt-to-promptgithub.com/google/prompt-to-prompt

在這個項目 demo 中，可以改變主人公“小貓”的坐騎，可以給背景畫一道彩虹，可以讓擁擠的路上變得空曠。在如下類似的研究項目中，還可以做到讓主人公豎大拇指、讓兩隻鳥 kiss、讓一個香蕉變兩個、。

不論是【Imagic】還是【Prompt-to-Prompt】，精準控制技術對於實現 AI 繪圖的自主可控十分重要，也是構建二次元漫畫體系比較重要的技術動向之一，目前尚處於行業研究前沿。

（五）精準控制系列之 Inpainting 和 Outpainting

說到了精準控制，它不是某一項技術，交叉注意力是其一，還有很多輔助性手段為其服務，最為流行和商業成熟的是 inpainting 和 outpainting 技術。這是傳統設計領域的概念，AI 藝術也繼承了過來。當前 SD 也推出了 inpainting 功能，可翻譯為“塗抹”，即對於畫面中不滿意的部分進行“塗抹”，然後 AI 會在塗抹區重新生成想要替換的內容，具體見下圖操作。

開源地址——

Runway MLgithub.com/runwayml/stable-diffusion#inpainting-with-stable-diffusion

同樣以二次元漫畫這個終極追求為例，當需要給女主人公增加一位帥氣的男士時，便可以在她旁邊區域進行塗抹，然後附上一段霸道總裁的關鍵詞 prompt，AI 便會給女主一段“姻緣”。

另外一項技術 outpainting，被譽為“無限畫布”，最早出現在 Dalle2 的商業產品體系中，當時也是震驚世人。簡單來講，將一張需要擴展的圖上傳給 AI，outpainting 便會在這張圖的四周擴展出“無限的”畫布，至於填充什麼內容，也完全交給用戶自己輸入的 prompt 決定，無限畫布，無限想象空間。如下利用 outpainting 為一幅經典名畫填充了大量背景，產生了令人驚喜的效果。如今 SD 生態也擁有了自己的 outpainting 技術，開源地址——

Stablediffusion Infinity – a Hugging Face Space by lnyanhuggingface.co/spaces/lnyan/stablediffusion-infinity?continueFlag=27a69883d2968479d88dcb66f1c58316

在 outpainting 的加持下，不僅可以為一幅單調的圖加無限的背景，更可以極大拓展 AI 藝術出圖的尺寸，在 SD 生態一般出圖為幾百像素，遠遠不能滿足大尺寸海報的需求，而 outpainting 技術便可以極大擴展 AI 藝術原生出圖的尺寸。同樣對於二次元漫畫，甚至可以在一幅圖中展現所有“參演人員”的形色百態。

（六）其他更多技術概念

除了上述重要技術外，還有很多細分技術被社區津津樂道。

可以利用 Deforum 做 SD 動畫

SD動畫colab.research.google.com/github/deforum/stable-diffusion/blob/main/Deforum_Stable_Diffusion.ipynb

知名博主“海辛 Hyacinth”也給出了一個完整製作 AI 動畫的工作流——

其中提到了多種技術，如利用 inpainting 修改細節，用 outpainting 向外擴展，用 dreambooth 做動畫主角，用 Deforum 不斷生成改變、用 coherence 進行連續性控制、用 flowframe 補幀等等。更做二次元漫畫一樣，也是一項系統性工程。

prompt 逆向反推

整個 AI 藝術最關鍵的是 prompt，尤其對於新人用戶，能否獲得好的 prompt 是其能否獲得優質出圖的關鍵所在，因此很多產品化的 AI 工具都會在用戶輸入 prompt 這方面進行改進。除了大量可以獲取關鍵詞的搜索引擎網站外，逆向反推成為了一項重要輔助手段。所謂逆向反推，即給出一張圖片，可以是真實世界的，也可以來自 AI 生成，逆向反推技術便可以輸出能夠繪製該畫面的 prompt。雖然在實際效果中，無法反推出生成效果一模一樣的 prompt，但這給予了很多新人用戶獲取帶有複雜藝術修飾的 prompt 的途徑。如下名為 guess 的逆向反推工具為一張圖片反推出關鍵詞，其開源地址——

GitHub – huo-ju/dfserver: A distributed backend AI pipeline servergithub.com/huo-ju/dfserver

還有一款名為 CLIP Interrogator 的工具，使用連接如下——

CLIP Interrogator – a Hugging Face Space by pharmahuggingface.co/spaces/pharma/CLIP-Interrogator

類似的還有 methexis-inc 發布的 img2prompt——

Run with an API on Replicatereplicate.com/methexis-inc/img2prompt

除了直接以圖片進行反推外，還有一種工具如 Prompt Extend，可以一鍵加長 Prompt，可以將一個小白用戶輸入的“太陽”一鍵加長到帶有豐富藝術修飾的“大神級”描述，工具地址——

Prompt Extend – a Hugging Face Space by dasparthohuggingface.co/spaces/daspartho/prompt-extend

搜索引擎

說到 prompt，不得不說被譽為寶庫的各大搜索引擎網站——

OpenArtopenart.ai/?continueFlag=df21d925f55fe34ea8eda12c78f1877d

KREA — explore great prompts.www.krea.ai/

Krea開源地址github.com/krea-ai/open-prompts

Just a moment…lexica.art/

在搜索引擎中搜索自己想要的畫面，便會呈現符合主題的配圖及其對應的 prompt。還有不直接給 prompt 搜索，而是引導用戶一步步構建 prompt 的提示性工具——

Stable Diffusion prompt Generator – promptoMANIApromptomania.com/stable-diffusion-prompt-builder/

Public Promptspublicprompts.art/

如上圖，可根據網站提示，一步步構建出一幅“美麗的面孔”。在這些工具的加持下，即便從未接觸過 AI 藝術的用戶，在短短几天內也能逐漸摸清構建 prompt 的精髓。

（七）除了作圖，更多 AI 藝術領域

AI 藝術從 AI 作圖開始，也稱之為 text-to-image，但時至今日，藝術並不局限於圖片，AI 藝術也不局限於 AI 作圖，更多的 text-to-X 開始預示着未來 AI 藝術的新形態。最為知名的有：

text-to-3D

即文本生成 3D 模型，同樣在 SD 生態也有類似項目，地址如下——

Stable Dreamfusiongithub.com/ashawkey/stable-dreamfusion/blob/main/gradio_app.py

圖片來源：量子位《Text-to-3D！建築學小哥自稱編程菜鳥，攢了個AI作畫三維版，還是彩色的》

在給 AI 輸入“一幅美麗的花樹畫，作者 Chiho Aoshima，長鏡頭，超現實主義”，就能瞬間得到一個長這樣的花樹視頻，時長 13 秒。這個 text-to-3D 項目叫 dreamfields3D，現已開源——

dreamfields3Dgithub.com/shengyu-meng/dreamfields-3D

除此之外，還有個項目叫 DreamFusion，地址——

DreamFusion: Text-to-3D using 2D Diffusiondreamfusionpaper.github.io

演示視頻地址video.weibo.com/show?fid=1034:4819230823219243

DreamFusion 有着較好的 3D 效果，也被 SD 生態嫁接到了 SD 實現中，開源地址——

DreamFusiongithub.com/ashawkey/stable-dreamfusion

還有如 3DiM, 可以從單張 2D 圖片直接生成 3D 模型；英偉達開源 3D 模型生成工具，GET3D——

GET3D開源地址github.com/nv-tlabs/GET3D

text-to-Video

Phenaki 演示video.weibo.com/show?fid=1034:4821392269705263

文本生成視頻對技術要求極大，目前只有 google 和 meta 在爭相發布體驗性質的產品，知名的如 Phenaki、Imagen Video 和 Make-A-Video。其中 Phenaki 可以在 22 秒內生成一個 128*128 8fps 的長達 30 秒的短視頻。而 Imagen Video 可以生成清晰度更高的視頻，可達 1280*768 24fps。

text-to-Music

文本生成音樂，如項目 Dance Diffusion，試玩地址——

Dance Diffusioncolab.research.google.com/github/Harmonai-org/sample-generator/blob/main/Dance_Diffusion.ipynb#scrollTo=HHcTRGvUmoME

可以通過文本描述生成“在風聲中吹口哨”、“警報器和嗡嗡作響的引擎接近後走遠”等特殊聲音效果。

寫在最後

技術，永無止境，則 AI 藝術，永無止境。最後，以 StabilityAI 首席信息官 Daniel Jeffries 的一段話做結束——

“我們要建立一個充滿活力、活躍、智能內容規則的世界，一個充滿活力、你可以與之互動的數字世界，共同創造的內容，那是你的。加入到這股大潮吧，你將不再只是在未來的網絡上衝浪、被動地消費內容。你將創造它！“

（註：全文已完結，分上、中、下三篇，共計 2.5 萬字，將 2022 年全年對 AI 藝術的研究與創業綜述總結，以饗讀者。）

本文鏈接：https://www.8btc.com/article/6788194

轉載請註明文章出處

萬字長文講透AI藝術：緣起、意義和未來（下篇）

前言

未來：技術為王

（一）二次元模型開闢可商用垂直模型先河

（二）AI 畫二次元漫畫逐漸可行

（三）開放模型訓練催生“萬物皆可垂直”

（四）交叉注意力實現畫面的精準控制

（五）精準控制系列之 Inpainting 和 Outpainting

（六）其他更多技術概念

（七）除了作圖，更多 AI 藝術領域

寫在最後

相关推荐