AI繪畫何以突飛猛進? 從歷史到技術突破, 一文讀懂火爆的AI繪畫發展史

註：本文來源於微信公眾號 Web3天空之城（ID:Web3SkyCity），作者 | 城主，
轉自：鈦媒體

前言：自從前段時間偶然間被當下AI繪畫的水平震住之後 (超越一切的AI作畫神器, 和它創作的234個盔甲美女未來戰士 ) , 作者深感當今AI繪畫的飛速進展或許已遠超所有人的預期. 而這裡的前因後果, 包括AI繪畫的歷史, 以及最近的突破性進展, 值得好好和大伙兒梳理和分享一下. 因此有了本文.

本文分為如下幾小節:

2022, 進擊的AI繪畫
AI繪畫的歷史
AI繪畫何以突飛猛進
頂級AI繪畫模型的PK
AI繪畫的突破對人類意味着什麼

2022, 進擊的AI繪畫

今年以來, 輸入文本描述自動生成圖片的AI繪畫神器突然雨後春筍的冒了出來。

首先是Disco Diffusion。

Disco Diffusion 是在今年 2 月初開始爆紅的一個 AI 圖像生成程序，它可以根據描述場景的關鍵詞渲染出對應的圖像:

到了今年4月, 著名人工智能團隊OpenAI 也發布了新模型 DALL·E 2代，該名稱來源於著名畫家達利（Dalí）和機器人總動員（Wall-E）, 同樣支持從文本描述生成效果良好的圖像。

而很多讀者對AI繪畫開始產生特別的關注, 或許是從以下這幅AI作品鬧出的新聞開始的:

這是一幅使用AI繪畫服務 MidJourney 生成的數字油畫, 生成它的用戶以這幅畫參加美國科羅拉多州博覽會的藝術比賽, 奪得了第一名. 這件事被曝光之後引發了網絡上巨大的爭論至今。

目前 AI繪畫的技術仍在不斷變化發展中, 其迭代之快, 完全可以用"日新月異"來形容. 即使把今年年初的AI繪畫和現在相比, 效果也有天壤之別。

在年初的時候, 用Disco Diffusion可以生成一些很有氛圍感的草圖, 但基本還無法生成人臉; 僅僅2個月後, DALL-E 2已經可以生成準確的五官; 現在, 最強大的Stable Diffusion在畫作的精緻程度和作畫速度上更是有了一個量級的變化。

AI繪畫這項技術並不是近年才有的, 但是今年以來, AI產出作品的質量以肉眼可見的速度日益提升, 而效率也從年初的一個小時縮短到現在的十幾秒。

在這個變化後面, 究竟發生了什麼事情? 就讓我們先全面回顧一下AI繪畫的歷史, 再來理解一下, 這一年多來, AI繪畫技術足以載入史冊的突破發展。

AI繪畫的歷史

AI繪畫的出現時間可能比很多人想象的要早。

計算機是上世紀60年代出現的, 而就在70年代, 一位藝術家，哈羅德·科恩Harold Cohen（畫家，加利福尼亞大學聖地亞哥分校的教授) 就開始打造電腦程序"AARON"進行繪畫創作. 只是和當下AI繪畫輸出數字作品有所不同, AARON是真的去控制一個機械臂來作畫的。

Harold 對 AARON的改進一直持續了幾十年, 直到他離世. 在80年代的時候, ARRON"掌握"了三維物體的繪製; 90年代時, AARON能夠使用多種顏色進行繪畫, 據稱直到今天, ARRON仍然在創作。

不過, AARON的代碼沒有開源, 所以其作畫的細節無從知曉, 但可以猜測, ARRON只是以一種複雜的編程方式描述了作者Harold本人對繪畫的理解 — 這也是為什麼ARRON經過幾十年的學習迭代，最後仍然只能產生色彩艷麗的抽象派風格畫作，這正是 Harold Cohen 本人的抽象色彩繪畫風格. Harold用了幾十年時間, 把自己對藝術的理解和表現方式通過程序指導機械臂呈現在了畫布上。

(左：ARRON和哈羅德.科恩右: ARRON 在 1992 年的創作作品)

儘管難說AARON如何智能, 但作為第一個自動作畫且真的在畫布上作畫的程序, 給予它一個AI作畫鼻祖的稱號, 倒也符合其身份。

2006年, 出現了一個類似ARRON的電腦繪畫產品 The Painting Fool. 它可以觀察照片, 提取照片里的塊顏色信息, 使用現實中的繪畫材料如油漆, 粉彩或者和鉛筆等進行創作。

以上這兩個例子算是比較"古典"方式的電腦自動繪畫, 有點像一個學步的嬰兒, 有一點樣子, 但從智能化的角度來看是相當初級的。

而現在, 我們所說的"AI繪畫"概念, 更多指的是基於深度學習模型來進行自動作圖的計算機程序. 這個繪畫方式的發展其實是比較晚的。

在2012年 Google兩位大名鼎鼎的AI大神, 吳恩達和Jef Dean進行了一場空前的試驗, 聯手使用1.6萬個CPU訓練了一個當時世界上最大的深度學習網絡, 用來指導計算機畫出貓臉圖片. 當時他們使用了來自youtube的1000萬個貓臉圖片, 1.6萬個CPU整整訓練了3天, 最終得到的模型, 令人振奮的可以生成一個非常模糊的貓臉。

在今天看起來, 這個模型的訓練效率和輸出結果都不值一提. 但對於當時的AI研究領域, 這是一次具有突破意義的嘗試, 正式開啟了深度學習模型支持的AI繪畫這個"全新"研究方向。

在這裡我們稍微講一點技術細節: 基於深度學習模型的AI繪畫究竟有多麻煩呢, 為什麼2012年已經很現代水平的大規模計算機集群耗時多天的訓練只能得出一點可憐的結果?

讀者們或許有個基本概念, 深度學習模型的訓練簡單說來就是利用外部大量標註好的訓練數據輸入, 根據輸入和所對應的預期輸出, 反覆調整模型內部參數加以匹配的過程。

那麼讓AI學會繪畫的過程, 就是構建已有畫作的訓練數據, 輸入AI模型進行參數迭代調整的過程。

一幅畫帶有多少信息呢? 首先就是長x寬個RGB像素點. 讓計算機學繪畫, 最簡單的出發點是得到一個輸出有規律像素組合的AI模型。

但RGB像素組合一起的並非都是畫作, 也可能只是噪點. 一副紋理豐富, 筆觸自然的畫作有很多筆畫完成, 涉及繪畫中每一筆的位置, 形狀, 顏色等多個方面的參數, 這裡涉及到的參數組合是非常龐大的. 而深度模型訓練的計算複雜度隨着參數輸入組合的增長而急劇增長… 大家可以理解這個事情為啥不簡單了。

在吳恩達和Jeff Dean開創性的貓臉生成模型之後, AI科學家們開始前赴後繼投入到這個新的挑戰性領域裡. 在2014年, AI學術界提出了一個非常重要的深度學習模型, 這就是大名鼎鼎的對抗生成網絡GAN (Generative Adverserial Network, GAN)。

正如同其名字"對抗生成", 這個深度學習模型的核心理念是讓兩個內部程序 "生成器(generator)" 和"判別器(discriminator)" 互相PK平衡之後得到結果。

GAN模型一問世就風靡AI學術界, 在多個領域得到了廣泛的應用. 它也隨即成為了很多AI繪畫模型的基礎框架, 其中生成器用來生成圖片, 而判別器用來判斷圖片質量. GAN的出現大大推動了AI繪畫的發展。

但是, 用基礎的GAN模型進行AI繪畫也有比較明顯的缺陷, 一方面是對輸出結果的控制力很弱, 容易產生隨機圖像, 而AI藝術家的輸出應該是穩定的. 另外一個問題是生成圖像的分辨率比較低。

分辨率的問題還好說, GAN在"創作"這個點上還存在一個死結, 這個結恰恰是其自身的核心特點: 根據GAN基本架構，判別器要判斷產生的圖像是否和已經提供給判別器的其他圖像是同一個類別的, 這就決定了在最好的情況下, 輸出的圖像也就是對現有作品的模仿, 而不是創新……

在對抗生成網絡GAN之外, 研究人員也開始利用其他種類的深度學習模型來嘗試教AI繪畫。

一個比較著名的例子是2015年 Google發布的一個圖像工具深夢(Deep Dream). 深夢發布了一系列畫作, 一時吸引了很多眼球。谷歌甚至為這個深夢的作品策劃了一場畫展。

但如果較真一下, 深夢與其說是AI繪畫, 更像是一個高級AI版濾鏡, 其濾鏡風格一看上面的作品便可明白。

和作品不尷不尬的Deep Dream相比, Google更靠譜的是2017年成千張手繪簡筆畫圖片訓練的一個模型, AI通過訓練能夠繪製一些簡筆畫。 (Google, 《A Neural Representation of Sketch Drawings》)

這個模型之所以受到廣泛關注有一個原因, Google把相關源代碼開源了, 因此第三方開發者可以基於該模型開發有趣的AI簡筆畫應用. 一個在線應用叫做 “Draw Together with a Neural Network” ，隨意畫幾筆，AI就可以自動幫你補充完整個圖形。

值得注意的是, 在AI繪畫模型的研究過程中, 各互聯網大廠成了主力, 除了上述Google所做的研究, 比較有名的是2017年7月, Facebook聯合羅格斯大學和查爾斯頓學院藝術史系三方合作得到的新模型, 號稱創造性對抗網絡 (CAN, Creative Adversarial Networks)。(Facebook, 《CAN: Creative Adversarial Networks, Generating "Art" by Learning About Styles and Deviating from Style Norms》)

從下圖的作品集可以看出，這個創造性對抗網絡CAN在嘗試輸出一些像是藝術家作品的圖畫，它們是獨一無二的，而不是現存藝術作品的仿品。

CAN模型生成作品里所體現的創造性讓當時的開發研究人員都感到震驚, 因為這些作品看起來和藝術圈子流行的抽象畫非常類似. 於是研究人員組織了一場圖靈測試，請觀眾們去猜這些作品是人類藝術家的作品，還是人工智能的創作。

結果, 53%的觀眾認為CAN模型的AI藝術作品出自人類之手, 這在歷史上類似的圖靈測試里首次突破半數。

但CAN這個AI作畫, 僅限於一些抽象表達, 而且就藝術性評分而言, 還遠遠達不到人類大師的水平。

更不用說創作出一些寫實或者具象的繪畫作品了, 不存在的。

其實一直到2021年初, OpenAI發布了廣受關注的DALL-E系統, 其AI繪畫的水平也就一般, 下面是DALL-E畫一隻狐狸的結果, 勉強可以辨別。

但值得注意的是, 到了DALL-E這裡, AI開始擁有了一個重要的能力, 那就是可以按照文字輸入提示來進行創作了!

接下來, 我們繼續去探求本文一開始提出的問題. 不知各位讀者是否有同感, 自今年以來, AI繪畫的水平突然大漲, 和之前的作品質量相比有本質的飛躍, 恍然有種一日不見如隔三秋的感覺。

事出必有妖. 究竟發生了什麼情況? 我們慢慢道來。

AI繪畫何以突飛猛進

在很多科幻電影或劇集里, 往往會有這麼一幕, 主角和特別有科幻感的電腦AI說了一句話, 然後AI生成了一個3D影像, 用VR/AR/全息投影的方式呈現在主角面前。

拋開那些酷炫的視覺效果包裝, 這裡的核心能力是, 人類用語言輸入, 然後電腦AI理解人類的表達, 生成一個符合要求的圖形圖像, 展示給人類。

仔細一想, 這個能力最基礎的形式, 就是一個AI繪畫的概念嘛. (當然, 從平面繪畫到3D生成還稍有一點距離, 但相比於AI憑空創作一幅具象有意義的繪畫作品的難度, 從2D圖自動生成對應的3D模型就不是一個量級上的問題)。所以, 無論是用說話控制, 還是更玄乎的腦電波控制, 科幻影視中的酷炫場景實際上描述了一種AI能力 , 那就是把"語言描述" 通過AI理解自動變為了圖像. 目前語音自動識別文本的技術已經成熟至極, 所以這本質上就是一個從文本到圖像的AI繪畫過程。

其實挺牛逼的, 僅靠文字描述, 沒有任何參考圖片, AI就能理解並自動把對應內容給畫出來了, 而且畫得越來越好! 這在昨天還感覺有點遠的事情, 現在已真真切切出現在所有人的面前。

這一切到底怎麼發生的呢?

首先要提到一個新模型的誕生. 還是前面提到的OpenAI團隊, 在2021年1月開源了新的深度學習模型 CLIP（Contrastive Language-Image Pre-Training). 一個當今最先進的圖像分類人工智能。

CLIP訓練AI同時做了兩個事情, 一個是自然語言理解, 一個是計算機視覺分析. 它被設計成一個有特定用途的能力強大的工具, 那就是做通用的圖像分類, CLIP可以決定圖像和文字提示的對應程度, 比如把貓的圖像和"貓"這個詞完全匹配起來。

CLIP模型的訓練過程, 簡單的說, 就是使用已經標註好的"文字-圖像"訓練數據, 一方面對文字進行模型訓練, 一方面對圖像進行另一個模型的訓練, 不斷調整兩個模型內部參數, 使得模型分別輸出的文字特徵值和圖像特徵值能讓對應的"文字-圖像"經過簡單驗證確認匹配。

關鍵的地方來了, 其實呢, 之前也有人嘗試過訓練"文字-圖像" 匹配的模型, 但CLIP最大的不同是, 它搜颳了40億個"文本-圖像"訓練數據! 通過這天量的數據, 再砸入讓人咂舌的昂貴訓練時間, CLIP模型終於修成正果。

聰明的讀者會問, 這麼多的"文本-圖像"標記是誰做的呢? 40億張啊, 如果都需要人工來標記圖像相關文字, 那時間成本和人力成本都是天價. 而這正是CLIP最聰明的地方, 它用的是廣泛散布在互聯網上的圖片!

互聯網上的圖片一般都帶有各種文本描述, 比如標題, 註釋, 甚至用戶打的標籤, 等等, 這就天然的成為了可用的訓練樣本. 用這個特別機靈的方式, CLIP的訓練過程完全避免了最昂貴費時的人工標註, 或者說, 全世界的互聯網用戶已經提前做了標註工作了。

CLIP功能強大, 但無論如何, 它第一眼看上去, 和藝術創作似乎沒啥關係。

但就在CLIP開源發布幾天後, 一些機器學習工程師玩家就意識到, 這個模型可以用來做更多的事情. 比如Ryan Murdock, 想出了如何把其他AI連接到CLIP上, 來打造一個AI圖像生成器. Ryan Murdock在接受採訪時說：“在我把玩它幾天後，我意識到我可以生成圖像。”

最終他選擇了BigGAN, 一個GAN模型的變種, 並將代碼發布為Colab筆記The Big Sleep。

( 注: Colab Notebook 是Google提供的非常方便的Python Notebook交互式編程筆記本在線服務, 背後是Google雲計算的支持. 略懂技術的用戶可以在一個類似筆記本的Web界面上編輯運行Python腳本並得到輸出.重要的是, 這個編程筆記是可以分享的 )。

Big Sleep創作的圖畫其實略詭異和抽象, 但這是一個很好的開始。

隨後, 西班牙玩家@RiversHaveWings在此基礎上發布了CLIP+VQGAN的版本和教程, 這個版本通過Twitter被廣為轉發傳播, 引起了AI研究界和愛好者們的高度關注. 而這個ID背後, 正是現在所被熟知的計算機數據科學家 Katherine Crowson。

在之前，類似VQ-GAN這樣的生成工具在對大量圖像進行訓練后，可以合成類似的新圖像，然而，如讀者還有印象, 前面說過, GANs類型的模型本身並不能通過文字提示生成新圖像, 也不擅長創作出全新的圖像內容。

而把CLIP嫁接到GAN上去生成圖像, 這其中的思路倒也簡單明了:

既然利用CLIP可以計算出任意一串文字和哪些圖像特徵值相匹配, 那隻要把這個匹配驗證過程鏈接到負責生成圖像的AI模型 (比如這裡是VQ-GAN), , 負責生成圖像的模型反過來推導一個產生合適圖像特徵值, 能通過匹配驗證的圖像, 不就得到一幅符合文字描述的作品了嗎?

有人認為 CLIP+VQGAN是自2015年Deep Dream以來人工智能藝術領域最大的創新. 而美妙的是, CLIP+VQGAN對任何想使用它們的人來說都是現成的。按照Katherine Crowson的線上教程和Colab Notebook, 一個略懂技術的用戶可以在幾分鐘內運行該系統。

有意思的是, 上一章也提到, 在同一個時間(2021年初), 開源發布CLIP的OpenAI團隊也發布了自己的圖像生成引擎DALL-E. DALL-E內部也正是用了CLIP, 但DALL-E並不開源!

所以論社區影響力和貢獻, DALL-E完全不能和CLIP+VQGAN的開源實現發布相比, 當然, 開源CLIP已經是OpenAI對社區做出的巨大貢獻了。

說到開源貢獻, 這裡還不得不提到LAION。

LAION 是一個跨全球的非營利機器學習研究機構，今年3月開放了當前最大規模的開源跨模態數據庫LAION-5B，包含接近60億(5.85 Billion)個圖片-文本對, 可以被用來訓練所有從文字到圖像的的生成模型，也可以用於訓練 CLIP這種用於給文本和圖像的匹配程度打分的模型，而這兩者都是現在 AI 圖像生成模型的核心。

除了提供以上的海量訓練素材庫，LAION 還訓練 AI 根據藝術感和視覺美感，給LAION-5B 里圖片打分, 並把得高分的圖片歸進了一個叫 LAION-Aesthetics 的子集。

事實上, 最新的AI繪畫模型包括隨後提到的AI繪畫模型王者 Stable Diffusion都是利用LAION-Aesthetics這個高質量數據集訓練出來的。

CLIP+VQGAN 引領了全新一代 AI圖像生成技術的風潮，現在所有的開源 TTI(Text to Image, 文本文本生成圖像)模型的簡介里都會對 Katherine Crowson 致謝，她是當之無愧的全新一代AI繪畫模型的奠基者。

技術玩家們圍繞着CLIP+VQGAN開始形成社區，代碼不斷有人做優化改進，還有Twitter賬號專門收集和發布AI畫作. 而最早的踐行者 Ryan Murdoch 還因此被招募進了Adobe擔任機器學習算法工程師。

不過這一波AI作畫浪潮的玩家主要還是AI技術愛好者。

儘管和本地部署AI開發環境相比, 在Golab Notebooks上跑CLIP+VQGAN的門檻相對而言已經比較低, 但畢竟在Colab申請GPU運行代碼並調用AI輸出圖片，時不時還要處理一下代碼報錯，這不是大眾化人群特別是沒有技術背景的藝術創作者們可以做的. 而這也正是現在 MidJourney 這類零門檻的傻瓜式AI付費創作服務大放光彩的原因。

但激動人心的進展到這裡還遠沒結束. 細心的讀者注意到, CLIP+VQGAN這個強力組合是去年初發布並在小圈子傳播的, 但AI繪畫的大眾化關注, 如開篇所說, 則是在今年初開始, 由Disco Diffusion這個線上服務所引爆. 這裡還隔着大半年的時間. 是什麼耽擱了呢?

一個原因是CLIP+VQGAN 模型所用到的圖像生成部分, 即GAN類模型的生成結果始終不盡如人意。

AI人員注意到了另外一種圖像生成方式。

如果複習一下GAN模型的工作原理, 其圖像輸出是內部生成器和判斷器的PK妥協結果。

但還有另外一種思路, 那就是Diffusion模型(擴散化模型)。

Diffusion這個詞也很高大上, 但基本原理說出來大家都能理解, 其實就是"去噪點". 對, 就是我們熟悉的手機拍照(特別是夜景拍照)的自動降噪功能. 如果把這個去噪點的計算過程反覆進行, 在極端的情況下, 是不是可能把一個完全是噪聲的圖片還原為一個清晰的圖片呢?

靠人當然不行, 簡單的去噪程序也不可能, 但是基於AI能力去一邊"猜"一邊去噪, 倒是可行的。

這就是Diffusion擴散化模型的基本思路。

Diffusion擴散化模型目前在計算機視覺領域的影響力越來越大，它能夠高效合成視覺數據，圖片生成完全擊敗了GAN模型, 而在其他領域如視頻生成和音頻合成也展現出了不俗的潛力。

今年初被大眾首先熟知的AI繪畫產品 Disco Diffusion, 正是第一個基於CLIP + Diffusion 模型的實用化AI繪畫產品。

但Disco Diffusion的缺點還是有些明顯, 如身為專業藝術家的 Stijn Windig 反覆嘗試了Disco Diffusion，認為 Disco Diffusion 並沒有取代人工創作的能力，核心原因有2點：

Disco Diffusion 無法刻畫具體細節，渲染出的圖像第一眼很驚艷，但仔細觀察就會發現大部分都是模糊的概括，達不到商業細節水準。
Disco Diffusion的初步渲染時間是以小時計算的, 而要在渲染圖像的基礎上刻畫細節，則相當於要把整個圖重新畫一遍，這樣一個流程下來花耗費的時間精力，比直接手繪還要多。

不過 Stijn Windig 還是對AI繪畫的發展持樂觀態度，他覺得儘管直接利用 Disco Diffusion 進行商業化創作還不可行，但作為一種靈感參考還是非常好的: "……我發現它更適合作為一個創意生成器使用。給一個文字提示，它返回一些圖片能激發我的想象力，並可以作為草圖用來在上面繪畫。"

其實從技術上來說, Stijn提出的兩大痛點, 1) AI繪畫細節還不夠深入, 2) 渲染時間過長, 實際上都是因為Diffusion擴散模型的一個內在缺點, 這就是反向去噪生成圖片的迭代過程很慢, 模型在像素空間中進行計算，這會導致對計算時間和內存資源的巨大需求, 在生成高分辨率圖像時變得異常昂貴。

(像素空間, 有點專業化的說法, 實際上就是說模型直接在原始像素信息層面上做計算)

因此對於大眾應用級的平台產品, 這個模型無法在用戶可以接受的生成時間裡去計算挖掘更多的圖像細節, 即便那種草稿級別的作圖, 也需要耗費Disco Diffusion以小時計算的時間。

但無論如何, Disco Diffusion給出的繪畫質量, 相對於之前的所有AI繪畫模型, 都是碾壓式的超越, 而且已經是大部分普通人無法企及的作畫水平了, Stijn的挑刺只是站在人類專業創作的高點提出的要求。

但是, Stijn同學恐怕萬萬沒想到, 他所指出的AI繪畫兩大痛點, 還沒過幾個月, 就被AI研究人員近乎完美的解決了!

講到這裡, 噹噹噹噹, 當今世界最強大的AI繪畫模型 Stable Diffusion終於閃亮登場了!

Stable Diffusion今年7月開始測試, 它非常好的解決了上述痛點。

實際上Stable Diffusion和之前的Diffusion擴散化模型相比, 重點是做了一件事, 那就是把模型的計算空間, 從像素空間經過數學變換, 在儘可能保留細節信息的情況下降維到一個稱之為潛空間(Latent Space)的低維空間里, 然後再進行繁重的模型訓練和圖像生成計算。

這個"簡單"的思路轉化, 帶來了多大的影響呢?

基於潛空間的Diffusion模型與像素空間Diffusion模型相比, 大大降低了內存和計算要求。比如Stable Diffusion所使用的潛空間編碼縮減因子為8, 說人話就是圖像長和寬都縮減8倍, 一個512×512的圖像在潛空間中直接變為64×64, 節省了8×8=64倍的內存!

這就是Stable Diffusion之所以又快又好的原因, 它能快速(以秒計算)生成一張飽含細節的512×512圖像, 只需要一張消費級的8GB 2060顯卡即可!

讀者可以簡單算一下, 如沒有這個空間壓縮轉換, 要實現Stable Diffusion 這樣的秒級圖像生成體驗, 則需要一張 8Gx64=512G顯存的超級顯卡. 按照顯卡硬件的發展規律來看, 消費級顯卡達到這個顯存恐怕是8-10年後的事情。

而AI研究人員一個算法上的重要迭代, 把10年後我們才可能享受到的AI作畫成果直接帶到了當下所有普通用戶的電腦前!

所以目前大家對AI繪畫的進展感到吃驚是完全正常的, 因為從去年到今年, AI繪畫的技術確實出現了連續的突破性的進展, 從CLIP模型基於無需標註的海量互聯網圖片訓練大成, 到CLIP開源引發的AI繪畫模型嫁接熱潮, 然後找到了Diffusion擴散化模型作為更好的圖像生成模塊, 最後使用潛空間降維的改進方法解決了Diffusion模型時間和內存資源消耗巨大的問題… 這一切的一切, 讓人目不暇接, 可以說AI繪畫在這一年間, 變化是以天計算的!

而在這個過程中, 最幸福的莫過於所有AI技術愛好者和藝術創作者們。大家親眼目睹着停滯了多年的AI繪畫水平以火箭般的速度衝到了頂峰. 毫無疑問, 這是AI發展歷史上的一個高光時刻。

而對所有普通用戶來說, 最開心的, 當然是享受到了利用Stable Diffusion或者MidJourney這樣的當今頂級作畫AI去生成專業級別畫作的巨大樂趣。

有趣的是, Stable Diffusion的誕生還和前面提到的兩位先驅Katherine Crowson 和Ryan Murdoch 有關. 他們成為了一個去中心化組織的AI開源研發團隊EleutherAI的核心成員. 雖然自稱草根團隊, 但EleutherAI在超大規模預言模型和AI圖像生成領域目前都已經是開源團隊的佼佼者。

正是EleutherAI作為技術核心團隊支持了Stability.AI 這一家創始於英國倫敦的AI方案提供商. 這些有理想的人們聚在一起, 基於以上這些最新的AI繪畫技術突破, 推出了當今最強大的AI繪畫模型 Stable Diffusion. 重要的是, Stable Diffusion按照承諾, 已經在8月完全開源! 這個重要的開源讓全世界的AI學者和AI技術愛好者感動得痛哭流涕. Stable Diffusion一經開源, 就始終霸佔着GitHub熱榜第一。

Stability.AI徹底履行了它官網首頁的 Slogan "AI by the people, for the people", 必須給予一個大大的贊。

下圖是作者線上運行的Stable Diffusion, 感謝開源! 話說這個AI生成的自帶光環的日漫小哥是相當的帥氣:)

頂級AI繪畫模型的PK: Stable Diffusion V.S. MidJourney

作者在之前文章里已經介紹了MidJourney這個在線AI作畫神器, 它最大的優點就是零門檻的交互和非常好的輸出結果。創作者無需任何技術背景就能利用基於Discord的MidJourney bot進行對話式繪畫創作 (恩, 當然, 全英文)。

從輸出風格上看, MidJourney非常明顯針對人像做了一些優化, 用多了后, MidJourney的風格傾向也比較明顯 (作者在MidJourney上花了數百刀的計算資源嘗試了各種主題創作后的第一手感受) , 說得好聽是比較細膩討巧, 或者說, 比較油膩一點點。

而Stable Diffusion的作品, 就明顯的更淡雅一些, 更藝術化一些。

以下是作者使用了同一種文字描述在這兩大平台上創作的AI作品對比。讀者不妨直接感受一下。

(注: 以下生成畫作均有完全版權, 單獨轉載請註明來源)

Stable Diffusion(左) V.S. MidJourney(右) :

樹屋

柴油朋克風的城市

魔獸世界主城奧格瑞瑪

盔甲狼騎士

碧藍幻想風格漫畫少女

浪漫寫實主義美女油畫 (風格參考丹尼爾·戈爾哈茨, 美國畫家)

帶有狹長走道的迷宮般老城市建築

哪種風格更好? 其實蘿蔔青菜各有所愛.。

因為做過針對性的優化, 如要出人像圖或者糖水風格美圖用MidJourney更方便. 但比較了多張作品后, 作者認為Stable Diffusion還是明顯技高一籌, 無論從藝術表達上還是風格變化的多樣性上。

不過, MidJourney這幾個月的迭代是有目共睹的快(畢竟是付費服務, 很賺錢很有動力啊), 加上Stable Diffusion的完全開源, 預計相關技術優勢會很快被吸收進MidJourney. 而另一方面, Stable Diffusion模型的訓練還在持續進行中, 我們可以非常期待, 未來版本的Stable Diffusion模型也將百尺竿頭更進一步。

對所有的創作者用戶而言, 這都是天大的好事.

AI繪畫的突破對人類意味着什麼

2022年的AI領域, 基於文本生成圖像的AI繪畫模型是風頭無兩的主角. 從2月份的Disco Diffusion開始, 4月 DALL-E 2和MidJourney邀請內測, 5月和6月Google發布兩大模型Imagen 和Parti (不開放內測只有論文, 感覺略水), 然後7月底, Stable Diffusion橫空出世…

真的讓人眼花繚亂. 也勿怪作者在上篇文章里感慨, 怎麼稍不注意AI繪畫的水平就突飛猛進到如此地步, 事實上, 確實就是在這一年半載里, AI繪畫發生了革命性的, 甚至可以說歷史上會留名的突破性進展。

而接下去的時間裡, AI繪畫, 或者更廣泛的, AI生成內容領域(圖像, 聲音, 視頻, 3D內容等…)還會發生什麼, 讓人充滿了遐想和期待。

但不用等待未來, 體驗了當下以Stable Diffusion 為代表的最先進AI繪畫模型所能觸達的藝術高度, 我們已經基本可以確認, "想象力"和"創造力"這兩個曾經充滿着神秘主義的詞彙, 同時也是人類最後的驕傲, 其實也是可以被技術解構的。

對人類靈魂神聖至上說法的擁護者而言, 當今AI繪畫模型所展現的創造力, 是一種對信仰的無情打擊. 所謂靈感, 創造力, 想象力,這些充滿着神性的詞, 即將(或者已經)被超級算力+大數據+數學模型的強力組合無情打臉了。

事實上, 類似Stable Diffusion這種AI生成模型的一個核心思路, 或者說很多深度學習AI模型的核心思路, 就是把人類創作的內容, 表示為某個高維或者低維數學空間里的一個向量(更簡單的理解, 一串數字). 如果這個"內容->向量"的轉化設計足夠合理, 那麼人類所有的創作內容都可以表示為某個數學空間里的部分向量而已. 而存在於這個無限的數學空間里的其他向量, 正是那些理論上人類可能創造, 但尚未被創造出來的內容. 通過逆向的"向量->內容"的轉換, 這些還沒被創造的內容就被AI挖掘出來了。

這正是目前MidJourney, Stable Diffusion這些最新AI繪畫模型所做的事情. AI可以說是在創作新的內容, 也可以說是新繪畫作品的搬運工. AI產生的新繪畫作品在數學意義上一直客觀存在, 只是被AI通過很聰明的方式, 從數學空間里還原出來, 而已。

"文章本天成, 妙手偶得之"。

這句話放在這裡非常合適. 這"天", 是那個無限的數學空間; 而這"手", 從人類,換成了AI.

數學真是世界至高法則:)

目前最新AI繪畫的"創造力"開始追趕甚至幾已比肩人類, 這或許進一步打擊了人類的尊嚴, 從圍棋阿法狗開始, 人類在"智慧"這個點的尊嚴領地已經越來越小, 而AI繪畫的突破性進展則進一步把人類"想像力"和"創造力"的尊嚴都打碎了 — 或許還沒完全破碎, 但已經充滿裂痕搖搖欲墜。

作者一直對人類的科技發展保持某種中性看法: 儘管我們寄望於科技讓人類的生活變得更美好, 但事實上正如核彈的發明, 有些科學技術的出現是中性的, 也可能是致命的. 完全取代人類的超級AI從實踐來看似乎是一件越來越可能的事情. 人類需要思考的是, 在不太遠的將來, 我們在所有領域面對AI都落荒而逃的時候, 如何保持對世界的主導權.

有個朋友說的很對, 如果AI最終學會了寫代碼 — 似乎沒有什麼必然的壁壘在阻止這件事的發生 — 那麼電影<終結者>的故事或許就要發生了. 如果這樣太悲觀, 那麼人類至少要考慮, 如何與一個超越自己所有智慧和創造力的AI世界相處。

當然咯, 樂觀的角度而言, 未來的世界只會更美好: 人類通過AR/VR接入統一的或者個人的元宇宙, 人類主人只要動動嘴皮子, 無所不能的AI助理就能根據要求自動生成內容, 甚至直接生成可供人類體驗的故事/遊戲/虛擬生活。

這是一個更美好的盜夢空間, 還是一個更美好的黑客帝國? (笑)

無論如何, 今天我們見證的AI繪畫能力的突破和超越, 正是這條不歸路的第一步:)

說個題外話作為結尾. 儘管還沒出現, 但應該就在這兩年, 我們可以直接讓AI生成一本指定風格的完整長篇小說, 特別是那些類型化的作品, 比如<斗破蒼穹>,<凡人修仙傳>這樣的玄幻小說, 還可以指定長度, 指定女主角個數, 指定情節傾向性, 指定悲情程度和熱血程度, 甚至xx程度, AI一鍵生成 :)

這完全不是天方夜譚, 考慮到AI繪畫這一年坐火箭般的發展速度, 作者甚至覺得這一天就近在眼前。

目前還沒有AI模型可以生成足夠感染力和邏輯性的長篇文學內容, 但從AI繪畫模型氣勢洶洶的發展態勢來看, 不久的將來AI生成高質量的類型文學作品幾乎已是板上釘釘的事情, 理論上沒有任何的疑問。

這樣說或許打擊了那些辛苦碼字的網文作者, 但作為一個技術愛好者和玄幻小說愛好者, 作者對這一天的到來還是有些期待的… 從此再也不需催更, 也不需要擔心連載作者的寫作狀態了; 更美好的是, 看到一半如覺得不爽, 還可以隨時讓AI調整後續情節方向重新生成再繼續看…

若你還不確定這樣的一天即將到來, 我們可以求同存異, 一起等待。

最後分享一組作者用stable diffusion生成的細節完全不同, 風格又完全一致, 質量還永遠保持滿格的"帶有狹長走道的城市迷宮老建築區"系列. 看着這些精美的AI作品, 作者只有一種感覺, AI創作有"靈魂"了, 不知讀者們, 是否有同感? :)