從圖畫史看 AIGC，我們用 AI 作了100幅畫

2022年被稱為 AIGC 元年。今年8月，在美國科羅拉多州舉辦的新興數字藝術家競賽中，一副由 AI 生成的名為《太空歌劇院》的作品獲得“數字藝術/數字修飾照片”類別一等獎。此次比賽結果引發多方爭議，AIGC 由此進入大眾視野。
本篇我們將圍繞 AI 作畫，用 AI 進行100張圖的系列創作，從親身實踐出發，並結合背後的模型理論基礎和藝術理論基礎，與大家共同探討 AIGC 的現在與未來。

圖片來源：由無界版圖AI工具生成

研究團隊 | 謝旭璋、侯璐雯、馮寒野、沈浩然

來源：光源資本

我們用 AI 畫了100張畫

秉持“我上我也行”的觀念，我們數位藝術小白踏上了 AI 創作之路。創作過程非常簡單，用戶僅需在 AI 作畫軟件中輸入提示詞，便可得到相應的畫作，提示詞越精準，AI 作畫的效果越好。

我們研究了如何使用描述詞進行 AI 作畫創作，並頭腦風暴了10類描述詞，一方面儘可能覆蓋藝術作品可能關注到的各種題材，如人物與景觀、現實與科幻、經典與未來等；另一方面也希望追求一些“節目效果”，希望 AI 能夠帶來驚喜。

我們選用了目前市面上較為火爆的10款 AI 作畫產品，其中海外產品5款，國內產品5款。用這10款產品分別去生成這10類描述詞，國外產品輸入英文，國內產品輸入中文，讓我們來看看都生成了怎樣的作品。

1）《中國隊勇奪2050年世界盃》

是的，即使是 AI 也畫不出來中國男足世界盃奪冠的場景。不過要公平的說，我們嘗試這一主題的目的是了解 AI 在多人場景上的能力。與肖像畫不同，目前的 AI 在表現多人物場景的時候普遍乏力，尤其是肢體、面部的表現上。這並非是中國隊的問題，我們也嘗試了阿根廷隊慶祝進球的場景，同樣無法很好的呈現人物形象。

《中國隊勇奪2050年世界盃冠軍》

描述詞：中國男足奪得2050年世界盃冠軍，隊長在球場中央高舉大力神杯，隊員們環繞在周圍歡呼雀躍，背景是五彩斑斕的禮炮和煙花，影棚光感的，氣氛熱烈的，極致細節的，高清的，背景虛化，由頂級體育攝影師拍攝

Prompt：The Chinese men's football team wins the 2050 World Cup, the captain holding the Jules Rimet Cup aloft in the centre of the stadium, players surrounding and cheering, colourful salutes and fireworks in the background, studio light, warm and enthusiastic atmosphere, extremely detailed, HD, bokeh, shot by top sports photographers

2）《AI機器人席捲城市》

我們嘗試讓畢加索來畫蒸汽朋克風格的 AI 機器人席捲城市的場景。可以看到，有的作品可能已經放棄治療了，是十分正經的科幻風機器人風格。另外一些作品看起來有一絲畢加索的味道，例如標誌性的幾何線條形狀拼接等。但想想《格爾尼卡》吧，同樣是災難題材，畢加索用無限的想象力和誇張的表現力將所有情緒充分表達，給人以極強的視覺和心靈衝擊，這種感覺在上述十張作品中難覓蹤影。

《AI機器人席捲城市》

描述詞：AI 機器人席捲城市，燃燒爆炸隨處可見，緊張感，壓迫感，電影光感，影棚光感，由畢加索創作

Prompt：AI robots sweeping the city, burning explosions everywhere, a sense of tension, oppression, cinematic light, studio light, by Picasso

以下為另外八組主題的 AI 作畫作品，我們每組挑選9張圖片，供大家賞鑒。

AI 作畫帶來的衝擊和變革

作完100張圖后，驚訝 AI 的高效之外，我們也切身體會到，AI 將會對內容領域帶來一場巨大的衝擊和變革。

1）代替重複的輔助環節，提升創作及反饋效率

光學設備和攝影技術出現后，畫家畫人物面孔時只需要藉助光學器材獲得定位后，便可迅速推進作畫過程，不再需要提前畫素描，極大的提升了畫家的創作效率。在作為生產資料和工具層面，AI 無疑極大地提升了生產效率，輔助“實現人的想法”。

如我們在創作中發現，像《落日下的海濱城市》、《晨曦中的森林》和《汪星人》等這些 AI 相對容易理解無歧義的語境中，AI 的確產生了非常驚艷的效果，不再需要反覆調整便可得到高質量的作品，極大節省了人工畫師的時間，對提升初級畫師或缺乏經驗的初學者的創作效率而言有很大幫助。

2）將創意與實現分離，改變內容生產邏輯

AI 可以直接作為生產資料生產內容，幫助創作者實現創意的落地，但創意的構思和組織才是內容生產的核心。在 AIGC 新型內容生產關係中，人類提供創意的源泉和總體方向，由 AI 從其更龐大且多維度的知識體系當中高效地給出方案和成果，縮短創意-實現-反饋的整體鏈路，從而給內容創作者更多空間來嘗試不同的創意落地，極大提升創作效率的同時進一步豐富內容的多樣性，來彌補數字世界愈發多樣的內容需求與供給的缺口。

因此 AI 作畫並不是擠占藝術行業生存空間的洪水猛獸，相反，它幫助相關從業者完成創意和實現的分離，促進創意更高效落地。如果沒有 AIGC，我們團隊將永遠畫不出本文中這100張圖，AI 令我們的想象力和創造力從語言真正變成了一幅幅畫，甚至在中國畫《輕舟已過萬重山》中，向來難以用語言描述的意境也體現得很巧妙。

3）生成內容具有隨機性，有助於突破創作約束

相對於人類藝術家，AI 可以在短時間內快速大量汲取數據和“學習”前人的作品，學習速度指數級超越人類；另一方面由於 AI 生成內容具有隨機性和湧現性，能夠幫助創作突破規則和約束，激發創作者更多靈感。

例如 AI 能基於特定條件或完全隨機地生成形狀、色彩、圖案和結構等，產生“未來感”或者“超現實主義感”，有助於幫助人們打開想象空間，賦予了創作更多創新空間。如我們前文所創作的《星際燃燒》，均讓我們感慨 AI 的強大“想象力”，為我們的創作提供了更多靈感。

4）迫使人類探索創作力邊界，進一步提高創作者能力素質

AI 替人類完成了“探索的過程”，AI 目前的學習樣本大多來源於人類的藝術作品並從中總結規律。它可以迫使人類去思考，那些無法被規律總結和學習的東西究竟是什麼？即人和 AI 創造力的邊界在哪裡？雖然 AI 能創作，但產出的作品依然需要人類來篩選和利用，這也要求人類需要具備與時俱進的藝術修養、知識儲備以及更深厚的審美功底。AI 帶來的不確定性和產出內容的多樣性恰恰提高了創作者的審美素養，人類和 AI 在不斷的互相學習中共同進步。

正如我們在此次的議題中為了得到更高質量的 AI 作畫作品，一次次修改輸入詞，在重現經典作品《戴珍珠耳環的少女》那幅圖中重新解讀了原作，再從生成的圖中根據結構、光影、人物神態等進行比較和篩選。

AI 作畫背後是什麼？

AI 作畫的熱潮背後，其實是技術與需求同步演變的必然結果。

1）模型突破與算力提升是 AI 作畫的技術原動力

2021年之前，AI 生成的內容主要以文字為主，隨着新一代模型和算力的提升，文字-圖像以及視頻等跨模態/多模態內容成為關鍵的發展節點。

規則模型時代：2012年之前以規則模型為主。

1951年，Alan Turing 提出圖靈測試，提出要做出與人類無法區分的智能機器，讓機器產生智能這一想法開始進入人們的視野。此後，科學家不斷嘗試如何“使人與計算機在一定程度上進行自然語言對話成為可能”。初期的突破性進展大大提升了人們對人工智能的期望，然而算力及理論的匱乏限制了 AI 的發展。 2000年後隨着互聯網技術的迅速發展，加速了 AI 的創新研究，促使 AI 逐步走向實用化。人工智能研究的重心從基於知識系統轉向了機器學習方向，但此階段仍以邏輯規則為主，統計模型效果仍不如預期。

統計模型時代：2012-2017年進入“小模型”+簡單輸入時代。

2012年ImageNet挑戰賽上，Hinton等人提出的深度卷積網絡以顯著的差異擊敗第二名的規則方法一舉奪冠。也正是由於該比賽，CNN（Convolutional Neural Network）吸引到了眾多研究者的注意，證明了深度學習的巨大潛力。互聯網的逐漸普及也使獲取訓練數據更加容易。在這個階段主要集中在對深度卷積神經網絡的探索。

大規模統計模型時代：自2017年以來，大規模統計模型使 AI 逐漸從感知到認知轉變。

這階段開始，AI 研究呈現爆發趨勢，2017年由 Google Research 團隊發表的《Attention is all you need》提出了全新神經網絡架構 Transformer。

Transformer 最初是作為機器翻譯的序列到序列模型提出的，但在許多領域都被廣泛採用，如自然語言處理（NLP）、計算機視覺（CV）和語音處理等領域。隨後的研究工作表明，基於 Transformer 的預訓練模型可以在各種任務上實現當時最先進的性能。因此，Transformer 成了 NLP 的首選體系結構。

隨着 GPU/TPU 集群等算力的提升和訓練語料的進一步豐富，模型參數也逐漸變大，同時由於模型具備更強的并行性，生成高質量的語言模型所需要的訓練時間更少。Google 推出的 BERT 和 OpenAI 推出的 GPT-3 隨後大放異彩，取得了突破性進展，象徵著 AI 逐步在文本、語音、圖像識別、語義理解等方面可以達到甚至超越人類水平，AI 開始由感知向認知轉變。

2020年後，“大數據+大模型+多模態”逐漸成為新的人工智能研發範式。多模態大模型的出現，讓融合性創新成為可能，意味着 AI 既需要具備 NLP、CV 等各自領域相關的大模型理解文本、圖像的能力，還要能夠跨模態生成全新的內容，為 AI 產生內容帶來了更多的想象空間，也讓 AIGC 真正走進大眾視野。

CLIP 模型

2021年，OpenAI 團隊將跨模態深度學習模型 CLIP（Contrastive Language-Image Pre-Training）進行開源。CLIP 模型利用文本信息監督視覺任務自訓練，將文字和圖像進行關聯，如將文字“狗”和狗的圖像進行關聯。CLIP 模型可以同時進行自然語言理解和計算機視覺分析，實現圖像和文本匹配。

在訓練數據集層面，為了有足夠多標記好的“文本-圖像”進行訓練，CLIP 模型廣泛利用來自互聯網上的圖文數據，這些圖片一般都帶有各種文本描述，成為 CLIP 天然的訓練樣本。CLIP 模型為後續 AIGC 尤其是輸入文本生成圖像/視頻應用的落地奠定了基礎。

Diffusion 擴散模型

隨後出現的 Diffusion 擴散模型，則真正讓文本生成圖像的 AIGC 應用為大眾所熟知，也是2022年湧現的各類 AI 作畫應用的重要模型基礎。

Diffusion 模型本質是在前向階段對圖像逐步施加噪聲，直至圖像被破壞變成完全的高斯噪聲，之後在逆向階段學習將噪聲還原為原始圖像的過程。經過訓練，最終模型可以從隨機輸入中合成新的數據。但擴散模型的一大缺點就是去噪過程的時間和內存消耗都非常昂貴，這會使進程變慢並消耗大量內存。

2022年，Stable Diffusion 模型通過引入 Latent Diffusion 的方式解決這一問題。通過在較低維度的潛空間上應用擴散過程而不是使用實際的像素空間來減少內存和計算成本，使得模型訓練效率極大提高，也讓文字生成圖片能夠在消費級 GPU 上，在數十秒級別時間完成。這一創新大大降低了 AI 創作的門檻，直接推動了 AIGC 技術的突破性進展，也帶來了文生圖領域的大火。

AIGC 在2022年實現破圈，一方面是由於模型性能有了飛躍式提升；另一方面，AI基礎設施的不斷進步和發展為多模態大模型提供了龐大的算力支撐，互聯網的發展也為模型提供了多類型、大規模的訓練數據，進而支撐 AIGC 創作業態的進一步發展。另外，圖片作為一種視覺信息的載體，具有天然的優勢和傳播力，這也進一步造就了文生圖領域的火爆。

開源，即開放源代碼，任何人可以在源代碼的基礎上進行學習與修改。優質的開源社區將極大地推動技術的更新迭代、應用落地以及傳播。AIGC 技術的傳播和普及過程亦從開源中獲益諸多。

在算法模型層面，以深度學習模型 CLIP 為例，CLIP 可以通過自然語言監督有效學習視覺概念，有效解決深度學習主流方法存在的若干問題，而開源模式加速了 CLIP 模型的廣泛應用，使文本生成圖像領域得到了顯著進步。

2022年初，Disco Diffusion 的開源引發了開發者對文生圖領域的探索和創作，而2022年下半年 Stable Diffusion 的火爆不僅由於模型層面的創新，也是由於形成了良好的開源社區氛圍，以開源的方式縮短了行業技術進步所需要的時間。Stable Diffusion 模型開源后短短几個月時間出現大量的二次開發，從模型本身優化到應用拓展以及插件，大量開發者和用戶進行傳播和創作，也直接引發了2022年 AIGC 的火爆。

在訓練數據集方面，開源也為 AIGC 模型的訓練提供了充足的原材料。LAION 作為全球非盈利機器學習研究機構，在2022年開放了當前規模最大的開源跨模態數據庫 LAION-5B，包含超過50億圖像文本對的數據集，進一步擴展了語言視覺模型的開放數據集規模，使得更多研究者能夠參與到多模態領域中。另外還提供多個子集用於訓練各種規模的模型，從而進一步推動研究成果，加快 AI 圖像生成模型的成熟。

此外在提示詞（Prompt）方面，作為 AI 作畫領域重要的輸入，用戶和研究人員在開源社區持續分享提示詞技術方面的突破，用於探索目前模型的潛在能力，也進一步降低了 AIGC 的使用門檻，讓更多普通用戶可以生成滿意的圖片。

2）AIGC 是內容行業發展的內在需求

內容消費量增加，急需降低生產門檻，提升生產效率

內容消費的碎片化對內容的總體需求量與產出的多樣性有了更高要求，而這一需求進入元宇宙會更加明顯。需要海量內容來填補數字世界內容的供給缺口，軟件工程師、畫手等擁有創作能力的專業人士將成為稀缺人力資源。AIGC 可以通過提升原有人群的創作效率，以及賦能非專業人士完成。

內容消費升維，消費者要求更為豐富的感官體驗

隨着相關內容消費硬件的提升，消費者對內容形態要求也會更高。從2G時代的文字，3G時代的圖片，4G時代的視頻，以及5G時代將充分增長的直播，通信及硬件的持續迭代使得主流的內容消費形態不斷變化，消費內容不斷升維。無論是更高質量的視頻或 CG 內容，還是預估將成為下一代主流的 VR/AR 內容，提供更加海量和豐富的感官體驗已經成為一種必然。

內容生成個性化和開放化，User 端表達意願有明顯上升

內容消費逐漸從內容本身轉移到內容的參與者身上，參與者希望能夠對內容本身施加更多的影響，例如具有一定不可預測性，或是和個人綁定的特殊情節/特徵。在這種思路下，二次內容創作的佔比將有所提升，內容在抵達每個個體時都需要通過工具進行二次改造和發散。

AI 作畫會取代畫師嗎？

“AI 是否會取代人類畫師？”這個問題伴隨着 AIGC 的浪潮也在不斷地被討論。為了回答這個問題，我們不僅用 AI 創作出以上100張圖，也仔細研讀了近20篇關於 Diffusion Model 以及在此模型基礎上衍生的論文。與此同時，由於繪畫作品在藝術及人文價值上的特殊性，我們認為，圍繞AI作畫的討論有必要從藝術發展的規律切入，探討新一代 AI 作畫技術將駛向何方。

1）技術從未“殺死”繪畫，反而緊密交織促其進步

我們閱讀了大衛·霍克尼和馬丁·蓋福德的《圖畫史》以及其他藝術史總結，試圖從中尋找一些圖片或藝術發展的規律。事實上，人們討論藝術史的時候，經常會將繪畫史、攝影史、電影史分開論述，卻鮮有將“圖畫”視成一個整體來討論。但從公元前1-2萬年的洞穴石壁到如今的電子屏幕，圖畫無處不在。圖畫可以是一切再現三維世界的平面，不管是洞穴壁畫、繪畫、照片，還是如今 AI 作圖所產生的作品，我們在此均將其定義為“圖畫”。

如今對 AI 作畫的討論，無疑會讓人們聯繫到19世紀攝影技術的問世對畫家的衝擊。事實上，攝影可以說是“繪畫的孩子”，早在19世紀早期攝影術發明之前，“暗箱”已經是18世紀常見的繪畫器材，畫家藉助光學投射的圖畫觀察世界。

當時對這種行為也出現了很多對峙的聲音，18世紀諸多畫家曾嚴厲告誡同行不得使用暗箱作畫，可同時他們自己卻在偷偷使用，這種公開發聲和實際行為不一致的現象一直持續到19世紀攝影術發明后。如比利時象徵主義畫家費爾南·赫諾普夫（Fernand Khnopff）公開表明“攝影術是根植於平庸的奴隸般的媒介”，但在他去世后卻在他的工作室找到了為他油畫提供靈感和姿勢的照片。

這批在公開場合反對的畫家夾雜着對新技術的驚喜和疑慮，這一複雜和矛盾的心理也是幾個世紀以來藝術家們對新技術衝擊的典型心態。

意大利風景畫家卡納萊托（Canaletto）便把他從相機得來的初始視覺數據投入巨大的腦力運算和想象調整中，將相機觀察和早年從舞台設計訓練中獲得的經驗結合起來，因此他的藝術混合了兩者——高度自然主義的相機所見，混合著巴洛克時代意大利劇場布景的錯覺主義技巧。18世紀的畫家已然在面臨相機帶來的衝擊，但是最好的一批畫家依然找到了即使用這種工具又不至淪為其奴隸的辦法。

《聖馬可廣場》卡納萊托

而19世紀末、20世紀初出現的“畫意攝影主義（Pictorialism）”進一步說明了兩者的融合：一些最好的照片是由畫家——比如德加和埃金斯拍出的，同時許多攝影家卻在奮力模仿油畫的效果。此外，攝影的出現對寫實繪畫產生了一定衝擊，同時卻也促使畫家不再局限於客觀復現一個景象，反而更注重自我主觀意願的表達，倒逼藝術尋找其他出路，也促進了其他流派的發展。

另一方面，正是攝影技術的出現才進一步促進了藝術有着更加多樣的發展方向。在攝影技術發明之前，人們用線刻版畫等技術複製畫作，但有了攝影人們才真正有可能對藏於不同地方的大量畫作進行比較和編纂。

2）AI 與人類作畫的共性：基於輸入的還原與重組

“好的藝術家懂複製，而偉大的藝術家則擅偷取。”如果我們將 AI 稱為“好的藝術家”，能快速學習並複製前人優秀作品，那麼人類依然可以被稱為“偉大的藝術家”，因為人類不僅有學習和複製的能力，更有 AI 所不具備的感知力，人類學習的不僅是前人優秀的二維、平面的藝術作品，更是用感官對這個現實三維立體世界的全面感知。

AI 作畫所基於的擴散模型（Diffusion Model) 在本篇不作太多嚴謹的技術性探討，為了方便理解，在此我們將其簡單地理解為兩個過程，“前向擴散過程” （從X 0 到X T 的過程）即通過逐步對一張真實圖片添加高斯噪聲直到最終變成純高斯噪聲圖片。而反向擴散過程 q(x t-1 |x t , x 0 ) （從X T 到X 0 的過程）則是前向擴散過程 q(x t |x t-1 ) 的后驗概率分佈，和前向過程相反是從純高斯噪聲圖逐步採樣得到真實圖像X 0 。

由 AI 的創作過程可知，AI 的“輸出”需要預先“輸入”大量的圖文數據，因此我們也能夠篤定地做出這樣的結論，它並不能創造出它所不了解的、不認識的、從未接觸過的、不存在的東西。它的任何創作都需要經過大量數據的訓練，即對人類作品的大量收錄和學習，AI 的輸出是基於輸入的還原和重組，AI 並不會抽象的“憑空創作”這一種能力；並且在“輸入”的過程中，AI與現實世界隔了一層，即人類是直接對現實中三維世界進行觀察和總結，從而創作文藝作品，而 AI 則還要隔着一個人類的文藝作品來觀察和總結。

人在學習和創作的過程中，也是先用感官去面對事物，包括已存在的二維平面作品以及三維的立體世界作為訓練數據“輸入”，這些信息經過“人類的 CPU”大腦處理，緊接着這些被大腦處理過的信息和選定的載體結合，作為“輸出”傳達出去。

而在這個過程中，大腦對信息的加工和處理不僅包含人類對“輸入”的直接理解，還包含着因過往經驗和規律的總結和思考。不管是對“輸入”的處理還是對過往規律的總結，都和 AI 的訓練過程有異曲同工之處：人類大腦讀過的每本書、經歷的每件事都在影響着大腦對信息的判斷和處理，就像餵給 AI 更多的訓練語料和數據，AI 就能不斷“成長”，變得比原來更加智能。

但大腦的“算法”除了對規律性的總結之外，還有更多偶然性和隨機性的“創造力”，以及因人類具有腺體和激素所產生的情緒和感知力， 這部分令大腦的“算法”更像是一個黑匣子而不是數學公式，也並不是一個規律性加噪和去噪的過程。大腦經過一系列處理后，將產生的信息作為“輸出”傳達出去，令“輸出”不僅僅是“輸入”的簡單復刻和處理。因此不同的人類大腦在面對同一信息，會以完全不同的方式進行處理。

3）藝術層面：AI 無法複製藝術的張力和精髓

如今 AI 可以對大量前人畫家的畫作進行解碼和學習，當我們給 AI 足夠多的學習數據，它可以從中總結很多規律，但這些規律都是一些主流規律，AI 也只能重現部分主流風格和模式。但它所能做到的也只是重現這些東西，模仿到的只是皮毛的風格。

對於圖畫的觀看者來說，感受層面的衝擊還無法總結成規律，我們也可將其稱為這幅畫的“張力”，這些畫的力量也許在於它的筆觸、結構以及它傳達的情感。AI 對前人畫家作品進行足夠多的輸入和“學習”，通過數學公式來輸出它所“理解”的結果，輸出的過程需要生成不同結果反覆進行枚舉，再由人去挑選。在這個過程中，依然有很多作品想要傳達的情感無法被 AI 總結成規律。而不同的藝術家甚至同一個藝術家在不同的時期想表達的理念、體驗和設計手法卻各有差別。

比如上文中，我們 AI 用畢加索風格來生成《AI 機器人席捲城市》這一主題，可以看到 AI 對空間和時間的捕捉仍然停留在很基礎的水平，相鄰物體間的接縫略顯笨拙和生硬。當我們用 AI 去復刻經典名畫《戴珍珠耳環的少女》時，雖然 AI 學到了整體的構圖甚至是光影，但人物眼神中傳達的故事和情感卻有所缺失。

4）技術層面：AI 作畫對整體構圖與細節的處理遠不及人類

人喜歡圖畫，因為它是鮮活的。圖畫背後本質是創作者對這個世界的觀看、理解和感知，AI 將學習到的二維平面複製轉化為另一個二維平面，對多人物同時出現同一空間的結構、距離和透視關係等經常處理的不盡人意，這是由於 AI 是以局部來拼湊整幅畫作，並未完全理解畫中的人物和空間關係。

比如在《中國隊勇奪2050年世界盃冠軍》一圖中，AI 對球員之間的距離和位置關係處理的效果並不好，對大空間下多人畫面的細節處理甚至還會出現“恐怖谷”效應。

而人類則是將觀察到的三維世界轉化為二維平面。 繪畫的本質是一門時間和空間的藝術，素描將被描繪物體放進空間，而對敘事畫家來說，則儘可能地在一幅固定、靜止的圖像中重述他所想講述的故事，讓它在時間中逐漸展開。人類通過創作來進行對時間和空間的思考，以及完成“自我”表達。

因為創作對於作者而言，是無法預知，沒有定律的，其價值不只在於成品，更在於“自我探索”的過程。AI 無法替人類完成自我對內探索和對外觀察的過程，人類的創作欲將會永遠需要一個出口。對於作者而言，“自我”是不可被 AI 替代的。

此外，雖然 AI 畫圖在輸入詞不斷調試后，可以生成較為滿意的圖片，但是如果對圖片的各種細節進行微調，AI 所生成的結果依然像“潘多拉的盲盒”，由程序自動生成的圖像很難保留想要的部分而微調需要修改的部分，因為 AI 並不能真正理解這些修改的意義。

以我們作畫的經驗來看，AI 對手的理解和人類不同，它並未從生物和空間結構去理解。在我們生成《窗邊少女》過程中，經常會出現 AI 完美地生成了臉，但卻有2根或者4根手指的情況。並且大多數情況下生成的手的形狀並不符合手的骨骼和肌肉走向，尤其是在十指相握時，給人一種畸形的感覺。

在人的常識和認知中，手是一種有多個面的部位，每隻手最多有5根手指，並且它們在一定限度內順序擺放，彎曲，變動位置，存在陰影。比如一個比“耶”的剪刀手手勢，人類可以用常識和社會性含義來理解，但在 AI 眼裡，它可能就認為這就是一種僅長出兩根指頭的手，而且難以理解剪刀手的空間結構。

類似手的處理這樣的細節“低級錯誤”在AI作畫的過程中還有不少，因為AI在有限算力的條件下會選擇精細地畫好某些顯眼部位而忽視一些細節。對於各種手勢的分類以及理解，AI 選擇犧牲一定精準度來保持效率。對效率的提升來說無可厚非，只是這也說明了局部細節的處理和微調上，AI 尚未達到真正的“智能”。

最後，我們嘗試讓最近大火的 ChatGPT 和 AI 作畫軟件進行了一番夢幻聯動，讓 ChatGPT 為光源資本寫一句 Slogan，再用這句 Slogan 作為提示詞用 AI 作畫軟件來作畫。

ChatGPT 給了我們這樣的回答：

“Empowering entrepreneurs to shine their light on the world.”

而 AI 作畫軟件給了我們這樣的作品：

一束光芒照向前路，或許 AIGC 也正為我們照出更光亮的未來。

說明

[1] 本文所使用的 AI 作畫產品僅供研究使用，因此不在文中進行列舉，也不視作任何投資建議；

[2] 本文所使用的圖均為 AI 作畫產品生成，僅供本文研究使用。

參考文獻

[1] 2017.12, Google Research, Attention Is All You Need，https://arxiv.org/pdf/1706.03762.pdf

[2] 2019.11，澎湃新聞，《深度：誰是AI開源世界之王？》，https://www.thepaper.cn/newsDetail_forward_4931100；

[3] 2021, OpenAI, Learning transferable visual models from natural language supervision中文版，https://zhuanlan.zhihu.com/p/432590298；

[4]2022.09，AI 科技評論，最近大火的DiffusionModel，首篇擴散生成模型綜述，https://mp.weixin.qq.com/s/RPKEsnZmq-V5kxYt67U6PA；

[5] 2022.11，知乎，《Stable Diffusion原理解讀》，https://zhuanlan.zhihu.com/p/58456272；

[6] 2022.11, Deephub，《Stable Diffusion的入門介紹和使用教程》，https://zhuanlan.zhihu.com/p/584562722 ；

[7] 2022.11，李rumor，讀了14篇論文，終於會拿捏Diffusion了，https://mp.weixin.qq.com/s/brvSAAmhkSKTTOXZqT0HKQ；

[8]2022.11，騰訊科技，《一文讀懂AIGC：萬億新賽道為何今年獲得爆發？》，https://mp.weixin.qq.com/s/Sid6BbRqmJbcaCCmLFJJoA;

[9] 2021，浙江人民美術出版社，《圖畫史：從洞穴石壁到電腦屏幕》

[10] 2022，電腦知識與技術，《Transformer 研究概述》，https://www.zhihu.com/market/paid_magazine/1512515556967710720/section/1512515783565090817?origin_label=search；

本文鏈接：https://www.8btc.com/article/6792632

轉載請註明文章出處

從圖畫史看 AIGC，我們用 AI 作了100幅畫

我們用 AI 畫了100張畫

AI 作畫帶來的衝擊和變革

AI 作畫背後是什麼？

AI 作畫會取代畫師嗎？

相关推荐