AI 可以取代你的工作嗎？從原理分析“AI 生成”圖像的秘密

圖片來源：由無界 AI工具生成

來源：少數派

作者：Xenogeneic

作為一個非職業的攝影愛好者，我通常會在 Instagram 上面搜羅各種各樣的優質圖片並將其放進我的收藏夾。其中，有一位我關注了很久的德國攝影師，他的作品有很多值得我學習的地方。

在經歷了一段時間因 ChatGPT 帶來的職業發展焦慮后，我開始有意無意地在生活中關注 AI 相關的消息。當我回看我的收藏夾，我驚訝地發現發現自今年一月份以來，這位德國攝影師發布的大部分照片都是由 AI 生成的。而我在收藏和欣賞這些圖片的時候，居然一點也沒有察覺出這些圖片是 AI 製作的。

圖片來源：Instagram freaksplace，由 AI 生成

所以我想在這篇文章里和大家一起聊一聊 AI 圖像生成的原理、過程，以及我是怎麼看待 AI 圖像生成這股浪潮的。

▍AI 生成圖片的原理

生成與轉換：AI 繪畫的兩大核心算法

AI 繪畫的原理並不是簡單地將多個圖片數據拼接在一起所生成的圖像。與 ChatGPT 的本質邏輯相似，AI 繪畫生成圖片的過程是通過對訓練數據的學習，讓 AI 模型能夠理解和提取圖像的基本特徵、結構和樣式。

然後，根據給定的描述或關鍵詞，嘗試在新的圖像中融合和組合這些特徵，以生成與輸入相關的圖像。完成這一任務的兩種核心算法分別是生成模型和轉換模型。

生成模型：生成對抗網絡（GAN）

生成模型是一種能夠根據給定條件生成新數據的算法。在 AI 繪畫中，生成模型通常採用生成對抗網絡（generative adversarial networks, GAN），其中包括兩個神經網絡：一個生成器和一個判別器，生成器負責生成新圖像，判別器則評估生成器的性能。通過反覆訓練生成器和判別器，生成模型可以逐步提高生成圖像的質量。

簡單來說，生成器負責學習並嘗試生成新的圖像，而判別器則會對生成的圖像進行判定。這種生成器和判別器之間的競爭與對抗關係促使生成器不斷改進其生成能力，從而創造出更加逼真和高質量的圖像。

除了 GAN 對抗模型以外，還有一種擴散模型（Diffusion）同樣可以生成圖像。

擴散模型的核心思想是通過向原始圖像添加噪聲，將其擴散到一個噪聲圖像，然後逐步從噪聲圖像中還原原始圖像。在接受訓練后，模型學會接受用戶提供的文本提示，創建低分辨率圖像，然後逐漸添加新細節以變成完整圖像。

轉換模型：卷積神經網絡（CNN）

轉換模型用於將輸入圖像轉換成另一種風格的圖像。在 AI 繪畫中，轉換模型通常採用卷積神經網絡（convolutional neural network, CNN）實現。

這些模型通過學習如何將輸入圖像轉換為特定的風格，例如梵高的星空或畢加索的風格。模型的訓練通常依賴於擁有大規模圖片數據的訓練數據集，例如 ImageNet 和 COCO 數據集。

以 ImageNet 數據集為例，目前最新的版本是 ImageNet-21K，該數據集包含 21841 個物體類別，共有超過 2100 萬張圖片。其中，訓練集包含超過 1400 萬張圖片，驗證集包含超過 5 萬張圖片，測試集包含超過 10 萬張圖片。

ImageNet 的物體類別包括各種動物、物體和場景等，如動物類別包括「狗」「貓」「鳥」等，物體類別包括「汽車」「椅子」「電視」等，場景類別包括「海灘」「山脈」「公園」等。每個物體和場景類別都有大量的圖片來支持模型的訓練和評估，這些圖片都是高分辨率的彩色圖片，具有不同的角度、光照、背景等多種變化。

圖像字幕技術：讓 AI「看懂」圖片

圖像字幕技術（Image Captioning）指的是通過深度學習算法生成圖像文本描述的過程。

圖像字幕的過程通常涉及將圖像輸入神經網絡，該網絡提取相關的視覺特徵，然後生成描述這些特徵的單詞序列。神經網絡是在大量圖像及其相應字幕的數據集上訓練的，使用卷積神經網絡進行圖像分析，並使用遞歸神經網絡（recurrent neural network, RNN）生成文本。

簡單來說，就是讓計算機「看懂」一張圖片，然後自動為這張圖片生成一句話的描述。神經網絡會通過對圖像中的物體、場景、動作等元素進行識別和分析，並利用語言模型將圖像的內容轉化為文本。例如，對於以下這張圖片，AI 會生成類似於「一隻狗在草地上奔跑」的描述。

當然，這只是舉了一個簡單的例子，而計算機提取的特徵比我們想象的要多得多。比如，對於圖二中奔跑的邊牧，計算機在使用圖像字幕技術時，不僅會對圖像進行特徵提取，還會識別出狗的形狀、大小、肢體運動等特徵，並將其轉換為文字描述。

在訓練過程中，圖像字幕技術會接收大量的圖像，如模糊的邊牧、有殘影的邊牧、歪頭撅屁股的邊牧。經過大量訓練后，技術可以生成相關的文字標籤，形成準確的判斷和生成，從而實現真正的「看懂」效果。

▍AI 如何將圖像中提取出的文字特徵組合在一起？

事實上，文字、詞語或是詩句等文字描述對於 AI 來說還是太過於抽象，它們目前來說並不能像人一樣理解。這時就需要將文字、文本、詞彙等非連續性數據轉化為計算機可以處理的連續型數據。

簡而言之，這意味着將不可計算和非結構化的文字描述、詞彙等轉換為可計算和結構化的嵌入向量。

嵌入向量（Embedding Vectors）是一種技術，可以將離散符號（例如單詞、標籤等）轉換為連續的實數向量。通過學習得到的嵌入向量，計算機能夠更好地理解符號之間的關係，從而實現各種任務，例如語言翻譯、情感分析、推薦等，並保留符號之間的語義相似性。

常見的詞嵌入向量模型用於表示單詞的語義信息。例如，Google 的 Word2Vec 模型可以給每個單詞分配一個固定長度的向量表示，這個長度可以自行設定。兩個單詞向量之間的夾角值可以作為它們之間關係的衡量。下面是一些單詞和它們對應的嵌入向量的 2D 可視化示例，可以將它們想象為空間中的三維或多維坐標來更容易理解。

兩個單詞向量之間的夾角值可以作為詞語之間關係的衡量

比如「狗」「貓」這兩個詞在 Word2Vec 中的嵌入向量非常接近，這兩個單詞的詞向量（單詞所在的點與原點連接的直線所在的向量）就離得比較近。這樣做的好處就是同義詞或者同語境的詞之間的向量就會很接近，可以保留文章的語義。

AI 繪畫對於處理嵌入向量的邏輯流程與 ChatGPT 等大型語言模型有相似之處，根據圖像特徵來尋找匹配相似詞的原理是相同的。

▍AI 如何生成圖像？

AI 生成圖像的原理其實並不複雜。在生成圖片的過程中，生成器會首先生成一個較低分辨率的圖像，然後逐漸增加細節和複雜性。每一層神經網絡都會處理不同級別的特徵，從低級特徵（如邊緣和紋理）到高級特徵（如物體和場景的組成）。

生成器的神經網絡層之間存在連接關係，這些連接使得生成器可以在不同層次上對特徵進行組合。例如，生成器可能會先確定一個場景的大致布局，然後在這個布局的基礎上添加物體和其他細節。在整個生成過程中，生成器會根據輸入的描述或關鍵詞調整特徵的組合，以創造出與輸入相關的圖像。

下面通過一個簡化的例子來說明生成器是如何將輸入的文本等語言轉換為一張包含多個特徵的圖像。

假設我們使用一個 AI 繪畫模型，輸入的文本描述是「一座雪山下的小木屋」，希望生成器能夠根據這個描述創建一張真實的圖像。當我們輸入「A cabin under a snow mountain」這句話后，AI 會將文本描述轉換為嵌入向量。類似於拆分詞語，這句話會首先被轉換為「一座」「雪山」「下」「小木屋」，並捕捉了描述中的語義信息，並將其轉換為計算機可以處理的數值形式。

首先是低級特徵生成。生成器接收到嵌入向量后，開始生成圖像。在神經網絡的較低層，生成器會處理低級特徵，例如邊緣、顏色和紋理。在這個階段，生成器會確定雪山和小木屋的大致輪廓、顏色和紋理。

接下來是高級特徵生成。隨着神經網絡層數的增加，生成器開始處理更高級的特徵，例如：物體形狀和場景組成。在這個階段，生成器會根據輸入的描述，在畫面中放置雪山和小木屋，並確定它們之間的相對位置和大小。

緊接着就是細節添加。在神經網絡的較高層，生成器會進一步細化圖像，添加更多細節。例如，生成器可能會在小木屋上添加窗戶、門和煙囪，在雪山上添加雪的紋理等。

這張圖的煙囪和樓梯的位置生成錯誤，判別器工作——修改煙囪的位置

最後完成圖像。經過生成器的多層神經網絡處理，最後得到一張包含雪山和小木屋的圖像。這張圖像將包含從低級到高級的各種特徵，使其看起來既真實又具有視覺吸引力。

▍另闢蹊徑的生成方式

OpenAI 的 DALL-E2 則提供了 AI 生成圖片另一種方式，即通過設定蒙版與區域來合成圖片。簡單一點來講，就是通過「傻瓜式」的操作讓普通人也能完成圖片合成的效果。

以這張圖為例，我覺得這個小房子太古典了，我想要現代一點的景觀，於是我就用畫筆工具將這個小房子的區域摳掉，AI 會在這片被扣掉的區域幫我重新生成圖片，例如畫一個現代一點的建築。

又比如，我覺得 AI 生成的方形圖像不符合我的要求，想要 AI 幫我補充一下畫幅，加一點極光和星空進去，我只需要再拖一個蒙板進去，並輸入一些關鍵詞就可以了。

▍那麼 AI 是攝影的未來嗎？

AI 生成圖片的進步從未停止，從最初的「一眼假」到現在的以假亂真。除非主題比較新穎和魔幻，AI 生成的圖片已經足以商業用途並且能夠達到以假亂真的效果。

我的本職工作並不是一名職業攝影師，與大多數人一樣，我的日常工作是從事數據處理，工作繁忙而且勞累。對於一個剛入行的新人來說，分配給我的任務難度不是很大，其中大多數都是簡單且具有機械重複性的勞作。

在我的工作中，擁有 ChatGPT 的提升是巨大的，極大地改變了我的工作流程。對於一個只了解編程皮毛的外行人來說，在重複而又繁瑣的工作中，我可以毫不費力地使用它來幫助我編寫程序以實現半自動化的工作流程。

對於攝影行業也是一樣，通過熟練地使用 AI 技術，足不出戶的我一天之內就可以生成幾十張還算不錯的創意圖片。對於沒有繪畫和藝術技巧的我，現在也可以發揮自己的想象力，創作出曾經只存在於我的大腦中的構想。這些想法有些超越了現實攝影的界限，有些超越了時間的跨度。曾經看似無法實現的照片和圖像作品，現在只需一瞬間就可以創造出來。

AI 創造的圖片影調很好，色彩幾乎完美。如果將這些圖片發布在 AI 繪圖出現之前的社交媒體軟件上，肯定會獲得大量點贊和好評。

但隨着 AI 圖片創意產業的加速發展，我相信很多人對於圖片質量的評判標準也將改變。這自然也帶來了新的問題，AI 生成的攝影作品是否能夠真正地稱之為攝影作品？對於未來高質量圖片的爆炸式增長，我們又該以何種標準和審美來評判一張照片是否為好照片？相機實拍的「真實」與 AI 生成的「虛擬」的界限又在哪裡？

在 AI 繪畫出現之前，我們依靠 PS 等軟件也可以完成這樣簡單的合成圖片，卷積神經網絡這種算法早已被用於 PS 的多種工具中。

舉例來說，如果我想修補一個圖像中並不存在的區域，填充工具和修補圖章會分析圖像中的紋理、顏色和其他特徵，找到與需要修補的區域相似的其他區域進行特徵提取和匹配，然後將這些相似區域的像素值與需要修補的區域像素值進行融合，以實現自然且無縫的修補效果。另外，手機上早已應用了 AI 算法，幫助我們實現影像質量的大幅提升。在我們已經擁抱算法帶來便利的時代，我們又有什麼理由拒絕 AI 生成的攝影作品呢？

想要區分所謂「真實」和「虛擬」的攝影藝術，恐怕這個界限早已模糊了。對於「人」的攝影來說，商業或非商業的照片更多的是記錄生活和捕捉那些令人感動、震撼或悲傷的瞬間。每個影像都是一個故事的載體，傳達着拍攝者的情感和觀點。以風光攝影師為例，拍攝這樣的圖片可能需要提前在谷歌地球上規劃好拍攝角度和機位，然後在野外蹲守一兩天等待合適的天氣和時間。得到滿意的 RAW 文件之後，後期製作也需要費點心思才能修出驚艷的效果。

AI 逐漸打破了創作攝影作品的繁瑣過程和普通人難以逾越的技術鴻溝，隨着攝影技術的下沉，在可預見的未來，更多的普通人可以輕鬆地拍攝或製作高質量的照片，無需實際經歷那些艱難的時刻或注入情感，也能獲得同樣令人愉悅或震撼的結果。

在未來，不受技術和器材限制的時代，也許最珍貴的攝影產物不是圖片，而是創意和思想。

本文鏈接：https://www.8btc.com/article/6811738

轉載請註明文章出處