藝術不死，只是以生成 AI 的形式存在

原文: A16z，由 DeFi 之道翻譯編輯

圖片來源：由無界版圖 AI 生成

為什麼人工智能（AI）模型會在取代程序員之前先取代藝術家。

也許我們從生成人工智能（generative AI）中看到的最令人費解的含義是，與“創造力將是人類獨創力的最後堡壘”的普遍觀點相反，實際上將相當困難的創造性任務自動化似乎比將相對簡單的編程任務自動化要容易得多。為了理解這一點，我們比較了兩個更流行的生成 AI 用例：代碼生成和圖像生成。但我們相信這種說法更普遍，即使生成模型擴展到更複雜的應用程序也是如此。

簡單來說，雖然像 GitHub Copilot 這樣的產品，在其當前形式下，可以使編碼更高效，但它並不能消除對具有編程知識的有能力的軟件開發人員的需求。一個重要原因是，在構建程序時，正確性真的很重要。如果 AI 生成一個程序，它仍然需要人來驗證它是否正確——這項工作的重要程度幾乎與開始創建它的水平相同。

另一方面，任何會打字的人都可以使用像 Stable Diffusion 這樣的模型在幾分鐘內生成高質量、獨一無二的圖像，而且成本要低很多個數量級。創造性的工作產品通常沒有嚴格的正確性約束，模型的輸出非常完整。很難不看到依賴創意視覺的行業發生全面的相變，因為對於許多用途而言，人工智能現在能夠產生的視覺效果已經足夠了，而我們仍處於該技術的早期階段。

我們完全承認，按照該領域的發展速度，很難對任何預測充滿信心。不過現在，我們似乎更有可能看到完全由程序員創建的充滿創意圖像的應用程序，而不是完全由創作者構建的具有人工設計藝術的應用程序。

為什麼炒作，為什麼是現在？

在我們深入了解代碼生成與圖像生成的具體細節之前，了解一下目前 AI 整體現狀和生成 AI 的流行程度是很有用的。

生成 AI 正以前所未有的速度被開發人員採用。在我們撰寫本文時，Stable Diffusion 輕鬆遙遙領先於 GitHub 存儲庫的趨勢圖表。它的增長遠遠領先於基礎設施或加密領域的任何最新技術（見上圖）。幾乎每天都有使用該技術的初創公司的啟動和融資公告，在線社交網絡上充斥着由生成模型創建的內容。

過去十年對人工智能的總體投資水平也不容小覷。自 2010 年代中期以來，我們已經看到僅出版物的數量就呈指數級增長（見下圖）。今天，arXiv 上發布的所有文章中約有 20% 是關於 AI、ML 和 NLP 的。重要的是，理論成果已經跨越了一個臨界閾值，它們變得易於使用，並引發了新技術、軟件和初創公司的寒武紀大爆發。

上圖中最近的峰值主要是由於生成人工智能。在短短十年內，我們已經從可以對圖像進行分類和創建詞嵌入的專家專用 AI 模型，發展為可以編寫有效代碼並使用自然語言提示創建非常準確圖像的公開可用模型。創新的步伐剛剛加快也就不足為奇了，當生成模型開始侵入曾經由人類主導的其他領域時也就不足為奇了。

生成 AI 和編程

生成 AI 的最早用途之一是作為程序員的輔助。它的工作方式是在大量代碼庫（例如 GitHub 中的所有公共存儲庫）上訓練模型，然後在程序員編碼時向他們提出建議。結果非常出色。如此大量的使用使這種方法有望成為未來編程的代名詞。

生成的代碼：防止不使用分號而遭受的攻擊。

然而，相對於我們將在下面介紹的圖像生成，生產率的提高並不大。如上所述，部分原因是正確性在編程中至關重要（實際上是更廣泛的工程問題，但我們在這篇文章中專註於編程）。例如，最近的一項研究發現，對於匹配高風險 CWE（常見弱點枚舉）的場景，40% 的 AI 生成代碼包含漏洞。

因此，用戶必須在生成足夠的代碼以提供有意義的生產力提升與仍然限制它以便檢查正確性之間取得平衡。因此，Copilot 幫助提高了開發人員的工作效率——最近的研究（這裡和這裡）將收益提高了 2 倍或更少——但達到了我們在開發人員語言和工具之前的進步中看到的水平。例如，根據一些估計，從彙編語言到 C 語言的跳躍將生產率提高了 2-5 倍。

對於更有經驗的程序員來說，關注點可能會超出代碼的正確性並擴展到整體代碼質量。正如 fast.ai 的 Jeremy Howard 就最新版本的 OpenAI Codex 模型所解釋的那樣，“它編寫冗長的代碼是因為它生成的是平均代碼。對我來說，將普通代碼變成我喜歡並且我知道是正確的代碼比從頭開始編寫要慢得多——至少在我熟悉的語言中是這樣。”

因此，雖然很明顯生成編程是開發人員生產力的階躍函數，但尚不清楚這種改進與我們之前看到的有很大不同。生成 AI 可以培養更好的程序員，但他們仍然必須進行編程。

生成 AI 和視覺效果

另一方面，生成模型對圖像生成等創造性工作輸出的影響是極端的。它在效率和成本方面帶來了許多數量級的改進，並且很難不看到它在整個行業範圍內帶來階段性轉變。

生成 AI 在這個領域的工作方式是從用戶那裡獲取簡單的文本輸入，稱為提示（promts），然後模型生成視覺輸出。目前，有用於創建許多輸出格式的模型，包括圖像、視頻、3 D 模型和紋理。

特別有趣的是如何擴展這些模型以生成新的或特定領域的圖像，而幾乎沒有創造性的干預。例如，Guido（作者之一）採用了預訓練圖像模型，並在他自己的幾十張照片上對其進行了重新訓練。從那裡，他能夠在提示中使用 <guido> 生成圖片。以下是根據以下提示生成的照片：“<guido> 美國隊長”、“<guido > 在巴黎”、“<guido> 在油畫中”。

在商業環境中，圖像生成與代碼生成的巨大差異在於生成式 AI 在多大程度上改變了經濟計算。為了創建上述圖片，Guido 在基礎設施資源上為幾張照片花費了大約 0.50 美元來訓練模型。經過訓練后，生成圖像的計算資源成本約為 0.001 美元，可以在雲端或最新一代筆記本電腦上完成。此外，生成圖像只需幾秒鐘。

如果沒有生成 AI，獲得自定義圖像的唯一方法是聘請藝術家或自己動手。即使我們假設一個人可以在一小時內以 10 美元的價格創建完全定製的逼真圖像，生成 AI 方法也很容易便宜四個數量級，速度也快一個數量級。更現實地說，任何定製藝術品或圖形設計項目都可能需要數天或數周時間，並且將花費數百甚至數千美元。

與上述編程輔助工具類似，生成 AI 將被藝術家用作一種工具，兩者都需要一定程度的用戶監督。但是，很難誇大圖像模型模仿完整藝術家輸出的能力所產生的經濟差異。使用代碼生成模型，即使編寫執行標準計算任務的非常基本的功能程序也需要審查、編輯和添加許多代碼片段的測試。但對於一個基本圖像，輸入 promt 並從十幾個建議中挑選圖像可以在一分鐘內完成。

以我們自己的漫畫家（和投資夥伴）Yoko Li (@stuffyokodraws) 為例。我們使用她之前的 70 張圖像訓練了一個模型，該模型能夠生成具有令人毛骨悚然的模仿水平的圖像。每個藝術家都必須弄清楚下一步要創作什麼，她甚至發現經過訓練的模型可以呈現出比她想象的更多的選擇——至少在給定時間段內被迫生產某些東西時是這樣。繪製同一對象的方法有數百種，但生成模型可以立即明確哪些路徑值得探索。

因此，當涉及到此類任務時，我們並不是說計算機在 1:1 的基礎上一定比人類更好。但與許多其他任務一樣，當計算機可以產生完整的工作輸出時，它們會在規模上秒殺我們。

試着猜猜下面哪些圖是 Yoko 直接畫的，哪些是生成的。