AI作畫爆火，捧出多個新晉獨角獸

來源：“智東西”（ID：zhidxcom），作者：ZeR0

人工智能（AI）創作，怎麼突然就成了AI領域最熱門的話題？

AI作畫拿大獎的熱議事件才沒過多久，這周，兩家AI生成內容企業相繼官宣過億美元新融資。最近爆火的Stable Diffusion模型，其背後公司Stability AI宣布獲得1.01億美元融資，投后估值達 10億美元 ；明星AI內容平台創企Jasper亦宣布獲1.25億美元新融資，估值達 17億美元 。

投資界對AI的熱情正在回升。這是一個方興未艾的賽道，正大舉挖掘AI的創造力潛能—— AI算法在消化大量圖像、視頻、文本后，能學會創作詩歌、文章、繪畫、照片、視頻等原創內容，其作品甚至能做到“以假亂真”，乃至被高價拍賣。

▲今年9月，AI畫作《太空歌劇院》奪冠科羅拉多州博覽會數字藝術創作類比賽

掀起AI創作熱潮的鼻祖級“以文生圖”模型DALL·E背後的頂級AI創企OpenAI，亦被爆料正與微軟談判，想再拿一筆新融資。

此前OpenAI估值已接近200億美元。據外媒The Information今日報道，一位直接了解OpenAI財務狀況的人士透露，該公司有望在 今年創收數千萬美元 。這意味着OpenAI去年的估值可能是2022年預測收入的500至800倍。

同樣在這周，做AI音視頻編輯的創企Descript，被傳就新一輪融資開始與OpenAI CEO Sam Altman等投資者進行談判。

連藝術圈都開始熱議，AI創作，這是要搶走繪圖師的飯碗？

01.AI商業化新生意，明星創企迅速躥紅

今年大火的AI生成圖像，滿打滿算，其實嚴格意義上才起步大約兩年。

2020年7月，馬斯克參與創辦、微軟力捧的國際頂級AI研究機構OpenAI公布Image GPT模型，將在自然語言處理上取得突破性成就的Transformer模型引入圖像補全及生成任務。

在此基礎上，OpenAI於2021年1月推出了一個堪稱圖像版GPT-3的“炸圈”之作——能“以文生圖”的全新AI模型DALL·E。只需輸入文字描述，DALL·E就能畫出符合要求的一系列備選圖像。

▲輸入文本“穿芭蕾舞裙遛狗的蘿蔔”、“牛油果形狀的扶手椅”、“將上部的圖片素描化”，DALL·E分別生成對應圖像

這個開啟了多模態學習的重磅研究成果，在AI學術界引起軒然大波。

此前，人們主要用GAN（生成對抗網絡）算法來訓練會創作的AI，但這種算法訓練難度較高，而且很快遇到瓶頸。隨後科學家們轉換思路，將2015年誕生的擴散模型（Diffusion Model）引入到圖像生成，DALL·E的出場，驗證了這個新方法的可行性，並掀起新的研究熱潮。

▲擴散模型根據“油畫畫布上的龍”提示詞生成的樣本

緊接着工業界就開始“卷”起來。從谷歌、百度等科技巨頭到一眾創企，紛紛入場為AI創作站台。

其中最具代表性的4個“以文生圖”里程碑之作，均於今年誕生，分別是Midjourney、DALL·E 2、Imagen和Stable Diffusion。

2022年3月，AI圖像生成平台Midjourney啟動Beta版本測試；4月，OpenAI乘勝追擊推出二代AI以文生圖工具DALL·E 2，以4倍分辨率生成更逼真、更準確的圖像；5月，谷歌公布用PyTorch實現的以文生圖SOTA模型Imagen……

▲DALL·E 1與DALL·E 2生成圖像對比

但直至此時，AI創作仍是一個不算出圈的話題，真正將其推向高潮的關鍵變量，是Stable Diffusion。

今年8月，基於擴散模型的開源模型Stable Diffusion橫空出世。相較不對外開放的谷歌Imagen、限制免費作畫數量的DALL-E，Stable Diffusion面向公眾免費開放，上手幾乎沒有門檻，用戶使用消費級顯卡就能實現DALL-E 2級別的圖像生成，且據稱生成效率可提高30倍。

從此AI作畫開始在網上爆紅，每天都有海量網友蜂擁而至，甚至連特斯拉前AI和自動駕駛主管Andrej Karpathy都一連沉迷好幾天，在推特上不停曬用Stable Diffusion生成的作品。

▲Andrej Karpathy在8月連發Stable Diffusion相關推文

目前Stable Diffusion的各渠道累計日活用戶超千萬，已經吸引超過20萬開發者。

為Stable Diffusion提供算力的是Stability AI，這家創企就憑藉這麼一個“爆款”開源模型，最新拿到1.01億美元融資，躋身獨角獸企業之列。

Stability AI創始人兼CEO Emad Mostaque是個在英國長大的印度人，2005年畢業於牛津，是一位連續創業者，2020年創辦Stability AI的目標就是為了在學術和產業界之外打造第三極，為AI研究掃清障礙，實現AI技術的真正普及化。

結果如其所願，Stable Diffusion被讚譽為“開源炸彈”，Stable AI也被視作有望撼動OpenAI江湖地位的一匹“黑馬”。

▲Stability AI創始人兼CEO Emad Mostaque

據悉，Stable AI現有103人，計劃擴張到300人，其算力目前用的是在亞馬遜雲科技（AWS）上租用的4000台英偉達旗艦計算卡A100 GPU。Emad在近期接受採訪時透露，Stable AI已經簽訂了很多合作訂單，盈利能力超過大多數賠錢的大公司，明年還打算資助100個AI方向的博士。

另一家本月拿到1.25億美元新融資的AI內容生成創企Jasper，此前已經推出用AI生成博客文章、社交媒體帖子、網站副本等的多種功能，它的Jasper Art系統同樣可以根據文字生成不同風格的圖像。

▲Jasper Art系統演示，Jasper Art鏈接：https://www.jasper.ai/art

02.輕鬆上手零門檻，生成作品視效驚艷

在科技巨頭、明星創企們的推動下，AI自動生成內容的上手門檻正變得越來越低。

經典的DALL·E 2已開放測試版，它可以結合文本描述生成風格迥異的圖像，兼顧到陰影、反射和紋理細節，還能在生成圖像中增刪元素。它還有一個大招，是能將圖像擴展到原始畫布之外，創建廣泛的新構圖。

DALL·E 2鏈接：https://openai.com/dall-e-2/

還有更易上手的DALL·E迷你版——Craiyon，由谷歌和Hugging Face的研究員們開發。用戶可以直接在網絡瀏覽器搜索框中輸入文字描述，讓AI生成各種神奇的畫作。

Craiyon鏈接：https://www.craiyon.com/

據其創始人Boris Dayma透露，自2021年7月推出以來，Craiyon每天生成約1000萬張圖像，增加了多達10億張以前不存在的圖像。

今年7月，百度也特別展示了基於其文心大模型1秒“補全”真跡遭焚毀的中國傳世水墨名畫《富春山居圖》。網友只要在百度APP搜索“富春山居圖”，在空白處勾勒幾筆，就能用AI補全自己心中的《富春山居圖》。

▲在百度APP用AI“補全”《富春山居圖》

再比如今年8月斬獲科羅拉多州博覽會數字藝術賽道大獎的Midjourney，用法也非常簡單，在對話框輸入文字描述，就能立即獲得由AI生成的4張草圖。4個“U”按鈕可以將對應序號圖片的尺寸變大，增加更多細節；“V”按鈕可以按照對應序號圖片，再生成4張風格近似的衍生草圖。

Midjourney鏈接：https://www.midjourney.com/

不過，AI的發揮並不穩定，有時秒出神圖，有時成品也犯一些低級錯誤。

不管怎麼說，AI作畫拿大獎、賺大錢的事，確實令不少藝術創作者為此破防，十年寒窗苦讀，結果一朝被AI分分鐘生成的作品打敗。

雖然現階段AI仍然主要靠“模仿”，在“悟性”上沒法媲美人類，參透不了藝術的靈魂，但頂尖AI算法創作的不少文字、圖像乃至視頻，在許多外行眼中，已經很難分辨出與人類作品的差別。

目前，已經有很多日常消費的視覺類商品，比如海報、插圖等，是由AI創作生成的。

還有一些公司另闢蹊徑，從這股熱潮的細分環節覓得商機。

正如前文提到的，AI生成作品的質量，一定程度上取決於你的文字描述，這個文字描述過程簡稱為“提示詞”。如果“提示詞”寫的好，AI創作的效果就會更加令人滿意。

比如今年6月成立的PromptBase，就是一家靠兜售AI繪畫工具“提示詞”發家致富的公司。用戶可以從PromptBase這裡花1.99美元買一個“提示詞”，將其複製到DAll·E、Midjourney、Stable Diffusion等平台，就能生成質量上乘的作品。

PromptBase鏈接：https://promptbase.com/

科技巨頭、明星創企們，還在繼續將AI創作的實力“卷”向新的高度。

比如過去一個月，Meta和谷歌接連發布AI生成視頻的研究進展。

Meta AI在9月29日公布的AI系統Make-A-Video，基於幾百萬個視頻和23億張圖片訓練而成，能根據給定的一段話，生成一個時長几秒鐘的短視頻。

▲Make-A-Video生成的“畫自畫像的泰迪熊”短視頻，Make-A-Video鏈接：https://makeavideo.studio/

繼承Imagen，谷歌的Imagen Video模型能生成1280 x 768分辨率、每秒24幀的視頻片段，而且能按需生成不同的藝術風格，比如水彩畫、像素畫、梵高風等。

▲Imagen Video生成的一些視頻片段，Imagen Video鏈接：https://imagen.research.google/video/

論文鏈接：

https://imagen.research.google/video/paper.pdf

谷歌的另一款AI生成視頻模型Phenaki，亦可以切換視頻整體風格，而且還能根據200個詞左右的文字描述，生成2分鐘左右的視頻，並在文本描述中補充添加劇情，形成一個完整的故事。

▲Phenaki生成2分鐘視頻的片段：鏡頭對準了辦公室里獅子的臉，聚焦到辦公室里穿着深色西裝的獅子，Phenaki鏈接：https://phenaki.video/

論文鏈接：https://arxiv.org/abs/2210.02399

按這樣下去速度發展下去，即將破防的，估計就不只是繪畫師了。

03.版權爭論不休，偏見問題難解

隨着各種AI生產力工具出爐，AI創作的門檻被不斷拉低，一些投資者對AI生成內容模型的期待值越來越高，甚至將其視作極大擴張AI普及範圍的潛在變革工具。

但其商業化道路前方，還橫亘着不少難題，最大的爭議點就在於版權與偏見。

按原理來說，AI創作是“從無到有”，通過消化大量數據，生成現實世界中原本並不存在的東西，理應不存在侵犯版權的問題。

但實際上，因為AI學習的訓練數據集過於龐大，就連造出這些AI工具的研究人員都沒法保證，AI不會誤拿一些商用需付費的資源，或者不會產生任何侵犯肖像權、商標權等侵權行為。

例如，Stable Diffusion生成的一些圖像似乎帶有水印，說明它的原始訓練數據集中有一部分圖像應該是受版權保護的。

對此，Getty Images、Shutterstock等知名付費圖庫紛紛封禁AI生成圖片，停止接收所有由Stable Diffusion、DALL·E 2、Midjourney等AI模型生成的畫作。

與種族、性別歧視相關的偏見，更是AI領域長期以來爭論不休的“重災區”。在國外，很多訓練時沒有考慮到偏見問題的AI工具，在生成人類形象時，會默認生成歐美白種人、男性形象。

這些問題，都令AI創作在通往落地的路上背負着沉重的枷鎖。

長期裹挾在隱私倫理爭議中的谷歌，對AI生成工具一直持謹慎態度，基本上都是只發論文公布研究成果，沒怎麼將AI模型對外開放。

OpenAI也不斷改進其安全措施，包括通過從訓練數據中刪除存在偏見、負面傾向的數據，避免DALL·E 2生成暴力、仇恨、色情、政治類圖像。該創企還採用先進技術以及自動化和人工監控系統，來防止AI技術被濫用。

Stability AI創始人Emad Mostaque則不覺得關於模型的負面影響源頭是技術的問題，認為技術無好壞，人類的使用方式才分善惡，“當人們心理健康時，好事總是遠超任何負面的事，現實中，人們會慢慢習慣這些模型。”

但不管怎麼說，在我們尚且無法確保能夠引導AI應用走在正道上時，通過法規進行相關行為、用途的約束還是非常必要的。

此外，開源在催化AI創作應用熱潮的同時，也降低了技術開發門檻，專註於此的企業們如何在特定領域尋找及培養付費意願強的消費習慣、如何形成長期競爭力，仍有待時間給出答案。

04.結語：探索AI，需長期主義的堅持

近年來，隨着AI泡沫破裂論聲勢漸長，圍繞AI落地商用價值的探討逐漸佔據主流，資本似乎對短期內看不見盈利前景的故事失去了耐心。

但儘管短期內落地進程觸達瓶頸，AI的長期價值不應被武斷否定。能夠改寫未來的顛覆式技術，總是需要時間的沉澱。迄今我們仍不知道現有的算法是否會是走向通用AI的正確途徑，然而道路雖遠，行則將至，如今AI生成內容產業的日趨繁榮，也許能將人們對AI的關注重點與信心拉回到技術範式革新所帶來的長遠價值。

至少現在，遠未到對AI失去期待的時刻。

本文鏈接：https://www.8btc.com/article/6783912

轉載請註明文章出處

AI作畫爆火，捧出多個新晉獨角獸

01.AI商業化新生意，明星創企迅速躥紅

02.輕鬆上手零門檻，生成作品視效驚艷

03.版權爭論不休，偏見問題難解

04.結語：探索AI，需長期主義的堅持

相关推荐