從AI畫畫到“用聲音做視頻”,全球掘金AIGC

作者 | 鄧詠儀 編輯 | 蘇建勛

來源:36氪

從AI畫畫到“用聲音做視頻”,全球掘金AIGC

圖片來源:由無界版圖AI工具生成

整個科技行業經歷了讓人疲憊的2022年。但在下半年裡,AI來了個華麗的返場——

登台的新寵兒名為“AIGC”,又稱“生成式AI”(Generative AI)。這一領域正以令人側目的速度發展,將創新和技術再度拉回到世界舞台的焦點。

今年4月,一家名為Open AI的公司公布旗下的DALL-E 2模型,其用文字生成圖像的質量之高,讓人震驚——以前,“AI畫畫”還只是一小群人的遊戲,AI畫出來的畫,像出自小學生之手一樣樸實稚拙。

但很快,大家發現AIGC進步神速。僅僅過了4個月,一名遊戲設計師憑藉AI模型Midjourney畫出來的一幅畫,奪取知名藝術大獎,這惹來爭議一片。

從AI畫畫到“用聲音做視頻”,全球掘金AIGC

獲獎作品《太空歌劇院》

而剛過去的10月,AIGC的另一家代表公司Stability.AI,僅僅成立2年,就宣布完成1.01億美金的種子輪融資,估值達10億美金,步入獨角獸行列。

AI領域沉寂太久了。上一次AI吸引巨大的公眾關注度,還要追溯到2016年——AlphaGo在圍棋比賽中最終擊敗韓國國手李世石。過去幾年裡,AI有點像科技圈裡的過氣網紅,技術上少有讓大眾驚喜的進展。在國內,AI公司的更多新聞是上市受挫、盈利遙遙無期。

如今,AIGC接棒AlphaGo,帶着全新的故事歸來。

最新的進展是,AIGC已有強勁的商業化苗頭。一家名為Jasper的公司,用AI幫助企業和個人客戶寫社交媒體、博客等內容。Jasper最近宣布,今年收入預計近億美元,這距離這家公司成立僅過去18個月。

浪潮已然來臨。AIGC已處在爆發前夜,一個技術和商業化交匯的路口。巨大的關注度背後,是整個產業鏈的蓄勢待發,摩拳擦掌。

AI重歸舞台中心,大廠小廠齊下場

以AI生成文字、圖像、音頻等內容,是已經存在已久的深度學習方向。在2017年,一副由AI學習大量畫作,最後“模仿”生成的作品,就已經在佳士得進行拍賣出超過40萬美元的價格。

但從今年開始,各種各樣的AI繪畫應用,如同雨後春筍一般冒出。無論是大廠小廠,都像約好了一樣發布AI繪畫產品:2月,Disco Diffusion推出AI圖像生成平台;7月,微軟旗下的Open AI推出新模型WALL-E2,並進行公測;8月,Stability AI推出Stable Diffusion,並開放註冊……

與2017年時相比,現在的AI畫畫到了“Text-to-Image”(文字生成圖像)的新階段。即用戶描述畫面中的內容、風格、材質、位置等,提供一個詞群(如深邃的太空、達利畫風、遠景),機器就能進行解析,最後輸出一張畫作。

在以前,人們普遍意義上感受到AI的技術改革,很大程度都是在於一些決策性行為,如識別人臉(是否符合本人)、下棋(如何得出最優解)等等。

而“輸入文字-AI畫畫”的最大不同,在於底層的AI模型的學習模式是發散性的——簡而言之,是通過對文字、圖片、數據等信息的學習,AI要自己開始“模仿”和“創造”新的東西。這大大降低了人們的創作門檻。

AI繪畫能發展如此之快,原因首先在於,前幾年全球科技行業斥巨資和大量人力,大練“AI大模型”,為之打下基礎。

AI大模型,顧名思義,即是擁有巨大樣本量的模型。2017年,Transformer結構的提出,讓得深度學習模型參數突破了1億。隨着深度學習技術發展,模型中的數據量,更是逐步到了十億級,再到百億級。

以前用於訓練AI畫畫的著名對抗生成網絡模型“GAN”,就是一個百億級的大模型。但以前,GAN學習畫畫的模式,只能做到無限接近原作的模仿,而不是創新。

從AI畫畫到“用聲音做視頻”,全球掘金AIGC

來源:Stability.AI

真正讓AI繪畫取得突破的,是幾家AI公司的接力,包括Open AI和Stability.AI在內的公司,將深度學習模型CAN、Diffusion等,和GAN模型進行了創新性的結合——相當於讓AI換了一種學習畫畫的方式。這才讓AI畫畫真正擺脫了模仿,走向“創造”之路。

而此前的AI繪畫要耗費大量算力,動輒半天一天的生成時間。Stability.AI又在新模型上改進機器運算的方式,大大壓縮了所需內存和空間——從一天出圖,到以秒出圖,對硬件要求也降到極低,C端用戶才能無障礙地進行創作。

AI生成內容的星星之火開始燎原,現在新戰場已經從圖像走到了視頻領域。9月,Meta、 Google都公布了自家的AI生成視頻技術進展。比如Meta的Make-A-Video技術,就能夠讓平面上的物體短暫地“動起來”。

從AI畫畫到“用聲音做視頻”,全球掘金AIGC

來源:Meta

美麗新世界里,誰能淘到第一桶金?

9月,紅杉資本發表了一篇名為《生成式AI:一個充滿創造力的新世界》(Generative AI: A Creative New World)的文章。紅杉在文中表示,生成式AI,讓機器開始大規模涉足知識類和創造性工作,這涉及數十億人的工作,未來預計能夠產生數萬美元的經濟價值。

AIGC其商業前景看起來很誘人,這可遇不可求。比起VR/AR、新能源車等領域,尚在市場教育早期,要投入大量的教育成本。而AIGC只需算力稍微強勁一點的電腦,未來甚至可以跑在雲上,其內容生成的邊際成本無限接近於0。

巨大的商業空間已經顯現——在寫作、設計、影視、廣告等多個領域,AI相當於可以作為人類的“副手”,可以快速提供一些最為基本的創意指導。

但AIGC無限拓展和輸出的特性,也伴隨着人們的擔憂:商業壁壘到底在哪裡?

市面上已有不少關於“調包俠”的討論。如今市面上所有的AI繪畫產品,基本都是基於幾個開源模型開發。內核不變,只簡單搭殼的情況下,調用的都是類似的模型。若都給AI喂類似的數據,這些產品輸出的結果,是否也會逐漸趨同?

大廠們在算力、數據訓練上投入多年,底層基礎設施註定是大公司的遊戲。不過,由於大廠間內卷得厲害,成本在急速下降。據一家美國風投機構NfX統計,在過去2個月中,AI生成圖像的成本下降了100倍。

顯然,底層技術和模型無法成為壁壘。應用層的競爭已經開始——想要讓AIGC打開商業新局面,真正達到規模化,市場需要一個殺手級的應用。

NfX創始人James Currier在博客里舉例——Facebook成立時,市面上有50個和它一樣,有着相同功能的產品。但Facebook最巧妙的選擇在於,從哈佛大學的學生群體開始推廣,最終吸引到各個大學的學生競相跟隨。

淘到第一桶金的AIGC公司也很類似,他們大多抓住了不錯的垂直場景。比如Copy.AI,從公司成立開始就看準廣告營銷場景,讓AI幫助客戶優化營銷場景中的文案等內容。Copy.AI商業化進展迅速——兩年內的ARR(年度經常性收入)就已經達到1000萬美元。

遠在大洋彼岸的AIGC熱潮,同樣點燃了國內市場的熱情。

7月,百度就在百度世界大會上,用了“1秒”復原了《富春山居圖》殘卷——背後依託的正是千億級的AI大模型“文心”。

除了百度,在創業公司方面,也已經有彩雲小夢、Tiamat、蜜度、6pen、MuseArt等公司,其中不乏已經投入數年的公司,他們覆蓋了文字、圖像等方向。今年,他們也成了VC圈的新任香餑餑。

但國內的技術發展和商業化處在更早期。國內市場上已經有層出不窮的AI繪畫小生意,比如在抖音、閑魚等平台開展代畫服務,提供詞組調試攻略等等,很多人聲稱“AI畫畫,月入過萬”。但這些生意都相對邊緣。

短期內,AIGC還是要依靠企業端,才能有足夠資源支撐起底層技術的快速迭代。尤其對國內而言,中文數據的NLP(語義識別)比英文更為複雜,要做中文版的AI生成技術,不是簡單漢化就能夠解決問題。像百度和清華的AI模型均為自研,底層模型的訓練成本還處在高位。

在一位AIGC觀察者者的博客中,一家創業公司MuseArt的創始人曾提及:每次訓練AI模型的成本都在2萬元左右,通過收取C端用戶費用,根本無法覆蓋這麼巨大的支出。而近期剛剛完成融資的國內AIGC平台TIAMAT,也宣布已經和多個龍頭遊戲企業、廣告平台合作。

現在AIGC在載體上沒有太多桎梏。在尋求商業化的路上,未來它更多要解決的是法律、監管以及倫理問題。前不久,日本繪畫AI平台“mimic”上線,很快遭到眾多日本畫手抵制,聲明“禁止AI學習自己的畫作”。現在,包括Stability在內的平台,也正在捲入版權等不少爭議。

AI繪畫讓人類一窺技術能夠創造的未來圖景,這足夠讓人激動,只是它還需更多時間完善自身。對感興趣的人來說,對技術進步抱以更大的寬容,保持關注,或許才能更好地讓AI為己所用。

正如Stability.AI的slogan所言——“AI by the people, for the people”。

本文鏈接:https://www.8btc.com/article/6785258

轉載請註明文章出處

(0)
上一篇 2022-11-02 11:10
下一篇 2022-11-02 11:50

相关推荐