AIGC:我不是元宇宙的附庸品

“生產力如已成熟,想象力還會遠嗎?” 

作者 | 陳彩嫻 編輯 | 岑峰

來源:雷鋒網

‌註:巴比特經授權轉載,如需轉載請至雷鋒網官網申請授權

AIGC:我不是元宇宙的附庸品

圖片來源:由無界版圖 AI 工具生成。

“你們是從什麼時候開始注意到人類的?”

“當第一個原始人開始仰望星空的時候。”

AI 的類人猿,早已開始仰望人類。

01來自機器的審視

在過去短短的兩年間,算法從業者王超岳有過兩次被 AI 震撼住的時刻。

一次是去年 3 月 OpenAI 祭出人工智能繪畫產品 DALL·E 時。只需要在計算機上輸入一句話,DALL·E 就能夠理解這句話、然後自動生成一幅意思相應的圖像,且該圖像是全網首發、獨一無二。

所有跨越“族群”的交流都是一次文明的突變,來自未明機器系統的回應也讓人類感到猶遇 UFO 的震驚與好奇。在人與人的距離越來越遠的現代社會,機器卻好像能夠讀懂一個人的內心。

“你能明顯感覺到它相比 GAN(2014 年出現的一個 AI 生成網絡)的進步。DALL·E 的技術是革命性的。”王超岳告訴雷峰網。

第二次是今年 4 月谷歌發布 5400 億參數大模型 PaLM 的時候。隨着參數的變大,PaLM 的文本理解能力與邏輯推理能力大幅提升,甚至可以用文本解釋笑話,告訴讀者為什麼這個笑話好笑。

在這之前,人們嘲諷 AI 最常用的一句話就是:這個 AI 模型的推理能力很弱,像 3 歲小朋友。但大模型發展至今,已經能做算術、能做邏輯推理,心智已經接近甚至在某些角度超過人類。“比方說,”王超岳舉例:“有很多笑話我一時不能理解,但它能給我解釋,說明在一些語言理解任務上、它比我還懂。”

王超岳是生成式 AI 的資深研究者,從 2014 年 GAN 發布后就開始關注 AIGC 相關研究,當時 GAN 就是深度生成網絡的研究熱點,但熱度也遠遠不及 AIGC 這兩年的重大突破。上述提到的兩項技術,也成為點燃今年下半年 AI 圈狂歡的“導火索”:

DALL·E 背後的關鍵技術 CLIP 讓文字與圖片兩個模態找到能夠對話的交界點,成為 DALL·E、DALL·E 2.0、Stable Diffusion 等突破性 AI 成果的基石;而像 PaLM 這樣的語言大模型,雖然燒錢,但其對人類語言的理解能力突飛猛進,是 AI 能讀懂人的前提。

“這兩年的 AI 技術突破真的非常快。”心辰科技(盜夢師團隊)創始人藍振忠也說道。他讀論文經常讀到很興奮、很激動:“CLIP 出來一段時間后,MAE(何愷明團隊提出的一種AI範式,可以將在語言任務上表現優秀的能力遷移到視覺任務的處理上)又跟着出來,然後又有 Stable Diffusion……”

今年 8 月 Stable Diffusion 推出以來,藍振忠與團隊很快就跟上、只用了不到一個月的時間就上線 AI 作畫產品“盜夢師”,並迅速在國內火起來,出圖速度短至 1 秒,而且繪畫質量非常高,日留存率接近50%(高於 90% 的小程序),不到兩個月就接到了 To B 的大訂單。

AIGC:我不是元宇宙的附庸品

“盜夢師”生成的圖像作品

在盜夢師上線的第二天(9 月 1 日),國內第一本《 AIGC 白皮書》在上海世界人工智能大會(WAIC)發布。王超岳參與了這本白皮書的撰寫,並主導了 AIGC 技術體系的梳理和展望。

AIGC 白皮書的發布引來大批參會同行的關注。不僅是人工智能領域的研究者,還有元宇宙領域的從業者:

“當時紅杉資本那篇關於生成式 AI 的文章還沒有出來,大家都還不知道 AIGC 是什麼。這說明數字內容生成的重要性是行業共識。”

再緊接着,一切都很快:技術的突破帶來應用的繁榮,Midjourney 在海外火起,文生圖的熱潮又讓人們看到更多原先冷門的 AIGC 分支,如文本生成、視頻生成、音樂生成,業內人士才驚覺,原來海外像 Jasper.ai 這樣的公司已經在商業化落地上有成功的驗證。繼上一代以識別與檢測為主的感知智能之後,用於生成與編輯的“創造智能”成為資本的新寵。

更意外的是,這一波 AIGC 的熱潮還引起了廣大圈外人士的關注,如自媒體 KOL、插畫師群體與圖文創作者。人們有恐慌,檄文不斷;也有歡喜,希望擁抱前沿的技術。

但無論人們接受與否,一個不可逆轉的趨勢已經在發生。

02AIGC 的大航海時代已開啟

1519 年,一支探險船隊從西班牙駛出,由西而去,人類文明的大航海時代開啟。

後來,全球化歷史學家記載文明,總要提到一個叫麥哲倫的探險家,以及他最初航海的好奇心:地球是方的,還是圓的?——麥哲倫是地圓說的倡導者;如果地球是方的,就證明航海無法成功;而如果地球是圓的,那麼他最終會回到原點。

1950 年,另一位叫艾倫·圖靈的科學探險家也有相似的好奇:機器能否根據人的行為作出有意識的反應?——他提出了一個著名的檢測方法,叫“圖靈測試”,開啟了人工智能的研究時代。

如今,AI 領域的研究者,在 AIGC 的技術探索中似乎也獲得了相似的探索慾望與熱情。他們想知道:機器是否能讀懂人的思想與邏輯,從 0 到 1 進行創造?

答案是:經過近十年的技術發展,他們認為可以,並且相信當前的 AIGC 探索已經到了工程化的階段

猶如麥哲倫航海,目的已經明確,航海的地圖(理論與框架)也已初具雛形,接下來是要驗證技術路線是否可以到達目的地。

以文生圖為例。雖然 AI 根據文本描述畫畫的能力還不夠完美,例如基於不同的文本提示(prompt)會輸出質量不一的圖像,對長文本的理解能力不足、會漏讀關鍵詞彙導致生成的圖像不完成等等,但這些都是一個個具體的研究問題,被解決只是時間問題。

為什麼說 AIGC 的地圖已勾勒完成?這主要歸功於三方面:大模型、多模態與可控制

2020 年,OpenAI 推出 1750 億參數的預訓練語言大模型 GPT-3,在國內外掀起千億參數大模型的研究浪潮。那時開始,AI 的語言表達和理解能力開始突飛猛進。也是從那時起,AI 開始能在很短的時間內寫出不錯的文章。

實際上,那時候海外就出現了一波專做文字生成的商業公司,如 Jasper.ai 與 Copy.ai。這些公司開發了機器自動寫作平台,用戶輸入關鍵字、AI 只需幾分鐘就能寫成一篇邏輯與表達不輸人類的長文,用於替代寫作過程中的大量勞動,並能兌換出商業價值。

但由於 OpenAI 不對大陸和香港開放 GPT-3 接口,所以國內的 AI 研究人員很難用起來,文字生成的相關應用也沒能在國內火起。這兩年,雖然國內也有許多大廠與高校下場研究中文大模型,但在開源上仍進展緩慢,導致大量的 AI 開發者止步於高昂的訓練成本,限制了基於中文語言的 AI 應用開發。

在這一波 AIGC 中,AI 大模型在理解人類語言的能力上發揮了關鍵作用。歸功於大模型的發展,不僅文本生成的效果不錯,基於文本的圖像生成也較 GAN 時代有了極大的進步。

王超岳就告訴雷峰網,在撰寫《 AIGC 白皮書》時,其實他們內部有過糾結:標題是要寫成“AIGC”(AI-Generated Content),還是寫成“生成式AI”(Generative AI)?最後,王超岳把票投給了AIGC,因為 generative model(生成模型)是一個專有的學術名詞,一般是描述模型對一個具體的分佈進行擬合,比如 GAN。但 DALL·E 2.0 所做的在某種程度上已經超出了對某一種數據分佈的擬合,展現出了通用的圖像生成能力。

舉個例子,GAN 最知名的應用是人臉生成:模型去看海量的人臉照片,知道人臉是一種分佈,然後學習到人臉的特徵。在 2014 年還沒有能夠生成高維數據圖像的方法時,GAN 是一種很強的生成方法,但局限性也是本質的:

首先,它需要一個特定的數據集(比如人臉),泛化能力差。比如,GAN 發布后被用於訓練各種各樣的人臉特效,但一個 GAN 無法訓練出多種人臉特效,換另一種特效就要新訓練一個 GAN;其次,GAN 在通過文本描述控制圖像生成上做的並不盡如人意,這很大程度限制了它成為一個可控的通用式結構。

而 OpenAI 發布的 DALL·E(和之後 DALL·E 2)是使用了通用模型:能夠同時處理多項語言任務的語言大模型,加打通文字與圖像兩種模態的 CLIP 模型,控制圖像生成的擴散模型,能夠在保證真實性的基礎上進一步產生概念與元素的組合,生成更加複雜的場景。

一個例子是 AI 能夠根據文字的描述對圖像進行編輯,在添加或移動圖片元素時將陰影、投影與物理表面紋理等因素都考慮進去。比如,人類制定要下圖 3 的位置生成火烈鳥,AI 就真的在室外的玻璃邊生成兩隻火烈鳥、並且有影子投映下來:

AIGC:我不是元宇宙的附庸品

當指定在上圖 2 的位置(游泳池中間)生成火烈鳥時,AI 會自動生成一個適應泳池環境的形象——火烈鳥游泳圈:

AIGC:我不是元宇宙的附庸品

文字與圖像的多模態研究大體可以分為三個階段:1、圖文描述(讓計算機描述畫中的事情);2、圖文問答(給一張圖片,問這個圖片里的桌子上都有什麼東西。機器人需要理解問題,再了解圖片里都是些什麼東西);3、用一句話生成圖片(讓機器人通過一句話的描述作畫)。

多模態的一個重要貢獻在於數據源:它很好地提供了文本與圖像成對的訓練數據,這些數據也是幫助 AIGC 模型學習到認知的重要素材。

此前階段一、二的代表應用分別有短視頻平台上的 AI 生成電影解說、智能對話機器人,而到第三階段,機器系統則必須理解人類語言與常識、物理世界運行法則等,否則無法進行由人控制的跨模態創作。但 DALL·E、Midjourney 與盜夢師等產品都已經體現出理解人類與世界的突破。

大量的研究實驗都表明,當模型足夠大,訓練的數據足夠多,AI 能夠逐步理解人類語言的抽象概念(如常識與規則)。王超岳在讀博時師從陶大程,他們團隊就從深度學習理論出發,不止一次通過模型的容量分析證明,大模型在學習通用知識和理解泛化上有更好的表現。

這是之前的生成模型沒有體現出來的能力。這也決定了AIGC 不光是生成,而是建立在認知與理解上的模型的應用生態。當 AI 具備基礎認知與理解,機器像人一樣思考與創作,就不再是海市蜃樓的傳說,而是一個正在發生的現實。

03商業化:在沉默中爆發

現代社會的活動構成,本質是一串串的數字內容:語音、文本、圖像、視頻…而 AIGC 可以為創造這些內容提供了一個個基礎元素。

實際上,AIGC(人工智能生成內容)一直存在,但直到今年才被國內的資本熱捧,一是技術的成熟,二是原先專註於視覺 AI 商業化的資本扭頭才發現,類似 Jasper.ai 這樣的海外 NLP 公司開始大幅盈利了。

由於創造數字內容的優勢,AIGC 技術在備受矚目后也被過去一年追隨元宇宙的狂熱者們列為打造未來元宇宙的工具。但噱頭背後,更多 AIGC 的從業者相信,AIGC 能比元宇宙更快打造出下一代數字世界,一個完全屬於 AIGC 的新賽道。

這背後的原因,是 AIGC 與當前元宇宙所倚技術的本質差異:以圖形學(打造數字人的關鍵技術)為例,圖形學在內容生成上側重仿真、復刻,而 AIGC 側重原創、創造。從圖形學出發打造數字人是需要有一個真人作參考的,但 AIGC 在語音、文字與圖像的生成上是從 0 到 1、前所未有。

以電影《無雙》為例。AIGC 是張靜初,圖形學則是郭富城。

由於 AIGC 在寫作與畫畫上,每個字、每個像素都是精心計算出來的,所以用戶基於 AIGC 模型創作的圖像與文章全都是世上獨一無二的,絕對的原創選手。

數字內容的本質+獨一無二的原創特性,決定了 AIGC 的賽道容量足夠大,前者暗示它可以被打造成像互聯網內容平台或產品這樣的標準品,後者意味着它能獲得與人類創作者相媲美的市場認可度

以文本生成為例。類似 Jasper.ai 這樣的 NLP 公司在海外孵化了一種新職業,叫“ AI 靈魂寫手”:

人類用戶在 AI 文字生成平台上輸入標題與關鍵字,AI 就會生成一篇很長的文章,然後人們再在寫好的文章上進行修改,將修改後的文章賣給需要大量高質量的文章來做搜索引擎優化的公司,賺取作品出售與訂閱 AI 產品的會員費之間的差價。

圖像生成的盈利模式也如此:比如在海外,用戶訂閱了 Midjourney 的會員,用 AI 生成精美的圖像后再將圖片賣給類似 iStock 這樣的圖庫,從中賺取差價。

由於谷歌搜索向原創文傾斜,而 AI 寫的文章又是全網絕無僅有的原創文章、非信息拼湊,所以谷歌會給這類文章更多流量,提高搜索排名。

這也使 Jasper.ai 等公司能夠迅速獲得市場份額。據 Jasper.ai 宣稱,截至今年 9 月,他們去年的收入超過了 4000 萬美金,今年預計會翻一倍,目前付費用戶也達到了 7 萬,估值 15 億美元。而距離 Jasper ai 成立,才不過 18 個月。

藍振忠告訴雷峰網,現在 AI 寫出來的文章是具備很高的可讀性的。他們曾開了一個微信公眾號、用中文大模型寫星座運勢,也收穫了一定的閱讀量,甚至有讀者在後台評論說:“小編你一定是摩羯座的,這麼懂我。” 除了盜夢師之後,他們的一款文字生成工具“HeyFriday”雖然推出時間沒多久,但在海外也已經有幾千個付費用戶。

高速的增長也出現在圖像生成領域。數據顯示,海外 AI 作畫產品 Midjourney 推出不過三個月,註冊用戶已經超過 300 萬。而據雷峰網獨家了解,盜夢師推出不到兩個月,生成的圖像數量已經達到 1 千萬張。

多位行業人士談道:“說白了,互聯網的核心是流量,流量的核心是內容。而 AIGC 的本質,就是一項生產內容的技術。”

這也意味着,相比上一代要與終端硬件相結合的視覺 AI,或世界觀龐大的元宇宙,AIGC 的商業化落地更具體,投入成本更低、盈利更快。甚至一個更激進的觀點是:AIGC 能夠跑出背靠流量的、與現有互聯網內容平台(如小紅書、抖音)的體量相媲美甚至超越的“內容生成平台”。

AIGC:我不是元宇宙的附庸品

“盜夢師”根據用戶描述生成的圖像作品

在內容需求旺盛的當下,AIGC 所帶來的內容生產方式變革也開始引起了內容消費模式的變化。尊重原創的市場,開始敬畏 AIGC。

最新作出反應的是圖庫類企業:

10月底,海外知名圖庫 Shutterstock 就公布了他們與 OpenAI 建立了合作,讓用戶可以輸入文字即時生成滿足需求的原創圖片。(實際上,許多行業人士也認為,在 AIGC 的浪潮中,素材庫與P圖軟件是最先被淘汰或替代掉的行業。)

這項合作不僅是一個傳統行業的及時反映,實際上還意味着AIGC 商業化變現的一個想象似乎開始落地:打造一個基於生成的全新內容平台。

許多人並不知道這意味着什麼,但在一些人的眼中,AIGC 的影響力已經開始從服務個人用戶到服務實際行業——當前的內容平台主要是基於關鍵詞搜索、推薦,而引入 AIGC 后,用戶所消費的內容就來源於 AI 對用戶的理解。基於推薦的內容是來源於有限的素材庫,而基於生成的內容是源源不斷的……

AIGC 的當局者們,雖然他們是這個賽道的締造者,但在見證 AIGC 的一次次魔力中,他們還是被機器堪比人類、甚至超越人類的創造速度與創造能力給嚇到。

ZMO.AI 的創始人張詩瑩說:“例如現在的短視頻平台。推薦是將創作者創造出來的有限內容推薦給你,但生成是每一個消費內容的人都是創作者。消費者對內容的反饋可以讓 AI 更了解你要什麼,你喜歡什麼、AI 就生成什麼,這將是實時更新並且無限的。”

ZMO.AI 是國內最早成立的 AIGC 公司之一。與 Stable Diffusion 等擅長藝術像生成的產品不同,ZMO.AI 選擇的賽道是真實世界的圖像生成,如設計。他們最開始專註於出海,在海外推出的 imgcreator.ai 達到了 32 萬月活的高速增長。

他們認為,AIGC 不僅是數字娛樂內容的生產工具,對許多實際行業也有非常大的幫助影響。這個賽道足夠大,研究者與創業者能夠做的事情也足夠多。(Stability.AI 的創始人 Emad Mostaque 也說過類似的話,認為 AIGC 的賽道比新能源還大。)

單就圖像而言,當前的素材主要靠拍攝,既低效又昂貴。比如電商平台的服裝上新,目前的模式是線下拍攝,需要化妝師、服裝師、攝影師、模特等等,而在未來的 AIGC 世界中,他們希望用 AI 直接生成能展示服裝的模特圖像。現在,他們的 AIGC 產品“ YUAN 初”小程序已經在圖像編輯上取得驚人的效果:

AIGC:我不是元宇宙的附庸品

相比藝術類的風格生成來說,真實的、攝影風格的圖像生成難度更高,但對實際的生產與生活有巨大影響。比如設計行業,小到海報、PPT、網頁,大到所有商品的外包裝、插畫等對原創素材要求高的應用,都有 AIGC 的用武之地。

先不談取代,目前就有大量的設計師會使用 AIGC 產品來簡化設計前草稿階段的工作。張詩瑩講了一個建築設計的例子:他們與一個建築師合作設計了一座層高大約 25 米的交響音樂廳——

AIGC:我不是元宇宙的附庸品

在沒有 AIGC 之前,建築設計師是先用鉛筆畫草圖,畫完之後覺得好看再弄成彩鉛,彩鉛版本滿意后再做一個 3D 的視覺效果圖給甲方客戶看,甲方滿意再設計建築裡面的工程結構等等。而有了 AIGC 之後,他們從第一步就極大地節省了時間,快速將設計師腦海中的方案用 AI 生成出來,發給甲方看。

“在 AI 寫幾句話、P 個圖時,你可能覺得沒什麼。但如果有一天,AI 開始設計建築,你就要重新思考它的價值了。”

04一切只是時間問題

劉慈欣在小說《朝聞道》里借用外星人“排險者”之口道出了技術發展的真理:

“人類獲得宇宙終極奧秘的起點,始於第一隻猿猴對星空的仰望。”

如同人對宇宙的探索,AI 也在不斷探索人類。如今的 AI 類人猿(AIGC)已看到廣闊的星空。當下越來越多研究者參與到 AIGC 的探索中,AIGC 距離更高層級的思維創作也越來越近。征服,似乎只是時間問題。

過去的十年,是 AI 騰飛的十年。十年的風起雲湧中,有趣的技術點層出不窮,有的成為一個新的賽道(如識別之於安防),有的則在商業化落地的過程中“胎死腹中”、曇花一現。

大浪淘沙中,人們對於AIGC既期待,也謹慎。

比如,關於 AIGC 能否在國內的商業落地中有所收成,一部分投資者是擔憂的。

以文本生成為例,AIGC 的商業變現實際十分依賴用戶驅動。但目前國內的中文語言大模型在開源一塊缺少高質量的語料數據,導致中文版的 AI 在不同話題的寫作質量上參差不齊;同時,國內的文字從業者在人力成本上普遍低於海外歐美髮達國家,AIGC 在內容生成一塊替代人力的節約成本也明顯低於海外市場。

落地的 AI 在涉及與人博弈的場景中,AI 所提供的服務成本必須在相較於人力成本上有明顯優勢,才會被現有行業所接受——這幾乎是一個心照不宣的定律。工業質檢就是一個很好的參考例子:傳統工廠在質檢環節優先考慮的就是成本,當一個質檢員工的月薪普遍是6-7k、而一個視覺 AI 解決方案在成本無法媲美、精度又無法實現高準確率時,就難以說服行業。

心辰科技向雷峰網坦言,他們的文本生成工具目前定價是 Jasper.AI 的十分之一,但國內用戶的接受程度仍在爬坡期,這也需要中文大模型(GPT-3、PaLM 等均為英語大模型)的不斷進步。

但更多的人相信,AIGC 會改變現代生產與生活的方方面面,因為 AIGC 所解決的問題是現存的、而非假設的。這些問題很具體,並且在大部分的場景中,它能部分取代或完全取代繁重的人力,不僅降本增效,而且降低內容的創作門檻、激發人的創造力與想象力。

比如畫畫。過去需要接受十多年訓練來獲取的技能,如今零基礎的人也以使用 AI 來創作,且作品的質量不輸專業人員手繪而成的作品。這也讓人們進一步看到創作的本質:思想與觀點,從來是創作中的靈魂,而非方式與工具。

儘管近日來有許多公司在產品的宣傳與定位上掛了 AIGC 的頭銜,但據雷峰網了解,目前無論是文字生成還是圖像創作,AIGC 的技術壁壘還是存在的。

此外,算法與數據的選擇也決定了各個企業後續在不同場景中的表現高低。目前,在商業化中,選擇技術壁壘高、護城河足夠安全的落地場景,成為各個 AIGC 從業者的當務之急。

AIGC 的創業者們告訴雷峰網,他們相信,未來 AI 的技術也許能改變權游的結局,未來很大可能會出現一個完全基於生成的內容消費平台,未來 AIGC 會在元宇宙、Web 3.0 中成為關鍵的技術,但在奔赴未來之前,他們仍要跨越一座又一座山丘。

但至少,他們已經知道山丘的位置。

下一篇,我們將講 AIGC 創業在中國市場的艱難與機遇。如果你是一名 AIGC 的創業者、或你也在關注 AIGC,歡迎添加微信(Fiona190913)交流。

參考鏈接:

  1. 《人工智能生成內容(AIGC)白皮書(2022年)》
  2. https://multimodal.art/news/1-week-of-stable-diffusion

本文鏈接:https://www.8btc.com/article/6788846

轉載請註明文章出處

(0)
上一篇 2023-03-21 20:22
下一篇 2023-03-21 20:23

相关推荐