一文了解爆紅AI項目 Stable Diffusion及其背後的機構 Stability AI

來認識一下爆紅AI項目 Stable Diffusion,和它背後的機構 Stability AI。

文|杜晨  編輯|VickyXiao   

來源:硅星人

原標題:《模型開源還強大?神秘公司成了吊打巨頭和學閥的AI “第三極”》

AI 生成圖片,最近超級火的一項尖端技術。

火到什麼程度,以至於已經有公司開始“套個殼”就出道了……

本周有消息曝出,一家創業公司 WriteSonic “剽竊”了著名模型 Stable Diffusion,做了一個生成圖片的產品 Photosonic AI。

這還沒完,這家公司居然把該產品堂而皇之地發到了產品社區 Product Hunt 上面,甚至一度衝到了第二的位置……

一文了解爆紅AI項目 Stable Diffusion及其背後的機構 Stability AI

圖片來源:Product Hunt

Stable Diffusion 完全免費開源,所有代碼都在 GitHub 上公開,任何人都可以拷貝使用——前提是需要遵循原項目採用的 CreativeML Open RAIL-M 許可證。

然而原項目貢獻者 Louis Castricato 卻發現,WriteSonic 並沒有註明使用該許可證,在 Photosonic AI 的任何地方也沒有標註技術來源。

他對 WriteSonic 喊話:“希望你們在 VC 面前沒有假裝這個東西是你們自己做的。”

一文了解爆紅AI項目 Stable Diffusion及其背後的機構 Stability AI

Stable Diffusion 許可證   圖片來源:Hugging Face

目前事情還沒有完全鬧開,不過 Product Hunt 上已經有不少人提出了質疑。截至本文發出,WriteSonic 創始人尚未做出回應。

其實,Stable Diffusion 也是一周前才正式發布公開版——這次抄襲事件,反倒映射出這項技術到底有多火、Stable Diffusion 有多受歡迎。

最近硅星人多次報道過 AI 圖片生成技術,提到過 DALL·E、Midjourney、DALL·E mini(現用名 Craiyon)、Imagen、TikTok AI綠幕等知名產品。

實際上,Stable Diffusion 有着強大的生成能力和廣泛的使用可能性,模型可以直接在消費級顯卡上運行,生成速度也相當之快。而其免費開放的本質,更是能夠讓 AI 圖片生成模型不再作為少數業內人士的玩物。

在強者如雲、巨頭紛紛入局的 AI 圖片生成領域,Stable Diffusion 背後的“神秘”機構 Stability AI,也像是“世外高僧”一般的存在。它的創始人沒有那麼出名,創辦故事和融資細節也不是公開信息。再加上免費開源 Stable Diffusion 的慈善行為,更讓人增加了對這家神秘 AI 科研機構的興趣。

今天,我們就來深入了解一下 Stable Diffusion 和 Stability AI,這支在 AI 領域異軍突起的“第三種”力量。

消費顯卡,秒速生成,完全開源

Stable Diffusion 是一個文字轉圖片的生成模型。可以只用幾秒鐘時間就生成比同類技術分辨率、清晰度更高,更具“真實性”或“藝術性”的圖片結果。

項目開發領導者有兩位,分別是 AI 視頻剪輯技術創業公司 Runway 的 Patrick Esser,和慕尼黑大學機器視覺學習組的 Robin Romabach。這個項目的技術基礎主要來自於這兩位開發者之前在計算機視覺大會 CVPR22 上合作發表的潛伏擴散模型 (Latent Diffusion Model) 研究。

另外,項目也得到了一些外部開發社區,以及 Stability AI 機構生成技術團隊的支持,並且從 DALL·E 2、Imagen 等巨頭模型項目當中獲得和整合了一些經驗參考。項目發布的時候有專門聲明對這些“競品”項目的感謝。

一文了解爆紅AI項目 Stable Diffusion及其背後的機構 Stability AI

圖片來源:Stability AI

在訓練方面,模型採用了4000台 A100 顯卡集群,用了一個月時間。訓練數據來自大規模AI開放網絡項目旗下的一個注重“美感”的數據子集 LAION-Aesthetics,包括近59億條圖片-文字平行數據。

雖然訓練過程的算力要求特別高,Stable Diffusion使用起來還是相當親民的:可以在普通顯卡上運行,即使顯存不到10GB,仍可以在幾秒鐘內生成高分辨率的圖像結果。

模型專門面向消費級計算設備所做的優化,意味着更多入門級研究者、內容創作者,以及普通公眾用戶,都可以更加頻繁接觸和使用 Stable Diffusion,感受 AI 內容生成技術的最尖端能力,為他們的工作和生活帶來極大的便利和樂趣。

在8月初,團隊先是進行了一個大範圍的公測,結果反響非常熱烈,受到大批研究者和測試用戶的歡迎。於是,團隊很快就在上周一正式公開發布了 Stable Diffusion 模型。只要遵循 OpenRAIL-M 許可證的規定,並且不用於非法和非道德的場景,任何人都可以對該模型進行商業或非商業使用、改造和再發布。

Stable Diffusion 並不是 AI 內容創作、AI 藝術領域的第一個模型,很多人(包括前幾周的硅星人)都曾以為它只是一個跟隨者而已。

然而並不是這樣!

一文了解爆紅AI項目 Stable Diffusion及其背後的機構 Stability AI

Stable Diffusion 生成結果    圖片來源:Stability AI

首先,和其它開放程度相似的項目(如 Craiyon、Disco Diffusion 等)相比,Stable Diffusion 的生成結果更為寫實,完全不亞於 DALL·E、Imagen 等巨頭開發的超大模型的結果。

其它同類模型在風格上往往會選擇一種,比如之前我們寫過的 TikTok AI綠幕模型,風格就明顯更偏向油畫。而 Midjourney 更像現代抽象藝術作品。谷歌 Imagen 具有明顯的寫實+渲染動畫風格,DALL·E mini 則是一股”梗圖”風。

並且,Stable Diffusion 的完全開放,以及在商業/非商業使用上超高的自由度,已經讓它成為了一個“離群者” (outlier),和 DALL·E、Imagen 等封閉/半封閉產品之間,已經形成了一道巨大的鴻溝。

任何人都可以不花錢,拷貝一份 Stable Diffusion 的代碼,按照自己喜歡的方式進行研究,並且用於處理自己需要的文字生成圖片相關任務,甚至開發獨立的應用或服務。

事實上自從 Stability AI 正式公開發布模型以來,已經有相當多人用它完成了自己的藝術創作,開發出各式各樣的 demo、產品,以及非常有趣的小項目了。

比如下面這個由用戶 Anthony Cao 開發的設計軟件 Figma 插件,就是藉助 Stable Diffusion 的能力,用一句話就可以生成用戶界面元素。

一文了解爆紅AI項目 Stable Diffusion及其背後的機構 Stability AI

圖片來源:Antonio Cao

用戶 Xander Steenbrugge 更厲害了:他進行了大量的嘗試,最終鎖定了36條連續的文字輸入提示,成功調教了 Stable Diffusion 模型,輸出了下面這樣一個非常令人震撼的視頻。他將視頻取名為《穿越時空的旅行》。

上周我們還介紹過著名 AI 學術大佬 Andrej Karpathy。他從特斯拉 AI 總監的職位離職之後,在自己的 YouTube 上開了一堂兩個多小時的機器學習 Python 入門課。有趣的是,除了這堂課之外,其實他的賬號上所有的視頻都是他用 Stable Diffusion 生成的。(當時硅星人還猜想他的下一站會不會就是加入這個項目組了。)

一文了解爆紅AI項目 Stable Diffusion及其背後的機構 Stability AI

截圖來源:Andrej Karpathy 的 YouTube 頻道

就連“競品” Midjourney 都整合了 Stable Diffusion 開發了一個功能,讓用戶可以同時用兩個模型整合來生成圖片:

一文了解爆紅AI項目 Stable Diffusion及其背後的機構 Stability AI

雙模型合成生成結果    圖片來源:Allesandrochille 等人創作,Alberto Romero 組合

就這樣,Stable Diffusion 實現了“開源”和 “高質量結果” 的兩全其美,而這在硅星人看來正是它最受關注的關鍵原因。特別是開源的屬性,不僅打開了新的一扇 AI 藝術創作的大門,更重要的是這扇門比以往的任何門都更寬,門檻都更低。

在公開版本發布的同時,Stability AI 也上線了一個新的工具網站,名為 DreamStudio Lite。

這個工具可以幫助更多普通用戶和創意玩家,更加方便地使用 Stable Diffusion 模型。在網頁下方有一個文本框,用戶可以直接在裡面輸入生成所用的提示。在網頁右邊的工具欄還可以調節圖片的大小、擴散模型步驟數量、生成圖片的數量等等。(見下圖)

一文了解爆紅AI項目 Stable Diffusion及其背後的機構 Stability AI

DreamStudio Lite    圖片來源:硅星人

顧名思義,現在的 DreamStudio Lite 還只是一個輕量化的版本。Stability AI 團隊正在加緊開發高級功能,包括使用設備顯卡、動畫支持、迭代生成、插值修復等。

Stable Diffusion 讓創作這件事不再成為具有高級創意訓練的人專屬的遊戲,可以讓更多人從中受益。從這個角度來看,力推這一模型的開發和開源的背後組織 Stability AI 厥功至偉。

然而很多人並不熟悉這家此前名不見經傳的神秘機構。

延續 OpenAI 火種,成為“第三種力量” 

在大約10年前,深度學習 AI 的浪潮剛剛起步的時候,研究員們一邊親眼目睹潮流的到來,一邊卻異常尷尬苦悶。

當時的算力和資金限制都非常嚴重,研究員基本只有兩種選擇:要麼停留在學術界,但是基本沒有任何算力可用;要麼跳槽到大公司,簽一堆 NDA,並且在一個大公司的產品團隊的環境里工作,很不自由,做出來的東西也是給公司用,而不是貢獻社會。

而 OpenAI 的出現,在學術界和工業界之外創造了“第三種”可能性:既有學術界相對輕鬆自由的環境,又有巨頭公司近乎無限的現金和充足的算力,並且以推動技術邊界的擴展,造福社會為核心目的。

然而大約兩年前,OpenAI 內部積累的問題突然爆發。當時實行的非營利模式難以為繼,機構也終於成立了營利部門。也是在那段時間,一波大神級核心研究員,由於無法接受這一轉型,憤然離職。

後來的 OpenAI 還是推出了包括 GPT-3、DALL·E 等知名作品,但名聲早已大不如前。特別是 DALL·E 二代,明明是當時最領先的 AI 圖片生成技術之一,在網上的影響力卻不如 DALL·E mini,一個完全無關的個人開發者,所做的業餘開源項目。

對於 OpenAI 的窘境,“超級富豪” Emad Mostaque 看在眼裡,疼在心裡。

一文了解爆紅AI項目 Stable Diffusion及其背後的機構 Stability AI

此人身價究竟幾何,並沒有特別清楚詳盡的資料。已經公開的信息顯示,他有至少20年的投資基金工作經歷,曾經在多家技術和基金公司擔任工程師、戰略分析師、首席投資官等職位。

在累積了巨額財富之後,對於利用自己的技術和資金來開展慈善和推動社會平等、技術普及等事業,這位英國人的興趣越來越高。

他在2019年創辦了一家採用技術降低手機套餐成本費用的公司,新冠襲來后又出資並親自主導在斯坦福大學組建了一個非營利性質的大數據平台項目,與聯合國開展合作,旨在輔助各國政府制定防疫政策。

而在2020年創辦的 Stability AI,則是他的“慈善”事業的最新篇章。根據並不充分的資料,這家機構的早期絕大部分資金都來自 Mostaque 本人。

從這個角度來看,他的身份,確實有點像馬斯克之於 OpenAI。

他決定自己接過使命,成立一家和 OpenAI 早期的非商業模式差不太多,但開放程度更高的機構。

總而言之,就是要比 OpenAI 更 “open”。

一文了解爆紅AI項目 Stable Diffusion及其背後的機構 Stability AI

Stability AI 官網   

通過 Stability AI,Mostaque 希望能夠延續 OpenAI 締造併發揚光大的 AI 科研“第三種力量”,同時避免重蹈其覆轍。

這家新機構也確實在貫徹開放、公益的 OpenAI 早期科研思路:它的第一個對外亮相的產品/技術,就是免費、開源、幾乎沒有任何商業味道的 Stable Diffusion 模型。

Mostaque 曾經表示,目前大約八成的 AI 研究資金全都流向了下一代技術,而這些技術從構思到開發,再到測試和發布的整個過程里,往往都是高度封閉的。

一個最典型的案例就是谷歌。

作為硅谷大公司裡面投身 AI 基礎科研最早,投資額最大的公司,谷歌近幾年開發的 PaLM、LaMDA、Imagen 等模型的封閉性越來越強,使用門檻相當之高,幾乎沒有開放給公眾的可能性。該公司的 AI 道德委員會,則被一些前委員、公司前員工以及第三方研究人士指責為“沒用”,反而成為公司內部 AI 研究部門非道德問題的“遮羞布”。

Mostaque 就在想,算力、資金,和公眾參與這三個問題,能否一同解決?“這裡一定有更好的辦法。”

幸運的是,他和團隊成功做到了這一點。

有一位網友甚至將 Mostaque 形容為AI 科研領域的 "Gigachad"(超級猛男):“他為人類未來做出的貢獻,比其他頂級 AI 公司加起來還要多。”

一文了解爆紅AI項目 Stable Diffusion及其背後的機構 Stability AI

Emad Mostaque  圖片來源:Yannic Kilcher

AI技術分析師 Alberto Romero 則指出,Stability AI 的工作之重要性在於:人們不想看到其他人如何用最先進的技術創造出厲害的藝術作品,他們真正想要的是能夠自己上手嘗試。

而 Stability AI 不光把代碼和模型權重放了出來,甚至還更進一步,開發了一個相當友好的無代碼、“開袋即食”的網站(DreamStudio Lite),讓那些不想也不會寫代碼的人都能夠使用。

藉助 Mostaque 之前做新冠大數據項目時積累的人脈,Stability AI 目前已經和聯合國達成了合作,成為了國家間、學校間和跨國公司之間 AI 技術研發合作的橋樑。

最初,整個團隊還是在 Discord 聊天應用上運行的——目前很大程度上仍然如此。但今天的 Stability AI,似乎已經超越了 OpenAI 的範疇和意義,在包括學術和工業界的整個 AI 研究和應用領域都受到了巨大的歡迎。通過 Stable Diffusion,更多人體會到了 AI 圖片生成技術的強大和美好。最尖端的 AI 模型,不再是少數人獨享的玩具,更多用戶都能夠享受和利用這項技術。

Stability AI 的口號是 “AI by the people, for the people.”

它能做到嗎?

本文鏈接:https://www.8btc.com/article/6774458

轉載請註明文章出處

(0)
上一篇 2022-08-31 12:28
下一篇 2022-08-31 13:26

相关推荐