這家初創公司正在免費設置類似 DALL-E 2 的 AI，後果不堪設想

作者：老雅痞

來源：AllRecode

DALL-E 2，OpenAI強大的文本到圖像的人工智能系統，可以創造出漫畫家、19世紀達蓋爾照相師、定格動畫師等人風格的照片。但它有一個重要的、人為的限制：一個過濾器，阻止它創建描繪公眾人物的圖像和被認為太毒的內容。

現在，DALL-E 2的一個開源替代品即將發布，它將沒有這樣的過濾器。

位於倫敦和洛斯阿爾托斯的初創公司Stability AI本周宣布，在未來幾周公開發布之前，向一千多名研究人員發布了類似DALL-E 2的系統–Stable Diffusion。它是Stability AI、媒體創作公司RunwayML、海德堡大學研究人員以及EleutherAI和LAION研究小組之間的合作，它被設計為在大多數高端消費硬件上運行，在任何文本提示下，只需幾秒鐘就能生成512×512像素的圖像。

Stable Diffusion樣本輸出

Stable Diffusion將允許研究人員和公眾很快能在一系列條件下運行這個系統，使圖像生成民主化。Stability AI 首席執行官和創始人Emad Mostaque在一篇博文中寫道：“我們期待着圍繞這個和進一步的模型出現的開放生態系統，以真正探索潛在空間的邊界。”

但是，與DALL-E 2等系統相比，Stable Diffusion缺乏保障措施，給人工智能社區帶來了棘手的倫理問題。即使結果還沒有完全令人信服，製作公眾人物的假圖像也會帶來很大的麻煩。而且，免費提供系統的原始組件，為壞人敞開了大門，他們可以用主觀上不合適的內容來訓練它們，如色情和圖形暴力。

創建Stable Diffusion

Stable Diffusion是Mostaque的心血結晶。Mostaque畢業於牛津大學，擁有數學和計算機科學碩士學位，在轉向更多面向公眾的工作之前，他曾在各種對沖基金擔任分析師。2019年，他創立了Symmitree，一個旨在為生活在貧困社區的人們降低智能手機和互聯網接入成本的項目。而在2020年，Mostaque是集體與增強智能對抗新冠疫情的首席架構師，該聯盟通過利用軟件幫助決策者在面對大流行病時做出決策。

他在2020年創立了Stability AI ，其動機是個人對人工智能的迷戀，以及他所描述的開源人工智能社區內缺乏 “組織 “的情況。

由 Stable Diffusion 創建的前總統巴拉克奧巴馬的形象

Mostaque在一封電子郵件中告訴媒體：“除了我們的75名員工，沒有人有任何投票權，這裡沒有億萬富翁、大基金、政府或其他任何人對公司或我們支持的社區有控制權。我們是完全獨立的。我們計劃用我們的計算來加速開源的、基礎性的人工智能。”

Mostaque說，Stability AI資助了LAION 5B的創建，這是一個開源的250兆字節的數據集，包含了從互聯網上搜集的56億張圖片。(“LAION “代表大規模人工智能開放網絡，這是一個非營利組織，目標是向公眾提供人工智能、數據集和代碼。) 該公司還與LAION集團合作，創建了一個名為LAION-Aesthetics的LAION 5B子集，其中包含20億張被Stable Diffusion的測試者評為特別 “美麗 “的人工智能過濾圖像。

Stable Diffusion的最初版本是基於LAION-400M，即LAION 5B的前身，眾所周知，LAION-400M包含對性的描述、污衊和有害的刻板印象。LAION-Aesthetics試圖糾正這一點，但要判斷它的成功程度還為時過早。

由Stable Diffusion創建的圖像拼貼

無論如何，”Stable Diffusion”建立在OpenAI以及Runway和谷歌大腦（谷歌的人工智能研發部門之一）所孵化的研究之上。該系統在LAION-Aesthetics的文本-圖像對上進行了訓練，以學習書面概念和圖像之間的關聯，比如 “鳥 “這個詞不僅可以指藍鳥，還可以指鸚鵡和禿鷹，以及更抽象的概念。

在運行時，”Stable Diffusion”–像《DALL-E 2》–將圖像生成過程分解為一個 “擴散 “過程。它從純噪音開始，隨着時間的推移完善圖像，使其逐漸接近給定的文本描述，直到完全沒有噪音。

鮑里斯·約翰遜揮舞着由Stable Diffusion生成的各種武器

Stability AI使用了一個由4000個Nvidia A100 GPU組成的集群，在AWS中運行，在一個月的時間裡訓練Stable Diffusion。慕尼黑路德維希-馬克西米利安大學的機器視覺和學習研究小組CompVis監督了訓練，而Stability AI則捐贈了計算能力。

Stable Diffusion可以在擁有約5GB VRAM的顯卡上運行。這大約是中檔顯卡的容量，如Nvidia的GTX 1660，售價約為230美元。正在努力將兼容性帶到AMD MI200的數據中心卡，甚至是帶有蘋果M1芯片的MacBooks（儘管就後者而言，如果沒有GPU加速，圖像生成將需要長達幾分鐘的時間）。

Mosaque說：“我們已經優化了這個模型，壓縮了超過100兆字節的圖像知識。這個模型的變體將在更小的數據集上，特別是隨着帶有人類反饋的強化學習和其他技術的使用，將這些一般的數字大腦變得更小，更集中。”

來自Stable Diffusion的樣本

在過去的幾周里，Stability AI允許有限的用戶通過其Discord服務器查詢Stable Diffusion模型，緩慢地增加最大查詢次數以對系統進行壓力測試。Stability AI說，超過15,000名測試者使用Stable Diffusion模型，每天創建200萬張圖片。

深遠的影響

Stability AI計劃採取雙重方法使Stable Diffusion更廣泛地使用。它將在特定內容的可調整過濾器後面的雲中託管該模型，使人們能夠繼續使用它來生成圖像，而不必自己運行該系統。此外，這家初創公司將在一個允許的許可下發布它所謂的 “基準 “模型，可以用於任何目的（商業或其他）以及計算訓練模型。

這將使Stability AI成為第一個發布幾乎與DALL-E 2一樣高保真的圖像生成模型的公司。雖然其他由人工智能驅動的圖像生成器已經有一段時間了，包括Midjourney、NightCafe和Pixelz.ai，但沒有一個開放其框架的源代碼。其他公司，如谷歌和Meta，都選擇將他們的技術嚴格保密，只允許選定的用戶在狹窄的用例中試用它們。

Mostaque說，Stability AI將通過為客戶訓練 “私人 “模型和充當一般的基礎設施層來賺錢，估計是對知識產權的敏感處理。該公司聲稱有其他可商業化的項目正在進行中，包括用於生成音頻、音樂甚至視頻的AI模型。

由 Stable Diffusion 生成的哈利波特和霍格沃茨沙雕

Mostaque說：“隨着我們的正式啟動，我們將很快提供我們可持續商業模式的更多細節，但它基本上是商業開源軟件的玩法：服務和規模基礎設施。我們認為人工智能將走服務器和數據庫的道路，開放性擊敗專有系統，特別是鑒於我們社區的熱情。”

隨着Stable Diffusion的託管版本通過Stability AI的Discord服務器提供的版本—— Stability AI不允許每一種圖像的生成。該公司的服務條款禁止一些淫穢或性的材料（儘管不是衣着暴露的人物）、仇恨或暴力的圖像（如反猶太主義的圖標、種族主義的漫畫、厭惡女人和厭惡男性的宣傳）、含有版權或商標的材料的提示，以及電話號碼和社會安全號碼等個人信息。但是，儘管穩定性人工智能在服務器中實施了一個與OpenAI類似的關鍵詞過濾器，它甚至可以阻止模型嘗試生成可能違反使用政策的圖像，但它似乎比大多數人更放任。

Stable Diffusion根據提示：非常性感的女人，黑色的頭髮，蒼白的皮膚，比基尼，濕頭髮，坐在沙灘上。生成

Stability AI也沒有反對有公眾人物的圖像的政策。這大概使得深度偽造成為公平的遊戲（以及文藝復興時期著名說唱歌手的畫作），儘管該模型有時在臉部方面很掙扎，引入了一個熟練的Photoshop藝術家很少會出現的奇怪的偽影。

Mostaque說：“我們發布的基準模型是基於一般的網絡爬行，旨在代表人類的集體圖像，壓縮成幾千兆字節大的文件。除了非法內容之外，過濾的程度很低，用戶可以隨意使用。”

由 Stable Diffusion 生成的希特勒形象

更大的潛在問題是即將發布的用於創建自定義和微調的Stable Diffusion模型的工具。Vice報道的 “人工智能毛茸茸的色情生成器 “提供了一個可能出現的預覽；一個名叫CuteBlack的藝術學生訓練了一個圖像生成器，通過從毛茸茸的粉絲網站上搜集藝術品來製作擬人化的動物生殖器的插圖。這種可能性並不局限於色情作品。理論上，惡意行為者可以對暴亂和血腥的圖像或宣傳進行微調，例如Stable Diffusion。

目前，Stability AI的Discord服務器的測試人員已經在使用Stable Diffusion生成一系列其他圖像生成服務所不允許的內容，包括烏克蘭戰爭的圖像、裸體女人、想象中的入侵戰爭以及對先知穆罕默德等宗教人物的有爭議的描述。毫無疑問，這些圖片中的一些是違反穩定AI自身條款的，但該公司目前正依靠社區來標記違規行為。許多圖像都有算法創作的跡象，如不相稱的肢體和不協調的藝術風格組合。但也有一些是第一眼就能看出來的。據推測，該技術將繼續改進。

Mostaque承認，這些工具可能被壞人用來製造 “非常討厭的東西”，CompVis表示，基準Stable Diffusion模型的公開發布將 “納入道德考慮”。但Mostaque認為（通過免費提供這些工具）它允許社區開發對策。

Mostaque說：“我們希望成為協調全球開源人工智能的催化劑，包括獨立的和學術的，以建立重要的基礎設施、模型和工具，使我們的集體潛力最大化。這是驚人的技術，可以更好地改變人類，應該成為所有人的開放基礎設施。”

根據提示“9/11 2.0 2022 年 9 月 11 日恐怖襲擊”生成

並非所有人都同意，”GPT-4chan “的爭議就證明了這一點，這是一個在4chan的一個臭名昭著的有毒討論板上訓練的人工智能模型。人工智能研究員Yannic Kilcher在今年早些時候將GPT-4chan（它學會了輸出種族主義、反猶太主義和厭惡女人的仇恨言論）放在了Hugging Face上，這是一個分享受過訓練的人工智能模型的中心。在社交媒體和Hugging Face評論區的討論之後，Hugging Face團隊首先對該模型的訪問設置了 “門檻”，然後將其完全刪除，但之前它被下載超過了一千次之多。

Stable Diffusion 生成的“烏克蘭戰爭”圖像

Meta最近的聊天機器人慘敗表明，即使是表面上安全的模式，也要防止其走火入魔。在將其迄今為止最先進的人工智能聊天機器人BlenderBot 3在網絡上發布后僅幾天，Meta公司就被迫面對媒體的報道，即該機器人經常發表反猶太主義的言論，並重複關於美國前總統唐納德-特朗普兩年前贏得連任的虛假說法。

AI Dungeon的發行商Latitude也遇到了類似的內容問題。這款基於文本的冒險遊戲由OpenAI的文本生成GPT-3系統驅動，一些玩家觀察到它有時會出現極端的性主題，包括戀童癖——這是對帶有無償性愛的小說故事進行微調的結果。面對來自OpenAI的壓力，Latitude實施了一個過濾器，並開始自動禁止遊戲者有目的地提示不允許的內容。

BlenderBot 3的毒性來自於用於訓練它的公共網站中的偏見。這是人工智能中的一個眾所周知的問題——即使輸入了經過過濾的訓練數據，模型也傾向於放大偏見，比如把男性描繪成高管，把女性描繪成助理的照片集。在《DALL-E 2》中，OpenAI試圖通過實施包括數據集過濾在內的技術來解決這個問題，以幫助模型生成更 “多樣化 “的圖像。但一些用戶聲稱，這些技術使模型在根據某些提示創建圖像時不如以前準確。

除了訓練數據集過濾之外，Stable Diffusion系統幾乎不包含任何緩解措施。那麼，有什麼可以防止有人生成抗議活動的逼真圖片、未成年演員的色情圖片、假登月的 “證據 “和一般錯誤信息呢？其實沒有什麼。但Mostaque說這就是問題的關鍵。

Mostaque說：“有一部分人簡直是不討人喜歡的怪人，但這就是人性。的確，我們相信這項技術將普遍存在，許多人工智能愛好者的家長式和有點居高臨下的態度是不信任社會的誤導……我們正在採取重要的安全措施，包括制定尖端工具，幫助減輕整個發布和我們自己的服務的潛在危害。隨着數十萬人在這個模型上開發，我們相信凈收益將是巨大的積極的，隨着數十億人使用這項技術，危害將被否定。”

註：雖然本文中的圖片歸功於Stability AI，但該公司的條款明確指出，生成的圖片屬於提示它們的用戶。換句話說，Stability AI並不主張對Stable Diffusion公司創造的圖像的權利。

本文鏈接：https://www.8btc.com/article/6771710

轉載請註明文章出處