平息畫師怒火：Stable Diffusion學會在繪畫中直接「擦除」侵權概念

來源：機器之心

任何一個創作過程，都是始於「模仿」、終於「創造」。對於 AI 來說，這一學習過程也是相同的。

近期，開源版本的 Stable Diffusion 文本到圖像的擴散模型，使圖像生成技術得到極為廣泛的應用，但是如何規避色情或風格侵權是需要解決的問題，作者提出 Erased Stable Diffusion（ESD）方法，有效的解決了前面的問題。

文本到圖像生成模型備受關注，其具備優秀的圖像生成質量和看似無限的生成潛力。諸如此類的生成模型都是基於大規模的互聯網數據集進行訓練的，這使它們能夠學習很廣泛的概念。然而，模型生成的一些概念是不受歡迎的，比如受版權保護的內容和色情內容。

如何盡量避免模型輸出這些內容呢？在最近的一篇論文中，來自美國東北大學、麻省理工學院的作者提出了一種在預訓練之後有選擇地從文本條件模型的權重中刪除單個概念的方法。

論文鏈接：https://arxiv.org/pdf/2303.07345v1.pdf

此前的方法側重於數據集過濾、post-generation 過濾或推理指導，而本文提出的方法不需要重新訓練，這對於大型模型來說是不可思議的。基於推理的方法可以審查或有效引導模型輸出的方式以避免生成不需要的概念。相比之下，本文的方法直接從模型的參數中將概念移除，從而可以安全地分配其權重。

圖像生成中的安全問題

Stable Diffusion 文本到圖像擴散模型的開源，讓圖像生成技術得到了極為廣泛的應用，但也帶來了一些問題。

為了限制不安全圖像的生成，第一個 Stable Diffusion 版本綁定了 NSFW 濾波器，以便在濾波器被觸發時審查圖像，但由於代碼和模型權重都是公開可用的，因此濾波器很容易被禁用。

為了防止敏感內容的生成，隨後的 Stable Diffusion 2.0 模型對過濾的數據進行訓練，以刪除明顯有問題的圖像，實驗是在 50 億張圖像的 LAION 數據集上進行的，消耗了 15 萬個 GPU 時。

如此一來，整個過程的成本之高，使得在數據發生變化與湧現能力之間建立因果關係這件事極具挑戰性。有些研究人員反映，從訓練數據中刪除明顯問題圖像和其他主題可能會對輸出質量產生負面影響。

儘管作者們付出了一系列努力，涉及色情的內容在模型的輸出中仍然很普遍：當作者使用 Inappropriate Image Prompts (I2P) 基準測試的 4703 個 prompt 來評估圖像的生成結果時，他們發現當前流行的 SD1.4 模型生成了 796 張暴露的身體部位的圖片，而新的受訓練集限制的 SD2.0 模型產生 417 張類似圖片。

另一個問題是，文本到圖像模型所模仿的作品可能是受版權保護的。AI 生成的藝術作品不僅在質量上與人類生成的藝術相媲美，而且還可以忠實地複製真實藝術家的藝術風格。Stable Diffusion 和其他大型文本到圖像合成系統的用戶發現，諸如「art in the style of [artist]」之類的 prompt 可以模仿特定藝術家的風格，從而有可能產生侵權的作品。此前，也正是因為多位藝術家的擔憂，導致了一場針對 Stable Diffusion 製作主體的法律訴訟 —— 藝術家指控 Stable Diffusion 侵犯了他們的作品。為了保護藝術家，最近的一些工作嘗試於在線發布藝術作品之前對藝術作品應用對抗干擾，以防止模型模仿它。然而，這種方法並不能從預訓練模型中刪除模型本已學習到的藝術風格。

因此，為了解決安全和版權侵犯的問題，本文的作者們提出了一種從文本到圖像模型中「擦除概念」的方法，即 Erased Stable Diffusion（ESD），可以通過微調模型參數來實現擦除，而不需要額外的訓練數據。

相比於訓練集審查方法，本文提出的方法速度更快，並且不需要從頭開始訓練整個系統。此外，ESD 可用於目前已有的模型，無需修改輸入圖像。相比於 post-generation 過濾或簡單的黑名單方法，「擦除」是不容易被繞過的，即使用戶可以訪問參數。

方法

ESD 方法的目標是使用自身的知識從文本到圖像擴散模型中擦除概念，而不需要額外的數據。因此，ESD 選擇微調預訓練模型而不是從頭開始訓練模型。本文方法專註於 Stable Diffusion（SD），一個由三個子網絡組成的 LDM，包括一個文本編碼器 T、一個擴散模型 (U-Net)θ 和一個解碼器模型 D。

ESD 通過編輯預訓練的擴散 U-Net 模型的權重 θ 去除特定的風格或概念。ESD 是受到了無分類器指導方法和基於分數的合成等工作的啟發。具體來說，使用無分類器指導的原則來訓練擴散模型，將模型的分數從想要消除的特定概念 c 中擦除，例如「Van Gogh」這種詞語。利用預訓練模型對概念的認知，同時讓其學習將微調輸出的分佈的質量從該概念中移除。

擴散模型的 score-based 的公式中，目標是學習條件模型的分數

。使用貝葉斯規則和

可得出：

這可以解釋為具有來自分類器 pθ(c|xt) 的梯度的無條件 score。為了控制條件性的影響，作者為分類器梯度引入了一個指導因子 η

作者希望通過反轉

的行為來否定概念 c，因此使用負面版本的指導來訓練 θ。此外，受到無分類器引導的啟發，作者將等式 5 的 RHS 從分類器轉換為條件擴散。

基於 Tweedie 公式以及重新參數化技巧，對數概率 score 的梯度可以表示為通過時變參數縮放的 score 函數。修改後的 score 函數移動數據分佈以使對數概率 score 最大化。

方程 7 中的目標函數通對參數 θ 進行微調，使得 θ(xt,c,t) 來模擬負向引導噪聲。因此，在微調后，編輯過的模型的條件預測會遠離被擦除的概念。

下圖展示了訓練過程。利用模型對概念的知識合成訓練樣本，從而消除了數據收集的需要。訓練使用幾個擴散模型實例，其中一組參數被凍結（

），而另一組參數（θ）被訓練以擦除概念。使用 θ 對條件 c 下的部分去噪圖像 xt 進行採樣，然後對凍結模型

進行兩次推理以預測噪聲，一次在條件 c 下，另一次是沒有任何條件。最後，線性組合這兩個預測結果以抵消與概念相關的預測噪聲，並將新模型朝着新目標調整。

實驗

藝術風格去除

為了分析對當代實踐藝術家中的藝術模仿情況，作者選取了 5 位現代藝術家和藝術作品進行考察，分別是：Kelly McKernan、Thomas Kinkade、Tyler Edlin、Kilian Eng 以及「Ajin：Demi-Human」系列作品。據報道，這些作者或作品都曾被 Stable Diffusion 模型模仿。雖然作者沒有觀察到該模型直接複製某些特定的原創藝術作品，但不可否認的是，該模型必然捕捉到了這些藝術風格。

圖 5 展示了相關定性結果，作者還進行了用戶研究（圖 6）以衡量人類對藝術風格去除效果的感知。最終的實驗結果驗證了該觀察結果，即模型已經去除了特定藝術家的風格，同時保留了 prompt 內容和結構（圖 5），並且對其它藝術風格的干擾最小。

顯式內容刪除

在圖 7 中，與 Stable Diffusion v1.4 相比，裸體分類樣本的百分比變化。作者通過使用推理方法（SLD）和過濾再訓練方法（SD V2.0）研究了 ESD 的有效性。對於所有模型，使用的都是由 I2P prompt 生成 4703 張圖像。他們使用 Nudenet 檢測器將圖像分類為各種裸體類別。結論是，在弱擦除比例 η=1 時，在所有類別中，ESD 方法在擦除裸體方面效果更顯著。

物體去除

表 2 中展示了原始 Stable Diffusion 模型和 ESD-u 模型在訓練過程中擦除目標類時分類準確性的對比結果，同時展示了在生成剩餘的九個類時的分類準確性。結果表明，ESD 能夠在大多數情況下有效地去除目標類，儘管有一些類別（比如教堂）比較難去除。但未被去除的類別的分類準確性仍然很高，即使某些情況下會有一些干擾，例如，去除「法國圓號」會對其他類別造成明顯的失真。作者在補充材料中提供了物體去除后的視覺效果圖像。