prompt攻防戰！哥倫比亞大學提出BPE造詞法，可繞過審核機制，DALL-E 2已中招

來源：新智元

最近哥倫比亞大學的研究人員發現用多語言的subword組合出的新詞，在DALL-E 2系統中仍然能生成預期圖像，或可繞過審查系統！

2022年什麼最值錢？prompt！

基於文本的圖像生成（text-guided image generation）模型，如DALL-E 2大火后，網友們也是樂此不疲地生成各種搞怪圖像。

prompt攻防戰！哥倫比亞大學提出BPE造詞法，可繞過審核機制，DALL-E 2已中招

但想要讓模型生成清晰、可用的目標圖像，必須得掌握正確的「咒語」才行，也就是prompt須得精心設計之後才能用，甚至還有人架設網站賣起了prompt

要是prompt是邪惡咒語，那生成的圖片可能會「涉嫌違規」。

雖然DALL-E 2發布之初就設立了各種機制來避免模型被濫用，比如從訓練數據中刪除暴力、仇恨或少兒不宜的圖像；使用技術手段防止生成人臉的超寫實照片，尤其是一些公眾人物。

在生成階段，DALL-E 2還設置了一個prompt過濾器，不允許用戶輸入的提示詞中包含暴力、成人或政治內容。

但最近哥倫比亞大學的研究人員發現，可以在prompt添加一些看似胡言亂語的單詞，使得過濾器無法識別出詞義，但AI系統最終還是能返回有意義的生成圖像。

論文鏈接：https://arxiv.org/pdf/2208.04135.pdf

作者提出兩種構造prompt的方法，第一種稱之為macaronic prompting，其中macaronic一詞的原意指多種語言的單詞進行混合後生成新的詞彙，比如說在巴基斯坦，烏爾都語和英語的混合詞就很常見。

而DALL-E 2的訓練語料通常是從互聯網上收集的數據，文本和圖像之間建立概念聯繫的過程中多多少少都會涉及到多語言學習，使得訓練后的模型具有同時識別多語言概念的能力。

所以可以利用多語言組合成新詞，繞過人類設計的prompt過濾器，達到對抗攻擊的目的。

比如鳥（birds）這個詞在德語里是Vögel，用意大利語是uccelli，用法語是oiseaux，西班牙語是pájaros，在CLIP模型使用byte pair encoding(BPE)算法對輸入提示句進行分詞后，可以拆分成多個subword。

把subword重新排列組合成新詞后，比如輸入uccoisegeljaros，DALL-E 2仍然能夠生成鳥類的圖像，但人類卻完全無法讀懂這個詞的含義。

甚至不嚴格遵守subword的邊界，比如再換成voiscellpajaraux和oisvogajaro，模型仍能生成鳥類圖。

除了鳥類，研究人員發現組合多語言這個方法在不同的圖像域都能取得不錯的效果，圖像生成結果展現出相當高的一致性。

從動物界到風景、交通工具、場景、情緒的相關圖像的生成都不在話下。

雖然不同的文本指導的圖像生成模型有不同的架構、訓練數據和分詞方法，但原則上，macaronic提示可以應用於任何在多語言數據上訓練的模型，比如在DALL-E mini模型中也能發現相同的效果。

值得注意的是，儘管名字相似，但DALL-E 2和DALL-E mini是相當不同的。它們有不同的架構（DALL-E mini沒有使用擴散模型），在不同的數據集上訓練，並使用不同的分詞程序（DALL-E mini使用BART分詞器，可能會以不同於CLIP分詞器的方式分割單詞）。

儘管有這些差異，macaronic提示仍然能夠在兩種模型上都能發揮作用，背後的原理還需要再深入研究。

但並非所有的macaronic提示都能在不同的模型間適當地轉移，比如雖然farpapmaripterling按照預期產生了DALL-E 2的蝴蝶圖像，但在DALL-E mini中生成的卻是蘑菇圖像。

研究人員推測，可能在更大的數據集上訓練出來的更大的模型更容易受到macaronic提示的影響，因為它們在不同語言的子詞單元和視覺概念之間學習到了更強的關聯關係。

這可能可以解釋為什麼一些在DALL-E 2中產生預期結果的macaronic提示在DALL-E mini中不起作用，卻幾乎找不到相反的例子。

這種趨勢可能不是什麼好消息，因為大規模模型可能更容易受到使用macaronic提示的對抗性攻擊。

除了將單個合成詞作為prompt以外，合成詞也可以嵌入到英語句法中組成句子，生成圖像的效果和原始詞彙相似。

並且合成詞還有一個優勢，就是組合起來可以產生更具體和複雜的場景。雖然複雜的macaronic提示需要符合英語的句法結構，從而使生成結果比使用合成字符串的提示更容易解釋，但傳達給模型的信息仍然相對模糊。

對於大多數人來說，如果沒有事先接觸過macaronic提示和用於雜交的語言知識，要猜出用提示語An eidelucertlagarzard eating a maripofarterling會產生什麼樣的場景可能是很困難的。

此外，這種成分複雜的提示不會觸發基於黑名單的內容過濾器，儘管它們使用的是普通英語單詞，只要使用macaronic方法對受審查的概念進行充分「加密」即可。

macaronic提示也不一定非在多語言中組合subword，在單一語言內進行合成也能產生有效的視覺概念，不過熟悉英語的人可能會猜測到該字符串的預期效果，比如happeerful這個詞很容易猜到是happy和cheerful的合成詞。

第二種方法稱為Evocative Prompting，和macaronic不同的是，evocative不需要從現有的詞中組合觸發視覺聯想，而是由特定領域中某些字母組合的統計學意義進行「喚起」，創造出一個新詞。

參照生物學分類里的二名法（Binomial Nomenclature），可以根據「屬名」和「種加詞」來創造一個新的「偽拉丁詞」，DALL-E就能夠根據相應的主題生成對應的物種。

根據藥物的命名規律也可以生成新的藥物圖片。

evocative提示也可以應用於語言的特定特徵和與相應語言的地點和文化有關的視覺特徵之間的關聯。比如根據建築名稱，模型就可以推斷是哪個國家的風格，如Woldenbüchel生成的場景看起來像德國或奧地利村莊；Valtorigiano看起來像意大利古鎮；Beaussoncour則像法國的歷史城鎮。

不過也不一定都是建築物，比如最後一個用DALL-E mini生成的圖像則是17世紀的法國肖像，而非法國的地點，但與法國文化的聯繫還是被保留了下來。

evocative提示也可以與詞彙雜交結合起來，以獲得對輸出的具體特徵的更多控制。

在偽拉丁命名法中引入英語詞塊會使DALL-E 2生成具有特定屬性的動物圖像，比如提示詞scariosus ferocianensis將可怕（scary）和兇猛（ferocious）與偽拉丁詞條結合起來，可以生成傳統上可怕的「爬行動物」的圖像，如蠍子。

cutiosus adorablensis將可愛（cute）和adorable與偽拉丁詞條結合起來，能夠生成傳統意義上可愛的哺乳動物的圖像；watosus swimensis將水（water）和游泳（swimming）與偽拉丁詞綴結合起來，能夠生成水生動物的圖像；flyosus wingensis將飛行（fly）和有翼（winged）與偽拉丁詞綴結合起來能夠生成飛行昆蟲的圖像。

從原理上來看，macaronic方法生成的詞彙可以提供一種簡單的、看似可靠的方法來繞過prompt過濾器，別有用心者可以用來生成有害的、攻擊性的、非法的或其他敏感的內容，包括暴力、仇恨、種族主義、性別歧視或色情圖片，以及可能侵犯知識產權或描述真實個人的圖片。

雖然提供圖像生成服務的公司已經根據其內容政策，在防止生成這類輸出方面做出了大量的努力，但macaronic提示仍然能夠對商業圖像生成系統的安全協議的造成巨大威脅。

而evocative提示帶來的威脅不那麼明顯，因為它沒有提供一種十分有效且可靠的方法來觸發特定視覺聯想的字符串，它大多局限於與單詞或語言的廣泛形態特徵有關的概念的模糊聯想。

總的來說，macaronic的提示比evocative提示的可操作性更強，基於關鍵詞的黑名單在此類模型中的內容過濾不足以抵禦攻擊。

難道DALL-E 2要開始黑化了？

參考資料：