對話Midjourney 主創： AI本身沒有創造力，但美可以來自AI

來源：全民熊貓計劃‌

作者：海辛Hyacinth

原標題：《與 Midjourney 主創對談 | MJ Office Hour 翻譯 0908 期》

了解風起雲湧的 AI 到底在發生什麼，看到創造這個產業的領袖們是如何思考着時代的走向

本文插圖 credit to @星辰是一團舊火

Midjourney 每周三有一次 Office Hour 時間，David Holz 會先用 30 分鐘左右的時間講述 Midjourney 最近的更新和計劃，餘下的時間會用於回答用戶提問。

我將問答中部分內容整理在這篇文檔中和大家分享，總時間長度 3~4 小時，我非英語專業或新聞記者專業出身，只挑選總結了問答中我個人感興趣的部分在這篇文檔里。

如果你想聽到完整的 Office Hour 錄音，你可以在小宇宙平台搜索全民熊貓計劃收聽本次 Office Hour 的全部音頻，you are welcome.

Part 1 – Midjourney 本周更新

Midjourney 正式模型已經更新到了 V3，目前開發的測試模型（–test, –testp）較 V3 具備更廣闊的知識面並能生成更寫實的圖像，但是我們發現似乎其閱讀能力不是很強，更側重句中起始的詞彙，忽略末尾的詞彙；更重要的是其為了寫實，而或多或少對藝術性有犧牲，同時測試模型的速度現在也不太理想，也較難生成像素高的作品。

在接下來的幾周，我們可能會推出首個更細分領域的繪畫模型，看看是否細分的模型領域會提供更好的體驗，我個人當然還是希望能一個模型解決所有的問題。

我們的 Discord 頻道用戶超出了 1.5 百萬，是目前 Discord 里最大的頻道，很快我們會比第二名的 Minecraft 和第三名的 Fornight 頻道加起來人數還要多，一個月內我們的人數會再翻 5 倍。

我們會升級網頁版的體驗，未來網頁版的 Midjourney 將不再依賴 Discord 頻道而獨立存在，這樣會更方便喜歡獨立創作的創作者，但同時我們也會增強 Discord 頻道的社交社區體驗。

目前一些開源模型被色情內容所侵蝕，未來甚至可能會有專門生產情色血腥內容的 AI 模型出現，但不會是 Midjourney. 社交網絡容易被最喧囂的聲音所掩蓋，無論是 Facebook 還是 Twitter 都是這個狀況，但我認為有很多比血腥和色情更有創意的內容。我們嘗試教會模型分辨出更友好的內容，比如有胸部但是不色情的圖像，有血液但是不血腥的圖像。

Part 2 – Q&A

Q：你認為人工智能可能是創造性的嗎？

A：創造力本身有很多的形式，如果說是將兩個不同的概念混合在一起，像是賽博朋克和洋蔥，也許歷史上從未有過做賽博朋克洋蔥的人類。在將兩個不同概念混合在一起的能力上，AI 目前基本是人類的水平。但我認為藝術家不僅僅是關於圖像的產生者，藝術往往是關於故事和情感的，而 AI 沒有故事和情感，AI 創作的影像的敘事來源於使用 TA 的人。貝殼皆來自大海，但海洋非造物者。美石皆來自川河，但河流非孕育者。這套系統並無創造的能力，但美可以來自其中。AI 繪畫本質如同行雲，TA 並無任何主觀的意願。

Q：考慮 Zoom-Out 的功能嗎？Zoom-Out 在技術上是否難以實現？

A：沒有什麼難的事情，只是現在我們沒有足夠的人，我們目前把注意力集中在幾乎所有人都能使用的功能上。在我看來比起做一個新功能來修補裁剪不當的生成圖像，不如提升性能讓模型不再生成裁剪不當的圖像。

Q：目前版本的模型 + Remaster 功能可以讓我得到很理想的效果，我想問對於 Remaster 這個功能有什麼規劃嗎？

A：V3 + Remaster 也是我目前個人最喜歡的工作流，V3 能做出很具有氛圍和藝術感的圖像，而 Remaster 可以對其進行清理，我們也計劃將 remaster 長期使用。

Q：你們存儲着我們所有創造的圖像，這是否會給你們帶來很大的成本？

A：目前存儲圖像的成本大概在生成圖像成本的 1%，你在為生成圖像付費時，也同時在為存儲其他人的圖像付費。目前我們嘗試給所有人 PNG 格式的圖像（幾乎是沒有壓縮的）如果在未來的某個時刻，我們感到壓力太大后我們可能會將生成的圖像替換為壓縮的版本以控制成本。我期望這一天不會來到。就目前來講我們每個月的用戶都急劇擴張，活躍的用戶在為所有用戶的存儲付費。我們不知道未來存儲的成本是否會下降，但計算的成本肯定在下降，在未來的幾個月，相同的算法可能會便宜 4 倍，但會有新的算法可能會貴 4 倍，但會超級強。
我們在社區里做過很多次調查，我們問用戶們你們希望在同樣的收費標準下實現更好的效果，還是在相同的效果下降低收費。用戶們持續告訴我他們希望能在同樣的收費下實現更好的效果。我知道這個結論本身有偏移，因為對於無法負擔這個價格的用戶來說，他們沒有機會參與社區投票，但用戶們希望追求更高的質量依舊是很明顯的事實。

Q：謝謝你們創造出這麼美好的圖像（這一段只有讚美和感謝沒有提問）

A：謝謝，我們真的夜以繼日地在工作，每個發布的模型我們都看了其中大概 10000 張以上的圖片，我們希望通過 Midjourney 生成的圖像都是美的，用更少的詞彙可以讓你思考得更加迅捷。我想其他的一些 AI 實驗室嘗試讓生成的圖像更寫實，比如你輸入“狗”，他會生成一張“狗的照片”，但我嘗試深挖人們真的希望獲得的是什麼，比如說生成的圖像更具有美感和創造力。

我們試圖理解，是什麼讓事物變得美麗，是什麼讓事物變得有創意？是什麼讓事情變得連貫和清晰？這些要素之間的權衡是什麼？就像花是美麗的，對嗎？但花的美是因為我們認為它很美，還是花想要變得美麗？出於某種原因，花對昆蟲來說是美麗的，對我們來說也是美麗的。這幾乎就像我們與昆蟲共享着同一種審美和天性，美有很大一部分是來自自然的。

Q：V3 模型會用用戶生成的圖像自我訓練嗎？

A：所有圖像來自網絡，AI 運用互聯網去學習概念，然後通過我們的用戶去理解美和表達。

Q：非常感激你們一直做 Office Hour 回答我們的問題，這一定增加了許多的工作量。

A：擁有一個由富有創造力的人組成的社區對於我來說是世界上最酷的事情之一，這非常激勵我。很多人只是想在 twitter 上得到贊，但我並不真正關心這個，我甚至從未在自己的 twitter 賬戶上發布任何關於 Midjourney 的消息。我對於這方面的關注不是特別感興趣，我只想做很酷的產品和擁有一個充滿很酷的人的社區，這就是全部。

Q：我想知道對於曾經的模型版本，尤其是 V1 V2, 你覺得這些版本會有一天徹底退休嗎？

A：如果我們把其中任何一個模型從服務器上拿下來，我們會將其開源。

Q：你提到會將曾經的一些功能重新推出，不知道你對此有何計劃？

A：我們在早先的測試階段有很多非常奇怪的功能現在暫時被拿下來了，團隊里有觀點認為這些功能不是目前的優先級，而另外有觀點認為既然我們已經有相關的代碼了不如直接推出。我很喜歡這些功能，因為 TA 們告訴了我科技可以做到什麼。我們團隊里目前有一個人在負責這部分內容的開發（哈哈哈哈）等時機成熟了，這些曾經的功能會以全新的形式再次出現在大家的視野中。另外我們想成為第一個平台向用戶提供一些更高級的控制措施，我認為 in-painting 很酷，但是我不認為 in-painting 是一個很好的藝術創造過程，畢竟每次你點擊一次都需要 30 秒的時間才能得到結果。我希望用戶能感覺他們在打開全新的創造領域。

Q：David 你今天吃午飯了么？

A：我喝了一杯 Soylent (一種代餐飲料) 這是我的備用午餐，保證我不會昏昏欲睡並且得到一些卡路里。

Q：很多人想問關於 Photoshop 插件的事情，會是怎樣的插件嗎？

A：哈哈我們不會劇透，可能不會是大家所想象的那樣。不過如果我們在投票區域提問的話，大概率是我們還沒開始做；如果我們已經開始做了，我們不會發布投票，哈哈哈。

Q：你有考慮讓 Midjourney 服務器購買自己的 GPU, 而不是租賃 GPU嗎？

A：不會的，我們目前使用了太多的 GPU, 大概超過了 1 億美元的價格，也許更多。我們無法負擔購買這麼多 GPU, 所以我們在租賃，哈哈哈。

Q: 是否考慮幫助 Midjourney 本地運行？

A：Midjourney 的很多功能需要很好的顯卡，目前沒有消費級顯卡可以運行我們的模型，一些消費級顯卡可以運行，但運行速度會比較慢。對我們來說，與其精力放在能買得起 3000 美元顯卡的用戶本地運行 Midjourney，不如將精力放在幫助更多的普通人能從中獲得最好的體驗上。

Q：什麼時候 test, testp 模型可以使用 image prompt？

A：我們目前專註在做新的模型上面，新版本模型將可以使用 image prompt.

Q: 你們有計劃拓展類似於diffusion的功能嗎：提供非常初級的草圖作為prompt來提供構圖和色彩以生成新圖像？

A: 我們過去做過很多相關的實驗。我們希望能訓練出對藝術家有好處的東西。但目前來看，這種方式生成的圖片效果反而更糟。我們還在研究和開發中，目前尚未有滿意的成果。我想我會感興趣人們能夠真正設置構圖的功能，比如，我想要圖A的構圖，圖B的文字，圖C的顏色，圖D的人物，然後把它們丟在沙漠中，就像是給AI提供了一系列錨點。這是我們的努力的方向。我們現在就在這麼個古怪的領域裡。互聯網有很多酷的事情，但大多數我們都不會做，通常人們只會選擇快速的事情，做最有可能成功的嘗試。但我們想做真正瘋狂的事情，需要十個全職的員工（難道不該是一百個嗎==）

Q: 關於上面可視化交互繪圖的功能，我很好奇這是屬於人工智能模型的一部分，還是提升訓練數據集的部分呢？

A: 這實際上包含三個模塊，理解語言，理解語言與圖像的關係，理解審美。不同的人工智能模型負責不同的模塊。這三個模塊是分開訓練的，目前還沒有把它們放在一起訓練的方法。所以我們的產品可能畫不出某個具體的動物，是因為語言模塊並不理解這個單詞；圖像裡面的一些故障是因為負責圖像的模塊和負責審美的模塊的衝突：圖像模塊虛構了它沒有學習過的紋理，而美學模塊試圖給這種虛構的紋理添加現實的光線和色調。

Q: 你們有想過把不同的 AI 整合進 Midjourney，然後根據用戶功能來配置權重使用這些模型嗎？

A: 我知道有人結合使用 DallE-2 的筆刷和我們的生成工具。那很酷，我對其是完全的開心。順便說一下，如果有人想使用我們的工具，其他的工具，那很好。我真的不在乎。我並不是想要接管世界，也不是想要 MidJourney 成為你電腦上唯一的應用程序，哈哈。那不是我。我不在乎。如果別人能做，實際上，我寧願別人做。就像那很棒一樣。我想這會很好，就像世界上最酷的東西一樣。但我確實對用戶界面有非常強烈的意見。因為這是我 10 年來的主要工作，就像我以前的公司一樣，就像 Leap Motion。我們做了所有這些，比如小手跟蹤、手勢和空間界面。我現在強烈地感覺到，這些技術的用戶界面可以做得更好。

本文鏈接：https://www.8btc.com/article/6776768

轉載請註明文章出處