AIGC商業化,版權保護誰來管?

來源:“元一資本YoneCapital”(ID:yonecapital),作者:JAMES VINCENT、編譯:可達怡

AIGC商業化,版權保護誰來管?

圖片來源:由無界 AI工具生成

ChatGPT大火,帶來了AIGC相關應用的“強勢出圈”。

像微軟、Adobe和GitHub這樣的公司,正在將這項技術集成到他們的產品中。無獨有偶,創業公司也正在籌集數億美元與之競爭。從文本到圖像,除了感慨AI超強的內容生成輸出能力之外,各界也開始思考AIGC可能產生的潛在風險。

最近,任何關於AIGC的行業討論,你會聽到支持者和批評者,都在以越來越關切的語氣,小聲地問同一個問題:這些真的合法嗎?

這個問題的出現,是因為生成式人工智能系統的訓練方式。像大多數機器學習軟件一樣,它們通過識別和複製數據中的模式來工作。但是因為這些被用來生成代碼、文本、音樂和藝術的數據,本身是由人類創造的,是從網上搜來的,並未以某種方式受到版權保護。

對於遙遠的2010年代的人工智能研究人員來說,這不是什麼大問題。當時,最先進的模型只能產生模糊的、指甲大小的黑白人臉圖像,這對人類沒有明顯的威脅。但在2022年,當一個業餘愛好者可以使用Stable Diffusion等軟件在幾小時內複製藝術家的風格時,或者直接去銷售AI生成的版畫和濾鏡時,合法性和道德問題變得更加緊迫。

01 AIGC模型訓練階段存在哪些侵權風險

以迪士尼插畫家Hollie Mengert為例,她發現自己的藝術風格被加拿大的一名機械工程學生克隆為人工智能實驗。這位學生下載了Mengert的32篇作品,花了幾個小時訓練了一個可以重現她的風格的機器學習模型。正如Mengert告訴報告此案的技術專家Andy Baio的那樣:“就我個人而言,感覺就像有人在拿走我所做的工作,你知道,我所學到的東西——我自2011年從藝術學校畢業以來一直是一名在職藝術家——並用它來創作我不同意也不允許的藝術。”

這公平嗎?Mengert對此能做什麼呢?

為了回答這些問題並了解生成人工智能的法律環境,The Verge採訪了一系列專家,包括律師、分析師和人工智能初創公司的員工。

一些人滿懷信心地表示,這些系統肯定有能力侵犯版權,並可能在不久的將來面臨嚴重的法律挑戰。其他人同樣自信地表示,事實恰恰相反:目前在AIGC領域發生的一切都是合法的,任何訴訟都註定會失敗。

Baio一直在密切關注生成人工智能場景,他告訴The Verge:“我看到雙方的人對自己的立場都非常自信,但事實是沒有人知道。任何一個自信地說自己知道這件事在法庭上會如何發展的人,都是錯誤的。”

英國蘇塞克斯大學專門研究人工智能和知識產權法的學者Andres Guadamuz表示,雖然有很多未知因素,但也只有幾個關鍵問題,許多不確定性都從這裡生出的:

首先,你能讓AIGC模型獲得版權嗎?如果是,誰擁有它?

第二,如果你擁有用於訓練人工智能的版權,這會給你對模型或它創建的內容提出任何法律要求嗎?

一旦這些問題得到回答,就會出現一個更大的問題:你如何處理這項技術的後果?對數據收集,應該實施什麼樣的法律約束?構建這些系統的人,和那些需要數據來創建系統的人們,之間能和平相處嗎?

讓我們逐一回答這些問題。

第一個問題,你能讓人工智能創造的內容獲得版權嗎?

答案並不太難回答。

在美國,僅由機器生成的作品沒有版權保護。然而,在創作者能夠證明有大量人力投入的情況下,版權似乎是可能的。

9月,美國版權局首次批准了一本藉助AI 生成的漫畫書版權註冊。這部漫畫是一部完整的作品:18頁的敘事里,有人物、對話和傳統的漫畫布局。儘管有報道稱,南加州大學正在審查其決定,但該漫畫的版權註冊實際上尚未被撤銷。

一個重要因素,就是製作漫畫所涉及的人力投入程度。創作這幅作品的藝術家Kristina Kashtanova講述,南加州大學要求她提供創作過程的細節,以表明這部平面小說的創作過程中有大量的人類參與。

Guadamuz表示,在授予人工智能幫助下創作的作品版權時,這將是一個持續存在的問題。“如果你只輸入梵高的貓,我認為這不足以在美國獲得版權,”他說,“但如果你有更多的提示,比如製作幾張圖像、如何微調圖像、使用更多的工具,我完全相信這能受到版權的保護。”

02 AIGC模型能否獲得版權,取決人類的參與程度

考慮到這一準則,AIGC輸出的絕大多數內容很可能無法受到版權保護。它們通常只需使用幾個關鍵詞作為提示,就能粗製濫造地批量生產。當然有些AI畫作經過了更複雜的創作過程,其中包括之前引起爭議的作品,一副AI生成的印刷畫作贏得了國家藝術博覽會的競爭。

在這種情況下,創作者表示他花了數周時間完善提示,並手動編輯完成的作品,這表明他有相對較高的智力參與度,能在一定程度上避免對原版權作品的侵權。

一位計算機科學家Giorgio Franceschelli,撰寫了關於人工智能版權問題的文章,表示在歐盟衡量人類的投入,對於這類案件的裁決尤其重要。

而在英國,法律又有所不同。英國是為數不多的幾個為AI生成的作品提供版權的國家之一,但它認為作者是為作品能被創作出,必須存在的人。同樣,這裡有多重含義,比如這個“人”是模型的開發者還是它的操作者,但無論如何它為某種版權保護的授予提供了優先權。

然而,Guadamuz提醒道,註冊版權只是第一步,“美國版權局不是法院,如果你要起訴某人侵犯版權,你需要註冊,但這將由法院決定在法律上是否可行。”

這時,第二個問題來了,你能使用受版權保護的數據,來訓練人工智能模型嗎?

對於大多數專家來說,有關人工智能和版權的最大問題,與用於訓練這些模型的數據有關。大多數系統都是根據從網絡上抓取的大量內容進行訓練的,無論是文本、代碼還是圖像。

例如,AIGC模型領域最有影響力的Stable Diffusion,它的訓練數據集包含了從數百個領域抓取的數十億張圖像。包括WordPress和Blogspot上的個人博客、DeviantArt等藝術平台以及Shutterstock和Getty Images等圖像網站。事實上,生成式人工智能的訓練數據集非常龐大,屏幕前的你也很有可能成為其中的數據了。

人工智能研究人員、初創公司和價值數十億美元的科技公司,共同使用的理由是,至少在美國使用這些圖像是受到公平使用原則的保護,該原則旨在鼓勵使用受版權保護的作品,來促進言論自由。

范德比爾特法學院里專門研究知識產權法的教授Daniel Gervais,解釋說,在決定某種東西是否合理使用時,有很多考慮因素。其中有兩個因素“更加突出,一個是“使用的目的或性質是什麼”,另一個是“對市場有什麼影響”。

換句話說,這種變革是否以某種方式,通過與原創作者的作品競爭,威脅到他們的生計了?

03 AIGC能否構成“合理使用”免責?

考慮到這些因素的責任,Gervais表示很有可能培訓系統合理使用受版權保護的數據。但對於生成內容來說,情況未必如此。換言之:你可以使用他人的數據訓練人工智能模型,但你對該模型的處理可能是侵權的。

可以這麼理解,如果該模型是在數百萬張圖像上訓練的,並用於生成新穎的圖片,那麼這極不可能構成侵犯版權。在這個過程中,輸出的結果不太會威脅到原作者的市場競爭力。但是,如果你對某位藝術家的100張作品進行微調,並生成符合其風格的照片,這個藝術家一個不高興,就會將你告上法庭。

AIGC商業化,版權保護誰來管?

左圖:畫家Erin Hanson在2021年創作的作品;右圖:在Stable Diffusion中以“style of Erin Hanson”等作為提示生成的結果

Gervais舉了個例子:“如果你給AI看了10部斯蒂芬·金的小說,然後讓它寫一部斯蒂芬·金風格的小說,那麼你就是在直接與斯蒂芬·金競爭。這顯然不算是合適使用。”

至關重要的是,在公平和不公平使用的兩極間,有無數種情況下,無法影響法律裁決。

生成人工智能公司Wombo的高層Ryan Khurana表示,大多數銷售這些服務的公司都意識到了這些差異。他在電子郵件中告訴The Verge:“故意使用基於版權作品的提示來生成內容,違反玩家的服務條款。”但他補充道,“執法很困難”,公司往往更感興趣的是“想出防止以侵犯版權的方式使用模型的方法,而不是限制訓練數據。”

對於開源的AI模型來說更是如此,它可以在零監督的情況下進行訓練和使用。公司可能因此掩蓋了自己的行為,但也可能為侵犯版權的使用提供便利。

判斷是否合理使用的另一個變量,是該AI模型是否由學術研究人員和非營利組織創建。這通常會加強合理使用的防禦極致,初創公司也知道這一點。因此,例如,Stable Diffusion的開發商Stability AI,並沒有直接收集模型的訓練數據。相反,它還得到了德國一所大學的許可,這使得Stability AI可以將該模型轉化為商業服務,同時與“犯法”保持距離。

Baio將這種做法稱為“人工智能數據清洗”。他指出,這種方法以前曾被用於創建面部識別人工智能軟件,並舉了MegaFace的例子。這是華盛頓大學的研究人員通過從Flickr中抓取照片彙編的數據集。

Baio說:“學術研究人員獲取了這些數據,並對其進行了清洗,讓這些數據可以安全地被商業公司使用。”他補充說,現在這些包括數百萬張個人照片掌握在面部識別公司Clearview AI、執法部門和中國政府手中。這樣一個“人工智能數據清洗”過程,可能也有助於保護生成式人工智能模型的創造者,免受責任。

然而,這一切還有最後一個轉折點,Gervais指出,最高法院涉及安迪·沃霍爾和普林斯的未決案件,目前對合理使用的解釋實際上可能在未來幾個月發生變化。此案涉及沃霍爾利用普林斯的照片創作藝術品,是合理使用,還是侵犯了版權?

Gervais說,在等待最高法院修改法律時,說任何事情都是會有風險。

第三個問題是,藝術家和人工智能公司如何和平相處?

即使AIGC的訓練,被證明在合理使用範圍內,這也很難解決該領域的問題。這不會平息藝術家們對他們的作品被用來訓練商業模型的憤怒,也不一定適用於其他AIGC領域,如代碼和音樂。

考慮到這一點,那可以引入什麼補救措施,無論是技術上的還是其他方面的,讓AIGC蓬勃發展的同時,為創作者提補償?

最顯而易見的建議是向授權數據的創作建者付費。然而,對一些人來說,這將扼殺這個行業。《公平學習》一書的作者Bryan Casey和Mark Lemley的觀點,已成為鼓吹AIGC能被公平使用論點的支柱。他們表示訓練數據集太大了,“不能簡單地許可所有照片、視頻、音頻或文本,用於新的用途。”他們認為,允許“公平學習”不僅鼓勵創新,而且可以開發更好的人工智能系統。

然而,其他人指出,我們之前已經解決過複雜性相當的版權問題,並且可以再次解決。The Verge採訪過的幾位專家將AIGC時代與音樂盜版時代,進行了比較。當時文件共享程序建立在大規模侵犯版權的基礎上,直到出現法律約束,尊重版權的新協議后才蓬勃發展。

像21世紀初的Napster,雖然每個人都喜歡它,但它是完全非法的。隨着法律的發展,今天我們才有了Spotify和iTunes這樣的產品。律師Matthew Butterick告訴記者,他目前正在起訴那些為訓練人工智能模型而收集數據的公司。

04 補償創作者的方法

Wombo的高層Ryan Khurana也預測了類似的結果。他告訴The Verge:“由於許可類型不同、權利持有人種類繁多,以及涉及的各種中介機構,音樂的版權規則是迄今為止最複雜的。考慮到圍繞AIGC法律問題的細微差別,我認為整個生成式人工智能領域,將演變為擁有類似於音樂的許可制度。

當然,還有其它補償方案也在試驗中。

例如,Shutterstock網站正計劃設立一個基金,對那些將其作品出售給人工智能公司訓練的個人,進行補償。而DeviantArt則為網絡上共享的圖像創建了一個元數據標籤,警告人工智能研究人員不要抓取他們的內容。

目前有一家小型社交網絡Cohost已經在其網站上採用了這個標籤,並表示如果被發現抓取它的圖像,它不排除採取法律行動。

然而,這些方法都遭到了藝術界的不同回應。一次性許可費能補償失去的生計嗎?現在已經部署的無抓取標籤的數據,如何幫助那些作品已經被用於訓練商業人工智能系統的藝術家?對於許多創作者來說,傷害已經造成。

隨着AI初創企業帶來的新的解決方案,一個明顯的進步是,授權許可模式在實操層面開始落地。其中一個例子是The Stack,這是一個用於訓練人工智能的數據集,專門用來避免侵犯版權的指控。它只包括具有最寬鬆的開源許可的代碼,並為開發人員提供了一種根據請求刪除數據的簡單方法。其創建者表示,他們的模型可以在整個行業中使用。

“The Stack的方法絕對可以適應其他媒體,”Hugging Face負責機器學習的Yacine Jernite告訴The Verge,該公司與合作夥伴ServiceNow合作創建了The Stack。“這是探索廣泛的同意機制的重要第一步,當他們考慮到人工智能訓練數據提取的平台規則時,這些機制會發揮最佳作用。”

接下來會發生什麼?

在面臨版權作品高昂的授權許可費用時,AIGC研發主體往往面臨兩種選擇:一是,放棄AIGC領域,進而轉向其他行業;

二是,堅守AIGC領域,但使用免費數據進行訓練。然而,前者無疑阻礙了人工智能技術和產業發展的趨勢,與科技進步規律相違背;後者則可能因訓練數據的不足,而引發算法模型偏見等不良後果。

然而,隨着上周對微軟、GitHub和OpenAI提起集體訴訟,人工智能版權戰爭的第一槍已經打響。該案指控這三家公司通過人工智能編碼助理Copilot故意複製開源代碼,但沒有適當的許可證。上周,該訴訟背後的律師在接受The Verge採訪時表示,這可能會為整個生成人工智能領域開創先例。

05 一旦有人打破了掩護,法律就會開始左右搖擺

與此同時,Guadamuz和Baio都表示,他們很驚訝還沒有出現更多的法律挑戰。Guadamuz認為這在一定程度上,是因為大家害怕成為第一個因起訴而失去決定的人。不過,一旦有人打破了掩護,我認為訴訟將開始左右搖擺。

Baio表示,許多受這項技術影響最大的人,比如藝術家根本無法發起法律挑戰。“他們沒有資源,”他說,“這類訴訟非常昂貴和耗時,只有當你知道自己會贏的時候,你才會這麼做。這就是為什麼我一段時間以來一直認為,圍繞人工智能藝術的第一批訴訟將來自圖像網站。他們似乎準備從這項技術中損失最大,他們可以清楚地證明,他們的大量語料庫被用來訓練這些模型,他們有資金將其告上法庭。”

Guadamuz對此表示贊同,“每個人都知道它會有多貴,”他說。“無論誰起訴,都會在下級法院做出裁決,然後他們會上訴,然後他們還會再次上訴,最終可能會一直上訴到最高法院。”

結語:

不可否認,當前AIGC模型生成的結果存在侵權風險。但可以預見的是,隨着AI算法的不斷改進優化與訓練數據的倍數增長,單個版權作品在這一過程中的價值將被“沖淡”,生成結果的侵權概率也將隨之進一步降低。

本文鏈接:https://www.8btc.com/article/6813076

轉載請註明文章出處

(0)
上一篇 2023-05-05 20:38
下一篇 2023-05-05 21:39

相关推荐