無需原作者同意,AI 可以用已出版書籍作訓練數據了。
就在最新判決的訴訟中,美國法院裁決:允許 Claude 背后公司 Anthropic 在未經作者許可的情況下,使用合法購買的已出版書籍訓練 AI。
法院參考了美國版權法中的 " 合理使用 "(Fair Use)原則,認為 AI 訓練屬于 " 轉化性使用 "(Transformative Use),即對原作品的新用途未取代原作市場,且有利于技術創新和公共利益。
大大降低了 AI 訓練數據的版權風險。
對此,不少網友的看法是這樣的:既然人類讀書并加以理解是毫無爭議的,那 AI 讀書并理解也應該合理。
對 Anthropic 的指控,由三位作家在 2024 年 8 月發起。
值得關注的是,Anthropic 的案件不僅針對使用已出版書籍訓練 AI,還涉及到書籍的來源問題:
盡管 Anthropic 在那時已意識到盜版法律風險("not so gung ho about pirated books for legal reasons"),但仍保留所有盜版副本。
2023 年 3 月,Anthropic 從數字化圖書館選擇書籍子集訓練 Claude 模型,Claude 首版發布。
2024 年 2 月,Anthropic 雇傭前 Google 圖書掃描項目負責人 Turvey,轉向合法采購并掃描書籍,購買數百萬本紙質書。
Turvey 發送了 " 一兩封郵件 "("an email or two")給出版商,但未持續跟進("let those conversations wither")。
根據美國法院對 Anthropic 的裁決文書,可以關注到以下幾點:
1、這次事件的爭議主要在 Anthropic未經過創作者允許,使用已購買的正版書籍或盜版書籍對 Claude 進行訓練。
2、原告對于 Anthropic 的指控是:非法復制作品(包括盜版和掃描版)用于訓練 AI,侵犯版權。
3、法院裁定 Anthropic 可以使用合法采購書籍的掃描副本用于訓練 AI 的數據處理,認為 AI 訓練具有 " 高度轉化性 ",未直接替代原作市場,且輸出未侵犯原告作品。
4、法院同時裁定盜版書籍的使用不構成合理使用,盜版行為本身涉及侵權。盜版相關責任及賠償問題需進入審判階段。
有網友簡單總結為:關鍵在于訓練使用書籍的來源是不是盜版。
有網友表示:這是一個正確的決定,就像人類可以去圖書館或者讀自己買的書一樣自然。
類似案例曾出現在其他 AI 公司的訴訟中。
2015 年 Goggle Books:美國最高法院認定屬于 " 合理使用 "
2004 年,Google 開始了 "Google ’ s Library Project ",這個計劃與各大圖書館合作,打算將超過兩千萬冊圖書掃描并數字化,供 Google 使用者直接搜索。被掃描的圖書包括超過著作權保護期限的公有作品和那些尚處在著作權保護期內的書籍。
全文數字化復制侵犯作者復制權;
片段瀏覽功能可能替代原作市場;
有商業動機(搜索業務衍生收益);
數字副本存儲存在黑客泄露風險;
向合作圖書館分發副本可能損害版權人利益。
2013 年,美國聯邦法院作出了第一判決,駁回原告訴求,認定 Google 的搜索和片段瀏覽功能只 " 轉化 " 了原作用途(從閱讀到信息檢索,未提供實質替代內容,可促進學術研究和圖書發現,構成合理使用的條件。
2015 年,二審維持原判。
2022 年 GitHub Copilot:促使 AI 公司推出 " 代碼來源標注 " 功能
GitHub Copilot 是微軟旗下 GitHub 開發的 AI 編程助手,基于 OpenAI 的 Codex 模型,通過分析公開代碼庫(如 GitHub 上的開源項目)生成代碼建議。
2022 年,多名開源開發者及組織指控 GitHub Copilot:
許可證違規:Copilot 訓練時使用了 GPL 等 " 傳染性 " 開源許可證代碼,但生成代碼未遵循原許可證要求(如保留版權聲明)。
版權侵權:生成的代碼與開源代碼高度相似,涉嫌直接復制。
商業濫用:微軟將免費開源代碼轉化為付費工具(Copilot 企業版),違背開源精神。
根據公開報道和訴訟進展,關鍵結論如下:
法院認定 AI 訓練使用開源代碼屬于 " 轉化性使用 ",不構成直接侵權(參考 Google Books 案邏輯);
原告未能證明 Copilot 系統性輸出侵權代碼,偶發相似片段不構成大規模違規;
法院要求 GitHub 加強過濾機制,避免輸出受 GPL 等強許可證約束的代碼,或明確標注來源及許可證要求,并提供工具供用戶檢查代碼與開源庫的相似性。
2023 年 2 月,GitHub 正式發布 " 代碼來源檢測 " 功能(Code Referencing),作為默認服務集成到 Copilot 中,幫助用戶識別生成代碼與開源項目的關聯性。
2023 年 Open AI&Meta:仍在受理
2023 年,多名作家、演員以及全球出版商聯盟指控 Open AI 和 Meta 使用盜版數據訓練 AI,數據包含來自 " 影子圖書館 "(如 Bibliotik、LibGen、Z-Library)的書籍,這些網站提供未經授權的版權內容。
ChatGPT 能準確總結原告的書籍,證明模型 " 記憶 " 了受保護文本;Meta CEO 扎克伯格及 AI 團隊明知 LibGen 為盜版,仍決定使用其數據訓練 Llama 3,以加速超越 OpenAI。
關于 Open AI 和 Meta 的案件仍在受理中,尚未明確裁決。
本次 Anthropic 案的勝訴并非孤例,而是美國司法系統在 " 技術創新 vs. 版權保護 " 的拉鋸中傾向前者的體現,也是美國首次有法院支持合理使用原則,保護人工智能公司在使用受版權保護的文本訓練 LLMs 時不受限制。
意味著此后AI 可以研究其購買而非從盜版網站獲取的內容。
有網友認為,本次裁決結果可能影響美國法院對 Open AI 和 Meta 案件的審理。
[ 1 ] https://x.com/rohanpaul_ai/status/1937598431947808893
[ 2 ] https://storage.courtlistener.com/recap/gov.uscourts.cand.434709/gov.uscourts.cand.434709.231.0_2.pdf
[ 3 ] https://githubcopilotlitigation.com/
[ 4 ] https://x.com/CeciliaZin/status/1740109462319644905
一鍵三連「點贊」「轉發」「小心心」
歡迎在評論區留下你的想法!
— 完 —
量子位 AI 主題策劃正在征集中!歡迎參與專題365 行 AI 落地方案,一千零一個 AI 應用,或與我們分享你在尋找的 AI 產品,或發現的AI 新動向。
也歡迎你加入量子位每日 AI 交流群,一起來暢聊 AI 吧~
一鍵關注 點亮星標
科技前沿進展每日見