關于ZAKER 合作
      三易生活 3小時前

      版權內容可“合理使用”,AI 廠商迎來了好時代

      一覺醒來,內容創作者和藝術家的天似乎要塌了。據海外相關媒體在 6 月 25 日的報道顯示,美國加州北區法院日前做出判決,美國 AI 初創企業 Anthropic 使用受版權保護的作品來訓練 AI 大模型屬于合理使用范疇。

      本案的背景,是數位美國作家在去年將 Anthropic 告上法庭,指控后者使用盜版書籍訓練其 Claude 模型。對此美國聯邦法官 William Alsup 指出," 原告的控訴無異于抱怨學校培養孩子寫作會導致競爭作品激增,《版權法》旨在推動原創作品的發展,而非保護作者免受競爭。"

      最終 William Alsup 法官選擇各打五十大板,一方面他做出了有利于 Anthropic 的裁決,后者購買實體書籍裁切頁面、掃描,并用于訓練 AI 大模型的行為合法,可以用亞馬遜上的圖書價格來確定 Anthropic 獲取書籍內容的成本。另一方面這位法官也表示,Anthropic 通過互聯網下載盜版書籍是非法的,這一過失仍需單獨追究法律責任。

      要知道在美國版權法的框架下,如果版權作品已經注冊,原告就可以要求進行法定賠償(Statutory Damages),而不是實際損失賠償。按照以往的判例,美國版權侵權官司的最低法定賠償標準,是為每個侵權作品的每次侵權行為支付 750 美元。如果按照 Anthropic 自 2021 年起就從一系列盜版網站下載了超過 700 萬本書的事實,他們可能要面臨超過 50 億美元的罰金。

      Anthropic 贏得這場皮洛士式的勝利,就會讓整個 AI 業界在面對版權內容時可以合法應用 " 合理使用原則 " ( fair use ) ,也讓自己不會面臨一筆史無前例的賠償。這下 " 請先生赴死 " 的網絡熱梗就在 AI 業界具象化了,Anthropic 算是給其他 AI 廠商使用版權內容開辟了一條終南捷徑。

      "AI 的訓練數據如同化石燃料一樣面臨著耗盡的危機 ",自 2024 年開始就不斷有 AI 科學家發出這樣的警告。比如 OpenAI 前首席科學家 Ilya Sutskever,就曾在 2024 年的第 38 屆神經信息處理系統年會的演講中表示," 一個無法改變的事實是,我們只有一個互聯網。我們已經達到數據峰值,不會再有更多數據了,所以必須處理好現有的數據。"

      而 AI 行業之所以會在 2023、2024 年狂飆突進,大模型的性能實現跨越式增長,其實是 AI 廠商將互聯網世界過去三十年積累的數據一次性利用的結果。Common Crawl、The Pile、維基百科等開源數據集,早已被 OpenAI、Anthropic、谷歌等廠商嚼成了 " 甘蔗渣 ",也導致市面上的開源數據已經進入 " 資源枯竭 " 狀態。

      為了提升模型的通用性,AI 廠商就必須使用涵蓋廣泛主題和語言風格的海量數據,來讓大模型理解復雜的語言結構和語義關系。同時隨著 AI 大模型走向多模態和跨領域應用,它們對不同類型和領域數據的需求也開始顯著增加,又進一步推動了數據量的增長。

      " 不管黑貓白貓,能捉老鼠的就是好貓 ",為了滿足自身對于數據的需求,AI 廠商一邊走正道、花錢購買數據,一邊則是通過技術手段來偷偷獲取被版權保護的內容。進入 2024 年以來,一眾 AI 廠商為了盡可能地收集數據,已經不再那么 " 守規矩 ",由于他們需要將有限的預算花在算力、電力、水資源等剛性支出上,以至于 " 偷數據 " 甚至變成了整個業界心照不宣的操作。

      例如,蘋果、英偉達、OpenAI 在訓練 AI 模型時使用了 YouTube 未經授權數據,Anthropic 的爬蟲用 DDos 的方式從一票網站抓數據,大家甚至連表面功夫都不愿意做了。當然,AI 業界還在嘗試用 " 合成數據 " 來訓練大模型,試圖用 AI 自我生成的數據來擺脫數據荒。

      然而《Nature》中的一篇論文顯示,使用 AI 生成數據集訓練大模型會污染它們的輸出,無法避免 " 模型崩潰 "(model collapse),就使得 AI 廠商對于合成數據的使用變得異常審慎,所以他們也不得不保持對傳統數據的依賴。

      這次美國法院的判決,實質上是將 AI 廠商通過技術手段獲取版權內容的灰色手段給洗白,并明確了 " 合理使用原則 " 不僅適用于互聯網,同樣也適用于 AI。考慮到引領 AI 潮流的海外廠商基本都在加州,William Alsup 的這次落槌就好似蝴蝶振翅,將可能會重塑當下 AI 業界的時常競爭態勢。

      當這些 AI 廠商有了 " 合理使用原則 " 作為護身符,版本內容的擁有者可就要倒霉了。作為當下前沿科技的代表,AI 業界在信息技術領域幾乎碾壓其他行業,版本內容擁有者無疑是被降維打擊,這也就意味著當 AI 廠商使用技術手段強行獲取版權內容時,版權方將束手無策。

      以往版權方還可以選擇呼喚監管、使用法律武器來保護自己,可隨著 " 合理使用原則 " 被司法部門認定為適配 AI 行業,一切就都變了。當監管選擇中立,AI 廠商與版權方的博弈無異于是 " 胖虎欺負大熊 "。所以可以預見地是,robots.txt 協議即將成為廢紙,AI 廠商的爬蟲必然會席卷整個互聯網世界。

      不僅如此,類似 Reddit 這種向 OpenAI、谷歌賣數據的模式,可能也會難以長久。畢竟能用爬蟲抓取數據的情況下,為什么還要花錢買呢?這也就能解釋為何此前對 AI 音樂 " 喊打喊殺 " 的一眾唱片巨頭,會在本月初突然選擇與 AI 音樂廠商談判。只能說這些唱片巨頭不愧是成功穿越了互聯網周期的存在,嗅覺就是靈敏。

      【本文圖片來自網絡】

      相關標簽
      ai
      三易生活

      三易生活

      我們主要是一家有趣、有干貨、偶爾掉下節操的科技媒體。

      訂閱

      覺得文章不錯,微信掃描分享好友

      掃碼分享
      主站蜘蛛池模板: 丝袜无码一区二区三区| 精品日产一区二区三区手机| 精品久久久久一区二区三区| 日韩精品无码一区二区三区不卡 | 亚洲日本va一区二区三区| 国产精品一区不卡| 亚洲乱色熟女一区二区三区蜜臀| 国产精品区AV一区二区| 国产成人AV区一区二区三| 中文字幕日韩一区二区不卡| 久久国产精品一区免费下载| 免费一区二区无码东京热| 国产福利电影一区二区三区,日韩伦理电影在线福 | 国产一区二区三区精品久久呦| 无码人妻一区二区三区免费n鬼沢 无码人妻一区二区三区免费看 | 乱中年女人伦av一区二区| 久久青青草原一区二区| 亚洲一区二区三区播放在线| 一区二区在线免费观看| 亚洲AV色香蕉一区二区| 久久青草精品一区二区三区| 中文字幕一区二区三区有限公司| 欧洲精品码一区二区三区免费看| 国产福利在线观看一区二区 | 日韩精品无码久久一区二区三 | 亚洲午夜一区二区三区| 精品一区二区三区| 国产精品一区二区久久沈樵| 国产一区视频在线免费观看| 日韩精品一区二区三区影院| 一级毛片完整版免费播放一区| 日韩精品一区二区午夜成人版| 一区二区三区免费电影| 果冻传媒一区二区天美传媒| 亚洲乱码日产一区三区| 精品无码日韩一区二区三区不卡| 99久久无码一区人妻a黑| 成人无码精品一区二区三区| 国产在线一区二区三区在线| 久久精品国产一区二区三区| 亚洲一区二区三区AV无码|