一覺醒來,內容創作者和藝術家的天似乎要塌了。據海外相關媒體在 6 月 25 日的報道顯示,美國加州北區法院日前做出判決,美國 AI 初創企業 Anthropic 使用受版權保護的作品來訓練 AI 大模型屬于合理使用范疇。
最終 William Alsup 法官選擇各打五十大板,一方面他做出了有利于 Anthropic 的裁決,后者購買實體書籍裁切頁面、掃描,并用于訓練 AI 大模型的行為合法,可以用亞馬遜上的圖書價格來確定 Anthropic 獲取書籍內容的成本。另一方面這位法官也表示,Anthropic 通過互聯網下載盜版書籍是非法的,這一過失仍需單獨追究法律責任。
Anthropic 贏得這場皮洛士式的勝利,就會讓整個 AI 業界在面對版權內容時可以合法應用 " 合理使用原則 " ( fair use ) ,也讓自己不會面臨一筆史無前例的賠償。這下 " 請先生赴死 " 的網絡熱梗就在 AI 業界具象化了,Anthropic 算是給其他 AI 廠商使用版權內容開辟了一條終南捷徑。
而 AI 行業之所以會在 2023、2024 年狂飆突進,大模型的性能實現跨越式增長,其實是 AI 廠商將互聯網世界過去三十年積累的數據一次性利用的結果。Common Crawl、The Pile、維基百科等開源數據集,早已被 OpenAI、Anthropic、谷歌等廠商嚼成了 " 甘蔗渣 ",也導致市面上的開源數據已經進入 " 資源枯竭 " 狀態。
" 不管黑貓白貓,能捉老鼠的就是好貓 ",為了滿足自身對于數據的需求,AI 廠商一邊走正道、花錢購買數據,一邊則是通過技術手段來偷偷獲取被版權保護的內容。進入 2024 年以來,一眾 AI 廠商為了盡可能地收集數據,已經不再那么 " 守規矩 ",由于他們需要將有限的預算花在算力、電力、水資源等剛性支出上,以至于 " 偷數據 " 甚至變成了整個業界心照不宣的操作。
然而《Nature》中的一篇論文顯示,使用 AI 生成數據集訓練大模型會污染它們的輸出,無法避免 " 模型崩潰 "(model collapse),就使得 AI 廠商對于合成數據的使用變得異常審慎,所以他們也不得不保持對傳統數據的依賴。
當這些 AI 廠商有了 " 合理使用原則 " 作為護身符,版本內容的擁有者可就要倒霉了。作為當下前沿科技的代表,AI 業界在信息技術領域幾乎碾壓其他行業,版本內容擁有者無疑是被降維打擊,這也就意味著當 AI 廠商使用技術手段強行獲取版權內容時,版權方將束手無策。
不僅如此,類似 Reddit 這種向 OpenAI、谷歌賣數據的模式,可能也會難以長久。畢竟能用爬蟲抓取數據的情況下,為什么還要花錢買呢?這也就能解釋為何此前對 AI 音樂 " 喊打喊殺 " 的一眾唱片巨頭,會在本月初突然選擇與 AI 音樂廠商談判。只能說這些唱片巨頭不愧是成功穿越了互聯網周期的存在,嗅覺就是靈敏。
【本文圖片來自網絡】