Adobe因涉嫌濫用作者作品進行AI培訓而面臨集體訴訟

作者：時間：2025-12-18 來源：

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

和幾乎所有其他科技公司一樣，Adobe在過去幾年里大力投入人工智能。自2023年以來，這家軟件公司推出了多項不同的人工智能服務，包括Firefly——其基于AI的媒體生成套件。然而，現在公司對這項技術的全力擁抱可能引發了麻煩，因為一項新訴訟聲稱其使用盜版書籍來訓練其人工智能模型。

一項由俄勒岡州作家伊麗莎白·萊昂提起的集體訴訟提起，聲稱Adobe使用了包括她自己在內的多本盜版書籍來培訓Adobe的SlimLM項目。

Adobe 將 SlimLM 描述為一個小型語言模型系列，可以“針對移動設備上的文檔輔助任務進行優化”。聲明稱 SlimLM 是在 SlimPajama-627B 上預訓練的，這是 Cerebras 于 2023 年 6 月發布的“去重、多語料庫、開源數據集”。萊昂撰寫過多本非虛構寫作指南，她說她的一些作品被納入了Adobe使用的預訓練數據集中。

萊昂的訴訟最初由路透社報道，稱她的文字被包含在一個經過處理的控數據集子集中，該數據集是Adobe項目的基礎：“SlimPajama數據集是通過復制和作RedPajama數據集（包括復制Books3）創建的，”訴訟稱。“因此，由于它是RedPajama數據集的衍生復制品，SlimPajama包含了Books3數據集，包括原告和集體成員的版權作品。”

“Books3”——一個包含19.1萬冊用于訓練生成式人工智能系統的書籍的龐大收藏——一直是科技社區持續引發法律麻煩的源頭。RedPajama 也曾在多起訴訟案件中被引用。今年九月，一起針對蘋果的訴訟指控該公司使用了受版權保護的材料來訓練其蘋果智能模型。訴訟提及該數據集，并指責該科技公司“未經同意、未獲得署名或報酬”復制受保護作品。去年十月，針對Salesforce的類似訴訟也聲稱該公司將RedPajama用于培訓目的。

不幸的是，科技行業如今這類訴訟已經變得相當普遍。AI算法是在海量數據集上訓練的，在某些情況下，這些數據集據稱包含了盜版材料。今年九月，Anthropic同意向多名作者支付15億美元賠償，這些作者曾起訴其，指控其使用盜版作品來訓練其聊天機器人Claude。此案被視為圍繞人工智能訓練數據中版權材料持續法律爭斗的潛在轉折點，此類內容眾多。