人工智能合理使用決定對半導體行業來說是個好兆頭

作者：時間：2025-08-28 來源：

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

最近，在兩起挑戰大型語言模型（LLM）訓練的版權侵權訴訟中，被告根據合理使用對被告做出了簡易判決，其中一項針對 Meta 的 Llama LLM，[1]，另一項針對 Anthropic 的 Claude LLM。[2] 這些決定預示著生成式人工智能行業的持續發展，因此，對于半導體行業來說也是如此，該行業正在構建生成式人工智能技術堆棧的基礎設施和更高層。

在這兩種情況下，作者都對未經授權下載其受版權保護的作品以及將其復制和用于培訓法學碩士提出質疑，在 Anthropic 的案例中，還對創建通用數字圖書館提出了質疑。這兩起案件都不涉及對法學碩士產出的挑戰。

法學碩士培訓

法學碩士的訓練涉及使用大量文本（包括克勞德和駱駝的數百萬本書），這些文本在一個多步驟的過程中被復制，從每個文本開始，每個文本都被翻譯成簡短的單詞序列和標點符號，稱為“標記”，這是執行訓練的單位。然后，訓練涉及使用統計語言模型從這些“標記化”文本中學習模式，包括根據前一個單詞的上下文預測序列中的下一個單詞，然后重復該過程。將預測與原始預測進行比較，并相應地調整統計模型，以便下次更有可能正確預測。統計語言模型通過使用“向量”來運行，“向量”是一種多維矩陣，可以捕獲不同單詞、語法模式或故事主題的相關性（稱為“權重”）。在一般層面上，Anthropic 法院將訓練描述為使用作者的作品來“迭代地映射每個文本片段和每個文本片段序列之間的統計關系，以便完成的法學碩士可以接收新的文本輸入并返回新的文本輸出，就好像它是人類閱讀提示和寫作響應一樣。

版權法和合理使用

（1）使用目的和性質，包括此類使用是商業性質還是用于非營利性教育目的;

（2）受版權保護的作品的性質;

（3）與整個受版權保護的作品相關的部分的數量和實質性;和

（4）使用對受版權保護作品的潛在市場或價值的影響。

合理使用是一種整體應用的肯定性辯護，被描述為“公平的理性規則”。[3]法院通常認為第一個和第四個因素是最重要的，其中第四個因素尤為重要。

人類的決定

Anthropic 使用的材料包括從盜版來源下載的數百萬本書籍，以及 Anthropic 購買并掃描成帶有機器可讀文本的數字形式的數百萬本印刷書籍。這既是為了創建一個通用研究圖書館以供將來使用，也是為了培訓克勞德。

Alsup 法官將他的分析分為使用書籍培訓法學碩士和使用書籍建造中央圖書館。他認為，無論是用于培訓還是將購買的書籍數字化建設中央圖書館都屬于合理使用，但使用盜版書籍建設中央圖書館則不屬于合理使用。他明確表示，簡易判決不會擴展到未來從中央圖書館制作的未用于培訓法學碩士的副本。

關于第一個因素，Alsup 法官認為，使用受版權保護的作品來訓練法學碩士生成新文本的目的和特征是“典型的變革性”。其用途不僅僅是記住和復制它所訓練的作品，而是“就像一個渴望成為作家的讀者一樣”向他們學習并創造不同的東西。因此，第一個因素有利于培訓副本的合理使用。

關于用于建造中央圖書館的副本，Alsup 法官將他的分析分為盜版副本和 Anthropic 購買印刷品然后進行數字轉換的副本。他認為，后一組有利于存儲和可搜索性，并且不會導致與第三方共享新副本，具有變革性。另一方面，Alsup 法官認為，盜版作品的使用“本質上是不可挽回的侵權”，用于建立研究圖書館并不具有變革性。Alsup 法官區分了其他判決，包括無法購買或借閱副本、副本被轉換為明顯不同的形式或被告已經擁有授權副本。

阿爾蘇普法官認為，第二個因素——受版權保護的作品的性質——不利于合理使用，因為有爭議的作品涉及表達性內容，這些內容比事實作品受到版權法的更大保護。

Alsup 法官認為，第三個因素——所用作品的數量和實質性——涉及評估受版權保護材料的數量與復制目的是否合理。分析的關鍵不在于復制了多少文本，而在于有多少文本可供公眾訪問。關于培訓，Alsup法官認為，雖然使用了整本書，但沒有指控該材料作為產出提供給公眾。他發現第三個因素有利于合理使用訓練，因為 Anthropic 合理地需要大量數據來訓練其法學碩士。關于建造中央圖書館，Alsup 法官認為，第三個因素有利于合理使用購買的副本，但反對合理使用盜版副本，因為 Anthropic 根本無權持有它們。

Alsup 法官認為，第四個因素——市場稀釋——也有利于在培訓法學碩士方面合理使用。他認為，第四個因素側重于被質疑的使用在多大程度上作為受版權保護作品的實際或潛在市場替代品。Alsup 法官指出，作者承認法學碩士沒有制作作者作品的精確副本或侵權仿冒品。相反，作者認為法學碩士將“導致與他們的作品競爭的作品爆炸式增長”。阿爾蘇普法官將原告的論點類比為“訓練學童寫得好”也會導致競爭作品爆炸式增長的投訴，并認為這“不是與《版權法》有關的那種競爭或創造性的取代。該法案旨在推進原創作品的作者身份，而不是保護作者免受競爭“（引用 Sega Enterprises Ltd. v. Accolade， Inc.， 977 F.2d 1510， 1523-24 （9th Cir. 1992））。Alsup 法官還駁回了原告的論點，即培訓法學碩士會損害新興市場許可培訓法學碩士的工作，認為《版權法》不賦予原告開發這樣一個可能發展的市場的權利。

Alsup 法官認為，第四個因素對于已轉換為數字形式的購買圖書館副本是中立的，并指出盜版作品的合理使用是中立的，因為盜版“明顯取代了對原告書籍的需求”。

Alsup 法官權衡了所有因素，因此批準了 Anthropic 就合法購買的用于建立數字圖書館的培訓副本和書籍的合理使用問題進行簡易判決的動議，但駁回了 Anthropic 對盜版副本的簡易判決，將決定保留審判。

元決策

Meta 的決定涉及 13 名作者對 Meta 提起訴訟，指控 Meta 從所謂的盜版作品“影子庫”下載他們的作品，并使用它們來訓練 Meta 的法學碩士。這兩個決定之間的一個關鍵區別是 Chhabria 法官對第四個因素的主要權重，以及他在冗長的格言中表達的觀點，即在許多情況下，法學碩士的行為可能無法通過合理使用測試，因為法學碩士經?！皹O大地破壞”他們訓練的材料的市場。例如，Chhabria 法官推測，一個能夠制作無窮無盡的關于如何照顧花園的書籍的法學碩士可能會大大減少人類創作的花園書籍的市場。他表示，阿爾索普法官的 Anthropic 判決過于關注生成式人工智能的變革性質（合理使用分析中的第一個因素），“同時忽略了對它可能對其接受訓練的作品對市場造成的傷害的擔憂”（第四個因素）。因此，Chhabria 法官似乎支持基于世嘉的市場稀釋論點，Alsop 法官斷然拒絕了這一論點。美國版權局最近在其 2025 年 5 月的報告《版權與人工智能》中也支持了這一理論，盡管承認了“未知領域”。Chhabria 法官提出了一些與市場稀釋分析有關的問題，包括 Llama 是否有能力生成書籍，如果是，什么類型的書籍，它會對競爭產生什么影響，以及 Llama 可以使用他們的書籍進行培訓與無法使用它們對原告書籍市場的影響。

兩位法官都駁回了關于第四個因素的另一個論點，即未經授權的法學碩士培訓損害了法學碩士培訓書籍許可市場。兩家法院都認為，這不是《版權法》賦予原告開拓權的市場類型。

關于第一個因素，Chhabria 法官最終也同意 LLM 的使用具有變革性，這是發現第一個因素有利于合理使用的關鍵。但查布里亞法官在分析是否應將法學碩士培訓作為唯一的“用途”方面采取了與阿爾蘇普法官不同的方法。Chhabria 法官駁回了原告試圖將分析分為 Meta 下載書籍和將書籍用于 LLM 培訓的嘗試，并表示必須根據 LLM 培訓的最終目的來考慮下載。Alsup 法官允許進行分叉分析，盡管是關于建立圖書館，而不是簡單地下載。使用這種分叉方法，Alsup 法官認為，在圖書館中使用盜版作品與合理使用相悖。另一方面，Chhabria 法官只是在他的單一分析中考慮了影子庫的使用，并駁回了其重要性。Chhabria 法官認為，雖然它與惡意問題有關，并且如果 Meta 的下載是點對點文件共享的一部分，有助于使影子庫永久化，那么可能會產生重大影響，但這里的情況并非如此。

對法學碩士的未來發展有何影響？

人們清楚地認識到法學碩士的重大變革性，這是有利于合理使用的重要因素。未來決策的一個弱點是查布里亞法官對市場稀釋測試的認可。但應根據他提出的相關問題來考慮這一贊同。重要的是，這是一個在很大程度上取決于市場性質的調查。（目前）可以肯定地猜測，大多數 LLM 用戶并沒有寫小說，因此競爭性的、LLM 生成的小說的“爆炸式增長”最終可能更多的是一個理論問題。但對于其他作品，例如新聞文章、傳記和其他可以由法學碩士快速集體制作的非小說類作品，查布里亞法官表示，可能存在市場稀釋問題。查布里亞法官的格言也適用于基于文本的作品之外。例如，對特定詞曲作者目錄進行法學碩士培訓可能會產生稀釋該藝術家的音樂或與該藝術家獨特相關的任何流派的市場的作品，從而抑制該藝術家和其他人繼續在該領域創作音樂的積極性。如果市場稀釋理論獲得司法支持，適當的護欄可以限制市場稀釋索賠的風險敞口。

這些決定的另一個要點是，應避免在培訓中使用盜版作品。在《Anthropic》中，這些書籍被盜版的事實嚴重影響了合理使用。在 Meta 案中，Chhabria 法官還保留了盜版作品的使用可能與合理使用分析相關的可能性。

第三個要點是，在這兩個決定中，重要的是法學碩士不能從培訓材料中復制超過非常短的段落。因此，法學碩士應繼續設置護欄，防止大量培訓材料的記憶和反芻。例如，Chhabria 法官的裁決強調了 Llama 如何配置為從任何給定的訓練源返回不超過 50 個單詞。

與此相關的一點是，這些案件不涉及產出。因此，這些決定沒有解決法學碩士未經授權制作受版權保護作品的復制品的情況，無論是通過生成過程還是記憶。

如上所述，這些決定并沒有提供令人信服的理由來阻止生成式人工智能行業，市場似乎也沒有這樣看待它們。持續增長將推動對支持這一增長所需的半導體產品的進一步需求。此外，即使在未來的案件中發現版權侵權，考慮到可用的抗辯理由，例如基于非侵權用途的抗辯理由，芯片制造商承擔次要責任的風險似乎微不足道。