美國著作權局《著作權與人工智慧報告》第三部分：使用資料訓練Gen AI是否構成合理使用？

※如欲轉載本文，請與北美智權報聯絡

楊智傑／雲林科技大學科技法律研究所教授

美國著作權局於5月9日公布《著作權與人工智慧》報告（下稱《報告》）第三部分，討論生成式人工智慧（Gen AI）系統開發時使用他人著作當作訓練資料，是否造成侵權及可否構成合理使用問題。《報告》中核心認定，Gen AI的系統開發與訓練確實會造成侵害著作權的高度風險，至於是否可以主張合理使用，主要須看最後利用的方式和個案判斷。這樣的結論引發現任美國總統川普不滿，川普5月10日立刻開除原本美國的著作權局長。

Gen AI的訓練

根據美國前總統拜登於2023年10月30日簽署「關於人工智慧的安全、可靠與可信發展與使用」行政命令，美著作權局要針對AI對著作權法產生的衝擊，提出研究報告與修法建議。美著作權局將《報告》分為三部分陸續公布。《報告》第一部分討論AI產出侵權問題 — 主要討論深層偽造技術引發數位仿造肖像權問題（詳見《北美智權報》375期）；《報告》第二部分則討論AI輔助創作是否擁有著作權並舉例說明（詳見《北美智權報》377期）。本次介紹《報告》第三部分內容，主要討論Gen AI系統開發訓練時使用他人著作當作訓練資料，是否構成侵權或可主張合理使用問題[1]。終於，美著作權局在2025年5月9日公布這份讓各界引頸期盼的報告。

Gen AI的訓練資料可能引發侵權

《報告》先指出，在Gen AI系統開發需要用著作內容進行訓練時，在（1）資料蒐集與整理（curation）、（2）訓練、（3）生成內容前的檢索增強生成（Retrieval-Augmented Generation, RAG）、以及（4）生成內容之產出等四大階段，都有可能造成侵害著作權的問題[2]。

合理使用分析

既然有可能侵權，對Gen AI系統開發商而言，最重要的就是要援引合理使用抗辯。在美國，合理使用抗辯要進行四因素分析，在不同的個案上的四因素分析結果可能有所不同。

第一因素：利用之目的是否應整體考量？

在第一因素上，首先須確認Gen AI系統開發的目的。《報告》指出，在合理使用分析時，應該針對AI不同的使用情境而做不同考量。倘若將Gen AI開發利用做切割 — 開發一個Gen AI系統時，可以宣稱只是為了科學研究。但後續利用時卻又發現可能有明顯侵權的問題而無法使用。故仍應該將整體使用一起評估，而非切割評估[3]。

第一因素下，是否具備轉化性價值？

而Gen AI用途是否具有「轉化性」價值？若將大型且多樣的資料集中用於訓練Gen AI的基礎模型，通常具有轉化性。但若Gen AI系統的利用目的是產出與訓練資料中受著作權保護作品實質相似的輸出內容，則其轉化性較低。例如，一個基礎圖像模型若進一步以某熱門動畫影集的圖像進行訓練，並被用於生成該影集角色的圖像，就可能不具有轉化性[4]。

《報告》指出，許多使用情況則介於兩者之間。例如，某些模型的用途可能與其訓練所依據的著作權作品具有相似的目的與特徵，但卻不會產出實質相似的內容。當一個模型是針對某類型作品進行訓練，並用以產生旨在吸引相同受眾的內容時，其轉化性充其量也只是輕微的。例如，用某聲音演員的聲音訓練出一個可以生成同樣聲音的AI，這個轉化性價值很低[5]。

第二因素：被利用著作之性質

第二因素是看被利用著作的「性質」。《報告》指出，由於Gen AI模型經常使用各種類型的著作進行訓練，包括創作性高與具功能性的著作、已發表與未發表的著作，具體情況會因模型與所涉著作的不同而有所差異。大型語言模型（LLM）通常以高度創作性的著作（如小說）與偏重事實或功能性的內容（如電腦程式碼或學術文章）同時進行訓練。當所涉著作具有較高的創作性，或是尚未發表時，第二項因素的判斷將不利於主張合理使用[6]。

第三因素：利用之質與量

第三因素則是看「利用的數量」，通常必須看其是否是為了利用目的所必要之範圍。為了開發Gen AI系統，在訓練時是要使用大量、海量的資料，且一般是全部資料的使用。這對開發訓練階段而言的使用，或許是必要的，通常可以主張合理使用[7]。

但《報告》指出，也要思考Gen AI系統對公眾公開的著作數量。其是參考《Google圖書館計畫》引發的合理使用爭議案，當時法院認為，Google圖書掃描後，讓使用者查詢一頁只給看一個片段，限制使用者能夠看到的數量，以避免對原著作的市場取代。在使用者使用Gen AI階段，若Gen AI產出過多的內容，可能對著作的利用數量過多而不利於主張合理使用。《報告》指出，如果AI公司可以採用防護機制與其他方法，以預防潛在的侵權輸出，則可增加主張合理使用的機會[8]。

第四因素：對著作之傷害

Gen AI的內容是否會對訓練資料的原著作造成傷害？一般而言，Gen AI產出的內容未必會取代特定的著作，故不會對特定著作的銷售造成傷害。但是，若訓練行為使模型具備產出原作品逐字或實質相似內容的能力，而這些內容又能輕易被最終用戶取得，則該模型輸出可能會取代對原作品的購買需求，從而造成原作品的銷售損失。例如，若AI涉及對新聞網站之RAG，在生成過程中檢索相關內容以增強AI回應，使輸出內容更有可能包含可受保護的表達形式，包括衍生性摘要或節略版本[9]。

《報告》另外指出一種不明顯的直接市場替代現象，就是當Gen AI可以快速生成類似的作品時，會使市場上充斥了大量的該類作品，對訓練資料同類型作品的市場構成嚴重稀釋風險。這代表作者的作品在市場上將面臨更多銷售競爭，同時受眾也將更難找到原創作品。例如，AI的輸出可模仿特定創作者的風格，而這種風格本身可能不受到著作權保護。即便Gen AI生成內容未與某特定作品構成「實質相似」，訓練中使用作品所促成的風格模仿，仍可能影響原創者的市場[10]。

另外，此時也要考慮到，所有人類創作者的創作，也可以慢慢發展出集體的授權方式，授權Gen AI系統開發者作訓練使用。當合法可行的集體授權方式出現時，當Gen AI系統開發商未經授權使用，即會侵害這種著作集體授權市場[11]。

綜合各因素整體評估

《報告》指出，由於Gen AI涉及多元的使用方式與影響情境，目前無法對未來訴訟結果預作判斷。在光譜的一端，若Gen AI用於非商業性研究或分析目的的使用行為，若不會使訓練作品的部分內容再現於輸出結果中，較可能被認定為合理使用。但若從盜版來源複製具表達性的作品，並用以生成不受限制的內容，與原作品在市場中競爭，且存在可合理取得的授權途徑，則此類使用則不太可能構成合理使用。

然而，更多的案例可能介於光譜兩端中間的灰色地帶，也就是說，到底能否構成合理使用？《報告》結論是仍然要從個案作判斷[12]。

報告結論對Gen AI開發及訓練存在易侵權風險、美著作權局長被開除

川普在2025年1月20日一上任就廢除了拜登的AI總統令，其表達的態度是，不應對AI發展有過度的法規限制。然而，《報告》第三部分涉及探討Gen AI系統開發是否侵害著作權問題，就非常敏感。且第三部分的最終結論，還是強調Gen AI系統的開發與提供極有可能侵害著作權，但是否能主張合理使用仍要依不同個案情況作個別判斷。這種結論對Gen AI系統開發與提供者來說，仍然因為《著作權法》存在不確定性，這違背了川普鼓勵AI發展應不受管制的態度。因此，在《報告》公布隔天的5月10日，川普就解除了原本美著作權局局長Shira Perlmutter的職務，表示其對《報告》的內容很不滿意。

備註：

[1] U.S Copyright Office, Copyright and Artificial Intelligence Part 3: Generative AI Training (pre-publication version), https://www.copyright.gov/ai/Copyright-and-Artificial-Intelligence-Part-3-Generative-AI-Training-Report-Pre-Publication-Version.pdf.

[2] Id. at 26-31.

[3] Id. at 36.

[4] Id. at 45-46.

[5] Id. at 46.

[6] Id. at 54.

[7] Id. at 57.

[8] Id. at 59-60.

[9] Id. at 63-64.

[10] Id. at 65-66.

[11] Id. at 70-71.

[12] Id. at 74.

責任編輯：盧頎

【本文僅反映專家作者意見，不代表本報立場。】

作者：	楊智傑
現任：	雲林科技大學科技法律所教授
經歷：	真理大學法律系助理教授真理大學法律系副教授
學歷：	台灣大學法律系中央大學產業經濟所碩士台灣大學法學博士
專長：	智慧財產權、美國專利法、美國著作權法、憲法