SCI期刊查询网提供SCI、AHCI、SSCI、国内核刊等期刊目录查询选刊服务,助力上万名科研人员成功评职晋升!

中文、英文期刊目录查询系统

快速了解学术期刊目录级别、选刊、行业刊物等解决方案

编辑之友投稿论文格式参考:生成式人工智能机器学习的 版权分层规制模式 ——以“表达性使用”为视角

SCI期刊目录查询2025年06月16日 04时:35分

关键词:生成式人工智能;机器学习;版权法;“表达性使用”;合理使用

作者:王诗童;杨利华

作者单位:中国政法大学

  【摘要】受版权法保护的文学、艺术和科学作品是生成式人工智能机器学习的高质量语料资源。为促进生成式人工智 能技术与相关行业的发展,需合理界定生成式人工智能机器学习使用作品的版权保护边界。无论是人类中心主义的价 值内核、推动文化创新的立法宗旨,还是作品利益调整的制度功能,都体现出版权法内在的“表达性使用”理论预 设。文章认为基于过程视角下使用作品的性质、指向与方式,以及结果视角下使用作品的效果,一般意义上的生成式 人工智能机器学习对作品的使用是一种区别于“表达性使用”的非表达数据性使用,不在版权法的保护范围之内。“表 达性使用”视角下的生成式人工智能机器学习应设置分层分级的版权规制路径,以促进生成式人工智能产业的发展。 

  兼具高智能性、多功能性、高灵活性与强通用性的 生成式人工智能作为人工智能技术的重要分支,近年 来对内容产品的生产、传播和消费底层逻辑产生重大影 响,掀起了一场意蕴深刻、影响深远的智能创作革命。 机器学习作为生成式人工智能获得高阶内容生成能力的 前置环节,对于生成式人工智能的升级迭代以及人类文 化的发展繁荣具有重要意义。

  面对生成式人工智能机器学习引发的版权争议, 国外学者陆续提出了“非表达性使用”[1] “非展示性使 用”[2] 以及“非作品性使用”[3](87) 等概念,证成生成式 人工智能机器学习对作品的使用是一种转换性使用。当 前,国内学者对生成式人工智能机器学习的版权法律规 制模式大致可归纳为两大类型:第一类是采取“先进后 出”的版权侵权例外方案,认为生成式人工智能机器学 习对作品的使用落入版权法的规制范畴,但出于技术发 展、产业激励和国际竞争等政策考量将其规定为版权侵 权的例外情形; [4] 第二类是采取“不予进入”的版权除 外保护路径,认为生成式人工智能机器学习并非版权法 下的“表达性使用”,而是一种对作品的非表达数据性 使用,未落入版权法的规制范畴,故不存在后续的侵权 可能以及侵权豁免的必要。[5]

  追溯版权法下作品使用方式的嬗变,可以发现“表 达性使用”这一本就内嵌于版权基本法理中的概念能 够为生成式人工智能机器学习的版权法律规制提供分析视角。本文以国内学者关注不足的“表达性使用”为视 角,厘定生成式人工智能机器学习的作品使用属性,建 立分层分级的生成式人工智能机器学习版权法律规制模 式,以促进生成式人工智能技术与产业的发展。

  一、版权法下的“表达性使用”

  依循“行为规制权利化”的设权路径,版权法完成 了权利体系的搭建与设定。在版权法的权利框架下,各 具体权利类型所对应的作品使用行为都存在一个基本的 理论预设——版权法语境下的作品使用行为一定是建立 在对作品的“表达性使用”基础上的,对作品的“非表 达性使用”不属于版权法的规制范畴。

  1.“表达性使用”的历史溯源

  “表达性使用”与数字技术环境下的复制行为息息 相关。数字复制技术的出现使得区别于传统意义上为 获取、欣赏和消费作品本身的非表达性复制成为可能。 对作品的使用行为构成“表达性使用”或“非表达性使 用”,且基于“表达性使用”分析判定是否构成合理使 用的司法逻辑经由一系列典型案件得以确认。

  1992年美国第九巡回法院对“Sega v. Accolade”案① 的判决是对“表达性使用”概念最早的司法承认之一。 法院经审理后认为,一方面,Accolade公司出于非表达 目的对Sega公司功能代码的复制是一种未纳入版权保护 范围的“中间复制”;另一方面,Accolade公司复制的 Sega公司的代码是不受版权法保护的功能性代码,故不 构成版权侵权。2003年的“Kelly v. Arriba案”②和2007年 的“Perfect 10 v. Amazon案”③标志着“表达性使用”概 念在美国版权司法领域的进一步发展。法院经审理后认 为,区别于“表达性使用”,Arriba的缩略图与Amazon 的图片检索仅是对原作品的一种非表达性工具使用,构 成“帮助索引和改善图像访问的工具”的一部分,而 非版权法意义上的审美对象,故不构成版权侵权。紧 接着,“Author's Guild v. Google案”④堪称“表达性使 用”概念在美国版权司法实践中运用的一个高潮。2005 年9月,美国作家协会联合五家出版社共同起诉谷歌,称 其未经许可使用作品,侵犯其版权。2008年10月,双方 达成和解,约定作者将只能与谷歌就其作品的“表达性 使用”达成合同,并明确“非表达性使用”的内涵是指 “未向公众展示书籍或插页的数字副本中的表达内容的 使用”,外延包括但不限于“展示书目信息、不展示表 达内容的全文索引、书籍的地理索引、书籍章节的关键术 语算法列表以及使用数字副本进行内部研究和开发”。

  几乎与司法实践同步,学者们对“表达性使用”与 “非表达性使用”概念的认识与争论也在持续推进。 毛里齐奥·博尔吉(Borghi)和斯塔夫罗拉·卡拉帕帕 (Karapapa)认为“非表达性使用”指“在不向公众展示 数字副本的作品表达的情况下进行的活动”。[2] 马修·塞 格(Sag)认为“非表达性使用”指“任何非意图使人类 享受、欣赏或理解所复制表达方式作为表达的再现的复 制行为”。[6] 亚伯拉罕·德拉西诺尔(Drassinower)则表 示作品本质上是一种人类交流行为,任何仅限于技术性的 或者非交流性的作品使用都不是表达性使用。[3](88) 与上述 观点有较大区别,本杰明·索贝尔(Sobel)认为“表达 性使用”是“为实现表达目的而对作品的表达进行使用 的行为”。[7] 国内也有学者对这一组互补概念进行了研 究。如焦和平表示,“非表达性使用是将原作品作为一 种事实性信息进行功能性利用,在使用结果上也未再现 原作品的艺术价值”; [8] 刘晓春虽未直接使用“表达性 使用”或“非表达性使用”的表述,但提出与其具有内在 一致性的“非作品性使用”概念,并以此证成生成式人 工智能数据训练不受版权法规制。[5]

  2.“表达性使用”的理论阐释

  版权法语境下“表达性使用”的理论分歧主要集中 在两个方面:一是指向对象争议——“表达性使用”是 否仅限定于面向人类的作品传播,不包括面向机器的作 品传播?二是评判标准争议——“表达性使用”的评判 标准应采用基于行为主义的过程性立场,还是采用基于 结果主义的终局性立场?

  第一,人类中心主义的版权法价值内核从底层上主 导并决定了版权法的“表达性使用”理论预设。一切法 律皆为人法。人类是版权法意义探寻与制度建构的逻辑 起点。“表达性使用”视角下对人类使用作品行为的严 格审查实际上构成人类中心主义在版权法领域的具体体 现。“法律的根本属性是调整人们相互关系中合乎人性的行为准则。”[9] 版权法亦不例外。“人类的创作最终 关乎人类的读者群体。”[10] 只有人类才能进行版权法意 义上的作品创作、传播与欣赏,也即只有人类才能对作 品进行表达性意义上的使用。简言之,版权法语境下作 品表达的唯一价值和目的就是供人类读者欣赏与消费。

  第二,激励文化创新的版权法规范意旨从根本上彰 显并体现了版权法“表达性使用”的内在逻辑。如果说 专利法的作用方式是将投资导向卓有成效的表达,那么版 权法的作用方式就是将投资导向丰富多样的表达。[11] 版 权法的制度价值在于通过向作者保障其作品中表现价值 的权利,促进人类表达的创作和传播,进而推动文化繁 荣。“人类创作的价值在于当它被其他人消费、欣赏和 转化时得以进一步发展。这种创作和参与的循环正是法 律笨拙地试图保护和传播的。”[7] 单纯作品的传播与欣 赏可能并不足以推动文化的发展,文化的发展还包括对 作品创作的有意义参与。较静态固定的解析视角,基于 作者与读者并依托作品进行的动态循环剖析进路,能够 更好地阐释版权法激励文化创新繁荣的立法宗旨。版权 法不仅关注作者的原创性表达向公众传播的过程,还关 注公众获取和欣赏来自作者原创性表达的过程。[12] 与其 将作品看作一种孤立的“财产对象”,不如将作品视为 一种交互的“沟通行为”,这不仅符合版权法所保护的 作品向公众传达信息的特定方式,也更契合版权法激励 文化产业繁荣发展的规范意旨。

  第三,作品利益调整的版权法制度功能从本质上反 映并践行了版权法的“表达性使用”理路前设。一方 面,思想与表达二分法作为版权法体系中最基本的原则 之一,揭示了“表达性使用”的基本内涵。版权法保护 高于抽象思想的具象表达。由此可推断出版权法保护对 作品表达部分的使用,而非对作品非表达部分的使用。 另一方面,版权法中的财产性权利可以划分为复制权、 演绎权与传播权三大类型。复制权和演绎权在本质上又 都以传播权为归宿。版权法赋予作者的专有性权利立足 于向公众传播原创表达这一核心基础上。版权法自诞生 以来就是通过赋予作者基于对作品市场传播和流通的控 制而获取经济利益的权利,激励创作进而促进文化发展 的。基于表达的复制和演绎,以表达的传播为归宿和以 经济对价交换作品表达的版权法利益调整模式,决定了版 权法下的“表达性使用”所采纳的结果主义基本立场。

  综上,基于面向人类之指向对象与聚焦结果之评判 标准,版权法语境下作品的“表达性使用”应定义为: 任何通过向公众传播作品的表达,使得公众得以感知、 阅读和欣赏作品表达的作品使用行为。

  3.“表达性使用”的判定机制

  在明确“表达性使用”的定义后,还应对“表达性 使用”的认识更进一步,也即明确“表达性使用”的判 定机制。

  (1)基于过程视角的“表达性使用”判定外部过滤 机制。过程视角下使用作品的性质、指向与方式将直接 影响结果视角下使用作品的效果。因此,基于过程视角 的使用作品行为辨析能够为“表达性使用”的判定提供 初步性的参考和指引。版权法语境下人们对于作品的使 用,无论呈现为何种具体形态,终究要回归到人类对作 品表达的感知、阅读和欣赏之上。而上述限定条件下的 作品使用行为可归结为以下三个特点。 第一,使用作品的性质是对作品表达的再现。通过 阅读文字作品等文学作品,读者探析了作者丰富多彩的 内心世界,获得了深入浅出的阅读感受;通过品鉴美术 作品、视听作品等艺术作品,观众领略了作者汹涌澎湃 的创作热情,收获了触及灵魂的审美体验;凭借欣赏建 筑作品、图形作品等科学作品,观客感知了作者谨慎严 谨的科学态度,得到了求真务实的精神冲击。只有对作 品的表达予以再现,人们才有对作品的表达进行感知、 品鉴和欣赏之可能。

  第二,使用作品的指向是对特定作品的表达。使用 者往往通过对特定作品进行理解、品鉴和内化,获得 独一无二的阅读感受与审美体验。当然,此处的特定并 不意味着数量上的唯一,而是指向一定时空维度下具体 的、数量相对确定的作品。

  第三,使用作品的方式是对作品表达的结果性再 现。艺术创作过程是研究者难以观察,艺术家难以自省 的,只有作为艺术创作结晶的艺术作品才能再现于人 前。[13] 相比创作过程的转瞬即逝和难以捉摸,作品作为 兼具可靠性和闭合性的财产对象,本身即蕴含着深刻的 结果属性。[14] 这也决定了版权法语境下对作品的使用大 多是对作品表达的结果性再现。只有基于对特定作品表 达的结果性再现,使用者才可动用自己的感受与感情去 观察、体验和掌握作品的精神内涵,进而完成艺术积累 的过程。

  (2)基于结果视角的“表达性使用”判定内部拣择 机制。结果视角下使用作品的效果指向使用者对作品的 使用是否构成版权法意义上的市场替代。基于结果视角 的使用作品效果衡量能够为“表达性使用”的判定提供决定性的意见与结论。 在剖析结果视角下“表达性使用”判定的内部拣择 机制时,使用作品的效果研判应限定在版权法语境之 内。新兴技术的发展可能催生新型内容产品的创作模式 以及与之对应的作品类型,进而对在先以相同表现形式 或构成要素呈现的作品市场形成一定程度的替代。但这 种替代与其说是一种版权法意义上的市场替代,不如说 是一种技术演进视角下不同类型作品市场竞争的必然结 果。[15] 在摄影技术诞生之前,以线条、图像和色彩为 核心要素的美术作品、建筑作品等,作为主流的视觉艺 术作品类型因其独有的直观性大受推崇。但在摄影技术 诞生之后,摄影作品的技术性、真实性和信息性使得同 属视觉艺术类型的美术作品、建筑作品等受到相当程度 的冲击。将摄影作品对美术作品的替代称作一种“整体 激励的结构性调整”,而非一种版权法语境下的围绕作 品表达市场的替代较为适宜。[5] 因此,基于结果视角的 “表达性使用”判定之内部拣择机制应关注狭义版权法 语境下的使用作品的效果,而非宽泛意义上的作品市场 替代。

  (3)基于过程视角的外部过滤机制与基于结果视 角的内部拣择机制的关系。在建立“表达性使用”的判 定机制时,应关注使用作品的效果与使用作品的行为之 内外协同关系。版权法的侵权判定以使用者对作品的 “表达性使用”为前提。然而,无论是版权法的理论推 演,抑或版权法的司法实践,均将相当一部分未经权利 许可,符合“表达性使用”判定外部过滤机制的作品使 用行为,经由合理使用等制度从版权侵权情形中予以 剔除。如相比“Campbell v. Acuff-Rose Music案”①中 2 Live Crew乐团对案涉作品所进行的戏仿类“拆分重组 型转换性使用”,评论和介绍等作品使用方式将不可避 免地导致原作品表达向公众再现。尽管评论和介绍等作 品使用方式再现了原作品表达,但美国法院仍将其判定 为合理使用。究其原因,“使用作品的目的和性质”尽 管对合理使用判定意义重大,但并不构成合理使用的充 分条件。美国版权法合理使用四要素分析法中的四个要 素并非平行并列,而是存在内在的逻辑关联。合理使 用四要素判定的核心实际在于第四要素,即市场效果要 素的分析,②前三个因素可称为第四个因素的前置或辅 助判定要素。评论和介绍等作品使用方式尽管再现了作 品的表达,但未造成对原作品表达版权法意义上的市场 替代,反而有利于原作品表达的进一步传播,构成扩展 原作品版权市场的辅助因素。与之类似,在“Author's Guild v. Google案”③中,以索引和搜索为目的的作品 使用类型尽管亦符合“表达性使用”判定之外部过滤机 制,但其没有替代原作品的版权市场,反而扩大了原作 品的版权市场,增强和促进了原作品表达的传播。

  总而言之,基于过程视角的使用作品的行为分析与 基于结果视角的使用作品的效果分析应相辅相成、互为 依靠,共同统一于“表达性使用”的判定机制中,分别 承担起外部过滤和内部拣择的差异化制度功能。过程视 角下的使用作品行为考察应作为表达性使用判定辅助性 与前置性的外部过滤机制;同时,结果视角下的使用作 品效果衡量应作为表达性使用判定决定性与终局性的内 部拣择机制。

  二、“表达性使用”视角下的生成式人工 智能机器学习

  生成式人工智能机器学习的版权法律定性已日益发 展成为人工智能时代版权法必须直面的关键之问。内嵌 于版权法基本原理与诸底层概念中的“表达性使用”概 念能够为生成式人工智能机器学习的版权法律厘定提供 科学明晰的分析视角。以下基于“表达性使用”的内涵 与判定机制,解析生成式人工智能机器学习使用作品的 版权保护边界。

  1. 基于“表达性使用”外部过滤机制的生成式人 工智能机器学习分析

  机器学习可被定义为人工智能“通过对自我经 验的勤奋学习而改进其行为”的过程。[16] 以文本类 Transformer模型、图像类Diffusion模型和视频类Sora模型 为代表的主流生成式人工智能大模型,都属于深度学习 模型。区别于传统的人工智能训练方式,深度学习模型 大多会经历一个预训练过程,即将神经网络的权值调 整到接近最优解的程度,再经由“微调”实现进一步 的优化。[17]

  首先,机器学习使用作品的性质具有附随性而非再 现性。生成式人工智能机器学习使用作品的行为无法逃离算法黑箱陷阱。算法黑箱效应下,生成式人工智能机 器学习以对作品使用的非再现性为普遍情形,即采取了 一种将作品对应的数据分解再重组的形式。[18] 具体而 言,上述形式包括作品对应数据的预处理与增强、特征 分解与组合、数据块的随机化处理、数据去相关化以及 随机采样与重构等步骤。依靠从输入数据中领悟和理解 的细微关系、模式与逻辑,结合用户发出的任务指令, 生成式人工智能通过增强、迁移和重组既有要素,生成 并输出了多样化和创新性的内容。当然,实践中并不乏 因模型优化不足、同类作品数量畸高、模型参数数量与 训练数据比例失衡等原因导致的“记忆原作品细节而非学 习其抽象特征”型机器学习。[5] 该情形下的生成式人工智 能机器学习显然会导致原作品的表达向公众的原样呈现, 构成版权法意义上的“表达性使用”。

  其次,机器学习使用作品的指向具有海量性而非特 定性。生成式人工智能机器学习过程中对高质量数据的 海量性与非特定性具有极高的依赖性。数据的海量性与 非特定性构成生成式人工智能形成高质量与多样化内容 输出能力的关键。一方面,海量数据能够为生成式人工 智能依托的基础大模型提供丰富的学习素材,使其能够 从中捕捉复杂的模式和结构,习得成熟的规律和程式, 进而做出智能的识别和预测。另一方面,训练数据的来 源广泛性、领域多样性、形式差异性和风格多元化,增 强了生成式人工智能的多场景通用性。以图像生成模型 为例,非特定性的数据来源包括不同的艺术风格、摄影 图像、手绘插画等,使得模型能够生成各种风格和主题 的图像。此外,机器学习使用作品数据的海量性和非特 定性还促进了模型在显著缺陷和极端情况中的表现,使 得生成式人工智能能够在生成新的内容时避免常见的价 值偏差和认知局限。

  最后,机器学习使用作品的方式具有中间性而非结 果性。生成式人工智能依托的基础模型往往通过将输入 作品对应的数据分解为基础特征,再重新组合这些特征 以生成新的、独特的作品,而不是直接复制已有作品的 数据并予以再现。生成式人工智能运行的过程可概括为 以下三个阶段:一是模型从输入的训练数据中提取关键 特征,并将这些特征转换为可捕捉到核心特征的高维向 量;二是模型在潜在空间中对上述高维向量进行插值、 噪声添加等操作,创造出新的特征组合;三是生成式人 工智能将不同来源的多模态数据融合在一起,通过跨模 态特征的组合生成并输出新的内容产品。这一输出结果 尽管具备原作品数据的部分表层特征,但构成基于对原 作品中间过程性使用的一个新的内容产品,而非对作品 的结果性再现。

  综上,基于使用作品性质之非再现性、使用作品指 向的非特定性以及使用作品方式的非结果性,生成式 人工智能机器学习不符合“表达性使用”之外部过滤机 制,下文以“表达性使用”内部拣择机制为依据进一步 分析其版权法定性。

  2. 基于“表达性使用”内部拣择机制的生成式人 工智能机器学习分析

  迅猛发展的生成式人工智能在文本、图片、音频和 视频等多模态内容生成领域大放异彩,逐渐发展成为内 容产品生产领域具有基础性定位的创作辅助工具。经过 海量数据淘洗及深度学习过程的生成式人工智能在与人 类的交互协同作用下能够创造出形式精美、意蕴丰富且 思想深刻的具有人类作品外观和信息功能的人工智能生 成内容,进而深度介入传媒、电商、影视与娱乐等数字 化程度高、迭代速度快、内容需求多的行业领域,提升 在内容产品市场的占比。

  尽管人工智能生成内容的蓬勃涌现对传统技术环境 下人类创作作品的版权市场形成了一定的抢占与挤压, 但这种抢占和挤压并不局限于生成式人工智能对人类作 者的替代的单一情形中。技术演进视角下,历史上每一 次突破性的技术革新和迭代都必然意味着对既有技术占 据市场的冲击和替代。人工智能生成内容对人类创作作 品的市场替代,与其将其看作限定在版权法语境下的市 场替代,不如视其为一种技术变迁引发内容产品经济结 构演化背景下的正常市场竞争结果。这一表现与印刷技 术诞生后对手工誊录的替代、摄影技术出现后对绘画的 冲击如出一辙,并非版权法所关注和评价的狭义市场替 代情形。立足版权交易市场的宏观视角,可以预见:伴 随生成式人工智能引发的内容生产模式变革,内容产品 市场的自我调节机制将逐步生效。具体表现为围绕生成 式人工智能的内容产品领域新质生产力将逐步摸索形 成,生成式人工智能驱动的新型生产模式和激励结构亦 将逐渐整合成型。而上述系统性市场替代无须经由版权 法予以专门评价。

  综上,无论是基于“表达性使用”的外部过滤机 制,还是内部拣择机制,一般意义上的生成式人工智能 机器学习不符合版权法下“表达性使用”的构成要件, 因而不会落入版权法的规制范畴;特定情形下的生成式 人工智能机器学习尽管仍不符合“表达性使用”的外部 过滤机制,但在结果上以原样或实质性相似形式呈现了原作品的表达,符合具有决定性作用的“表达性使用” 判定的内部拣择机制,落入版权法的规制范畴,未经权 利人许可可能构成版权侵权。

  三、基于“表达性使用”的生成式人工智 能机器学习版权规制层级构造

  生成式人工智能机器学习的版权规制模式并非只有 合理使用这一种制度选择。“表达性使用”视角下,生 成式人工智能机器学习的方式和形态各有不同,应结合 机器学习时对作品使用的具体情形进行具体分析,而不 是“一刀切”式地将机器学习归入合理使用情形中予以 侵权豁免。“表达性使用”分析是判定行为人对作品的 使用是否落入版权法规制范畴的前置问题。探究生成式 人工智能机器学习版权法律规制模式,应率先明确版权 法语境下机器学习的性质,再考虑具体的方案构建。一般 情形下的生成式人工智能机器学习是一种“非表达性使 用”,不落入版权法的规制范畴,不构成版权侵权;特 殊情形下的生成式人工智能机器学习是一种“表达性使 用”,可能构成版权侵权,应承担侵权责任;以从事非营 利性活动为目的的科研机构和企业进行的机器学习即使 是“表达性使用”,也可能构成版权侵权,但出于公共 利益考量应通过合理使用制度给予特别豁免(见图1)。

  1.“非表达性使用型”机器学习:不落入版权法 规制范畴,不构成版权侵权

  “非表达性使用型”机器学习指未向公众传播和再现 原作品表达的机器学习,主要包括以下两种类型。

  一是一般意义上的生成式人工智能机器学习。一方 面,机器学习的技术机理意味着其使用作品的性质具有 附随性而非再现性、使用作品的指向具有海量性而非特定性,且使用作品的方式具有中间性而非结果性,也即 机器学习使用作品的行为不符合“表达性使用”的外部 过滤机制;另一方面,机器学习使用作品的效果尽管具 有替代性,但并非版权法意义上对原作品版权市场的替 代,亦不符合“表达性使用”的内部拣择机制。因此, 一般意义上的生成式人工智能机器学习不构成“表达性 使用”,不构成版权侵权,亦无予以侵权豁免之必要。 一般意义上的生成式人工智能机器学习是人工智能机器 学习中最普遍、最广泛、最基础的机器学习形态,经由 “表达性使用”理论将其排除出版权法的规制范畴,既 能规避流程烦琐、数量庞大且意愿不明的作品许可程 序,还能大幅减少生成式人工智能研发企业的机器学习 阶段的经济负担和版权侵权风险,推动生成式人工智能 技术与相关行业的蓬勃发展。

  二是使用作品非表达性部分的生成式人工智能机器 学习。作品非表达性部分,往往表现为作品的事实性部 分如历史事实、功能性部分如功能代码,以及生物性部 分如人脸、人声等形式。符合版权法关于作品构成要件 的对象可以称为版权法的客体,受版权法保护。但作品 受版权法保护并不意味着版权法的保护范围覆盖到作品 的每一处角落。思想与表达二分法作为国际通行的版权 法基本原理,充分诠释了版权法对作品的保护并非面面 俱到,而是有所限定的,并非所有机器学习对作品的使 用都面向受版权法保护的独创性表达部分。如能够用于 撰写传记类、菜谱类作品的生成式人工智能在机器学习 过程中必然会使用较多的受版权保护作品中非独创性表 达之事实性部分。再如相比以GPT为代表的静态文本类 生成式人工智能,有着“世界模拟器”之称的Sora具有 更强的时空理解能力,并能够基于复杂的时空关系创造 动态的数字时空。Sora对GPT的能力突破离不开其基于 大量作品中不受版权保护的事实性、功能性以及生物性 部分的学习。

  2. 非基于公共利益目的的“表达性使用型”机器 学习:构成版权侵权,承担侵权责任

  非基于公共利益目的的“表达性使用型”机器学习 指,以非基于公共利益之目的,向公众传播和再现原 作品表达的机器学习。非基于公共利益目的的“表达性 使用型”机器学习包括两种类型:对作品表达进行原样 重现的“表达性使用型”机器学习和对作品表达以实质 性相似方式呈现的“表达性使用型”机器学习。如前所 述,尽管过程视角下机器学习使用作品的行为并不符合 “表达性使用”之外部过滤机制,但结果视角下机器学习后生成内容如果与原作品的表达相同或实质性相似, 将对原作品版权法意义下的潜在市场进行替代和挤占, 符合更具决定效力的“表达性使用”内部拣择机制,构 成对原作品的“表达性使用”,应当承担相应的版权侵 权责任。这一设定既遵循了版权法的“表达性使用”理 论预设,保护了版权人基于作品表达的正当市场利益, 也未对生成式人工智能研发者和产业相关方施加过高的 版权成本,倒逼生成式人工智能研发者对机器学习中的特 征提取、分解、组合和重构机制予以进一步优化和完善。

  3. 基于公共利益目的的“表达性使用型”机器学 习:构成版权侵权,但给予合理使用豁免

  基于公共利益目的的“表达性使用型”机器学习 指,虽向公众传播和再现了原作品的表达,但出于科学 研究或构建人工智能时代的数字基础设施等公共利益目 的予以侵权特别考量的机器学习。[19] 基于公共利益目的 的“表达性使用型”机器学习主要包括两种类型。

  第一种是基于科学研究的生成式人工智能机器学 习。鉴于科学研究在各国版权法中达成的合理使用共 识,人工智能技术范式下基于科学研究目的进行机器学 习也可经由合理使用制度实现侵权豁免,本身没有太大 争议。

  第二种是基于构建人工智能时代数字基础设施的生 成式人工智能机器学习。伴随商业模式不断成熟,生成 式人工智能逐渐呈现出明显的业态分层现象。根据所处 区位和发挥功能的不同,生成式人工智能的业态可划分 为处于底层的基础模型、处于中层的专业模型和处于顶 层的应用模型三个层次。基础模型指在大量数据上训练 的,用于普适性目标、可优化适配多种下游任务的深度 神经网络模型。研发者在对基础模型进行特定场景训练 和专项功能强化后,可相应形成专业模型和应用模型。 相比特异程度更高、使用场景更专业的后两者,基础模 型往往具有较强的通用性、普适性和下游控制性,因而 具有公共属性,具有发展成为人工智能时代下新型数字 基础设施的潜质。[20] 因此,应对具有公共属性的底层基 础模型机器学习予以必要的合理使用侵权豁免,以支持和 助力我国构建具有普惠性质的人工智能基础设施。 综上,我国可在版权法的实施与修正过程中做如下 三点工作。首先,承认“表达性使用”的版权法基础理 论地位。考虑在《中华人民共和国著作权法实施条例》 第五条之后新增一条:“版权法中的各项权利均建立在 对作品的表达性使用基础上。”“表达性使用”指任何 通过向公众传播作品的表达,促使公众得以感知、阅读 和欣赏作品表达的作品使用行为。其次,将“表达性使 用”判定作为版权侵权认定的前置要件。可考虑将“表 达性使用”写入《中华人民共和国著作权法》(以下简 称《著作权法》)第五十二、五十三条中,形成直接条 文规范:“对作品进行表达性使用,有下列侵权行为 的……”再次,将基于公共利益目的的“表达性使用 型”机器学习增设为合理使用的具体情形。可考虑将 《著作权法》第二十四条第一款第1项中的个人研究、第 6项中的学校科学研究作扩大解释,包括出于科学研究目 的的机器学习行为;同时在《著作权法》第二十四条第一 款第12项后新增一项:“为推进国家人工智能数字基础设 施建设,使用他人已经发表的作品进行机器学习。”

  结语

  人类中心主义的价值内核,促进文化创新的立法宗 旨和作品利益调整的制度功能,均揭示出内嵌于版权 法底层逻辑中“表达性使用”的深刻意蕴。“表达性使 用”为生成式人工智能技术范式下的版权法划定了一条 规制界限,将围绕作品予以“表达性使用”的部分保留 在版权法的规制范畴之内,并将对作品进行“非表达性 使用”的部分排除在版权法的保护范围之外。基于“表 达性使用”视角,因循版权法的价值意旨和基本法理, 贴合生成式人工智能机器学习的技术机理,考量人工智 能国际竞争的战略意义和市场潜力,版权法应对生成式 人工智能机器学习设置区分层级的差异化规制路径。当 然,一般意义上的“非表达性使用型”机器学习虽不由 版权法规制,但也不应处于法律监管的真空。鉴于生成 式人工智能机器学习涉及主体的多样性、底层机理的复 杂性和训练过程的周期性,未来有必要进一步探索版权 法之外包括但不限于反不正当竞争法规制、个人信息保护 法规制等的生成式人工智能机器学习法律规制模式。