人工智能训练数据的版权之问
——基于著作权法理的反思
一、问题的提出
高质量的训练数据集作为生成式人工智能的底层基础设施与动力源泉,直接决定了算法模型的性能上限与泛化能力,但其对海量作品的规模化摄取已使既有的著作权陷入适用危机。1〕生成式人工智能在本质上属于深度“复制依赖型技术”,其在训练阶段对人类表达的利用方式已经转向“数据挖掘”,作品由此成为“数据磨坊中的谷物”(2」这种转型使得人工智能不再是单纯的作品传播者,而是通过提取统计规律与关联概率实现从“阅读者”(reader)向“学习者”(learmer)的身份跨越,〔3)从而在根本上偏离了著作权法在建构之初所预设的作品消费范式,导致现有的权利配置逻辑在解释上呈现出紧张状态。(剩余16575字)