
生成式人工智能因其改变创造力的潜力而受到欢迎,尤其是通过降低内容创作的障碍。虽然生成式人工智能工具的创造潜力经常得到强调,但这些工具的普及带来了有关知识产权和版权保护的问题。
ChatGPT等生成式人工智能工具由基础人工智能模型或经过大量数据训练的人工智能模型提供支持。生成式人工智能是根据从互联网上抓取的文本或图像中提取的数十亿条数据进行训练的。
生成式人工智能使用非常强大的机器学习方法,如深度学习和迁移学习,来理解这些数据片段之间的关系——例如,哪些单词倾向于跟随其他单词。这使得生成式人工智能可以执行广泛的任务,可以模拟认知和推理。
一个问题是,AI工具的输出可能与受版权保护的材料非常相似。撇开如何训练生成模型不提,广泛使用生成人工智能带来的挑战是,当生成人工智能输出侵犯版权保护时,个人和公司可能会被追究责任。
当舞会PTS导致侵犯版权
研究人员和记者提出了一种可能性,即通过选择性提示策略,人们最终可能会创建违反版权法的文本、图像或视频。通常,生成式人工智能工具会输出图像、文本或视频,但不会提供任何潜在侵权的警告。这就提出了一个问题,即如何确保生成人工智能工具的用户不会在不知不觉中侵犯版权保护。
生成型人工智能公司提出的法律论据是,基于受版权保护的作品进行训练的人工智能并不侵犯版权,因为这些模型并没有复制训练数据;相反,它们被设计用来学习文字元素和图像(如单词和像素)之间的联系。包括图像生成器Stable Diffusion的制造商Stability AI在内的人工智能公司认为,响应特定文本提示提供的输出图像不太可能与训练数据中的任何特定图像非常匹配。
生成式人工智能工具的创建者认为,提示不会重现训练数据,这应该可以保护它们免受侵犯版权的指控。然而,一些审计研究表明,生成式人工智能的最终用户可以通过生成与受版权保护的内容非常相似的作品,发出导致侵犯版权的提示。
认定侵权需要检测风格相似作品的表达元素与该艺术家特定作品中的原创表达之间的密切相似性。研究人员已经证明,训练数据提取攻击(涉及选择性提示策略)和可提取记忆(欺骗生成式人工智能系统揭示训练数据)等方法可以恢复从个人照片到公司商标标志等单个训练示例。
计算机科学家Gary Marcus和艺术家Reid Southern进行的审计研究提供了几个例子,在这些例子中,视觉生成人工智能模型产生的图像侵犯版权保护的程度几乎没有什么含糊之处。《纽约时报》提供了类似的图片对比,展示了生成式人工智能工具是如何侵犯版权保护的。
如何建造护栏
法律学者把把防止侵犯版权的护栏开发成人工智能工具的挑战称为“史努比问题”。一个受版权保护的作品越是保护一个相似的形象——例如,卡通人物史努比——与复制一个特定的图像相比,它更有可能是一个生成人工智能工具来复制它。
长期以来,计算机视觉研究人员一直在努力解决如何检测版权侵权的问题,例如假冒的徽标或受专利保护的图像。研究人员还研究了商标检测如何帮助识别假冒产品。这些方法有助于发现侵犯版权的行为。确定内容来源和真实性的方法也会有所帮助。
在模型训练方面,人工智能研究人员提出了使生成式人工智能模型忘记受版权保护数据的方法。Anthropic等一些人工智能公司已宣布承诺,不会使用客户产生的数据来训练高级模型,如Anthropic的大型语言模型Claude。人工智能安全的方法,如红队——试图强迫人工智能工具行为不端——或确保模型训练过程减少生成人工智能输出与受版权保护的材料之间的相似性,也可能有所帮助。
监管的作用
人类创作者知道拒绝制作侵犯版权的内容的请求。人工智能公司能否在生成式人工智能中建立类似的护栏?
目前还没有现成的方法将这种护栏构建到生成式人工智能中,也没有任何公共工具或数据库供用户参考,以确定是否侵犯了版权。即使有这样的工具,它们也会给用户和内容提供商带来过重的负担。
考虑到天真的用户不能指望学习和遵循避免侵犯版权材料的最佳做法,政策制定者和监管机构应该发挥作用。这可能需要法律和监管指导方针的结合,以确保版权安全的最佳实践。
例如,构建生成式人工智能模型的公司可以使用过滤或限制模型输出来限制版权侵权。同样,监管干预可能是必要的,以确保生成式人工智能模型的构建者以降低其产品输出侵犯创作者版权的风险的方式构建数据集和训练模型。
Anjana Susarla是密歇根州立大学会计与信息系统系负责任人工智能的Omura Saxena教授。
的有限公司谈话是一种独立而不存在的非营利来源的新闻,分析和评论的学术专家。