学者起诉苹果公司使用盗版书籍训练Apple Intelligence

两名学术作者对苹果公司提起集体诉讼，指控苹果公司在训练其Apple Intelligence时使用了一个已知包含他们书籍盗版副本的数据库。

苏珊娜·马丁内斯-康德和斯蒂芬·麦克尼克均是纽约州立大学健康科学大学的教授。他们声称，其著作《幻象冠军：令人费解的图像和神秘脑力谜题背后的科学》以及《心灵的戏法：魔术的神经科学对我们日常欺骗的揭示》在未经授权的情况下被用于训练Apple Intelligence。

简而言之，这两部作品可能在未经适当授权的情况下被整体用于训练苹果的基础智能模型和OpenELM语言模型。具体而言，原告在周五下午提交的诉状中声称，这些材料被用来测试模型性能，并作为过滤器，以防止模型输出包含受版权保护的内容呈现给最终用户。

该诉讼详细说明了“Books3”影子图书馆在Apple Intelligence训练中的使用。当苹果在2024年4月讨论OpenELM时，披露其使用了“The Pile”数据集。

“The Pile”是一个经过整理的英语数据集，其中包含了Books3影子图书馆。

当时，Books3包含了由Bibliotik私人BitTorrent追踪器索引的全部文本。同时，一个TXT文件列出了数据集中全部186,640本书的标题。

原告的出版物名列其中。

诉状称：“由于原告受版权保护的书籍是Books3的一部分，苹果未经授权完整复制了原告受版权保护的作品的一个或多个副本，并用于训练OpenELM，直接侵犯了原告以及集体诉讼中其他成员的版权。”

由于被报告存在版权侵权问题，Books3已于2023年10月被移除。

面临的挑战

这起诉讼绝非无足轻重。作者的作品被复制时，理应获得补偿。

然而，关于在AI语言训练中使用书籍的合法性存在若干问题。并且，谷歌对其训练模型的使用方式与苹果对AppleBot的使用方式之间存在差异。

例如，谷歌会将其未经授权使用的内容（比如几天后的本文）用于生成搜索结果的AI摘要。然后，它会将来自不同来源的内容混合成一个摘要，呈现在撰写该内容的网站的实际搜索结果之前。

而且，大多数时候，谷歌并未恰当注明其摘要所来源的内容。更糟的是，即使注明出处，摘要内容也可能错得离谱。

谷歌自己表示，带有AI摘要的搜索结果中，超过一半不会导致用户点击进入原网页。

而苹果的训练是语言层面的——至少目前如此。它不会在搜索中呈现文章摘要，因此不存在注明出处的问题。

此外，得益于Midjourney案的判例，法院已确立先例，即要求AI训练者进行恰当的署名和补偿过于困难。迄今为止，美国法院系统倾向于广泛认同这一观点，除了近期Anthropic公司达成的一项和解。

但在Anthropic案中，威廉·阿尔苏普法官指出，Anthropic为训练模型而使用多达七百万本书籍属于合理使用。然而，Anthropic将用于训练模型的书籍保存到一个中央库中（无论该库未来是否用于此目的），这一行为侵犯了作者的版权。

另外还有一个问题是如何证明苹果确实使用了有争议的出版物。虽然苹果曾承认使用了包含原告作品的Books3，但目前尚不清楚涉案书籍是否被具体抓取。

苹果并未列出为语言用途而处理的单个文档，也不清楚苹果是否跟踪记录了所使用的书籍。

诉讼中的经济索赔对原告方而言可能也存在问题。为证明Apple Intelligence的价值，诉状称该功能发布之日是“公司历史上单日利润最高的一天”，因为此后公司估值跃升了2000亿美元。

然而，尽管这一说法也忽略了WWDC其他内容带来的增值，但自那以后，所有这些涨幅均已回落，这在很大程度上归因于Apple Intelligence的推出迟缓且分阶段进行。此外，粗略核查表明，在过去五年中，有四天的单日估值涨幅更大。

Apple Intelligence也尚未完全推出。苹果将如何充分利用其开发的模型，仍有待观察。

美国版权法明确规定，故意侵犯版权可能使侵权者每部作品最高赔偿15万美元。目前尚不清楚苹果是否故意复制了这两位作者的书籍。

两位作者要求陪审团审判、金钱赔偿，并要求苹果今后不得使用其受版权保护的作品。

苏珊娜·马丁内斯·康德、斯蒂芬·L·麦克尼克诉苹果公司一案的审判日期尚未确定。截至目前，苹果公司未就诉讼的是非曲直发表评论。