作者指控苹果或使用盗版书籍训练Apple Intelligence

Article image

苹果公司正遭到作者起诉,指控其使用他们的作品来训练用于Apple Intelligence的大型语言模型。这起诉讼与Anthropic此前面临的高价法律纠纷如出一辙。

苹果一直致力于以合乎道德的方式训练人工智能模型,这些模型用于Apple Intelligence及其操作系统中的其他功能。尽管竭力以正确方式行事,它仍成为了版权诉讼的目标。

据路透社报道,作者格雷迪·亨德里克斯和詹妮弗·罗伯逊提起的拟议集体诉讼指控苹果使用其受版权保护的作品训练AI系统。该诉讼于周五在美国加州北区地方法院提交,称苹果正在积极使用一个基于盗版作品的数据集。

诉讼的关键在于苹果是否使用了名为“Books3”的数据集。诉讼称,Books3基于一个名为Bibliotik的“影子图书馆”网站的内容,该网站据称托管了数千本书的内容。

该数据集曾在HuggingFace上提供,直至2023年10月被移除,它也曾是RedPajama数据集的一部分。RedPajama被用作OpenELM开源模型的一部分,苹果于2024年发布了这些模型。

由于苹果在OpenELM中使用了与盗版书籍有关联的数据集,诉讼认为苹果很可能使用相同技术来训练其基础语言模型。

诉讼还坚称,苹果未曾尝试为书籍内容向作者支付费用。

诉讼要求陪审团审判,并请求判令苹果支付法定赔偿金和补偿性损害赔偿金、进行 restitution(返还)、销毁使用了这些训练集的Apple Intelligence及其他LLM模型,并支付律师费。

审慎的训练之路

这起诉讼与另一起涉及AI训练和盗版的案件有许多相似之处。去年9月,Anthropic同意向作者支付1.5亿美元以和解有关盗版的指控,其中包括扫描书籍内容来训练其模型。

这起新诉讼并非指控苹果直接盗取内容,而是指控其使用了一个据称来源可疑的数据集。

苹果一直公开表示,其力求在模型训练和为训练获取数据源方面尽可能合乎道德。

此前,苹果曾向出版商提供数百万美元以获取出版物用于训练数据。2024年,它还与Shutterstock达成协议,授权使用数百万张图像,同样用于训练目的。

7月,苹果进一步强调了其道德主张,包括对可从互联网获取内容的处理。在一篇研究论文中,它解释说,如果出版商不同意将其数据抓取用于训练,它就不会抓取该内容。

这包括遵守robots.txt中概述的限制,而并非所有公司都遵守这一点。

Related Posts

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注