Home 苹果新闻苹果又被卷入AI训练诉讼，这次还是因为用了疑似盗版书的“The Pile”数据集

苹果又被卷入AI训练诉讼，这次还是因为用了疑似盗版书的“The Pile”数据集

苹果新闻 By Duck · 2026年3月19日 · 0 Comment

用来源不明的“The Pile”数据集训练AI这件事，又被告上法庭了。这次是Chicken Soup for the Soul公司把几乎所有大厂都告了，说他们侵犯版权盗用数据。不过苹果已经明确否认用过这个数据集来训练Apple Intelligence。

“人工智能”这个词现在被用到什么东西上都快没意义了。感觉这起诉讼可能是搞错了，把苹果也一起拉进来，毕竟苹果之前就说过自己没用那个数据集。

根据Chicken Soup for the Soul公司提起的诉讼，苹果、Meta、xAI、谷歌、Anthropic、OpenAI、Perplexity还有英伟达，这些公司都被指控在训练各自的AI模型时用了名叫“The Pile”的数据集，侵犯了版权。这个数据集里塞满了各种专有内容，比如YouTube的字幕文件等等。但苹果这边明确表示，他们并没有用它来训练Apple Intelligence。

这里面最关键的部分是“The Pile”里的“Books3”影子图书馆，里面堆满了各种受版权保护的书籍，其中有些魔法相关的书还引发过之前的集体诉讼。

目前还不清楚其他公司到底有没有真的用“The Pile”，不过考虑到他们基本都是把整个网络都爬了一遍，八成是跑不掉的。但苹果在2024年的时候，是少数几家认真想通过合法、合规途径来构建AI训练数据集的公司之一。

这场官司很可能得把范围缩小，至少先把苹果剔出去。苹果的研究人员确实在开源项目OpenELMs里用过“The Pile”，但那个项目是公开的，而且从来没用到Apple Intelligence上。

其他公司就没这么好运了。Perplexity等公司一直在为自己爬网数据的做法辩护。而苹果则反复强调，Apple Intelligence的训练过程是合乎道德的，也尊重出版商的权益。

当然事情还有可能变得更复杂，因为苹果现在的新Apple Foundation Models是用谷歌Gemini模型参与训练的。如果谷歌也被牵连进去，而Gemini又是未来Apple Intelligence的部分基础，那苹果恐怕还是躲不掉。

苹果目前还没针对这个案子再发什么新声明。跟所有这类诉讼一样，估计又得拖上好一阵子了。