用来源不明的“The Pile”数据集训练AI这件事,又被告上法庭了。这次是Chicken Soup for the Soul公司把几乎所有大厂都告了,说他们侵犯版权盗用数据。不过苹果已经明确否认用过这个数据集来训练Apple Intelligence。
“人工智能”这个词现在被用到什么东西上都快没意义了。感觉这起诉讼可能是搞错了,把苹果也一起拉进来,毕竟苹果之前就说过自己没用那个数据集。
根据Chicken Soup for the Soul公司提起的诉讼,苹果、Meta、xAI、谷歌、Anthropic、OpenAI、Perplexity还有英伟达,这些公司都被指控在训练各自的AI模型时用了名叫“The Pile”的数据集,侵犯了版权。这个数据集里塞满了各种专有内容,比如YouTube的字幕文件等等。但苹果这边明确表示,他们并没有用它来训练Apple Intelligence。
这里面最关键的部分是“The Pile”里的“Books3”影子图书馆,里面堆满了各种受版权保护的书籍,其中有些魔法相关的书还引发过之前的集体诉讼。
目前还不清楚其他公司到底有没有真的用“The Pile”,不过考虑到他们基本都是把整个网络都爬了一遍,八成是跑不掉的。但苹果在2024年的时候,是少数几家认真想通过合法、合规途径来构建AI训练数据集的公司之一。
这场官司很可能得把范围缩小,至少先把苹果剔出去。苹果的研究人员确实在开源项目OpenELMs里用过“The Pile”,但那个项目是公开的,而且从来没用到Apple Intelligence上。
其他公司就没这么好运了。Perplexity等公司一直在为自己爬网数据的做法辩护。而苹果则反复强调,Apple Intelligence的训练过程是合乎道德的,也尊重出版商的权益。
当然事情还有可能变得更复杂,因为苹果现在的新Apple Foundation Models是用谷歌Gemini模型参与训练的。如果谷歌也被牵连进去,而Gemini又是未来Apple Intelligence的部分基础,那苹果恐怕还是躲不掉。
苹果目前还没针对这个案子再发什么新声明。跟所有这类诉讼一样,估计又得拖上好一阵子了。