Perplexity被指控规避robots.txt协议并窃取数据

文章配图

2024年,Perplexity被发现通过技术手段绕过网站拦截以抓取内容。最新报告显示,该公司持续升级规避技术并为此行为辩护。

此前苹果公司因Applebot抓取网络数据训练AI而遭到抵制,网站纷纷屏蔽此类爬虫,暴露出AI公司数据获取的争议性操作。

Cloudflare报告指出,Perplexity采用多种技术手段破坏网络信任机制:创建全新测试网站后,其爬虫在遭遇robots.txt禁令时,会更换浏览器代理、IP地址甚至自治系统编号(ASN)重新抓取。测试证实,只有在新爬虫突破封锁时,PerplexityAI才能提供准确信息,否则结果会出现幻觉或错误。

尽管Cloudflare披露的新ASN细节属于首次曝光,但核心发现与2024年6月《Wired》等媒体的报道高度一致。Perplexity不仅未改正行为,反而开发出更复杂的规避技术。

Perplexity在博客回应中辩称其AI代理与爬虫是不同实体,指责Cloudflare无法区分二者。但分析指出,其行为实质破坏了网站通过robots.txt保护商业模式的努力——当用户无需访问源网站即可获取信息,原创内容生态将难以为继。

值得注意的是,苹果在发布Apple Intelligence时承认使用网络数据训练模型,但强调遵守robots.txt协议。这引发网站大规模更新屏蔽规则,也使得Perplexity持续违规的行为更显突出。

争议核心在于:Perplexity声称其AI代理不存储数据用于训练,但忽视网站通过robots.txt保护流量的根本诉求。行业分析认为,若原创内容因爬虫泛滥而消亡,AI本身也将失去数据来源。

苹果通过本地模型、可再生能源服务器及隐私承诺树立伦理标杆,而Perplexity的激进爬虫策略正与之形成鲜明对比。这场争议不仅关乎技术合规性,更揭示了AI发展与网络生态可持续性的深层矛盾。

Related Posts

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注