
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
8月5日,Cloudflare指控AI初创公司Perplexity无视网站robots.txt文件及拦截规则,通过更改身份标识和网络地址绕过限制,抓取禁止AI访问的内容。Cloudflare称其行为涉及数万个域名,每天数百万次请求,并已将Perplexity爬虫移出认证名单,同时加强技术拦截。Perplexity发言人Jesse Dwyer否认指控,称Cloudflare的博文是‘销售噱头’且截图显示无内容被访问。Cloudflare表示调查源于客户投诉,测试确认Perplexity绕过限制属实。这是Perplexity再次面临类似指控,此前《Wired》等媒体也曾指责其抄袭内容。
原文链接
OpenAI的GPTBot爬虫导致一家7人团队公司(Triplegangers)网站宕机,CEO称其堪比DDoS攻击。GPTBot试图下载该公司超过65000种产品的数据,包括数十万张照片及描述。分析显示,OpenAI使用了600多个IP地址进行数据抓取。此举不仅造成网站宕机,还大幅增加了AWS资源消耗。Triplegangers已按要求配置了正确的robots.txt文件,并设置Cloudflare账户防止其他AI爬虫。此事件并非孤例,已有类似情况发生于Game UI Database。AI公司疯狂爬虫的背后原因是缺乏高质量训练数据。
原文链接
6月24日,路透社报道了AI公司无视新闻出版商的网络标准,秘密抓取内容用于训练生成式AI系统。初创公司TollBit警告称,Perplexity等AI公司绕过“robots.txt”协议,引发关于内容价值归属的讨论。《福布斯》与Perplexity因AI生成内容的版权问题产生争执,而News Media Alliance担忧这可能影响出版商盈利和记者薪酬。TollBit发现多个AI平台未遵守“禁止抓取”机制,一些出版商已采取法律行动,如《纽约时报》,但AI公司坚称其行为合法。在这个AI生成内容的时代,版权和商业利益的边界正在模糊。
原文链接
加载更多

暂无内容