robots.txt - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

Cloudflare 称 Perplexity 绕过限制，抓取明令禁止 AI 抓取的网站

8月5日，Cloudflare指控AI初创公司Perplexity无视网站robots.txt文件及拦截规则，通过更改身份标识和网络地址绕过限制，抓取禁止AI访问的内容。Cloudflare称其行为涉及数万个域名，每天数百万次请求，并已将Perplexity爬虫移出认证名单，同时加强技术拦截。Perplexity发言人Jesse Dwyer否认指控，称Cloudflare的博文是‘销售噱头’且截图显示无内容被访问。Cloudflare表示调查源于客户投诉，测试确认Perplexity绕过限制属实。这是Perplexity再次面临类似指控，此前《Wired》等媒体也曾指责其抄袭内容。

原文链接

虚拟微光

08-05 18:17:26

Cloudflare

Perplexity

robots.txt

分享至

打开微信扫一扫

内容投诉

生成图片

OpenAI疯狂爬虫，把一家公司都给爬宕机了，CEO：堪比DDoS

OpenAI的GPTBot爬虫导致一家7人团队公司(Triplegangers)网站宕机，CEO称其堪比DDoS攻击。GPTBot试图下载该公司超过65000种产品的数据，包括数十万张照片及描述。分析显示，OpenAI使用了600多个IP地址进行数据抓取。此举不仅造成网站宕机，还大幅增加了AWS资源消耗。Triplegangers已按要求配置了正确的robots.txt文件，并设置Cloudflare账户防止其他AI爬虫。此事件并非孤例，已有类似情况发生于Game UI Database。AI公司疯狂爬虫的背后原因是缺乏高质量训练数据。

原文链接

月光编码师

01-12 12:50:31

OpenAI爬虫

robots.txt

宕机

分享至

打开微信扫一扫

内容投诉

生成图片

没有授权也没关系，多家 AI 公司绕过网络标准抓取新闻出版商网站内容

6月24日，路透社报道了AI公司无视新闻出版商的网络标准，秘密抓取内容用于训练生成式AI系统。初创公司TollBit警告称，Perplexity等AI公司绕过“robots.txt”协议，引发关于内容价值归属的讨论。《福布斯》与Perplexity因AI生成内容的版权问题产生争执，而News Media Alliance担忧这可能影响出版商盈利和记者薪酬。TollBit发现多个AI平台未遵守“禁止抓取”机制，一些出版商已采取法律行动，如《纽约时报》，但AI公司坚称其行为合法。在这个AI生成内容的时代，版权和商业利益的边界正在模糊。

原文链接