在互联网早期,有一个不成文的协议,一个名为“robot.txt”的文本文件——,这是被屏蔽的名单,它将决定谁可以访问你的网站,主要针对的是机器人/爬虫。一般网站主要是向搜索引擎开放,让搜索引擎带来流量。但这一不成文的协议正在被人工智能公司打破。
已经有许多网站试图阻止一家名为Anthropic的人工智能公司在网站上爬行内容,以保护自己的权利。然而,随着该公司不断开发新的爬虫程序,那些没有时间更新“robot.txt”文件的网站已成为被盗资源的受害者。
据404媒体报道
采访跟踪网络爬虫和爬虫工具网站的DarkVisors运营商时,他发现,在帮助其他网站运营商更新“robot.txt”的同时,目前的情况非常令人困惑。该运营商表示:“代理生态系统正在迅速变化,这使得网站所有者几乎不可能手动跟上。”
以人类距离为例,路透社等一些颇受欢迎的网站在robot.txt中组织了两个爬虫,分别是人类-AI和克劳德-网络。它们曾被Anthropic的ClaudeAI聊天机器人使用,但目前该公司最活跃的爬虫实际上是“CLAUDEBOT”,因此这些网站都不会屏蔽该爬虫。其他数百个复制和粘贴屏蔽名单的网站也未能阻止该公司。
404传媒采访了许多互联网行业从业者,他们都表示,面对AI公司的这种行为,鼓励网站积极屏蔽此类机器人/爬虫。网络安全公司StackAware
首席执行官沃尔特·海多克表示支持将大量可能被阻止的对象添加到robot.txt中,并表示:“如果它们最终不在那里,阻止它们将没有任何影响。”
他还表示,封杀名单最终只是互联网上的一种惯例,“AI公司的封杀代理有赖于AI公司尊重robot.txt文件,你还需要了解所有的AI刮代理。”对于大多数公司来说,这种情况发生的概率很低,所以我预计会有更多的创作者将他们的内容转移到付费观看,以防止无限制的抢占。