Page 1 of 1

我的数据基于MozCast语料库

Posted: Tue Dec 24, 2024 8:24 am
by rakibhasan
此时值得一提的是,robots.txt 并未受到任何法律的强制执行。这是互联网规范,忽视它会产生负面宣传成本(我稍后会再次提到),但要想完全阻止流量,您需要做的不仅仅是 robots.txt 行。

现在,我想更深入地了解一下今年出现的可阻止的人工智能机器人的范围,以及谁在阻止它们以及原因。

这不是详尽无遗的,但涵盖了一些主要事件。我找不到 Anthropic 的任何具体时间表,而我在这个时间表中没有提到主要角色。

OpenAI、谷歌和苹果似乎有一个剧本,“抓取 阿塞拜疆电话号码库 我们需要的一切数据,然后公开宣布如何阻止抓取”,这让人感觉有点不诚实,并且肯定会支持这样的论点:在这一过程的后期进行阻止收效甚微。

Perplexity 还陷入了一场混乱,他们是否真的尊重 robots.txt 规则。据说,他们将抓取外包给了第三方,但第三方并没有这样做,当然,如上所述,robots.txt 不是法律,而是普遍尊重的互联网规范。尽管如此,他们的 AWS 合作伙伴和许多科技媒体对此感到有些不满。

无论如何,事不宜迟……

方法论
其中包含 10,000 个美国核心术语,这些术语是从 STAT 中的美国郊区位置跟踪的。我查看了桌面和移动端以及排名前 20 位的每个有机排名,从 39,791 个唯一子域上的 142,964 个唯一 URL 中得出 341,553 个排名位置。

然后我检查了每个子域名的 robots.txt 是否允许我抓取它们的主页,给出了 8 个不同的用户代理: