USA Data Set

Posted: **Tue Dec 24, 2024 8:24 am**

此时值得一提的是，robots.txt 并未受到任何法律的强制执行。这是互联网规范，忽视它会产生负面宣传成本（我稍后会再次提到），但要想完全阻止流量，您需要做的不仅仅是 robots.txt 行。

现在，我想更深入地了解一下今年出现的可阻止的人工智能机器人的范围，以及谁在阻止它们以及原因。

这不是详尽无遗的，但涵盖了一些主要事件。我找不到 Anthropic 的任何具体时间表，而我在这个时间表中没有提到主要角色。

OpenAI、谷歌和苹果似乎有一个剧本，“抓取阿塞拜疆电话号码库我们需要的一切数据，然后公开宣布如何阻止抓取”，这让人感觉有点不诚实，并且肯定会支持这样的论点：在这一过程的后期进行阻止收效甚微。

Perplexity 还陷入了一场混乱，他们是否真的尊重 robots.txt 规则。据说，他们将抓取外包给了第三方，但第三方并没有这样做，当然，如上所述，robots.txt 不是法律，而是普遍尊重的互联网规范。尽管如此，他们的 AWS 合作伙伴和许多科技媒体对此感到有些不满。

无论如何，事不宜迟……

方法论
其中包含 10,000 个美国核心术语，这些术语是从 STAT 中的美国郊区位置跟踪的。我查看了桌面和移动端以及排名前 20 位的每个有机排名，从 39,791 个唯一子域上的 142,964 个唯一 URL 中得出 341,553 个排名位置。

然后我检查了每个子域名的 robots.txt 是否允许我抓取它们的主页，给出了 8 个不同的用户代理：

USA Data Set

我的数据基于MozCast语料库

我的数据基于MozCast语料库