57.5% 的互联网流量来自机器人，你每天刷的网页一半不是人在看-编程实验室

Cloudflare Radar 刚发了个数据，看完我有点懵。

过去一周，全球 HTML 网页流量里，57.5% 来自机器人。只有 42.5% 是真人浏览器。

机器人流量，第一次超过了人类。

要是算上所有 HTTP 流量，JSON 格式的机器间通信占了 33.1%，HTML 只剩 12%。互联网的主体，已经不是人在浏览网页了，是机器在互相说话。

机器人流量到底是什么？

Cloudflare 把机器人流量分成三类。

第一类是传统爬虫。搜索引擎的蜘蛛（Googlebot、Bingbot）要爬网页建索引，新闻聚合器要抓内容展示，数据公司要收集信息做分析。这些爬虫存在几十年了，是互联网的基础设施。

第二类是 AI 训练爬虫。这两年暴增的部分。ChatGPT、Claude、Gemini、DeepSeek，每家都要从网上抓文本、图片、视频喂给模型。一个训练爬虫一天能爬几百万个网页，还会反复爬同一批网站。

第三类是 AI 推理爬虫。最容易被忽略的部分。Perplexity、Kimi、Arc Search，还有 ChatGPT 的联网搜索，你问一个问题，AI 要实时去网上找答案。一次搜索背后可能是几十次网页抓取。全球几十亿人每天问多少问题？这些请求加起来是个天文数字。

Cloudflare 怎么统计的？

Cloudflare 是全球最大的 CDN 之一，每天处理全球约 20% 的互联网流量。

它的方法是分析每个 HTTP 请求的 User-Agent 头、行为模式、访问频率，判断是真人还是机器人。

问题是很多机器人会伪装。它们修改 User-Agent，把自己装成 Chrome 或 Firefox。所以 Cloudflare 还用了机器学习模型来识别异常行为：访问频率太高、路径不符合人类习惯、请求间隔太规律、没执行 JavaScript。

这些特征综合起来，才能比较准确地识别机器人。

为什么机器人流量会超过人类？

大模型的性能跟训练数据量强相关。数据越多，模型越强。AI 公司有强烈动机去尽可能多地抓数据，而且会反复抓，因为互联网内容在不断更新。

AI 搜索需要实时获取信息。这不像训练可以离线批量处理，推理请求是实时的、分散的、高频的。

不只是 AI，各种自动化工具也在贡献流量：网站监控、价格追踪、竞品分析、SEO 工具。这些工具 24 小时不间断运行，产生的流量远超人类。

人类浏览网页是"低效"的：打开一个页面，看几秒，关掉，可能几分钟后再打开下一个。机器人是"高效"的：一秒钟可以请求几十个页面，没有任何停顿。所以即使机器人数量不多，产生的流量也能超过人类。

这事让我有点不安

说实话，看到这个数据的时候，我后背有点发凉。

不是因为机器人比人多这件事本身，而是它背后的意思。

互联网最开始是什么？是一群人把自己知道的东西写下来，分享给另一群人看。是人与人之间的连接。博客、论坛、社交媒体，本质都是人在交流。

但现在呢？互联网正在变成一个巨大的数据矿场。人类是矿工，机器人是挖掘机。矿工还在辛苦地挖矿，但挖掘机已经比矿工多了。

你写一篇文章，可能真正读完的人类没几个，但机器人已经把它抓走了，拿去训练 AI，拿去生成内容，拿去赚钱。你在网上回答一个问题，可能真正需要答案的人还没看到，机器人已经把你的回答抄走，发到了另一个平台上。

人类在互联网上的角色，正在从"内容的创造者和消费者"，变成"数据的生产者"。不是"创作者"，是"生产者"。创作者有主体性，有表达欲，有跟读者的连接。生产者没有。生产者只是一个数据源。

反爬虫：一场持续的军备竞赛

网站所有者面临一个困境：内容被大量抓取，但收益主要来自人类访问。

robots.txt 是最基础的方案，在网站根目录放一个文件，告诉爬虫哪些能爬哪些不能。但这只是"君子协议"，没有强制力。很多爬虫根本不遵守。

User-Agent 检测可以识别已知爬虫，但 User-Agent 可以伪造。

行为分析是目前最有效的方案，通过分析请求频率、访问路径、鼠标移动、点击模式来识别机器人。但实现复杂，需要机器学习模型。

验证码是最直接的方案：人类能通过，机器人过不去。但现在的 AI 已经能破解大部分验证码，而且验证码会影响用户体验。

付费 API 是很多平台正在尝试的方案。Reddit、Twitter 都在对 API 收费。但这也会限制创新和竞争。

这是一场持续的军备竞赛，没有终点。

未来会怎样？

现在的 HTTP 协议是为人类浏览设计的。未来可能会出现专门为机器间通信设计的协议，更高效、更安全、更可控。

创作者可以直接把内容卖给 AI 公司，而不是被免费抓取。Reddit 跟 Google 签了数据授权协议，新闻集团跟 OpenAI 签了内容合作。这种模式可能会成为主流。

如果真实互联网数据越来越难获取，AI 公司可能会转向合成数据：用 AI 生成数据来训练 AI。这已经在发生了，很多模型的训练数据里，合成数据的比例越来越高。

隐私保护技术也会加强。零知识证明、联邦学习、差分隐私，这些技术可能会更广泛地应用。

我们能做什么？

说实话，我也不知道。

这不是一个能靠个人力量解决的问题。你不可能让所有人都停止使用 AI，不可能让所有 AI 公司都停止抓取数据，不可能让互联网回到那个只有人类的时代。

技术的进步是不可逆的。

但这不意味着我们只能束手就擒。至少，我们可以意识到这件事。至少，我们可以不再假装一切正常。至少，我们可以开始思考，在这个机器人比人多的互联网时代，人类应该扮演什么角色。

也许人类需要找到新的角色。不再是数据的生产者，而是意义的创造者。不再是内容的搬运工，而是思想的原创者。不再是流量的奴隶，而是连接的主人。

在一个机器人可以无限生成内容的时代，什么是最稀缺的？不是内容本身，而是真实的人类体验。不是信息，而是洞察。不是流量，而是信任。

AI 可以写出完美的文章，但它写不出"我昨天半夜三点爬起来给猫接生"这种真实经历。AI 可以生成漂亮的图片，但它画不出"我奶奶家那台老式缝纫机"这种私人记忆。AI 可以回答所有问题，但它回答不了"你为什么会对我这个陌生人这么好"这种关于人性的问题。

这些东西，是机器人永远无法替代的。

以上，既然看到这里了，如果觉得不错，随手点个赞、在看、转发三连吧，如果想第一时间收到推送，也可以给我个星标⭐～

谢谢你看我的文章，我们，下次再见。

/ 作者：AI创享派

57.5% 的互联网流量来自机器人，你每天刷的网页一半不是人在看

机器人流量到底是什么？

Cloudflare 怎么统计的？

为什么机器人流量会超过人类？

这事让我有点不安

反爬虫：一场持续的军备竞赛

未来会怎样？

我们能做什么？

领嵌iLeadE-588边缘计算盒子内置算法及应用

终极ComfyUI效率插件：rgthree-comfy让你的AI工作流提升300%效率

时至高考有感

从 0 到 1 构建 AI 创意工具：独立开发者的 LLM 应用实战

PLL与DLL核心差异解析：从原理到FPGA时钟管理实战

5分钟掌握录播姬：开源直播录制工具的完整使用指南