Cloudflare Radar 刚发了个数据,看完我有点懵。
过去一周,全球 HTML 网页流量里,57.5% 来自机器人。只有 42.5% 是真人浏览器。
机器人流量,第一次超过了人类。
要是算上所有 HTTP 流量,JSON 格式的机器间通信占了 33.1%,HTML 只剩 12%。互联网的主体,已经不是人在浏览网页了,是机器在互相说话。
机器人流量到底是什么?
Cloudflare 把机器人流量分成三类。
第一类是传统爬虫。搜索引擎的蜘蛛(Googlebot、Bingbot)要爬网页建索引,新闻聚合器要抓内容展示,数据公司要收集信息做分析。这些爬虫存在几十年了,是互联网的基础设施。
第二类是 AI 训练爬虫。这两年暴增的部分。ChatGPT、Claude、Gemini、DeepSeek,每家都要从网上抓文本、图片、视频喂给模型。一个训练爬虫一天能爬几百万个网页,还会反复爬同一批网站。
第三类是 AI 推理爬虫。最容易被忽略的部分。Perplexity、Kimi、Arc Search,还有 ChatGPT 的联网搜索,你问一个问题,AI 要实时去网上找答案。一次搜索背后可能是几十次网页抓取。全球几十亿人每天问多少问题?这些请求加起来是个天文数字。
Cloudflare 怎么统计的?
Cloudflare 是全球最大的 CDN 之一,每天处理全球约 20% 的互联网流量。
它的方法是分析每个 HTTP 请求的 User-Agent 头、行为模式、访问频率,判断是真人还是机器人。
问题是很多机器人会伪装。它们修改 User-Agent,把自己装成 Chrome 或 Firefox。所以 Cloudflare 还用了机器学习模型来识别异常行为:访问频率太高、路径不符合人类习惯、请求间隔太规律、没执行 JavaScript。
这些特征综合起来,才能比较准确地识别机器人。
为什么机器人流量会超过人类?
大模型的性能跟训练数据量强相关。数据越多,模型越强。AI 公司有强烈动机去尽可能多地抓数据,而且会反复抓,因为互联网内容在不断更新。
AI 搜索需要实时获取信息。这不像训练可以离线批量处理,推理请求是实时的、分散的、高频的。
不只是 AI,各种自动化工具也在贡献流量:网站监控、价格追踪、竞品分析、SEO 工具。这些工具 24 小时不间断运行,产生的流量远超人类。
人类浏览网页是"低效"的:打开一个页面,看几秒,关掉,可能几分钟后再打开下一个。机器人是"高效"的:一秒钟可以请求几十个页面,没有任何停顿。所以即使机器人数量不多,产生的流量也能超过人类。
这事让我有点不安
说实话,看到这个数据的时候,我后背有点发凉。
不是因为机器人比人多这件事本身,而是它背后的意思。
互联网最开始是什么?是一群人把自己知道的东西写下来,分享给另一群人看。是人与人之间的连接。博客、论坛、社交媒体,本质都是人在交流。
但现在呢?互联网正在变成一个巨大的数据矿场。人类是矿工,机器人是挖掘机。矿工还在辛苦地挖矿,但挖掘机已经比矿工多了。
你写一篇文章,可能真正读完的人类没几个,但机器人已经把它抓走了,拿去训练 AI,拿去生成内容,拿去赚钱。你在网上回答一个问题,可能真正需要答案的人还没看到,机器人已经把你的回答抄走,发到了另一个平台上。
人类在互联网上的角色,正在从"内容的创造者和消费者",变成"数据的生产者"。不是"创作者",是"生产者"。创作者有主体性,有表达欲,有跟读者的连接。生产者没有。生产者只是一个数据源。
反爬虫:一场持续的军备竞赛
网站所有者面临一个困境:内容被大量抓取,但收益主要来自人类访问。
robots.txt 是最基础的方案,在网站根目录放一个文件,告诉爬虫哪些能爬哪些不能。但这只是"君子协议",没有强制力。很多爬虫根本不遵守。
User-Agent 检测可以识别已知爬虫,但 User-Agent 可以伪造。
行为分析是目前最有效的方案,通过分析请求频率、访问路径、鼠标移动、点击模式来识别机器人。但实现复杂,需要机器学习模型。
验证码是最直接的方案:人类能通过,机器人过不去。但现在的 AI 已经能破解大部分验证码,而且验证码会影响用户体验。
付费 API 是很多平台正在尝试的方案。Reddit、Twitter 都在对 API 收费。但这也会限制创新和竞争。
这是一场持续的军备竞赛,没有终点。
未来会怎样?
现在的 HTTP 协议是为人类浏览设计的。未来可能会出现专门为机器间通信设计的协议,更高效、更安全、更可控。
创作者可以直接把内容卖给 AI 公司,而不是被免费抓取。Reddit 跟 Google 签了数据授权协议,新闻集团跟 OpenAI 签了内容合作。这种模式可能会成为主流。
如果真实互联网数据越来越难获取,AI 公司可能会转向合成数据:用 AI 生成数据来训练 AI。这已经在发生了,很多模型的训练数据里,合成数据的比例越来越高。
隐私保护技术也会加强。零知识证明、联邦学习、差分隐私,这些技术可能会更广泛地应用。
我们能做什么?
说实话,我也不知道。
这不是一个能靠个人力量解决的问题。你不可能让所有人都停止使用 AI,不可能让所有 AI 公司都停止抓取数据,不可能让互联网回到那个只有人类的时代。
技术的进步是不可逆的。
但这不意味着我们只能束手就擒。至少,我们可以意识到这件事。至少,我们可以不再假装一切正常。至少,我们可以开始思考,在这个机器人比人多的互联网时代,人类应该扮演什么角色。
也许人类需要找到新的角色。不再是数据的生产者,而是意义的创造者。不再是内容的搬运工,而是思想的原创者。不再是流量的奴隶,而是连接的主人。
在一个机器人可以无限生成内容的时代,什么是最稀缺的?不是内容本身,而是真实的人类体验。不是信息,而是洞察。不是流量,而是信任。
AI 可以写出完美的文章,但它写不出"我昨天半夜三点爬起来给猫接生"这种真实经历。AI 可以生成漂亮的图片,但它画不出"我奶奶家那台老式缝纫机"这种私人记忆。AI 可以回答所有问题,但它回答不了"你为什么会对我这个陌生人这么好"这种关于人性的问题。
这些东西,是机器人永远无法替代的。
以上,既然看到这里了,如果觉得不错,随手点个赞、在看、转发三连吧,如果想第一时间收到推送,也可以给我个星标⭐~
谢谢你看我的文章,我们,下次再见。
/ 作者:AI创享派