news 2026/6/6 21:37:37

57.5% 的互联网流量来自机器人,你每天刷的网页一半不是人在看

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
57.5% 的互联网流量来自机器人,你每天刷的网页一半不是人在看

Cloudflare Radar 刚发了个数据,看完我有点懵。

过去一周,全球 HTML 网页流量里,57.5% 来自机器人。只有 42.5% 是真人浏览器。

机器人流量,第一次超过了人类。

要是算上所有 HTTP 流量,JSON 格式的机器间通信占了 33.1%,HTML 只剩 12%。互联网的主体,已经不是人在浏览网页了,是机器在互相说话。


机器人流量到底是什么?

Cloudflare 把机器人流量分成三类。

第一类是传统爬虫。搜索引擎的蜘蛛(Googlebot、Bingbot)要爬网页建索引,新闻聚合器要抓内容展示,数据公司要收集信息做分析。这些爬虫存在几十年了,是互联网的基础设施。

第二类是 AI 训练爬虫。这两年暴增的部分。ChatGPT、Claude、Gemini、DeepSeek,每家都要从网上抓文本、图片、视频喂给模型。一个训练爬虫一天能爬几百万个网页,还会反复爬同一批网站。

第三类是 AI 推理爬虫。最容易被忽略的部分。Perplexity、Kimi、Arc Search,还有 ChatGPT 的联网搜索,你问一个问题,AI 要实时去网上找答案。一次搜索背后可能是几十次网页抓取。全球几十亿人每天问多少问题?这些请求加起来是个天文数字。


Cloudflare 怎么统计的?

Cloudflare 是全球最大的 CDN 之一,每天处理全球约 20% 的互联网流量。

它的方法是分析每个 HTTP 请求的 User-Agent 头、行为模式、访问频率,判断是真人还是机器人。

问题是很多机器人会伪装。它们修改 User-Agent,把自己装成 Chrome 或 Firefox。所以 Cloudflare 还用了机器学习模型来识别异常行为:访问频率太高、路径不符合人类习惯、请求间隔太规律、没执行 JavaScript。

这些特征综合起来,才能比较准确地识别机器人。


为什么机器人流量会超过人类?

大模型的性能跟训练数据量强相关。数据越多,模型越强。AI 公司有强烈动机去尽可能多地抓数据,而且会反复抓,因为互联网内容在不断更新。

AI 搜索需要实时获取信息。这不像训练可以离线批量处理,推理请求是实时的、分散的、高频的。

不只是 AI,各种自动化工具也在贡献流量:网站监控、价格追踪、竞品分析、SEO 工具。这些工具 24 小时不间断运行,产生的流量远超人类。

人类浏览网页是"低效"的:打开一个页面,看几秒,关掉,可能几分钟后再打开下一个。机器人是"高效"的:一秒钟可以请求几十个页面,没有任何停顿。所以即使机器人数量不多,产生的流量也能超过人类。


这事让我有点不安

说实话,看到这个数据的时候,我后背有点发凉。

不是因为机器人比人多这件事本身,而是它背后的意思。

互联网最开始是什么?是一群人把自己知道的东西写下来,分享给另一群人看。是人与人之间的连接。博客、论坛、社交媒体,本质都是人在交流。

但现在呢?互联网正在变成一个巨大的数据矿场。人类是矿工,机器人是挖掘机。矿工还在辛苦地挖矿,但挖掘机已经比矿工多了。

你写一篇文章,可能真正读完的人类没几个,但机器人已经把它抓走了,拿去训练 AI,拿去生成内容,拿去赚钱。你在网上回答一个问题,可能真正需要答案的人还没看到,机器人已经把你的回答抄走,发到了另一个平台上。

人类在互联网上的角色,正在从"内容的创造者和消费者",变成"数据的生产者"。不是"创作者",是"生产者"。创作者有主体性,有表达欲,有跟读者的连接。生产者没有。生产者只是一个数据源。


反爬虫:一场持续的军备竞赛

网站所有者面临一个困境:内容被大量抓取,但收益主要来自人类访问。

robots.txt 是最基础的方案,在网站根目录放一个文件,告诉爬虫哪些能爬哪些不能。但这只是"君子协议",没有强制力。很多爬虫根本不遵守。

User-Agent 检测可以识别已知爬虫,但 User-Agent 可以伪造。

行为分析是目前最有效的方案,通过分析请求频率、访问路径、鼠标移动、点击模式来识别机器人。但实现复杂,需要机器学习模型。

验证码是最直接的方案:人类能通过,机器人过不去。但现在的 AI 已经能破解大部分验证码,而且验证码会影响用户体验。

付费 API 是很多平台正在尝试的方案。Reddit、Twitter 都在对 API 收费。但这也会限制创新和竞争。

这是一场持续的军备竞赛,没有终点。


未来会怎样?

现在的 HTTP 协议是为人类浏览设计的。未来可能会出现专门为机器间通信设计的协议,更高效、更安全、更可控。

创作者可以直接把内容卖给 AI 公司,而不是被免费抓取。Reddit 跟 Google 签了数据授权协议,新闻集团跟 OpenAI 签了内容合作。这种模式可能会成为主流。

如果真实互联网数据越来越难获取,AI 公司可能会转向合成数据:用 AI 生成数据来训练 AI。这已经在发生了,很多模型的训练数据里,合成数据的比例越来越高。

隐私保护技术也会加强。零知识证明、联邦学习、差分隐私,这些技术可能会更广泛地应用。


我们能做什么?

说实话,我也不知道。

这不是一个能靠个人力量解决的问题。你不可能让所有人都停止使用 AI,不可能让所有 AI 公司都停止抓取数据,不可能让互联网回到那个只有人类的时代。

技术的进步是不可逆的。

但这不意味着我们只能束手就擒。至少,我们可以意识到这件事。至少,我们可以不再假装一切正常。至少,我们可以开始思考,在这个机器人比人多的互联网时代,人类应该扮演什么角色。

也许人类需要找到新的角色。不再是数据的生产者,而是意义的创造者。不再是内容的搬运工,而是思想的原创者。不再是流量的奴隶,而是连接的主人。

在一个机器人可以无限生成内容的时代,什么是最稀缺的?不是内容本身,而是真实的人类体验。不是信息,而是洞察。不是流量,而是信任。

AI 可以写出完美的文章,但它写不出"我昨天半夜三点爬起来给猫接生"这种真实经历。AI 可以生成漂亮的图片,但它画不出"我奶奶家那台老式缝纫机"这种私人记忆。AI 可以回答所有问题,但它回答不了"你为什么会对我这个陌生人这么好"这种关于人性的问题。

这些东西,是机器人永远无法替代的。


以上,既然看到这里了,如果觉得不错,随手点个赞、在看、转发三连吧,如果想第一时间收到推送,也可以给我个星标⭐~

谢谢你看我的文章,我们,下次再见。

/ 作者:AI创享派

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/6 21:36:52

领嵌iLeadE-588边缘计算盒子内置算法及应用

搭载全新一代AIoT高端应用芯片,集成八核64位CPU(四核Cortex-A76 四核Cortex-A55),主频高达2.4GHz,内置独立6TOPS NPU算力,为AI推理、图像识别等场景提供强劲性能支持。支持8K超高清视频编解码,…

作者头像 李华
网站建设 2026/6/6 21:35:41

终极ComfyUI效率插件:rgthree-comfy让你的AI工作流提升300%效率

终极ComfyUI效率插件:rgthree-comfy让你的AI工作流提升300%效率 【免费下载链接】rgthree-comfy Making ComfyUI more comfortable! 项目地址: https://gitcode.com/gh_mirrors/rg/rgthree-comfy 想象一下,当你面对复杂的AI图像生成工作流时&…

作者头像 李华
网站建设 2026/6/6 21:35:22

时至高考有感

时至高考有感岁月无言,却华章已展,何处是始终?始于离乡,终是乡土冢?溪语,登峰观泉涌。春秋有梦,恰丹青泼墨,哪点为实空?实在经堂,空为堂上虹?道言…

作者头像 李华
网站建设 2026/6/6 21:33:15

从 0 到 1 构建 AI 创意工具:独立开发者的 LLM 应用实战

从 0 到 1 构建 AI 创意工具:独立开发者的 LLM 应用实战一、AI 浪潮下的独立开发机遇 去年 3 月,ChatGPT 发布了。 作为一个一直关注 AI 领域的独立开发者,我敏锐地感觉到:这次不一样。 之前的 AI 概念热了一波又一波,…

作者头像 李华
网站建设 2026/6/6 21:32:21

PLL与DLL核心差异解析:从原理到FPGA时钟管理实战

1. 从一次调试困惑说起:PLL与DLL,傻傻分不清楚?几年前,我在做一个高速数据采集板卡的项目,主控用的是Xilinx的FPGA。当时需要给外部的ADC芯片提供一个非常干净、低抖动的采样时钟。按照习惯性思维,我直接在…

作者头像 李华
网站建设 2026/6/6 21:32:20

5分钟掌握录播姬:开源直播录制工具的完整使用指南

5分钟掌握录播姬:开源直播录制工具的完整使用指南 【免费下载链接】BililiveRecorder 录播姬 | mikufans 生放送录制 项目地址: https://gitcode.com/gh_mirrors/bi/BililiveRecorder 录播姬(BililiveRecorder)是一款专为mikufans直播…

作者头像 李华