news 2026/6/2 17:00:33

使用Bright Data CLI进行网页爬虫,零代码~

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
使用Bright Data CLI进行网页爬虫,零代码~

在CLI Agent大行其道的年代,但凡是编程、自动化类的产品,没有CLI就会显得落伍,跟不上AI节奏。

以前我们写爬虫采集网页,都是通过Python requests去请求http获取html网页,然后用beautifulsoup解析字段,最终才能拿到想要的数据。

但我最近发现不少爬虫工具也CLI化了,Bright Data新出的爬虫CLI,几乎把Python爬虫能干的活都给干了,而且还能自动处理网页反爬限制,比如验证码、浏览器指纹、JS动态渲染、IP监测等。

我看了它们的Github readme,这个CLI不光可以一键采集任意网页,还能实现谷歌关键词搜索、AI智能查找排序,能提取40多个全球主流电商、社媒网站的结构化数据,比如亚马逊的商品信息、领英的职位信息等。

可以去它们的官网看看,非常好用。
https://get.brightdata.com/webscra

你可以通过不同的命令来实现各种爬虫任务。

举个很简单的例子,如果你想谷歌搜索harness engineering的相关教程,直接命令行输入:

brightdata search "harness engineering tutorial"

几秒钟后,你就会看到markdown格式的结构化数据,非常神奇。

如果你想采集领英上一些职位的信息,也是一行代码搞定,能将职位要求、简介、公司名称等信息采集下来,并直接导出为csv文件。


经常看youtube的同学可能会对视频下面的评论区很感兴趣,信息量非常之大,我就是很喜欢读前面的热门评论。

这个CLI也支持直接采集youtube的评论区,能自定义数量。

这里以AI大神Andrej Karpathy介绍“How I use LLMs”的视频为例,里面的评论很有意思,采集下来分析分析。

同样也是一行代码,直接获取评论明细数据。

brightdata pipelines youtube_comments "https://www.youtube.com/watch?v=EWvNQjAaOHw" \ --format csv -o output3.csv

到这里你就能看到Bright data CLI的强大之处了,相当于省去几百上千行代码的工作量,直接通过命令行代码就能采集到复杂的数据。

这个采集Agent还能部署到Codex和Claude code上,通过skill部署实现Codex直接调用爬虫CLI采集数据。


你会在codex中找到已经安装的SKILL.md文件

具体内容如下:

安装好后,你就可以随时在Codex中调用Bright data CLI来采集数据了。

同样的,通过这个CLI也能为Codex直接配置Bright Data MCP服务。

brightdata add mcp --agent codex --global

Codex能直接调用该MCP中的各种采集服务,比如谷歌搜索等。

说这么多,安装Birght data CLI非常的简单,通过npm安装,只需要打开命令行,输入以下代码:

npm install -g @brightdata/cli

出现采集logo,即代表安装好了。

安装好后,需要配置key,登录Bright Data后台就可以拿到。

https://get.brightdata.com/webscra

至于使用方法,其实都是一行代码的事,你可以去Bright Data CLI的Github仓库找到详细的指令教程,非常之简单。

https://github.com/brightdata/cli

Bright Data CLI最大的好处在于解决了爬虫最难的门槛,那就是反爬限制,你不需要再配置IP池,也不需要去找打码平台,就能采集到各大主流网站的字段数据。

当然使用CLI需要一定的技术认知,因为毕竟还是代码操作,但只要动手做几次就能掌握,这是AI时代必备的技能了。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/2 16:59:07

metro-bootstrap:打造现代UI的终极Metro风格Bootstrap框架详解

metro-bootstrap:打造现代UI的终极Metro风格Bootstrap框架详解 【免费下载链接】metro-bootstrap Twitter Bootstrap with Metro style 项目地址: https://gitcode.com/gh_mirrors/me/metro-bootstrap metro-bootstrap是一款基于Twitter Bootstrap构建的Metr…

作者头像 李华
网站建设 2026/6/2 16:58:03

别再堆文献了!国自然标书这样写才高分

今年我自认为投入了前所未有的大量时间——文献读了几十篇,立项依据改了七八稿,连标书的排版都找朋友帮忙调整过。结果呢?评审意见回来一看,几条核心意见让我哑口无言:“创新点不突出,与已有研究区分度不够…

作者头像 李华
网站建设 2026/6/2 16:55:29

3种方法彻底告别重复文件:Krokiet重复文件清理工具完全指南

3种方法彻底告别重复文件:Krokiet重复文件清理工具完全指南 【免费下载链接】czkawka Multi functional app to find duplicates, empty folders, similar images etc. 项目地址: https://gitcode.com/GitHub_Trending/cz/czkawka 还在为电脑里堆积如山的重复…

作者头像 李华
网站建设 2026/6/2 16:55:28

MiniMax M3 周配额无限了,五小时翻倍!模型能力嘛…

今天刷了一下 MiniMax 后台,发现可以无限用了! 本来我是不想聊M3的。但是它给了用户实实在在的好处,我就写一篇吧! 这次最新的 M3 模型发布也低调了很多,不像上次吹牛说自己是“智能体和编程 SOTA”了。 另外它们家好…

作者头像 李华
网站建设 2026/6/2 16:52:31

OpCore-Simplify:重新定义OpenCore配置的智能自动化工具

OpCore-Simplify:重新定义OpenCore配置的智能自动化工具 【免费下载链接】OpCore-Simplify A tool designed to simplify the creation of OpenCore EFI 项目地址: https://gitcode.com/GitHub_Trending/op/OpCore-Simplify 在Hackintosh的复杂世界里&#x…

作者头像 李华