在CLI Agent大行其道的年代,但凡是编程、自动化类的产品,没有CLI就会显得落伍,跟不上AI节奏。
以前我们写爬虫采集网页,都是通过Python requests去请求http获取html网页,然后用beautifulsoup解析字段,最终才能拿到想要的数据。
但我最近发现不少爬虫工具也CLI化了,Bright Data新出的爬虫CLI,几乎把Python爬虫能干的活都给干了,而且还能自动处理网页反爬限制,比如验证码、浏览器指纹、JS动态渲染、IP监测等。
我看了它们的Github readme,这个CLI不光可以一键采集任意网页,还能实现谷歌关键词搜索、AI智能查找排序,能提取40多个全球主流电商、社媒网站的结构化数据,比如亚马逊的商品信息、领英的职位信息等。
可以去它们的官网看看,非常好用。
https://get.brightdata.com/webscra
你可以通过不同的命令来实现各种爬虫任务。
举个很简单的例子,如果你想谷歌搜索harness engineering的相关教程,直接命令行输入:
brightdata search "harness engineering tutorial"
几秒钟后,你就会看到markdown格式的结构化数据,非常神奇。
如果你想采集领英上一些职位的信息,也是一行代码搞定,能将职位要求、简介、公司名称等信息采集下来,并直接导出为csv文件。
经常看youtube的同学可能会对视频下面的评论区很感兴趣,信息量非常之大,我就是很喜欢读前面的热门评论。
这个CLI也支持直接采集youtube的评论区,能自定义数量。
这里以AI大神Andrej Karpathy介绍“How I use LLMs”的视频为例,里面的评论很有意思,采集下来分析分析。
同样也是一行代码,直接获取评论明细数据。
brightdata pipelines youtube_comments "https://www.youtube.com/watch?v=EWvNQjAaOHw" \ --format csv -o output3.csv到这里你就能看到Bright data CLI的强大之处了,相当于省去几百上千行代码的工作量,直接通过命令行代码就能采集到复杂的数据。
这个采集Agent还能部署到Codex和Claude code上,通过skill部署实现Codex直接调用爬虫CLI采集数据。
你会在codex中找到已经安装的SKILL.md文件
具体内容如下:
安装好后,你就可以随时在Codex中调用Bright data CLI来采集数据了。
同样的,通过这个CLI也能为Codex直接配置Bright Data MCP服务。
brightdata add mcp --agent codex --globalCodex能直接调用该MCP中的各种采集服务,比如谷歌搜索等。
说这么多,安装Birght data CLI非常的简单,通过npm安装,只需要打开命令行,输入以下代码:
npm install -g @brightdata/cli出现采集logo,即代表安装好了。
安装好后,需要配置key,登录Bright Data后台就可以拿到。
https://get.brightdata.com/webscra
至于使用方法,其实都是一行代码的事,你可以去Bright Data CLI的Github仓库找到详细的指令教程,非常之简单。
https://github.com/brightdata/cli
Bright Data CLI最大的好处在于解决了爬虫最难的门槛,那就是反爬限制,你不需要再配置IP池,也不需要去找打码平台,就能采集到各大主流网站的字段数据。
当然使用CLI需要一定的技术认知,因为毕竟还是代码操作,但只要动手做几次就能掌握,这是AI时代必备的技能了。