news 2026/5/1 2:53:20

使用dify搭建爬虫Agent工作流

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
使用dify搭建爬虫Agent工作流

最近用Dify做了一个工作流应用,可以实现自动化采集亚马逊商品信息,包括名称、价格、折扣、评分、评论等关键字段,然后使用DeepSeek对商品竞争力、价格、用户口碑进行分析,为跨境卖家提供一份完整的分析报告。

整个工作流搭建用到了几个核心工具,Dify不必多说,是专门用来设计工作流的开源框架,里面集成各种工具、接口、插件、LLM,非常适合做产品原型设计。

其中用于数据采集的是亮数据网页抓取器,Dify上有相应的插件接口,它可以对亚马逊等跨境平台进行关键字段采集,并能自动处理平台的反爬限制,比如设置ip代理池、验证码解锁等技术,所以是比较省心的一个爬虫接口。

https://get.brightdata.com/webscra

这里大概介绍下亮数据,因为网页抓取器是这个工作流的核心节点。亮数据是专门做数据采集的平台,有抓取器、解锁器、远程浏览器、MCP等工具,可以简化网页请求的复杂度,因为它把反爬处理技术嵌入在接口里,用户只需要提交需求和url就能直接采集到数据。

还会用到DeepSeek R1模型,用来对亮数据网页抓取器返回的JSON数据进行解析,提取关键字段,并形成商品分析报告。

接下来讲下这个工作是如何具体实现的。

首先你需要配置Dify应用,可以根据Github教程使用Docker进行部署,对电脑硬件要求比较简单,大于2核CPU、4G运行内存就可以跑。

如果你只是想测试,建议在Dify云版本上部署工作流,但云上的功能配置会有点缩水。

部署好Dify后,下一步需要配置亮数据网页抓取器,你需要先到亮数据平台申请key,它会赠送额度,测试够用了。

小声透露下:下面链接注册每月有5000条免费试用额度,我特别争取到企业用户通过我的链接申请,加客户经理可再升级试用额度!

https://get.brightdata.com/webscra

然后在Dify插件里搜索找到亮数据网页抓取器,下载并配置好key后,这个插件就可以用了。

接着再配置DeepSeek API,到DeepSeek平台去申请key,在Dify上配置好就可以用,这里不多赘诉。

做好配置准备后,下面进入工作流搭建。

首先创建“输入”节点,设置输入变量字段:product_url,提示用户输入亚马逊商品链接。

然后开始创建“亮数据网页抓取器”节点,选择“Structured Data Feeds”,并且设置输入变量描述、目标url,选择上一节点的输入变量“product_url”,由于亮数据key在之前已经配置好,这里可以直接用。

下一步创建“LLM”节点,选择配置好的DeepSeek R1模型,设置输入变量和系统prompt,这个很重要,决定LLM输出什么样的内容,可以按照我的模版去设置。

最后创建“输出”节点,展示LLM输出的内容,这里你可以选择直接输出文本,也可以设置导出PDF、Word、Markdown都可以。

整个工作创建好后,呈现以下的结构形式。

随便找个亚马逊商品链接测试下,比如以下的Razer耳机。

执行工作流任务,它就会先采集数据,然后LLM分析数据,最后输出结论。

亮数据抓取器采集到的商品Json数据如下:

DeepSeek提炼Json数据,形成的商品分析报告如下。

核心字段值:

商品特性:

用户评价:

指导建议:

整个流程,DeepSeek提取了亮数据网页抓取器采集到的数据,并进行分析汇总,看起来蛮专业的。

除此之外,亮数据网页抓取器还有搜索引擎模式,可以按照用户需求来查询谷歌搜索,返回数据,比如我让它查询Open AI创始人Sam Altman最近一年在推特上的帖子,并让LLM提取关键信息进行总结。

通过上面Dify工作流的例子,可以看到现在数据采集开发模式发生了很大变化,不再需要你精通编程,也可以通过Dify+亮数据网页抓取器做到。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/16 20:19:51

【毕业设计】基于python机器学习的道路坑洼识别

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

作者头像 李华
网站建设 2026/5/1 7:53:22

深度学习毕设项目:机器学习基于python深度学习的道路坑洼识别

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

作者头像 李华
网站建设 2026/5/1 6:54:14

计算机深度学习毕设实战-基于python深度学习的苹果和西红柿识别

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

作者头像 李华
网站建设 2026/5/1 6:44:57

ROS平台

ROS(Robot Operating System,机器人操作系统)并不是一个传统意义上的操作系统,而是一个专为机器人软件开发设计的灵活框架,提供了一系列工具、库和约定,旨在简化复杂机器人系统的开发过程。 一、ROS 的核心…

作者头像 李华
网站建设 2026/4/20 4:09:38

5G时代下联邦学习在AI原生应用中的新机遇

5G联邦学习:AI原生应用的下一个爆发点 一、引言:AI原生应用的“数据困局”与破局之道 清晨7点,自动驾驶汽车在早高峰的车流中平稳行驶,它通过路侧单元(RSU)实时获取前方施工路段的临时交通灯信息&#xff0…

作者头像 李华