news 2026/5/1 6:25:10

教你使用Dify搭建爬虫工作流

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
教你使用Dify搭建爬虫工作流

最近用Dify做了一个工作流应用,可以实现自动化采集亚马逊商品信息,包括名称、价格、折扣、评分、评论等关键字段,然后使用DeepSeek对商品竞争力、价格、用户口碑进行分析,为跨境卖家提供一份完整的分析报告。

整个工作流搭建用到了几个核心工具,Dify不必多说,是专门用来设计工作流的开源框架,里面集成各种工具、接口、插件、LLM,非常适合做产品原型设计。

其中用于数据采集的是亮数据网页抓取器,Dify上有相应的插件接口,它可以对亚马逊等跨境平台进行关键字段采集,并能自动处理平台的反爬限制,比如设置ip代理池、验证码解锁等技术,所以是比较省心的一个爬虫接口。

https://get.brightdata.com/webscra

这里大概介绍下亮数据,因为网页抓取器是这个工作流的核心节点。亮数据是专门做数据采集的平台,有抓取器、解锁器、远程浏览器、MCP等工具,可以简化网页请求的复杂度,因为它把反爬处理技术嵌入在接口里,用户只需要提交需求和url就能直接采集到数据。

还会用到DeepSeek R1模型,用来对亮数据网页抓取器返回的JSON数据进行解析,提取关键字段,并形成商品分析报告。

接下来讲下这个工作是如何具体实现的。

首先你需要配置Dify应用,可以根据Github教程使用Docker进行部署,对电脑硬件要求比较简单,大于2核CPU、4G运行内存就可以跑。

如果你只是想测试,建议在Dify云版本上部署工作流,但云上的功能配置会有点缩水。

部署好Dify后,下一步需要配置亮数据网页抓取器,你需要先到亮数据平台申请key,它会赠送额度,测试够用了。

小声透露下:下面链接注册每月有5000条免费试用额度,我特别争取到企业用户透过我的连结申请加客户经理可再升级试用额度!

https://get.brightdata.com/webscra

然后在Dify插件里搜索找到亮数据网页抓取器,下载并配置好key后,这个插件就可以用了。

接着再配置DeepSeek API,到DeepSeek平台去申请key,在Dify上配置好就可以用,这里不多赘诉。

做好配置准备后,下面进入工作流搭建。

首先创建“输入”节点,设置输入变量字段:product_url,提示用户输入亚马逊商品链接。

然后开始创建“亮数据网页抓取器”节点,选择“Structured Data Feeds”,并且设置输入变量描述、目标url,选择上一节点的输入变量“product_url”,由于亮数据key在之前已经配置好,这里可以直接用。

下一步创建“LLM”节点,选择配置好的DeepSeek R1模型,设置输入变量和系统prompt,这个很重要,决定LLM输出什么样的内容,可以按照我的模版去设置。

最后创建“输出”节点,展示LLM输出的内容,这里你可以选择直接输出文本,也可以设置导出PDF、Word、Markdown都可以。

整个工作创建好后,呈现以下的结构形式。

随便找个亚马逊商品链接测试下,比如以下的Razer耳机。

执行工作流任务,它就会先采集数据,然后LLM分析数据,最后输出结论。

亮数据抓取器采集到的商品Json数据如下:

DeepSeek提炼Json数据,形成的商品分析报告如下。

核心字段值:

商品特性:

用户评价:

指导建议:

整个流程,DeepSeek提取了亮数据网页抓取器采集到的数据,并进行分析汇总,看起来蛮专业的。

除此之外,亮数据网页抓取器还有搜索引擎模式,可以按照用户需求来查询谷歌搜索,返回数据,比如我让它查询Open AI创始人Sam Altman最近一年在推特上的帖子,并让LLM提取关键信息进行总结。

通过上面Dify工作流的例子,可以看到现在数据采集开发模式发生了很大变化,不再需要你精通编程,也可以通过Dify+亮数据网页抓取器做到。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/1 6:25:09

279. Java Stream API - Stream 拼接的两种方式:concat() vs flatMap()

文章目录 279. Java Stream API - Stream 拼接的两种方式:concat() vs flatMap()🎯 本节目标 🧪 背景问题:多个集合如何组合成一个流?✅ 方式一:使用 Stream.concat()📌 特点:&#…

作者头像 李华
网站建设 2026/5/1 6:23:37

终极私有云存储网盘:JmalCloud让您的数据安全又高效

终极私有云存储网盘:JmalCloud让您的数据安全又高效 【免费下载链接】jmal-cloud-view JmalCloud 是一款私有云存储网盘项目,能够简单安全管理您的云端文件 项目地址: https://gitcode.com/gh_mirrors/jm/jmal-cloud-view 在数据安全日益重要的今…

作者头像 李华
网站建设 2026/4/22 2:38:17

AR.js开发终极指南:快速搭建Web增强现实应用

AR.js开发终极指南:快速搭建Web增强现实应用 【免费下载链接】AR.js Efficient Augmented Reality for the Web - 60fps on mobile! 项目地址: https://gitcode.com/gh_mirrors/ar/AR.js 想要在网页中实现令人惊叹的增强现实效果吗?AR.js让你无需…

作者头像 李华
网站建设 2026/4/30 13:37:29

使用DeepSpeed ZeRO3进行超大规模模型训练的最佳实践

使用DeepSpeed ZeRO3进行超大规模模型训练的最佳实践 在当今大模型时代,训练一个千亿参数的模型早已不再是“有没有算力”的问题,而是“如何用有限资源高效完成训练”的工程挑战。当你面对一台装有8张A100的服务器,却想微调Qwen-70B或LLaMA3-…

作者头像 李华
网站建设 2026/4/25 8:05:50

【评测】在CMMLU和CEval上测试中文模型表现

在CMMLU和CEval上测试中文模型表现 在大模型技术飞速演进的今天,如何科学、高效地评估一个中文语言模型的真实能力,已成为研究者与开发者绕不开的核心问题。尤其是在教育、医疗、法律等专业领域,模型是否真正“懂知识”“会推理”&#xff0c…

作者头像 李华
网站建设 2026/4/28 0:22:34

【技巧】使用aria2多线程下载大体积模型文件

使用 aria2 多线程下载大体积模型文件的实战技巧 在如今的大模型时代,动辄几十甚至上百GB的模型权重文件早已司空见惯。无论是 LLaMA、Qwen 还是多模态的 InternVL 和 Whisper,这些模型的部署第一步往往不是训练或推理,而是——如何把它们又快…

作者头像 李华