news 2026/6/15 20:37:26

AI Agent到底哪家强?测完五款主流Agent,最后赢家竟是它!

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
AI Agent到底哪家强?测完五款主流Agent,最后赢家竟是它!

最近,满地都是AI Agent,仅最近半个月,就爆出了10多款。

来自近期在上海分享的PPT

AI Agent,现已成为继LLM(Large Language Model,大语言模型)后的时髦新宠,各家厂商疯狂推Agent犹如过江之鲫。

那么问题来了,到底哪个Agent更胜一筹?今天,我们就来给大家横向测评一下。

关于测评方法

我选择了5款热门的通用型AI Agent,分别是Genspark、MiniMax Agent、Flowith Neo、Manus和扣子空间。

对于Agent来说,感知、思考、行动 、循环四个步骤中LLM都扮演了重要的角色。

如果分开每个步骤来对比,就变成了对比LLM的优劣。而Agent是一个框架,所以我们不去管它的任务处理过程如何,而是仅针对交付结果进行评判(本次测试皆为标准token投入)。

每个Agent,我选了三个不同领域的任务进行统一测试:

1.检索微信公众号平台2025年来的热门AI话题前5,并总结原因分别输出为pdf、图表和html格式。(测试任务拆解、效率与准确性、多模态输出)

2.为我规划一个预算不超过3000元、4天3晚的成都旅游计划,必须包含川剧变脸、宽窄巷子和熊猫基地。(测试逻辑严谨和工具调用)

3.这是我家客厅照片,推荐合适的改造风格,并输出新风格的3D布置草图或改造建议图示。(测试图像理解、空间感知、创意输出、图文匹配)

横评3个Case

1)总结热门AI话题

先来一个最简单的,测试最基本的任务拆解能力,同时也看下效率和准确性。

Prompt:检索微信公众号平台2025年来的热门AI话题前5,并总结原因分别输出为pdf、图表和html格式。

  • 1.1)Genspark耗时12分43秒。

我们先来看下它输出的网页。

Genspark的HTML文件做得很规整,既搜罗了5大热门话题,还深度分析了原因,内容信息也比较准确。

<上下滑动图片查看全部内容>

可视化图表也完成得不错,无论是数据收集方向还是图表种类的使用都非常丰富,排版也很好看。

<上下滑动图片查看全部内容>

PDF文件可读性也不错,它对颜色的处理很到位,让人一眼就能看出每个段落或每个话题是从哪开始,到哪结束。

<上下滑动图片查看全部内容>

  • 1.2)扣子空间耗时10分15秒。

扣子空间找到的5个热门话题跟Genspark不一样,看来每个Agent都有自己的理解。

但是可以明显看出,扣子空间没有Genspark细致,没有对单个话题进行原因分析,只是在最后做了整体分析

<上下滑动图片查看全部内容>

图表看起来就很朴素了,实在不知道该如何评价,如果非要说的话,只能说这也算是表。

虽说PDF只是一种格式,但如果全是文字,不知道的还以为在COS那个Word文档呢。

还有,我提示词里要的原因分析,扣子空间你给我干哪去了……

  • 1.3)Manus耗时11分49秒。

整体要求达到了,既罗列了5个最热话题,也对具体问题进行了分析,算是达标。

<上下滑动图片查看全部内容>

然后,用了三种图表来展示****各个热门话题的热度对比,非常直观。

不过,PDF部分……又给我干哪儿去了,不是说好的PDF吗?这不跟Word文档有啥区别,不过好歹分析的还算细致。

  • 1.4)MiniMax Agent耗时16分03秒。

MiniMax把这五个话题倒是列出来了,但是没有分析原因,排版也缺点美感。

图表…咋说呢,可能这就是MInimax Agent还是Bate版的原因吧。。。

虽然又是一版Word文档的PDF,但是该有的内容都有。热门话题简介和流行原因都说的还算明白,不过读起来,一股子AI味。

<上下滑动图片查看全部内容>

  • 1.5)Flowith Neo耗时19分27秒。

虽然耗时有点长,但是最终的结果还不错,不仅分析了话题流行的原因,还给出了相关的数据和案例支撑,研究得非常细致

<上下滑动图片查看全部内容>

图表整体来说,也算中规中矩(但说实话,比起前面的有些图表来说,普通也算优秀了),还添加了话题关联度分析图,我觉得很有新意。

<上下滑动图片查看全部内容>

PDF文件依旧是纯文字版,但是文字详实,分析有理有据,让我来写我怕是写不出来。

<上下滑动图片查看全部内容>

总的来说,这个任务我最喜欢的是Genspark,对于提示词的理解到位,输出的内容质量和形式也还不错(包括文字优化和视觉优化),在5款Agent中算是比较突出的。

2)旅游规划

再来测试下逻辑严谨性、工具调用方面。

Prompt:为我规划一个预算不超过3000元、4天3晚的成都旅游计划,必须包含川剧变脸、宽窄巷子和熊猫基地。

  • 2.1)Genspark耗时3分27秒。

整体规划中对景点和价格比较注重,细致罗列了各项支出,但是对游览时长和交通时长没有太多交代。

<上下滑动图片查看全部内容>

  • 2.2)扣子空间耗时2分56秒。

主要的景点,一个没有落下,但是对于预算规划有些敷衍,各景点、各美食的价格也没怎么交代,交通路线也没怎么规划。

<上下滑动图片查看全部内容>

  • 2.3)manus耗时3分15秒。

Manus整体的视觉效果非常好,很清晰,我想要的景点也都囊括了,而且还有详细的交通介绍与美食价格介绍。毕竟去旅游,有个参考价格还是蛮重要的。

<上下滑动图片查看全部内容>

  • 2.4)MiniMax Agent耗时22分45秒。

跟上一个任务的“拉跨”表现相比,MiniMax Agent在第二个任务里大为改观,整个旅游计划从景点,到交通,再到价格,都给我讲得明明白白的。

还给出了我想去的景点的详细介绍、美食详细介绍、住宿参考等。整体的风格非常小红书,对于旅游攻略来说,非常有用。

<上下滑动图片查看全部内容>

  • 2.5)Flowith耗时17分21秒。

Flowith的时间控制,在这几份旅游计划中算是非常精细了。表格式的计划让人一眼就懂,还给出了很多诸如住宿、餐饮、景点等有用信息,非常不错。

整体看来可能就是风格有点素,像是旅行团的官方文件。

<上下滑动图片查看全部内容>

总的来说,第二个任务花费时间较长的两个Agent所做出的效果也算对得起花费的时间,非要选个我觉得结果最好的话,我认为是MiniMax Agent。

3)创意设计

最后,测试下图像理解、空间感知、创意输出、图文匹配。

Prompt:这是我家客厅照片,推荐合适的改造风格,并输出新风格的3D布置草图或改造建议图示。

  • 3.1)Genspark耗时5分43秒。

Genspark的识图能力很优秀,空间感很好,它生成的图片布局跟我给它的图片布局一致。出图效果也很好,图片风格和文字描述匹配。

<上下滑动图片查看全部内容>

  • 3.2)扣子空间耗时3分18秒。

扣子空间给的风格图,看起来都很好看。但是没有一张是按照原图的空间布局来设计的,应该是没有理解原图和我的Prompt。

<上下滑动图片查看全部内容>

  • 3.3)Manus耗时5分06秒。

Manus的图片理解也很不错,生成的图片空间布局与原图一致,效果也很不错,就是有点太样板间了。

<上下滑动图片查看全部内容>

  • 3.4)MiniMax Agent耗时21分17秒。

方案给得非常多,数据罗列也非常仔细,可惜就是没有读懂我的图。那,所有工作不是白费嘛……

<上下滑动图片查看全部内容>

  • 3.5)Flowith耗时15分45秒。

虽然Flowith只给出了一种风格,但是我从它生的图和文字表达来看,它读懂了原图的空间布局。而且装修方案也很细致,各方面都有考虑到。

<上下滑动图片查看全部内容>

最后一个任务,最优秀的当属Flowith,真的是很细致的分析了从色彩到灯光等各个方面的选择,可以直接拿来当装修参考方案了。

写在最后

从3个测试任务来看,Genspark这个Agent发挥最为稳定,每个任务的完成度都很高

Manus则是最平均的那个,每个任务都能做,而且都在及格线以上。

MiniMax Agent和扣子空间,虽然在某些任务上不尽如意,但都有自己非常擅长的地方。

Flowith Neo则稍逊Genspark、略胜Manus,但是它每个任务的时长都比较长,使用这款Agent需要点耐心。

当然,现阶段这些Agent都支持大家免费体验。所以,你不妨把一个任务放到各家Agent里都去试试。说不定,会有意想不到的事情发生

毕竟,这是AI随机之美。

想入门 AI 大模型却找不到清晰方向?备考大厂 AI 岗还在四处搜集零散资料?别再浪费时间啦!2025 年AI 大模型全套学习资料已整理完毕,从学习路线到面试真题,从工具教程到行业报告,一站式覆盖你的所有需求,现在全部免费分享

👇👇扫码免费领取全部内容👇👇

一、学习必备:100+本大模型电子书+26 份行业报告 + 600+ 套技术PPT,帮你看透 AI 趋势

想了解大模型的行业动态、商业落地案例?大模型电子书?这份资料帮你站在 “行业高度” 学 AI

1. 100+本大模型方向电子书

2. 26 份行业研究报告:覆盖多领域实践与趋势

报告包含阿里、DeepSeek 等权威机构发布的核心内容,涵盖:

  • 职业趋势:《AI + 职业趋势报告》《中国 AI 人才粮仓模型解析》;
  • 商业落地:《生成式 AI 商业落地白皮书》《AI Agent 应用落地技术白皮书》;
  • 领域细分:《AGI 在金融领域的应用报告》《AI GC 实践案例集》;
  • 行业监测:《2024 年中国大模型季度监测报告》《2025 年中国技术市场发展趋势》。
3. 600+套技术大会 PPT:听行业大咖讲实战

PPT 整理自 2024-2025 年热门技术大会,包含百度、腾讯、字节等企业的一线实践:

  • 安全方向:《端侧大模型的安全建设》《大模型驱动安全升级(腾讯代码安全实践)》;
  • 产品与创新:《大模型产品如何创新与创收》《AI 时代的新范式:构建 AI 产品》;
  • 多模态与 Agent:《Step-Video 开源模型(视频生成进展)》《Agentic RAG 的现在与未来》;
  • 工程落地:《从原型到生产:AgentOps 加速字节 AI 应用落地》《智能代码助手 CodeFuse 的架构设计》。

二、求职必看:大厂 AI 岗面试 “弹药库”,300 + 真题 + 107 道面经直接抱走

想冲字节、腾讯、阿里、蔚来等大厂 AI 岗?这份面试资料帮你提前 “押题”,拒绝临场慌!

1. 107 道大厂面经:覆盖 Prompt、RAG、大模型应用工程师等热门岗位

面经整理自 2021-2025 年真实面试场景,包含 TPlink、字节、腾讯、蔚来、虾皮、中兴、科大讯飞、京东等企业的高频考题,每道题都附带思路解析

2. 102 道 AI 大模型真题:直击大模型核心考点

针对大模型专属考题,从概念到实践全面覆盖,帮你理清底层逻辑:

3. 97 道 LLMs 真题:聚焦大型语言模型高频问题

专门拆解 LLMs 的核心痛点与解决方案,比如让很多人头疼的 “复读机问题”:

三、路线必明: AI 大模型学习路线图,1 张图理清核心内容

刚接触 AI 大模型,不知道该从哪学起?这份「AI大模型 学习路线图」直接帮你划重点,不用再盲目摸索!

路线图涵盖 5 大核心板块,从基础到进阶层层递进:一步步带你从入门到进阶,从理论到实战。

L1阶段:启航篇丨极速破界AI新时代

L1阶段:了解大模型的基础知识,以及大模型在各个行业的应用和分析,学习理解大模型的核心原理、关键技术以及大模型应用场景。

L2阶段:攻坚篇丨RAG开发实战工坊

L2阶段:AI大模型RAG应用开发工程,主要学习RAG检索增强生成:包括Naive RAG、Advanced-RAG以及RAG性能评估,还有GraphRAG在内的多个RAG热门项目的分析。

L3阶段:跃迁篇丨Agent智能体架构设计

L3阶段:大模型Agent应用架构进阶实现,主要学习LangChain、 LIamaIndex框架,也会学习到AutoGPT、 MetaGPT等多Agent系统,打造Agent智能体。

L4阶段:精进篇丨模型微调与私有化部署

L4阶段:大模型的微调和私有化部署,更加深入的探讨Transformer架构,学习大模型的微调技术,利用DeepSpeed、Lamam Factory等工具快速进行模型微调,并通过Ollama、vLLM等推理部署框架,实现模型的快速部署。

L5阶段:专题集丨特训篇 【录播课】

四、资料领取:全套内容免费抱走,学 AI 不用再找第二份

不管你是 0 基础想入门 AI 大模型,还是有基础想冲刺大厂、了解行业趋势,这份资料都能满足你!
现在只需按照提示操作,就能免费领取:

👇👇扫码免费领取全部内容👇👇

2025 年想抓住 AI 大模型的风口?别犹豫,这份免费资料就是你的 “起跑线”!

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/15 9:36:52

信号处理仿真:滤波器设计与仿真_11.高级滤波器设计技术

11. 高级滤波器设计技术 在前一节中&#xff0c;我们探讨了基本的滤波器设计方法&#xff0c;包括FIR&#xff08;Finite Impulse Response&#xff09;和IIR&#xff08;Infinite Impulse Response&#xff09;滤波器的设计。本节将介绍一些高级滤波器设计技术&#xff0c;这些…

作者头像 李华
网站建设 2026/6/15 12:18:52

永磁同步电机滑模控制系统设计与Simulink仿真实现

永磁同步电机滑模控制系统设计与Simulink仿真实现 摘要 本文详细介绍了永磁同步电机(PMSM)滑模控制(SMC)系统的设计原理和Simulink实现方法。通过分析PMSM的数学模型,设计了基于滑模控制的速度和电流双闭环控制系统,并在Simulink环境中建立了完整的仿真模型。文章详细阐…

作者头像 李华
网站建设 2026/6/15 14:25:05

【读书笔记】《商战》

《商战》&#xff1a;定位理论在商业竞争中的应用 一、关于《商战》这本书 作者与争议 作者&#xff1a;埃尔里斯和杰克特劳特&#xff08;定位理论创始人&#xff09;争议&#xff1a;有人认为定位理论已过时、过于简单影响力&#xff1a;深刻影响了马云、乔布斯、比尔盖茨…

作者头像 李华
网站建设 2026/6/15 12:27:29

【读书笔记】《十年一觉电影梦》

李安导演访谈&#xff1a;《十年一觉电影梦》 一、生命的起点与成长 出生与童年印象 李安导演谈到自己出生时的经历颇为惊险。据母亲回忆&#xff0c;他出生时脐带绕颈,大家都很担心他能否存活,整个过程迷迷糊糊的。这段经历似乎为他日后"有点做梦一样"的人生基调…

作者头像 李华
网站建设 2026/6/15 9:36:25

Frida自动化Hook移动端加密函数实战指南

一、Hook加密函数的核心价值‌ 在安全测试中&#xff0c;快速定位和验证加密逻辑是核心挑战。通过Frida动态插桩技术&#xff0c;可实现&#xff1a; ‌实时捕获加密参数‌&#xff08;如密钥、明文输入&#xff09;‌拦截并修改算法逻辑‌&#xff08;测试异常分支&#xff…

作者头像 李华
网站建设 2026/6/15 9:35:41

大模型是风口还是天坑?4-5年大厂经验,要不要转赛道

大模型算是当下当之无愧的最火赛道&#xff0c;妥妥的新时代风口。 不少小伙伴都有这样的想法&#xff1a;新领域人才需求大、缺口多&#xff0c;竞争应该会更小&#xff0c;转行做大模型是不是更好就业&#xff1f;甚至能靠这个抵抗35岁中年危机&#xff1f; 最近也有同学提出…

作者头像 李华