今天刷了一下 MiniMax 后台,发现可以无限用了!
本来我是不想聊M3的。但是它给了用户实实在在的好处,我就写一篇吧!
这次最新的 M3 模型发布也低调了很多,不像上次吹牛说自己是“智能体和编程 SOTA”了。
另外它们家好像也在推一个叫 MiniMax Code 的编程智能体工具,我也想玩玩看。
我就从多角度来给大家呈现一下这个 M3 模型吧!
我大概会从模型本身、模型套餐、编程智能体、实测等几个角度来写!
1、模型本身
这次更新的主体是 MiniMax M3!然后它们官网设计了三张卡片,第一张就是自然是关于M3了。
注意看,卖点都是放在最显眼的位置的。其实不需要去看很多其他内容!
点进去之后,可以看到一张基准数据表:
数据并没有特别突出的地方,注意这还是它们自己发布的数据。所以绝对实力方面不要有太多期待。主要是看下限有没有提升,然后看它们的发力方向是什么,看你是否用得上。
结合上面的首图和基准数据以及相关信息,我给它家总结几个点。
前沿的编程和智能体能力(抽象)
100 万上下文
原生多模态。
主要是这三点,另外还说了两个卖点:
在 BrowseComp 智能体评测中,M3 以 83.5 分超越 Opus 4.7(79.3),展现出强大的自主浏览与信息检索能力。 能同时跑通编码能力前沿、百万上下文和原生多模态的此前只有极少数闭源模型,M3 是第一个把完整 frontier 能力带进开放世界的模型。
比较“抽象”,我就不展开说了!
它这三个买点,其实不能算卖点,因为这些东西其它模型早就有了。
比如原生多模态和 1M 上下文,国外的 Claude、GPT、Gemini 早就做到了。
国内 DeepSeek、MiMo、Qwen 都做到了 1M 上下文。多模态对话除了 DeepSeek 还没搞,其他基本都搞了,只是原生程度有差异。
所以,总的来说它这不是突破,只是走在正确的路上,它其实是在努力提升下限。
所以这次升级整体平淡,但是对用户而言,同样价格,能用到更强、更稳定的模型,也是一个好事情。
😄我最近是不是觉悟很高了!语言艺术又上了一个新台阶!
2、模型套餐
说到好事情,那么就来看看新模型发布,有没有啥优惠。这就要看它的第二个卡片TokenPlan了。
从这个图片中可以提取到的好事情是,一个是刚才说的同样价格模型能力提升,另一个是用量翻倍。然后还专门拿 Max 举了一个例子:119 套餐 55 亿Tokens,同档容量 1/6 价格(这个应该是国内外价差)。
其实 MiniMax 是比较早把CodingPlan改成TokenPlan的。但是它这个套餐价格还是比较良心的。有全网最低的 290 元年套餐。月卡只要 29 元,不过这个好像已经看不到了!
而且它的计价方式,好像还是按调用次数来计算的!这一点就比较良心。
另外它的套餐还包含了“文本 / 图像 / 语音 / 音乐”等内容,高级档还包含视频生成。
这么一看,性价比就很高了。
开头我也展示过了,我就是买的最低档的 MiniMax 套餐,现在五小时配额翻倍,然后周配额无限了。
说实话,我主要是测试用,平时用的不多,但是它目前这个配额,相比而言还是非常充足的。
这个时候可以适当的留一个优惠码:cps3nv7Ojk
https://platform.minimaxi.com/subscribe/token-plan?code=cps3nv7Ojk&source=link
接下来,我们就要看看它的能力了。
我只能说:只要你要求不太高,就不会有失望!
3、编程智能体
在开始测试之前,我先介绍一下它们第三个卖点:MiniMax Code
这个是我非常想体验一下,也是写这篇文章的一个动力之一。
据说还是 Agent Team,好像网页版和桌面版都可以!当然什么 Agent Team 这种概念看看就好,主要是看 Agent 本身的能力和调度能力。
没有用过就没有发言权啊,本地安装搞起来:
这工具大概压缩包 400 多 M,需要 780M 的空间,装了好一会儿。不知道带了多少文件!
装完之后会有一个引导页:
主要是介绍了四个买点,我就不展开了。
我们来看一眼主界面:
看样子是东西挺齐全的。什么技能、定时任务、链接手机、微信、飞书,然后右下角确实可以看到 Agent Team 和 M3 模型。
底部有一些高频入口,比如幻灯片,PDF,文档,表格之类的。
不多介绍了,界面都是虚的,我自己花几个小时可以做一个更好看,更全面的。
重点是:得实用!
4、测试搞起来!
杂七杂八的终于搞完了,就可以进入我最喜欢玩的实测环节了!
它这个软件看起来像 Claw,但是名字叫 MiniMax Code!所以写代码搞起来!
一般来说如果代码都能写不错,那么模型其他能力也不会差。
先来个简单的例子吧。
最近注册了一个域名,让他帮我写个简单的首页吧!
我的需求大概是这样的:
我购买了一个 JarvisUni.com 的域名,帮我添加一个简单的网页,这是一个个人网站! 主要是 AI 相关的,具体内容后续完善,现在先做一个首页,首页也是简单为主,黑白配色,中间上方一个头像区域,头像下方一句话描述,然后网页中间类似几个分类卡片,比如文档、教程、工具、测评,等等。页面简单,现代化,黑白配色,专业的 UI 和 UX 设计。
操作也很简单的。
左下方选择一个文件夹,用来存放生成的网页,然后直接把内容一粘贴,一个回车就开始干活了!
执行过程看到了一个很有意思的关键词“Mavis”
我不清楚这个命令是什么意思。但是我听说,好像腾讯把 Jarvis 改成 Mavis 搞了一个自己的智能体。MiniMax 这是和腾讯不谋而合了?
不说这个了,说回这个智能体。好像有点蠢!
一个静态网页搞了好久,一会儿“Bash 权限异常”,一会儿“daemon 异常”,一会儿“daemon 还是不通。”我都替它心累啊!
写文件写了好久好久好久,快要激活我的吐槽技能了!
真 TM 笑死我了,一个页面,你都搞多久了。最后告诉我什么“守护进程”真的挂了。然后循环往复,循环往复,循环往复!
这是什么呆头鹅智能体。
用不了一点,立马删除,还不如我自己写的 JClaude!
让你看看什么叫顶级智能体!(玩笑!)
直接打开 JClaude,然后点击头像,设置:
添加一个提供商,然后配置一下模型映射,把 Opus4.7 映射到 M3!
提供商配置如下:
只要把 API Key 换成自己的就行了! 这个APIKEY可以在TokensPlan的后台获取!
然后主界面直接选代码 -> 选择一个文件夹 -> 模型选 Opus4.7 -> 模式选自动模式!
先打个招呼:
然后发需求,成功激活ASK,选一下技术栈和主题风格:
然后就交给 JClaude 了, 网页已经在路上....
等待时候做个小介绍:
JClaude 其实就克隆了 Claude 官方桌面版,然后再套壳接入了官方的 Claude Code。然后可以直接配置国产模型,相当于可以完全绕过 Claude 官方认证,然后用上他们家的界面和顶级智能体!
说时迟,那时快。你们看,一下子就搞定了!
浅色模式:
深色模式:
为了对比,给你们看一下之前 M2.7 的效果:
提升还是很明显的啊!
原先的版本用了非常不专业的 Emoji;整个页面设计感也比较弱;内容构思也要差一些!
我不知道是不是我的心理作用,怎么感觉 JClaude 好像有额外加成的样子。哈哈哈!
好了不玩了,下面我们来多测试几个例子。
一般新模型上阵,我都会测试 9 个前端的例子。这 9 个例子,每个例子都用不同的前端知识点,除了考技术之外,也要考页面布局、页面审美等方面。
具体的例子可以看截图:
好了,经过 30 分钟的等待,结果已经出来了。
因为内容非常多,我不一一展现。
但是对它的水平,我已经有数了。
首先:没有基础错误!这一点是很大的进步了,有些模型,9 个例子中会有好几个基础错误。
其次:相比老版本是有进步的。
比如这个《霓虹奔跑者》:
它的腿部动作非常有意思,跳起来的时候,有时候是平行的,有时候是外八,有时候是交叉。很有趣味。不引用外部资源,能有手有脚,有动作,还能玩,还是可以的了。
比如《酷炫的五子棋》:
虽然界面设计有点……但是相比 M2.5,至少棋盘和棋子都是正常的。
当然,有进步,但是不多。
比如这个《分形烟花秀》:
快把我屏幕都炸了,网页卡死,场面一片混乱!
还有让它做的 3D 太阳系:
它居然做了一个扁平的,而且这些行星都是脱轨乱飞的!🤣
测了那么多选手,它是第一个“做到这两点的”,人才啊!
只能说,很多结果非常“有趣”!
具体的例子我会同步上传到这里(Opus4.8的也在赶制中):
网址:
顶级AI编程能力评测 | JarvisBench | TOPAI
以后可能会换成:JarvisUni.com了!
除了前面几个前端的例子,我也试了最近的项目《江湖百晓生》!
结果其实还可以,这设计我觉得要比那个谁好一点!
比较尴尬的是,它第一个版本是这样的:
又是基础错误!
另外,我也用 M3 把常测的几个例子全测了,但是限于篇幅就不展开讲了,也没必要讲那么细了!
我就直接来做总结吧!
首先,既然是新版本,相比老版本肯定是有提升的。毕竟一堆人在上班,肯定是有成果的。
其次,相比老版本有进步,但是相比同行,还是比较弱!不要提国外模型,否则有点自取……
最后,如果你能接受它的能力,那么性价比是很高的!
我折腾来折腾去,搞了好久。只消耗了 40%(20%) 的五小时配额!
哈哈哈!官网的进度条好像也有 BUG!
这个绿色比例,应该是 20% 左右,绝对不是 40%!可能上面的进度是 200% 的 20%,下面的数字是 100% 的 40%。反正看起来不是很对劲。
建议用 Claude 或者 Codex 修复一下!
说回正题,它这个 Tokens 套餐量还是很大的。具体有多大呢,我估计它 119 多的 Max 的 Tokens 量,和小米 600 多的 Max 套餐差不多。就是宣称 820 亿 Credits 的套餐!
别忘了现在周配额无限♾️!
而且整个套餐还包含了语音、图片等服务,东西还是不少的!
最终总结:一分价钱一分货!如果你对它的货是满意的,那么性价比极高!
就是写一篇文章也挺累的,要收集好多资料,做好多配置,做好多测试!所以,以后如果不是有特别突出的表现,就不专门写文章了。 测了大半年,每家模型厂的实力和表现基本上有数了!