文章目录
- 前言
- 100万上下文,不是吹的
- 塞进Claude Code,它像个老工程师
- 50万行源码,它当小说读
- 读完整部《西游记》,还画了个路线图
- 看截图复刻Apple Music,设计师要失业了?
- Three.js游戏,它连游戏都包了
- 它能替代Claude吗?
- 真正打动我的,是"工程感"
P.S. 无意间发现了一个巨牛的人工智能教程,非常通俗易懂,对AI感兴趣的朋友强烈推荐去看看,传送门https://blog.csdn.net/HHX_01
前言
朋友们,今天聊个有意思的事儿。现在这大模型发布会啊,跟过年似的,每个月都有。你方唱罢我登场,个个都说自己是"全能选手"。Coding强、上下文长、多模态牛——这三个词我都听出茧子了,耳朵都快磨出包浆了。
但问题是,很多模型吧,就像我那位号称"精通八国语言"的表弟——英语只会说Hello,日语只会说八嘎,韩语只会说思密达。你让他真刀真枪干点活儿,立马露馅。写个函数还行,一遇到大型工程就懵;上下文标称一百万,真到项目里就开始"选择性失明",跟得了白内障似的;多模态更是离谱,看图只会说"这是一张图",你让它把图变成代码?它说"臣妾做不到啊",语气比甄嬛传还委屈。
所以这次MiniMax发布M3,我的第一反应是:又来?又来一个"全能选手"?我信你个鬼,你们这些发布会坏得很。但当我把它塞进Claude Code,跑了一轮真实工程测试之后——好家伙,这模型,有点东西。不是那种"有点东西但不多"的东西,是那种"东西有点多"的东西。
100万上下文,不是吹的
先说这个100万tokens。很多朋友听到这个数字,第一反应跟我妈听到我月薪一样:"真的假的?你确定没多写个零?"在真实工程里,长上下文不是锦上添花,是生死线。你让模型分析一个大型代码库,短上下文模型就像高度近视进图书馆——只能看清眼前这一排书,后面的全靠猜,猜对了算运气,猜错了算你倒霉。
MiniMax M3用的是MSA架构,官方说百万上下文下每个token计算量只有上一代的1/20。翻译成人话就是:以前看100万字要喘半天,现在跟刷朋友圈似的,大拇指滑两下就完了,还不带卡顿的。这意味着什么?意味着它真能"读项目",而不是"猜项目",更不是"蒙项目"。
**冷知识:**100万tokens大约相当于150万字中文,或者3本《红楼梦》摞在一起。以前模型看这么多字,CPU能烧到可以煎鸡蛋;现在M3看完还能给你写个读后感,顺便分析人物关系。
塞进Claude Code,它像个老工程师
我把M3接进Claude Code,第一个测试项目是OpenClaw——一个代码量很大的开源项目,复杂程度堪比北京地铁线路图。我让M3先init项目,生成CLAUDE.md做初步理解。然后从issue里挑了个真实bug,让它定位,注意,是定位,不是直接修。
这时候精彩了。它没一上来就乱改代码,而是先分析根因,解释问题出在哪,拆解触发路径。然后给了三个修复方案,每个方案的影响面、改动文件、要不要加配置开关,列得清清楚楚。朋友们,这像什么?这像不像你们公司那个干了十年的老工程师?遇到问题不慌,先泡杯茶,再分析,再给方案,最后问你:“老板,选哪个?”
最怕的是什么?最怕模型"太积极"——你让它修个bug,它顺手把半个项目重构了,还美其名曰"代码优化"。等你发现的时候,git diff已经红得跟股市暴跌似的。M3在这方面表现出了难得的工程克制感:只做精准修复,不改无关代码。这种"该干嘛干嘛,不多管闲事"的品质,比很多刚毕业的新人都强。
**工程克制感三原则:**1. 改动尽量小;2. 保持原有代码风格;3. 不引入不必要的重构。M3这三条全占了,堪称AI界的"佛系码农"。
50万行源码,它当小说读
第二个测试更狠。我让它分析泄露出来的50多万行Claude Code源码,找出遥测逻辑。这个任务,短上下文模型直接跪了,跪得比求婚还干脆。50万行啊,相当于把《红楼梦》看了三遍,还得找出所有"宝玉"出场的页码、说了什么话、旁边有谁、当时什么天气。
M3的表现让我惊了。它找出了多个出口端点,给了具体文件位置和代码行数,还整理出控制开关,分析了设备ID和身份指纹的生成逻辑。这就好比你在一个超级迷宫里找出口,别人还在入口转圈呢,它已经画完地图、标好路线、还在出口处摆了个小吃摊等你了。
这类任务最考验的不是"会不会解释代码",而是能不能在巨大代码库中快速定位真正重要的部分。如果上下文不够长,它容易只看到局部;如果检索能力不好,它会漏掉关键文件;如果工程理解不够强,它会把无关代码也当成核心逻辑。M3把这三件事都办妥了,长上下文、代码搜索、结构化总结,一气呵成。
读完整部《西游记》,还画了个路线图
接下来我换了个玩法,不搞代码了,搞文学。把整部《西游记》扔给M3,让它生成交互式取经路线图。要求很变态:整理国家和地点、列出妖怪、总结剧情、按顺序生成节点、点击弹出详情、还要有古典卷轴风格。这相当于让一个人读完三大名著,然后给你做个旅游攻略APP。
M3的处理方式很聪明——它没硬读全文,而是先搜索定位关键章节,再派生多个子代理干活。这就好比一个项目经理,接到活儿之后不自己硬扛,而是把任务拆给几个小弟,最后汇总成果。这种"懂得借力"的智慧,很多职场老油条都不一定有。
最后生成的页面,点开"长安"有介绍,点开"鹰愁涧"能看到第15回、危险等级、关键事件。最绝的是"狮驼国"的危险等级,划分得相当准确——毕竟那是三个妖怪的地盘,危险系数直接拉满,比火焰山还刺激。这说明它不只是能"装下"长文本,还能从里面抽信息、结构化、再变成可交互产品。从"读者"到"导游",一步到位。
看截图复刻Apple Music,设计师要失业了?
然后测多模态。我给M3三张Apple Music截图,让它高保真复刻。这个任务的难点在于:模型要先理解截图里的布局、颜色、层级、卡片、封面、导航、按钮,然后把视觉理解转化成前端代码,最后还要生成可交互UI。相当于给一张餐厅照片,让你把菜做出来,还得味道一样。
几分钟后,页面出来了。侧边栏、主页、音乐卡片、封面图、播放器区域,还原度我主观判断90%左右。剩下10%不是它不行,是我截图不够高清,这锅我背。以后产品经理看到喜欢的UI,截图丢给M3,demo就有了。设计师听完可能想打人,但开发者听完想请它吃饭——毕竟以前这种活至少要磨一两天,现在几分钟搞定。
**独立开发者福音:**看到喜欢的网页、App或仪表盘设计,截图丢过去,高保真原型秒出。从"眼馋"到"拥有",只差一个回车键。
Three.js游戏,它连游戏都包了
最后测创意代码,直接上硬菜——两个3D游戏。第一个是侏罗纪风格皮卡车狩猎恐龙,玩家开车、控制方向、机枪射击,恐龙被击中后消失。第二个是墓穴探险,第一人称视角,头灯照亮前方,黑暗中前进、射击、打怪物、捡药箱,子弹打墙上冒火光,怪物倒下,失败能重来。
虽然跟专业游戏没法比,画面大概相当于十年前的水平,但作为一个模型生成的demo,它已经具备了交互、状态、视觉效果和游戏机制。这不是写静态页面了,这是在做浏览器应用。以前你说"AI帮我写个游戏",AI给你画个井字棋;现在你说"AI帮我写个游戏",AI给你整出个第一人称射击。这差距,比我和吴彦祖的颜值差距还大。
它能替代Claude吗?
这是大家最关心的问题,堪比"我和你妈掉水里你救谁"。我的判断是:在很多任务上,M3已经具备替代潜力,但不能说全面替代。就像电动车和油车,市区通勤电动车香,长途越野还是油车稳。
大型代码库阅读、长文档分析、前端UI生成、多模态截图转代码、工程辅助、成本敏感型任务——M3都很值得尝试。尤其是需要大量tokens的场景,它的性价比会非常突出,突出到让你觉得以前花的钱有点冤。
但如果你极度依赖长期稳定性、复杂推理一致性、极高可靠性的代码审查,或者已有成熟的Claude工作流,建议把M3作为"第二主力"来测试。更合理的分工:Claude负责最高风险、最高价值的任务,M3负责大量长上下文、代码阅读、UI生成、原型开发和成本敏感任务。一个当主治医生,一个当全科医生,各司其职。
**选型建议:**Claude继续负责最高风险任务;MiniMax M3负责大量长上下文、代码阅读、UI生成、原型开发和成本敏感任务。这样可以在不牺牲质量的前提下,大幅降低成本,并提升任务吞吐量。
真正打动我的,是"工程感"
这次M3最让我惊讶的,不是100万tokens,不是benchmark分数,也不是发布会上那些花里胡哨的PPT。真正让我觉得值得关注的是:它在真实工程任务中表现出的"工程感"。
它会先理解项目;会先定位bug;会给出多个修复方案;会考虑改动面;会尽量避免不必要重构;会在大型代码库中找关键文件;会把长文本变成结构化产品;会把截图变成可运行UI;会把创意需求变成浏览器游戏。这已经不是传统意义上的"聊天机器人"了,这更像是一个可以进入真实开发环境、处理复杂上下文、执行多步任务的AI工程助手。
所以,M3的意义可能不只是"又一个国产大模型发布了"。它真正代表的是:国产模型正在从单纯拼参数、拼榜单,进入到拼真实工作流、拼工程能力、拼Agent可用性的阶段。如果你正在用Claude Code、Cursor或其他AI Coding工具,M3绝对值得接入测试。因为它可能会成为接下来一段时间里,最值得关注的高性价比Coding Agent模型之一。毕竟,能干活还便宜的员工,哪个老板不喜欢呢?
P.S. 无意间发现了一个巨牛的人工智能教程,非常通俗易懂,对AI感兴趣的朋友强烈推荐去看看,传送门https://blog.csdn.net/HHX_01