前言:最近我发现一个很有意思的现象:现在很多大模型,已经不是“会不会回答”的差距,而是“能不能把活干完”的差距。有的模型回复很快,看起来很聪明,但一到经典逻辑题,第一步就翻车。有的模型推理很稳,但速度慢到更像一个“不紧不慢的学霸”。还有的模型,一边保持接近Flash 级别的速度,一边能把代码、测试、前端、后端和运行说明串成一个完整闭环。
所以我做了一次很直接的实测。
这次不看榜单,不聊玄学,也不只看参数量。
我拿三款 30B 级别的开源大模型做了一轮“贴身肉搏”:
GLM-4.7-Flash、Gemma-4-31B-it、Qwen3.6-35B-A3B。
测试也不搞花活,直接上真实任务,我想看的只有一个问题:
谁是真正能干活的 AI?
1.先说结论:三款模型不是一个性格
为了让大家先有一个整体印象,我先把结论放在前面。
| 模型 | 架构/特点 | 最明显优点 | 最明显短板 | 速度表现 | 我的定位 |
|---|---|---|---|---|---|
| Qwen3.6-35B-A3B | MoE,约 3B 激活参数 | 推理稳、代码强、能闭环 | 回答有时偏长 | 56.3 Tokens/s | 全能工程型选手 |
| GLM-4.7-Flash | Flash 定位,响应快 | 速度快、格式跟随不错 | 复杂逻辑容易翻车 | 55.4 Tokens/s | 轻量任务型选手 |
| Gemma-4-31B-it | 31B 级稠密模型体验 | 逻辑稳定、表达克制 | 工程闭环稍弱、速度偏慢 | 23.3 Tokens/s | 稳健逻辑型选手 |
如果只用一句话总结:
Qwen3.6 最像生产力工具,Gemma 最像可靠分析师,GLM 最像速度型实习生。
接下来我们一关一关看。
2.第一关:强约束写作,三者都过了
第一道题,我没有问开放问题,而是给了一个带有严格限制的指令。
要求模型回答“为什么数据很重要”,但必须满足几个条件:
只能输出 3 段; 每段不超过 40 字; 不要出现“数据质量”这四个字; 语气要正式。这类题看起来简单,其实很考验模型的指令跟随能力。
因为它不仅要回答问题,还要同时遵守格式、字数、禁用词和语气。
🤖 各模型完整回答
GLM-4.7-Flash
准确可靠的信息是企业决策之基。 高质量的情报能显著提升判断准确度。 不纯净的信息可能导致严重误判风险。Gemma-4-31B-it
精准的信息是决策的基础。若源头存在偏差,将导致结论错误,增加管理风险。 高质量的输入能提升分析效能。确保结果可靠,从而优化资源配置,提高运营效率。 它是构建信任的关键。可靠的指标能增强团队共识,为战略执行提供坚实支撑。Qwen3.6-35B-A3B
准确的信息是企业做出正确决策的基础,错误内容会导致严重判断偏差。 完整可靠的数据能确保业务流程顺畅运行,提升整体运营效率。 长期积累可信数据可支持战略规划,为机构带来持续竞争优势。结果是:
三款模型都通过了。
但风格差异很明显。
GLM 的回答非常短,属于“安全过线”型。它没有犯错,但信息密度偏低,有点像考试时只求不扣分。
Gemma 的表现更成熟,会从决策、效率、信任几个角度展开,读起来更自然。
Qwen3.6 的文字最像商务场景里的正式表达,干练、稳定,也比较像专业报告中的表述。
本轮结论:
在基础指令跟随上,三者都能胜任。
但如果看表达质量:
Qwen 和 Gemma 更像成熟写作者,GLM 更像谨慎应答者。
3.第二关:狼羊菜过河,差距开始出现
真正的分水岭,是经典的“狼、羊、菜过河”问题。
题目大家应该都熟:
测试问题:一个人要把一只狼、一只羊和一筐菜运到河对岸。船每次只能载他和一样东西。如果狼和羊单独在一起,狼会吃羊;如果羊和菜单独在一起,羊会吃菜。请说明步骤。
这题的正确第一步,应该是:
先把羊带过河。
因为原岸剩下狼和菜,狼不会吃菜,所以安全。
🟢 GLM-4.7-Flash
但 GLM 第一上来就说:
先带狼过河。
这一步直接出问题。
因为狼一走,原岸只剩下羊和菜,羊会把菜吃掉。
也就是说,GLM 不是表达不清,而是在第一步就没有维护住题目的状态约束。
这类错误非常典型。
很多模型看起来在“推理”,但实际上只是把一些似曾相识的步骤拼在一起。
一旦状态变化稍微复杂,它就容易断链。
狼羊菜过河安全方案 第一步:带狼过河 原因:狼不会吃菜,先运狼确保对岸安全。 第二步:人独自返回 原因:把对岸安全释放“船夫”,便于后续循环使用。 第三步:带羊过河 原因:对岸已有狼,羊安全;这边留菜也不用担心。 第四步:人把羊带回来,装狼过河 原因:不能单独留下菜与羊(羊吃菜),必须先消解冲突隐患。 第五步:在对岸放下狼,带菜过河 原因:对岸狼在,菜安全;需返回把“本该留下的羊”送过河。 第六步:人独自返回 原因:避免独自身处险境时无计划。 第七步:带羊安全过河 原因:对岸已无威胁,羊至此真正安全。 关键:利用船夫的天性避免内部消耗,实现整体资产安全。🔵 Gemma-4-31B-it
相比之下,Gemma 给出了标准解法:
1. 运羊过河:狼和菜在一起是安全的。 2. 空船返回:准备运送下一件物品。 3. 运狼过河:将狼送到对岸。 4. 带羊返回:防止狼吃羊,将羊接回原岸。 5. 运菜过河:将菜送到对岸,狼和菜在一起是安全的。 6. 空船返回:最后一次返回接羊。 7. 运羊过河:全部安全抵达对岸。🔴 Qwen3.6-35B-A3B
Qwen3.6 也给出了正确步骤,而且它还指出了关键点:
不能让狼和羊单独待在一起,也不能让羊和菜单独待在一起。
第一步:带羊过河,留下狼和菜。 原因:狼不吃菜,它们单独在一起是安全的。 第二步:独自返回,带狼过河。 原因:如果带菜,回来时狼会吃羊;带狼则羊独自在对岸等待。 第三步:到对岸后,把狼放下,把羊带回来。 原因:这是最关键的一步。不能留羊和狼在一起,所以把羊带回。 第四步:放下羊,带菜过河。 原因:狼和菜单独在一起,狼不吃菜,安全。 第五步:独自返回,带羊过河。 原因:此时狼和菜已在对岸,羊独自在此岸,全部安全到达。本轮结论:
GLM 在经典逻辑题上翻车。
Gemma 稳定给出标准答案。
Qwen3.6 不仅答对,还能解释关键矛盾点。
这时候,三者的差距已经开始拉开。
4.第三关:真假话推理,GLM 再次掉队
接下来是三人真假话问题。
题目大意是:
甲说:乙说假话。
乙说:丙说假话。
丙说:甲和乙都说假话。
已知只有一个人说真话,问谁说真话?
各模型结论:
- GLM-4.7-Flash:说是丙真(❌ 错误)。
- Gemma-4-31B-it:说是乙真(✅ 正确)。
- Qwen3.6-35B-A3B:说是乙真(✅ 正确),并给出了详尽的假设排查逻辑。
本轮结论:
如果任务涉及严谨推理,GLM 需要谨慎使用。
Gemma 和 Qwen3.6 的稳定性明显更好。
5.第四关:多条件赛跑,真正比的是“推理方式”
然后我给了一个多条件排名题。
A、B、C、D 四个人赛跑,给出五个条件:
测试问题:A、B、C、D 四人赛跑:1. A > B;2. C < D;3. B 非最后;4. D 非第一;5. A 非第二。
要求推导最终排名。
这一题有意思的地方在于:
三款模型都给出了正确结果。
但它们的推理方式不同。
🤖 各模型完整回答
GLM-4.7-Flash
GLM 的答案是对的,但推理过程有些绕。
最终排名:A 第1、B 第2、D 第3、C 第4 逐步推理过程: A 高于 B,故 B 不可能是第1且不能第4,B 只能第2或第3。 若 B 为第3,则 A 只能是第1或第2。A 不能 第2,故 A 必为第1。此时 D 位于 A 后,因 D > C 且 D ≠ 1,检查配置均为不满足 D > C,故 B 不为第3。 若 B 为第2,A 必须 高于 B,且 A ≠ 第2,故 A 必为第1。D 不可能第1,已确定 A 占第1。D > C,D 只能第3或第4。若 D 为第4,C 必须位于第2与第3之间,位置冲突,故 D 为第3,C 为第4,位置无冲突。 一切条件均已验证成立:A(1) > B(2) ✓;B(2) ≠ 最后 ✓;A(1) ≠ 2 ✓;D(3) ≠ 1Gemma-4-31B-it
Gemma 的推理很顺,一步一步把约束收紧,最后得到结论。
排名结果:A > D > B > C 推理过程: 根据 A > B 且 B 不是最后一名,B 最低是第三,A 最高是第一。 根据 D > C 且 D 不是第一,D 最低是第二,C 最低是第三。 A 不是第二,且必须高于 B,若 A 是第一,则满足条件。 此时剩余 D、B、C。因 D > C 且 D 不能是第一,D 只能是第二。 剩余 B 和 C,因 B 不是最后一名,B 只能是第三,C 为第四。 验证:A(1) > B(3) [√];D(2) > C(4) [√];B(3)非最后 [√];D(2)非第一 [√];A(1)非第二 [√]。Qwen3.6-35B-A3B
Qwen3.6 最值得注意。
它没有只给一个结果,而是把可能分支展开:
如果 B 是第二,会怎样?
如果 B 是第三,会怎样?
然后再逐一验证条件。
这是一种更“工程化”的思维。
排名结果:第一名 A,第二名 D,第三名 B,第四名 C。 推理过程: 由条件3,B 不是第四;由条件4,D 不是第一;由条件5,A 不是第二。 由条件1(A 比 B 名次高),且 B 至少是第二名,A 只能是第一名(若 A 是第三或更差,B 只能第四,与条件3矛盾)。 此时剩余名次{2, 3, 4}分配给 B、C、D。由条件2(D 比 C 名次高),D 的排名数字小于 C。 B 可以是2或3。若 B=2,则剩余{3,4},由 D<C 得 D=3、C=4;若 B=3,则剩余{2,4},由 D<C 得 D=2、C=4。 验证第一种情况 A=1, D=2, B=3, C=4:A>B:1<3 ✓;D>C:2<4 ✓;B非末:3≠4 ✓;D非冠:2≠1 ✓;A非二:1≠2 ✓,符合所有条件。真实工作里,很多问题不是简单猜一个答案,而是要系统排除错误路径。
尤其在代码、Agent、自动化流程、复杂任务规划中,模型是否能枚举分支、验证约束,非常关键。
这也是我对 Qwen3.6 印象最深的地方:
它不像是在“答题”,更像是在“做任务”。
本轮结论:
三者都答对了,但 Qwen3.6 的推理颗粒度更细。
Gemma 稳,Qwen 更系统。
6.第五关:写快速排序,区别不在“会不会写代码”
接下来进入代码生成。
我让三款模型用 Python 实现快速排序,要求:
测试要求:Python 实现快速排序,不使用第三方库,含测试样例及复杂度分析。
这个任务本身不算难。
真正要看的不是模型会不会写 quick sort,而是它有没有基本的工程习惯。
🤖 各模型完整回答
GLM-4.7-Flash
GLM直接将代码文件写好了,
并且有简单的测试用例,及复杂度分析
Gemma-4-31B-it
Gemma 给出的代码很简洁。
核心逻辑没问题,用 pivot 分成 left、middle、right,再递归拼接。
适合快速原型。
defquick_sort(arr):iflen(arr)<=1:returnarr pivot=arr[len(arr)//2]left=[xforxinarrifx<pivot]middle=[xforxinarrifx==pivot]right=[xforxinarrifx>pivot]returnquick_sort(left)+middle+quick_sort(right)# 测试样例test_arr=[3,6,8,10,1,2,1]print(f"原数组:{test_arr}-> 排序后:{quick_sort(test_arr)}")# 时间复杂度:平均 O(nlogn),最坏 O(n²)。# 空间复杂度:O(n)Qwen3.6-35B-A3B:
Qwen3.6 的版本则更完整。
它不仅写了排序函数,还加入了:
if name == "main"入口;
固定测试样例;
随机测试样例;
平均、最坏时间复杂度说明;
递归栈和临时数组的空间复杂度解释。
defquick_sort(arr):iflen(arr)<=1:returnarr pivot=arr[len(arr)//2]left=[xforxinarrifx<pivot]mid=[xforxinarrifx==pivot]right=[xforxinarrifx>pivot]returnquick_sort(left)+mid+quick_sort(right)# 测试样例if __name__ == "__main__":importrandom test=[3,6,8,10,1,2,1,34,-1,55]print(f"排序前:{test}")print(f"排序后:{quick_sort(test)}")random.seed(42)large=[random.randint(-100,100)for_inrange(20)]print(f"随机数据:{large}")print(f"排序结果:{quick_sort(large)}")# 时间复杂度:# 平均: O(n log n) — 每次分区大致均衡,递归树高 log n,每层扫描 n 个元素。# 最坏: O(n²) — 每次pivot都选到最大或最小值(如已排序数组取首/尾作pivot)。# 空间复杂度:# 平均: O(log n) — 递归栈深度为 log n,加上 List Comprehension 产生的临时列表。# 最坏: O(n) — 递归栈深度退化为 n。本轮结论:
Gemma 适合快速写原型。
Qwen3.6 更有工程交付意识。
GLM 的代码生成能力可以完成基础任务,但整体深度不如 Qwen。
7.第六关:Web 全栈任务,胜负彻底拉开
最后一关,我给了一个更接近真实工作的任务:
做一个最简单的日志分析 Web 系统。
Gemma-4-31B-it:
Gemma 没有一次性给出完整运行说明,后续补问之后,运行还出现了 bug 和乱码问题。
Qwen3.6-35B-A3B:
它使用 FastAPI 后端,配合原生 HTML 和 JS 前端,覆盖了文本输入、日志分析和本地文件上传,页面也能正常展示分析结果:
这一关之后,差距就不只是“谁答得更好”了。
而是:
谁真的能把一个任务从需求做到可运行。
很多模型可以写一个接口。
也有很多模型可以写一个页面。
但能不能把接口、页面、输入输出、运行方式串起来,就是另一回事了。
Qwen3.6 在这一关体现出的能力,已经明显更接近工程助手。
8.速度测试:Qwen 快,不是玄学,是 MoE 架构红利
除了能力测试,我也记录了三款模型的推理速度。
结果如下:
这个结果里,最值得分析的不是 GLM 快,而是:
Qwen3.6-35B-A3B 为什么也这么快?
答案在它的名字里。
Qwen3.6-35B-A3B 里的35B,指的是模型的总参数规模;而A3B,通常可以理解为每次推理时大约只激活3B 级别参数。
也就是说,它不是一个每次都把 35B 参数全部跑一遍的稠密模型,而是一个 MoE,也就是混合专家模型。
MoE 的核心思路可以简单理解为:
模型内部有很多“专家”,但每次回答问题时,并不会所有专家一起上场,而是只挑出一部分最相关的专家参与计算。
这就带来了一个非常关键的好处:
模型可以拥有更大的总容量,但单次推理成本却更接近小模型。
所以,Qwen3.6-35B-A3B 能跑到56.3 Tokens/s,并不是偶然。
它的速度优势,来自稀疏激活架构。
它更像是用 35B 的总容量做知识和能力储备,但每次实际干活时,只调用其中一小部分专家。
相比之下,Gemma-4-31B-it 更接近传统稠密模型的使用体验。
它的逻辑稳定性很好,但速度只有23.3 Tokens/s,大约是 Qwen 和 GLM 的 40% 左右。
这也解释了为什么 Gemma 给人的感觉是:
稳,但不快。
GLM-4.7-Flash 则符合它名字里的 Flash 定位。
它的速度达到55.4 Tokens/s,确实很快。
但问题是,在前面的逻辑推理测试里,它出现了比较明显的状态跟踪错误。
所以它的画像更像是:
响应快,但复杂任务不够稳。
而 Qwen3.6-35B-A3B 的优势在于:
它不是单纯快,而是在接近 GLM 的速度下,保留了更强的推理、代码和任务闭环能力。
这才是这组速度数据真正值得看的地方。
测评随感
这次测完之后,我最大的感受是:
大模型已经进入了一个新阶段。
过去我们看模型,喜欢问:
参数有多大?
榜单排第几?
上下文有多长?
回答像不像人?
但真正用起来之后,你会发现这些都只是表层指标。
真正决定一个模型能不能进入生产场景的,是另外几个问题:
它能不能遵守复杂约束?
它能不能持续维护状态?
它能不能发现自己前后矛盾?
它能不能把代码写到可运行?
它能不能补上测试样例?
它能不能把前端、后端、接口、运行说明串成闭环?
这些问题,才是大模型从“玩具”走向“工具”的分水岭。
所以,如果只看这次测试,我会这样选:
如果你要的是逻辑分析和稳健推理,Gemma 值得信任。
它像一个慢一点但认真做题的学霸。
如果你要的是高频文本处理、摘要、轻量问答,GLM 有速度优势。
它适合快进快出,但不适合直接托付复杂推理任务。
如果你要的是编程助手、Agent、自动化流程、私有化工程助手,我会优先选 Qwen3.6-35B-A3B。
因为它最重要的优势不是“某一题答得好”,而是它更像一个能把任务做完的系统组件。
尤其是 Qwen3.6-35B-A3B 这个名字里的A3B很关键。
35B 是总参数规模,但每次推理大约只激活 3B 级别参数。
所以最后的结论不是简单的“谁赢了”。
而是:
Gemma 稳,但慢。
GLM 快,但浅。
Qwen3.6 靠 MoE 架构,做到了又快又能把事做完。
在我看来,这可能就是下一阶段大模型竞争的核心方向:
不是谁参数更大,而是谁能用更聪明的架构,把能力、速度和成本同时平衡好。
能聊天,已经不稀奇了。
能写代码,也不稀奇了。
真正稀缺的是:
能理解需求,拆解任务,写出代码,补上测试,跑通流程,最后完成交付。
一句话:
未来的大模型,不是比谁更会说,而是比谁更能干活。
如果你也在选私有化模型、编程助手或者 Agent 底座,这个结论可能值得参考:
别只看参数量,也别只看跑分。
一定要看它能不能把真实任务闭环。