同样是 30B 级大模型：为啥的能写全栈，有的连狼羊菜都翻车-编程实验室

前言：最近我发现一个很有意思的现象：现在很多大模型，已经不是“会不会回答”的差距，而是“能不能把活干完”的差距。有的模型回复很快，看起来很聪明，但一到经典逻辑题，第一步就翻车。有的模型推理很稳，但速度慢到更像一个“不紧不慢的学霸”。还有的模型，一边保持接近Flash 级别的速度，一边能把代码、测试、前端、后端和运行说明串成一个完整闭环。

所以我做了一次很直接的实测。

这次不看榜单，不聊玄学，也不只看参数量。

我拿三款 30B 级别的开源大模型做了一轮“贴身肉搏”：

GLM-4.7-Flash、Gemma-4-31B-it、Qwen3.6-35B-A3B。

测试也不搞花活，直接上真实任务，我想看的只有一个问题：

谁是真正能干活的 AI？

1.先说结论：三款模型不是一个性格

为了让大家先有一个整体印象，我先把结论放在前面。

模型	架构/特点	最明显优点	最明显短板	速度表现	我的定位
Qwen3.6-35B-A3B	MoE，约 3B 激活参数	推理稳、代码强、能闭环	回答有时偏长	56.3 Tokens/s	全能工程型选手
GLM-4.7-Flash	Flash 定位，响应快	速度快、格式跟随不错	复杂逻辑容易翻车	55.4 Tokens/s	轻量任务型选手
Gemma-4-31B-it	31B 级稠密模型体验	逻辑稳定、表达克制	工程闭环稍弱、速度偏慢	23.3 Tokens/s	稳健逻辑型选手

如果只用一句话总结：

Qwen3.6 最像生产力工具，Gemma 最像可靠分析师，GLM 最像速度型实习生。

接下来我们一关一关看。

2.第一关：强约束写作，三者都过了

第一道题，我没有问开放问题，而是给了一个带有严格限制的指令。

要求模型回答“为什么数据很重要”，但必须满足几个条件：

只能输出 3 段； 每段不超过 40 字； 不要出现“数据质量”这四个字； 语气要正式。

这类题看起来简单，其实很考验模型的指令跟随能力。

因为它不仅要回答问题，还要同时遵守格式、字数、禁用词和语气。

🤖 各模型完整回答

GLM-4.7-Flash

准确可靠的信息是企业决策之基。 高质量的情报能显著提升判断准确度。 不纯净的信息可能导致严重误判风险。

Gemma-4-31B-it

精准的信息是决策的基础。若源头存在偏差，将导致结论错误，增加管理风险。 高质量的输入能提升分析效能。确保结果可靠，从而优化资源配置，提高运营效率。 它是构建信任的关键。可靠的指标能增强团队共识，为战略执行提供坚实支撑。

Qwen3.6-35B-A3B

准确的信息是企业做出正确决策的基础，错误内容会导致严重判断偏差。 完整可靠的数据能确保业务流程顺畅运行，提升整体运营效率。 长期积累可信数据可支持战略规划，为机构带来持续竞争优势。

结果是：

三款模型都通过了。

但风格差异很明显。

GLM 的回答非常短，属于“安全过线”型。它没有犯错，但信息密度偏低，有点像考试时只求不扣分。

Gemma 的表现更成熟，会从决策、效率、信任几个角度展开，读起来更自然。

Qwen3.6 的文字最像商务场景里的正式表达，干练、稳定，也比较像专业报告中的表述。

本轮结论：

在基础指令跟随上，三者都能胜任。

但如果看表达质量：

Qwen 和 Gemma 更像成熟写作者，GLM 更像谨慎应答者。

3.第二关：狼羊菜过河，差距开始出现

真正的分水岭，是经典的“狼、羊、菜过河”问题。

题目大家应该都熟：

测试问题：一个人要把一只狼、一只羊和一筐菜运到河对岸。船每次只能载他和一样东西。如果狼和羊单独在一起，狼会吃羊；如果羊和菜单独在一起，羊会吃菜。请说明步骤。

这题的正确第一步，应该是：

先把羊带过河。

因为原岸剩下狼和菜，狼不会吃菜，所以安全。

🟢 GLM-4.7-Flash

但 GLM 第一上来就说：

先带狼过河。

这一步直接出问题。

因为狼一走，原岸只剩下羊和菜，羊会把菜吃掉。

也就是说，GLM 不是表达不清，而是在第一步就没有维护住题目的状态约束。

这类错误非常典型。

很多模型看起来在“推理”，但实际上只是把一些似曾相识的步骤拼在一起。

一旦状态变化稍微复杂，它就容易断链。

狼羊菜过河安全方案 第一步：带狼过河 原因：狼不会吃菜，先运狼确保对岸安全。 第二步：人独自返回 原因：把对岸安全释放“船夫”，便于后续循环使用。 第三步：带羊过河 原因：对岸已有狼，羊安全；这边留菜也不用担心。 第四步：人把羊带回来，装狼过河 原因：不能单独留下菜与羊（羊吃菜），必须先消解冲突隐患。 第五步：在对岸放下狼，带菜过河 原因：对岸狼在，菜安全；需返回把“本该留下的羊”送过河。 第六步：人独自返回 原因：避免独自身处险境时无计划。 第七步：带羊安全过河 原因：对岸已无威胁，羊至此真正安全。 关键：利用船夫的天性避免内部消耗，实现整体资产安全。

🔵 Gemma-4-31B-it

相比之下，Gemma 给出了标准解法：

1. 运羊过河：狼和菜在一起是安全的。 2. 空船返回：准备运送下一件物品。 3. 运狼过河：将狼送到对岸。 4. 带羊返回：防止狼吃羊，将羊接回原岸。 5. 运菜过河：将菜送到对岸，狼和菜在一起是安全的。 6. 空船返回：最后一次返回接羊。 7. 运羊过河：全部安全抵达对岸。

🔴 Qwen3.6-35B-A3B

Qwen3.6 也给出了正确步骤，而且它还指出了关键点：

不能让狼和羊单独待在一起，也不能让羊和菜单独待在一起。

第一步：带羊过河，留下狼和菜。 原因：狼不吃菜，它们单独在一起是安全的。 第二步：独自返回，带狼过河。 原因：如果带菜，回来时狼会吃羊；带狼则羊独自在对岸等待。 第三步：到对岸后，把狼放下，把羊带回来。 原因：这是最关键的一步。不能留羊和狼在一起，所以把羊带回。 第四步：放下羊，带菜过河。 原因：狼和菜单独在一起，狼不吃菜，安全。 第五步：独自返回，带羊过河。 原因：此时狼和菜已在对岸，羊独自在此岸，全部安全到达。

本轮结论：

GLM 在经典逻辑题上翻车。

Gemma 稳定给出标准答案。

Qwen3.6 不仅答对，还能解释关键矛盾点。

这时候，三者的差距已经开始拉开。

4.第三关：真假话推理，GLM 再次掉队

接下来是三人真假话问题。

题目大意是：

甲说：乙说假话。

乙说：丙说假话。

丙说：甲和乙都说假话。

已知只有一个人说真话，问谁说真话？

各模型结论：

GLM-4.7-Flash：说是丙真（❌ 错误）。
Gemma-4-31B-it：说是乙真（✅ 正确）。
Qwen3.6-35B-A3B：说是乙真（✅ 正确），并给出了详尽的假设排查逻辑。

本轮结论：

如果任务涉及严谨推理，GLM 需要谨慎使用。

Gemma 和 Qwen3.6 的稳定性明显更好。

5.第四关：多条件赛跑，真正比的是“推理方式”

然后我给了一个多条件排名题。

A、B、C、D 四个人赛跑，给出五个条件：

测试问题：A、B、C、D 四人赛跑：1. A > B；2. C < D；3. B 非最后；4. D 非第一；5. A 非第二。

要求推导最终排名。

这一题有意思的地方在于：

三款模型都给出了正确结果。

但它们的推理方式不同。

🤖 各模型完整回答

GLM-4.7-Flash

GLM 的答案是对的，但推理过程有些绕。

最终排名：A 第1、B 第2、D 第3、C 第4 逐步推理过程： A 高于 B，故 B 不可能是第1且不能第4，B 只能第2或第3。 若 B 为第3，则 A 只能是第1或第2。A 不能 第2，故 A 必为第1。此时 D 位于 A 后，因 D > C 且 D ≠ 1，检查配置均为不满足 D > C，故 B 不为第3。 若 B 为第2，A 必须 高于 B，且 A ≠ 第2，故 A 必为第1。D 不可能第1，已确定 A 占第1。D > C，D 只能第3或第4。若 D 为第4，C 必须位于第2与第3之间，位置冲突，故 D 为第3，C 为第4，位置无冲突。 一切条件均已验证成立：A(1) > B(2) ✓；B(2) ≠ 最后 ✓；A(1) ≠ 2 ✓；D(3) ≠ 1

Gemma-4-31B-it

Gemma 的推理很顺，一步一步把约束收紧，最后得到结论。

排名结果：A > D > B > C 推理过程： 根据 A > B 且 B 不是最后一名，B 最低是第三，A 最高是第一。 根据 D > C 且 D 不是第一，D 最低是第二，C 最低是第三。 A 不是第二，且必须高于 B，若 A 是第一，则满足条件。 此时剩余 D、B、C。因 D > C 且 D 不能是第一，D 只能是第二。 剩余 B 和 C，因 B 不是最后一名，B 只能是第三，C 为第四。 验证：A(1) > B(3) [√]；D(2) > C(4) [√]；B(3)非最后 [√]；D(2)非第一 [√]；A(1)非第二 [√]。

Qwen3.6-35B-A3B

Qwen3.6 最值得注意。

它没有只给一个结果，而是把可能分支展开：

如果 B 是第二，会怎样？

如果 B 是第三，会怎样？

然后再逐一验证条件。

这是一种更“工程化”的思维。

排名结果：第一名 A，第二名 D，第三名 B，第四名 C。 推理过程： 由条件3，B 不是第四；由条件4，D 不是第一；由条件5，A 不是第二。 由条件1（A 比 B 名次高），且 B 至少是第二名，A 只能是第一名（若 A 是第三或更差，B 只能第四，与条件3矛盾）。 此时剩余名次{2, 3, 4}分配给 B、C、D。由条件2（D 比 C 名次高），D 的排名数字小于 C。 B 可以是2或3。若 B=2，则剩余{3,4}，由 D<C 得 D=3、C=4；若 B=3，则剩余{2,4}，由 D<C 得 D=2、C=4。 验证第一种情况 A=1, D=2, B=3, C=4：A>B：1<3 ✓；D>C：2<4 ✓；B非末：3≠4 ✓；D非冠：2≠1 ✓；A非二：1≠2 ✓，符合所有条件。

真实工作里，很多问题不是简单猜一个答案，而是要系统排除错误路径。

尤其在代码、Agent、自动化流程、复杂任务规划中，模型是否能枚举分支、验证约束，非常关键。

这也是我对 Qwen3.6 印象最深的地方：

它不像是在“答题”，更像是在“做任务”。

本轮结论：

三者都答对了，但 Qwen3.6 的推理颗粒度更细。

Gemma 稳，Qwen 更系统。

6.第五关：写快速排序，区别不在“会不会写代码”

接下来进入代码生成。

我让三款模型用 Python 实现快速排序，要求：

测试要求：Python 实现快速排序，不使用第三方库，含测试样例及复杂度分析。

这个任务本身不算难。

真正要看的不是模型会不会写 quick sort，而是它有没有基本的工程习惯。

🤖 各模型完整回答

GLM-4.7-Flash

GLM直接将代码文件写好了，

并且有简单的测试用例，及复杂度分析

Gemma-4-31B-it

Gemma 给出的代码很简洁。

核心逻辑没问题，用 pivot 分成 left、middle、right，再递归拼接。

适合快速原型。

defquick_sort(arr):iflen(arr)<=1:returnarr pivot=arr[len(arr)//2]left=[xforxinarrifx<pivot]middle=[xforxinarrifx==pivot]right=[xforxinarrifx>pivot]returnquick_sort(left)+middle+quick_sort(right)# 测试样例test_arr=[3,6,8,10,1,2,1]print(f"原数组:{test_arr}-> 排序后:{quick_sort(test_arr)}")# 时间复杂度：平均 O(nlogn)，最坏 O(n²)。# 空间复杂度：O(n)

Qwen3.6-35B-A3B：

Qwen3.6 的版本则更完整。

它不仅写了排序函数，还加入了：

if name == "main"入口；

固定测试样例；

随机测试样例；

平均、最坏时间复杂度说明；

递归栈和临时数组的空间复杂度解释。

defquick_sort(arr):iflen(arr)<=1:returnarr pivot=arr[len(arr)//2]left=[xforxinarrifx<pivot]mid=[xforxinarrifx==pivot]right=[xforxinarrifx>pivot]returnquick_sort(left)+mid+quick_sort(right)# 测试样例if __name__ == "__main__":importrandom test=[3,6,8,10,1,2,1,34,-1,55]print(f"排序前:{test}")print(f"排序后:{quick_sort(test)}")random.seed(42)large=[random.randint(-100,100)for_inrange(20)]print(f"随机数据:{large}")print(f"排序结果:{quick_sort(large)}")# 时间复杂度:# 平均: O(n log n) — 每次分区大致均衡，递归树高 log n，每层扫描 n 个元素。# 最坏: O(n²) — 每次pivot都选到最大或最小值（如已排序数组取首/尾作pivot）。# 空间复杂度:# 平均: O(log n) — 递归栈深度为 log n，加上 List Comprehension 产生的临时列表。# 最坏: O(n) — 递归栈深度退化为 n。

本轮结论：

Gemma 适合快速写原型。

Qwen3.6 更有工程交付意识。

GLM 的代码生成能力可以完成基础任务，但整体深度不如 Qwen。

7.第六关：Web 全栈任务，胜负彻底拉开

最后一关，我给了一个更接近真实工作的任务：

做一个最简单的日志分析 Web 系统。

Gemma-4-31B-it：

Gemma 没有一次性给出完整运行说明，后续补问之后，运行还出现了 bug 和乱码问题。

Qwen3.6-35B-A3B：

它使用 FastAPI 后端，配合原生 HTML 和 JS 前端，覆盖了文本输入、日志分析和本地文件上传，页面也能正常展示分析结果：

这一关之后，差距就不只是“谁答得更好”了。

而是：

谁真的能把一个任务从需求做到可运行。

很多模型可以写一个接口。

也有很多模型可以写一个页面。

但能不能把接口、页面、输入输出、运行方式串起来，就是另一回事了。

Qwen3.6 在这一关体现出的能力，已经明显更接近工程助手。

8.速度测试：Qwen 快，不是玄学，是 MoE 架构红利

除了能力测试，我也记录了三款模型的推理速度。

结果如下：

这个结果里，最值得分析的不是 GLM 快，而是：

Qwen3.6-35B-A3B 为什么也这么快？

答案在它的名字里。

Qwen3.6-35B-A3B 里的35B，指的是模型的总参数规模；而A3B，通常可以理解为每次推理时大约只激活3B 级别参数。

也就是说，它不是一个每次都把 35B 参数全部跑一遍的稠密模型，而是一个 MoE，也就是混合专家模型。

MoE 的核心思路可以简单理解为：

模型内部有很多“专家”，但每次回答问题时，并不会所有专家一起上场，而是只挑出一部分最相关的专家参与计算。

这就带来了一个非常关键的好处：

模型可以拥有更大的总容量，但单次推理成本却更接近小模型。

所以，Qwen3.6-35B-A3B 能跑到56.3 Tokens/s，并不是偶然。

它的速度优势，来自稀疏激活架构。

它更像是用 35B 的总容量做知识和能力储备，但每次实际干活时，只调用其中一小部分专家。

相比之下，Gemma-4-31B-it 更接近传统稠密模型的使用体验。

它的逻辑稳定性很好，但速度只有23.3 Tokens/s，大约是 Qwen 和 GLM 的 40% 左右。

这也解释了为什么 Gemma 给人的感觉是：

稳，但不快。

GLM-4.7-Flash 则符合它名字里的 Flash 定位。

它的速度达到55.4 Tokens/s，确实很快。

但问题是，在前面的逻辑推理测试里，它出现了比较明显的状态跟踪错误。

所以它的画像更像是：

响应快，但复杂任务不够稳。

而 Qwen3.6-35B-A3B 的优势在于：

它不是单纯快，而是在接近 GLM 的速度下，保留了更强的推理、代码和任务闭环能力。

这才是这组速度数据真正值得看的地方。

测评随感

这次测完之后，我最大的感受是：

大模型已经进入了一个新阶段。

过去我们看模型，喜欢问：

参数有多大？

榜单排第几？

上下文有多长？

回答像不像人？

但真正用起来之后，你会发现这些都只是表层指标。

真正决定一个模型能不能进入生产场景的，是另外几个问题：

它能不能遵守复杂约束？

它能不能持续维护状态？

它能不能发现自己前后矛盾？

它能不能把代码写到可运行？

它能不能补上测试样例？

它能不能把前端、后端、接口、运行说明串成闭环？

这些问题，才是大模型从“玩具”走向“工具”的分水岭。

所以，如果只看这次测试，我会这样选：

如果你要的是逻辑分析和稳健推理，Gemma 值得信任。

它像一个慢一点但认真做题的学霸。

如果你要的是高频文本处理、摘要、轻量问答，GLM 有速度优势。

它适合快进快出，但不适合直接托付复杂推理任务。

如果你要的是编程助手、Agent、自动化流程、私有化工程助手，我会优先选 Qwen3.6-35B-A3B。

因为它最重要的优势不是“某一题答得好”，而是它更像一个能把任务做完的系统组件。

尤其是 Qwen3.6-35B-A3B 这个名字里的A3B很关键。

35B 是总参数规模，但每次推理大约只激活 3B 级别参数。

所以最后的结论不是简单的“谁赢了”。

而是：

Gemma 稳，但慢。

GLM 快，但浅。

Qwen3.6 靠 MoE 架构，做到了又快又能把事做完。

在我看来，这可能就是下一阶段大模型竞争的核心方向：

不是谁参数更大，而是谁能用更聪明的架构，把能力、速度和成本同时平衡好。

能聊天，已经不稀奇了。

能写代码，也不稀奇了。

真正稀缺的是：

能理解需求，拆解任务，写出代码，补上测试，跑通流程，最后完成交付。

一句话：

未来的大模型，不是比谁更会说，而是比谁更能干活。

如果你也在选私有化模型、编程助手或者 Agent 底座，这个结论可能值得参考：

别只看参数量，也别只看跑分。

一定要看它能不能把真实任务闭环。

同样是 30B 级大模型：为啥的能写全栈，有的连狼羊菜都翻车

1.先说结论：三款模型不是一个性格

2.第一关：强约束写作，三者都过了

🤖 各模型完整回答

GLM-4.7-Flash

Gemma-4-31B-it

Qwen3.6-35B-A3B

3.第二关：狼羊菜过河，差距开始出现

🟢 GLM-4.7-Flash

🔵 Gemma-4-31B-it

🔴 Qwen3.6-35B-A3B

4.第三关：真假话推理，GLM 再次掉队

各模型结论：

5.第四关：多条件赛跑，真正比的是“推理方式”

🤖 各模型完整回答

GLM-4.7-Flash

Gemma-4-31B-it

Qwen3.6-35B-A3B

6.第五关：写快速排序，区别不在“会不会写代码”

🤖 各模型完整回答

GLM-4.7-Flash

Gemma-4-31B-it

Qwen3.6-35B-A3B：

7.第六关：Web 全栈任务，胜负彻底拉开

Gemma-4-31B-it：

Qwen3.6-35B-A3B：

8.速度测试：Qwen 快，不是玄学，是 MoE 架构红利

测评随感

B站Index-1.9B：轻量级文本嵌入模型原理、部署与RAG实战

Android AI聚合聊天应用RikkaHub：原生开发与架构设计全解析

Missy：构建安全可控的本地AI助手平台，从零部署到高级应用

在瑞芯微RK3588上集成YOLOv8检测与分割模型：一个C++工程的完整CMakeLists配置与避坑指南

B站视频下载终极指南：3步解锁大会员4K高清资源

中兴光猫工厂模式终极解锁指南：5分钟获取最高权限