news 2026/5/2 1:37:24

同样是 30B 级大模型:为啥的能写全栈,有的连狼羊菜都翻车

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
同样是 30B 级大模型:为啥的能写全栈,有的连狼羊菜都翻车

前言:最近我发现一个很有意思的现象:现在很多大模型,已经不是“会不会回答”的差距,而是“能不能把活干完”的差距。有的模型回复很快,看起来很聪明,但一到经典逻辑题,第一步就翻车。有的模型推理很稳,但速度慢到更像一个“不紧不慢的学霸”。还有的模型,一边保持接近Flash 级别的速度,一边能把代码、测试、前端、后端和运行说明串成一个完整闭环。

所以我做了一次很直接的实测。

这次不看榜单,不聊玄学,也不只看参数量。

我拿三款 30B 级别的开源大模型做了一轮“贴身肉搏”:

GLM-4.7-Flash、Gemma-4-31B-it、Qwen3.6-35B-A3B。

测试也不搞花活,直接上真实任务,我想看的只有一个问题:

谁是真正能干活的 AI?

1.先说结论:三款模型不是一个性格

为了让大家先有一个整体印象,我先把结论放在前面。

模型架构/特点最明显优点最明显短板速度表现我的定位
Qwen3.6-35B-A3BMoE,约 3B 激活参数推理稳、代码强、能闭环回答有时偏长56.3 Tokens/s全能工程型选手
GLM-4.7-FlashFlash 定位,响应快速度快、格式跟随不错复杂逻辑容易翻车55.4 Tokens/s轻量任务型选手
Gemma-4-31B-it31B 级稠密模型体验逻辑稳定、表达克制工程闭环稍弱、速度偏慢23.3 Tokens/s稳健逻辑型选手

如果只用一句话总结:

Qwen3.6 最像生产力工具,Gemma 最像可靠分析师,GLM 最像速度型实习生。

接下来我们一关一关看。

2.第一关:强约束写作,三者都过了

第一道题,我没有问开放问题,而是给了一个带有严格限制的指令。

要求模型回答“为什么数据很重要”,但必须满足几个条件:

只能输出 3 段; 每段不超过 40 字; 不要出现“数据质量”这四个字; 语气要正式。

这类题看起来简单,其实很考验模型的指令跟随能力

因为它不仅要回答问题,还要同时遵守格式、字数、禁用词和语气。

🤖 各模型完整回答

GLM-4.7-Flash
准确可靠的信息是企业决策之基。 高质量的情报能显著提升判断准确度。 不纯净的信息可能导致严重误判风险。
Gemma-4-31B-it
精准的信息是决策的基础。若源头存在偏差,将导致结论错误,增加管理风险。 高质量的输入能提升分析效能。确保结果可靠,从而优化资源配置,提高运营效率。 它是构建信任的关键。可靠的指标能增强团队共识,为战略执行提供坚实支撑。
Qwen3.6-35B-A3B
准确的信息是企业做出正确决策的基础,错误内容会导致严重判断偏差。 完整可靠的数据能确保业务流程顺畅运行,提升整体运营效率。 长期积累可信数据可支持战略规划,为机构带来持续竞争优势。

结果是:

三款模型都通过了。

但风格差异很明显。

GLM 的回答非常短,属于“安全过线”型。它没有犯错,但信息密度偏低,有点像考试时只求不扣分。

Gemma 的表现更成熟,会从决策、效率、信任几个角度展开,读起来更自然。

Qwen3.6 的文字最像商务场景里的正式表达,干练、稳定,也比较像专业报告中的表述。

本轮结论:

在基础指令跟随上,三者都能胜任。

但如果看表达质量:

Qwen 和 Gemma 更像成熟写作者,GLM 更像谨慎应答者。

3.第二关:狼羊菜过河,差距开始出现

真正的分水岭,是经典的“狼、羊、菜过河”问题。

题目大家应该都熟:

测试问题:一个人要把一只狼、一只羊和一筐菜运到河对岸。船每次只能载他和一样东西。如果狼和羊单独在一起,狼会吃羊;如果羊和菜单独在一起,羊会吃菜。请说明步骤。

这题的正确第一步,应该是:

先把羊带过河。

因为原岸剩下狼和菜,狼不会吃菜,所以安全。

🟢 GLM-4.7-Flash

但 GLM 第一上来就说:

先带狼过河。

这一步直接出问题。

因为狼一走,原岸只剩下羊和菜,羊会把菜吃掉。

也就是说,GLM 不是表达不清,而是在第一步就没有维护住题目的状态约束。

这类错误非常典型。

很多模型看起来在“推理”,但实际上只是把一些似曾相识的步骤拼在一起。

一旦状态变化稍微复杂,它就容易断链。

狼羊菜过河安全方案 第一步:带狼过河 原因:狼不会吃菜,先运狼确保对岸安全。 第二步:人独自返回 原因:把对岸安全释放“船夫”,便于后续循环使用。 第三步:带羊过河 原因:对岸已有狼,羊安全;这边留菜也不用担心。 第四步:人把羊带回来,装狼过河 原因:不能单独留下菜与羊(羊吃菜),必须先消解冲突隐患。 第五步:在对岸放下狼,带菜过河 原因:对岸狼在,菜安全;需返回把“本该留下的羊”送过河。 第六步:人独自返回 原因:避免独自身处险境时无计划。 第七步:带羊安全过河 原因:对岸已无威胁,羊至此真正安全。 关键:利用船夫的天性避免内部消耗,实现整体资产安全。
🔵 Gemma-4-31B-it

相比之下,Gemma 给出了标准解法:

1. 运羊过河:狼和菜在一起是安全的。 2. 空船返回:准备运送下一件物品。 3. 运狼过河:将狼送到对岸。 4. 带羊返回:防止狼吃羊,将羊接回原岸。 5. 运菜过河:将菜送到对岸,狼和菜在一起是安全的。 6. 空船返回:最后一次返回接羊。 7. 运羊过河:全部安全抵达对岸。
🔴 Qwen3.6-35B-A3B

Qwen3.6 也给出了正确步骤,而且它还指出了关键点:

不能让狼和羊单独待在一起,也不能让羊和菜单独待在一起。

第一步:带羊过河,留下狼和菜。 原因:狼不吃菜,它们单独在一起是安全的。 第二步:独自返回,带狼过河。 原因:如果带菜,回来时狼会吃羊;带狼则羊独自在对岸等待。 第三步:到对岸后,把狼放下,把羊带回来。 原因:这是最关键的一步。不能留羊和狼在一起,所以把羊带回。 第四步:放下羊,带菜过河。 原因:狼和菜单独在一起,狼不吃菜,安全。 第五步:独自返回,带羊过河。 原因:此时狼和菜已在对岸,羊独自在此岸,全部安全到达。

本轮结论:

GLM 在经典逻辑题上翻车。

Gemma 稳定给出标准答案。

Qwen3.6 不仅答对,还能解释关键矛盾点。

这时候,三者的差距已经开始拉开。

4.第三关:真假话推理,GLM 再次掉队

接下来是三人真假话问题。

题目大意是:

甲说:乙说假话。

乙说:丙说假话。

丙说:甲和乙都说假话。

已知只有一个人说真话,问谁说真话?

各模型结论:
  • GLM-4.7-Flash:说是丙真(❌ 错误)。
  • Gemma-4-31B-it:说是乙真(✅ 正确)。
  • Qwen3.6-35B-A3B:说是乙真(✅ 正确),并给出了详尽的假设排查逻辑。

本轮结论:

如果任务涉及严谨推理,GLM 需要谨慎使用。

Gemma 和 Qwen3.6 的稳定性明显更好。

5.第四关:多条件赛跑,真正比的是“推理方式”

然后我给了一个多条件排名题。

A、B、C、D 四个人赛跑,给出五个条件:

测试问题:A、B、C、D 四人赛跑:1. A > B;2. C < D;3. B 非最后;4. D 非第一;5. A 非第二。

要求推导最终排名。

这一题有意思的地方在于:

三款模型都给出了正确结果。

但它们的推理方式不同。

🤖 各模型完整回答

GLM-4.7-Flash

GLM 的答案是对的,但推理过程有些绕。

最终排名:A 第1、B 第2、D 第3、C 第4 逐步推理过程: A 高于 B,故 B 不可能是第1且不能第4,B 只能第2或第3。 若 B 为第3,则 A 只能是第1或第2。A 不能 第2,故 A 必为第1。此时 D 位于 A 后,因 D > C 且 D ≠ 1,检查配置均为不满足 D > C,故 B 不为第3。 若 B 为第2,A 必须 高于 B,且 A ≠ 第2,故 A 必为第1。D 不可能第1,已确定 A 占第1。D > C,D 只能第3或第4。若 D 为第4,C 必须位于第2与第3之间,位置冲突,故 D 为第3,C 为第4,位置无冲突。 一切条件均已验证成立:A(1) > B(2) ✓;B(2) ≠ 最后 ✓;A(1) ≠ 2 ✓;D(3) ≠ 1
Gemma-4-31B-it

Gemma 的推理很顺,一步一步把约束收紧,最后得到结论。

排名结果:A > D > B > C 推理过程: 根据 A > B 且 B 不是最后一名,B 最低是第三,A 最高是第一。 根据 D > C 且 D 不是第一,D 最低是第二,C 最低是第三。 A 不是第二,且必须高于 B,若 A 是第一,则满足条件。 此时剩余 D、B、C。因 D > C 且 D 不能是第一,D 只能是第二。 剩余 B 和 C,因 B 不是最后一名,B 只能是第三,C 为第四。 验证:A(1) > B(3) [√];D(2) > C(4) [√];B(3)非最后 [√];D(2)非第一 [√];A(1)非第二 [√]。
Qwen3.6-35B-A3B

Qwen3.6 最值得注意。

它没有只给一个结果,而是把可能分支展开:

如果 B 是第二,会怎样?

如果 B 是第三,会怎样?

然后再逐一验证条件。

这是一种更“工程化”的思维。

排名结果:第一名 A,第二名 D,第三名 B,第四名 C。 推理过程: 由条件3,B 不是第四;由条件4,D 不是第一;由条件5,A 不是第二。 由条件1(A 比 B 名次高),且 B 至少是第二名,A 只能是第一名(若 A 是第三或更差,B 只能第四,与条件3矛盾)。 此时剩余名次{2, 3, 4}分配给 B、C、D。由条件2(D 比 C 名次高),D 的排名数字小于 C。 B 可以是2或3。若 B=2,则剩余{3,4},由 D<C 得 D=3、C=4;若 B=3,则剩余{2,4},由 D<C 得 D=2、C=4。 验证第一种情况 A=1, D=2, B=3, C=4:A>B:1<3 ✓;D>C:2<4 ✓;B非末:3≠4 ✓;D非冠:2≠1 ✓;A非二:1≠2 ✓,符合所有条件。

真实工作里,很多问题不是简单猜一个答案,而是要系统排除错误路径。

尤其在代码、Agent、自动化流程、复杂任务规划中,模型是否能枚举分支、验证约束,非常关键。

这也是我对 Qwen3.6 印象最深的地方:

它不像是在“答题”,更像是在“做任务”。

本轮结论:

三者都答对了,但 Qwen3.6 的推理颗粒度更细。

Gemma 稳,Qwen 更系统。

6.第五关:写快速排序,区别不在“会不会写代码”

接下来进入代码生成。

我让三款模型用 Python 实现快速排序,要求:

测试要求:Python 实现快速排序,不使用第三方库,含测试样例及复杂度分析。

这个任务本身不算难。

真正要看的不是模型会不会写 quick sort,而是它有没有基本的工程习惯。

🤖 各模型完整回答

GLM-4.7-Flash

GLM直接将代码文件写好了,

并且有简单的测试用例,及复杂度分析

Gemma-4-31B-it

Gemma 给出的代码很简洁。

核心逻辑没问题,用 pivot 分成 left、middle、right,再递归拼接。

适合快速原型。

defquick_sort(arr):iflen(arr)<=1:returnarr pivot=arr[len(arr)//2]left=[xforxinarrifx<pivot]middle=[xforxinarrifx==pivot]right=[xforxinarrifx>pivot]returnquick_sort(left)+middle+quick_sort(right)# 测试样例test_arr=[3,6,8,10,1,2,1]print(f"原数组:{test_arr}-> 排序后:{quick_sort(test_arr)}")# 时间复杂度:平均 O(nlogn),最坏 O(n²)。# 空间复杂度:O(n)
Qwen3.6-35B-A3B:

Qwen3.6 的版本则更完整。

它不仅写了排序函数,还加入了:

if name == "main"入口;

固定测试样例;

随机测试样例;

平均、最坏时间复杂度说明;

递归栈和临时数组的空间复杂度解释。

defquick_sort(arr):iflen(arr)<=1:returnarr pivot=arr[len(arr)//2]left=[xforxinarrifx<pivot]mid=[xforxinarrifx==pivot]right=[xforxinarrifx>pivot]returnquick_sort(left)+mid+quick_sort(right)# 测试样例if __name__ == "__main__":importrandom test=[3,6,8,10,1,2,1,34,-1,55]print(f"排序前:{test}")print(f"排序后:{quick_sort(test)}")random.seed(42)large=[random.randint(-100,100)for_inrange(20)]print(f"随机数据:{large}")print(f"排序结果:{quick_sort(large)}")# 时间复杂度:# 平均: O(n log n) — 每次分区大致均衡,递归树高 log n,每层扫描 n 个元素。# 最坏: O(n²) — 每次pivot都选到最大或最小值(如已排序数组取首/尾作pivot)。# 空间复杂度:# 平均: O(log n) — 递归栈深度为 log n,加上 List Comprehension 产生的临时列表。# 最坏: O(n) — 递归栈深度退化为 n。

本轮结论:

Gemma 适合快速写原型。

Qwen3.6 更有工程交付意识。

GLM 的代码生成能力可以完成基础任务,但整体深度不如 Qwen。

7.第六关:Web 全栈任务,胜负彻底拉开

最后一关,我给了一个更接近真实工作的任务:

做一个最简单的日志分析 Web 系统。

Gemma-4-31B-it:

Gemma 没有一次性给出完整运行说明,后续补问之后,运行还出现了 bug 和乱码问题。

Qwen3.6-35B-A3B:

它使用 FastAPI 后端,配合原生 HTML 和 JS 前端,覆盖了文本输入、日志分析和本地文件上传,页面也能正常展示分析结果:

这一关之后,差距就不只是“谁答得更好”了。

而是:

谁真的能把一个任务从需求做到可运行。

很多模型可以写一个接口。

也有很多模型可以写一个页面。

但能不能把接口、页面、输入输出、运行方式串起来,就是另一回事了。

Qwen3.6 在这一关体现出的能力,已经明显更接近工程助手。

8.速度测试:Qwen 快,不是玄学,是 MoE 架构红利

除了能力测试,我也记录了三款模型的推理速度。

结果如下:

这个结果里,最值得分析的不是 GLM 快,而是:

Qwen3.6-35B-A3B 为什么也这么快?

答案在它的名字里。

Qwen3.6-35B-A3B 里的35B,指的是模型的总参数规模;而A3B,通常可以理解为每次推理时大约只激活3B 级别参数

也就是说,它不是一个每次都把 35B 参数全部跑一遍的稠密模型,而是一个 MoE,也就是混合专家模型。

MoE 的核心思路可以简单理解为:

模型内部有很多“专家”,但每次回答问题时,并不会所有专家一起上场,而是只挑出一部分最相关的专家参与计算。

这就带来了一个非常关键的好处:

模型可以拥有更大的总容量,但单次推理成本却更接近小模型。

所以,Qwen3.6-35B-A3B 能跑到56.3 Tokens/s,并不是偶然。

它的速度优势,来自稀疏激活架构。

它更像是用 35B 的总容量做知识和能力储备,但每次实际干活时,只调用其中一小部分专家。

相比之下,Gemma-4-31B-it 更接近传统稠密模型的使用体验。

它的逻辑稳定性很好,但速度只有23.3 Tokens/s,大约是 Qwen 和 GLM 的 40% 左右。

这也解释了为什么 Gemma 给人的感觉是:

稳,但不快。

GLM-4.7-Flash 则符合它名字里的 Flash 定位。

它的速度达到55.4 Tokens/s,确实很快。

但问题是,在前面的逻辑推理测试里,它出现了比较明显的状态跟踪错误。

所以它的画像更像是:

响应快,但复杂任务不够稳。

而 Qwen3.6-35B-A3B 的优势在于:

它不是单纯快,而是在接近 GLM 的速度下,保留了更强的推理、代码和任务闭环能力。

这才是这组速度数据真正值得看的地方。

测评随感

这次测完之后,我最大的感受是:

大模型已经进入了一个新阶段。

过去我们看模型,喜欢问:

参数有多大?

榜单排第几?

上下文有多长?

回答像不像人?

但真正用起来之后,你会发现这些都只是表层指标。

真正决定一个模型能不能进入生产场景的,是另外几个问题:

它能不能遵守复杂约束?

它能不能持续维护状态?

它能不能发现自己前后矛盾?

它能不能把代码写到可运行?

它能不能补上测试样例?

它能不能把前端、后端、接口、运行说明串成闭环?

这些问题,才是大模型从“玩具”走向“工具”的分水岭。

所以,如果只看这次测试,我会这样选:

如果你要的是逻辑分析和稳健推理,Gemma 值得信任。

它像一个慢一点但认真做题的学霸。

如果你要的是高频文本处理、摘要、轻量问答,GLM 有速度优势。

它适合快进快出,但不适合直接托付复杂推理任务。

如果你要的是编程助手、Agent、自动化流程、私有化工程助手,我会优先选 Qwen3.6-35B-A3B。

因为它最重要的优势不是“某一题答得好”,而是它更像一个能把任务做完的系统组件。

尤其是 Qwen3.6-35B-A3B 这个名字里的A3B很关键。

35B 是总参数规模,但每次推理大约只激活 3B 级别参数。

所以最后的结论不是简单的“谁赢了”。

而是:

Gemma 稳,但慢。

GLM 快,但浅。

Qwen3.6 靠 MoE 架构,做到了又快又能把事做完。

在我看来,这可能就是下一阶段大模型竞争的核心方向:

不是谁参数更大,而是谁能用更聪明的架构,把能力、速度和成本同时平衡好。

能聊天,已经不稀奇了。

能写代码,也不稀奇了。

真正稀缺的是:

能理解需求,拆解任务,写出代码,补上测试,跑通流程,最后完成交付。

一句话:

未来的大模型,不是比谁更会说,而是比谁更能干活。

如果你也在选私有化模型、编程助手或者 Agent 底座,这个结论可能值得参考:

别只看参数量,也别只看跑分。

一定要看它能不能把真实任务闭环。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/2 1:33:25

B站Index-1.9B:轻量级文本嵌入模型原理、部署与RAG实战

1. 项目概述&#xff1a;一个轻量级但能打的文本嵌入模型最近在折腾RAG&#xff08;检索增强生成&#xff09;和智能问答系统时&#xff0c;我又一次被向量检索的效率和精度问题给卡住了。市面上主流的文本嵌入模型&#xff0c;比如OpenAI的text-embedding-ada-002&#xff0c;…

作者头像 李华
网站建设 2026/5/2 1:24:24

Android AI聚合聊天应用RikkaHub:原生开发与架构设计全解析

1. 项目概述&#xff1a;一个原生Android LLM聚合聊天客户端 如果你和我一样&#xff0c;在手机上同时用着好几个AI助手——比如需要OpenAI的GPT-4o来处理复杂逻辑&#xff0c;用Claude来写长文&#xff0c;用DeepSeek来查代码&#xff0c;偶尔还想试试本地部署的Ollama模型——…

作者头像 李华
网站建设 2026/5/2 1:24:23

Missy:构建安全可控的本地AI助手平台,从零部署到高级应用

1. 项目概述&#xff1a;一个为Linux而生的安全至上的AI助手如果你和我一样&#xff0c;对市面上那些“云优先”、数据去向不明的AI助手感到不安&#xff0c;同时又渴望一个能真正理解你的指令、帮你自动化处理本地任务的智能伙伴&#xff0c;那么你一定会对Missy感兴趣。Missy…

作者头像 李华
网站建设 2026/5/2 1:07:24

B站视频下载终极指南:3步解锁大会员4K高清资源

B站视频下载终极指南&#xff1a;3步解锁大会员4K高清资源 【免费下载链接】bilibili-downloader B站视频下载&#xff0c;支持下载大会员清晰度4K&#xff0c;持续更新中 项目地址: https://gitcode.com/gh_mirrors/bil/bilibili-downloader 你是否遇到过这样的困境&am…

作者头像 李华
网站建设 2026/5/2 1:06:24

中兴光猫工厂模式终极解锁指南:5分钟获取最高权限

中兴光猫工厂模式终极解锁指南&#xff1a;5分钟获取最高权限 【免费下载链接】zteOnu A tool that can open ZTE onu device factory mode 项目地址: https://gitcode.com/gh_mirrors/zt/zteOnu zteOnu是一款专为中兴光猫设计的工厂模式解锁工具&#xff0c;能够帮助用…

作者头像 李华