上周五(4月24日),DeepSeek悄无声息地扔出了两个预览版模型:V4-Pro和V4-Flash。消息传到HN的时候,评论区已经有人在算账了——
"GPT-5.4 Nano输入每M token要
0.14。便宜30%,还带100万token上下文。"
这是我见过最离谱的价格倒挂。
如果你在用任何一款主流大模型做生产开发,这条新闻值得停下来仔细看看。
先说数字
V4-Pro:1.6万亿总参数,激活49B,865GB的HuggingFace权重。V4-Flash:2840亿总参数,激活13B,160GB权重。两者都是MoE(Mixture of Experts)架构,都是100万token上下文,MIT协议开源。
参数规模上,V4-Pro已经是目前开源权重之最——比Kimi K2.6(1.1T)大,比GLM-5.1(754B)大,是上一代V3.2(685B)的两倍多。
但规模不是重点。重点是价格:
模型 | 输入$/M | 输出$/M |
DeepSeek V4 Flash | $0.14 | $0.28 |
GPT-5.4 Nano | $0.20 | $1.25 |
Gemini 3.1 Flash-Lite | $0.25 | $1.50 |
Gemini 3 Flash Preview | $0.50 | $3.00 |
GPT-5.4 Mini | $0.75 | $4.50 |
Claude Haiku 4.5 | $1.00 | $5.00 |
DeepSeek V4 Pro | $1.74 | $3.48 |
Gemini 3.1 Pro | $2.00 | $12.00 |
GPT-5.4 | $2.50 | $15.00 |
Claude Sonnet 4.6 | $3.00 | $15.00 |
Claude Opus 4.7 | $5.00 | $25.00 |
GPT-5.5 | $5.00 | $30.00 |
Flash是所有模型里最便宜的,Pro是旗舰级里最便宜的。这两个放在一起构成了一个很清晰的市场信号:DeepSeek在用价格重新定义什么叫"性价比"。
为什么能这么便宜?
DeepSeek官方论文里有一段数据引起了我的注意:
100万token上下文场景下,V4-Pro只用了V3.2的27%算力,KV cache只有V3.2的10%。Flash更狠——10%算力,7%的KV cache。
这段话翻译一下:别人处理100万token上下文要烧整块GPU的时候,DeepSeek只烧十分之一的力气。不是因为用了更快的硬件,而是架构本身的效率提升。
这背后的关键在于MoE架构的工程优化。MoE不是新技术,但DeepSeek在"如何让专家模型在长上下文场景下更高效地激活"这件事上做了大量工作。100万token是个很重要的场景分界线——超过这个长度,大多数模型要么性能下降,要么成本飙升。DeepSeek V4在这个长度上反而表现出色,这是真正有价值的技术差异点。
Simon Willison在博客里提到,他希望V4-Flash能在他自己的128GB M5 MacBook Pro上跑起来。如果量化版真能本地运行,这又会是一个"消费级硬件跑Frontier模型"的故事。在此之前,这个故事的主角一直是苹果的M系列芯片,现在DeepSeek要把这个故事的门槛再往下拉一截。
HN上真实用户在说什么
比起官方论文里的benchmark,我更关心真实用户在HN上怎么评价这款模型。翻了翻评论,有几个观点值得认真对待:
一个做编译器开发的用户说,他同时在用DeepSeek、Claude、GPT和Kimi处理同一个代码库。DeepSeek的体验是:最便宜的时候表现和贵的模型一样好,遇到极难的问题才切到Claude Opus。他算了算,整个arm64移植项目加后期修复只花了$8的API费用。
这个案例有意思的地方在于:这不是一个简单任务——arm64移植涉及底层调用约定、汇编、跨平台兼容等复杂问题。$8换一次完整的架构移植,放在以前是不可想象的。
另一个用户的反馈更直接:GPT和Claude在处理逆向工程任务时直接拒绝了,还收到了OpenAI的账户警告。DeepSeek没有任何顾虑,直接干活。
这背后其实反映了一个很现实的问题:各家的"安全政策"边界不一致,在某些细分场景(逆向工程、固件分析、安全研究)里,有的模型会主动退场,有的不会。对于真正需要这些能力的人来说,"能用"本身就是最大的价值。
HN上还有人提到,DeepSeek在上下文窗口填满之后也会开始"变笨"。他的解法是定期用/clear或者导出对话清理上下文,然后重新开始。这个问题看起来是长上下文模型的普遍限制,不是DeepSeek特有的。
落后3-6个月,这还重要吗?
DeepSeek自己在论文里写了一段很老实的话:通过扩展推理token,V4-Pro-Max在标准推理benchmark上超越了GPT-5.2和Gemini-3.0-Pro,但距离GPT-5.4和Gemini-3.1-Pro还有3-6个月的差距。
3-6个月。这个差距是真实的。
但问题是:当价格差距大到这个程度(Flash比GPT-5.4 Nano便宜30%,Pro比Claude Sonnet 4.6便宜42%),"差3-6个月"在什么场景下还重要?
对于通用对话、文档处理、代码补全这些日常场景,这个差距大多数时候不会有感知。对于需要最强推理能力的复杂任务,这个差距才值得认真对待。但这个场景本身就是少数。
换个角度想:3-6个月后,DeepSeek又会发布什么?如果它保持每3-6个月发一次新版本,价格还不变,那追赶的速度其实很快。
我的判断
DeepSeek这套打法已经不是第一次了。从V1到V3.2,每次都是"我性能差一点点,但我便宜10倍"。
这次的核心变化是:Flash的价格已经低到让"试一把"的门槛几乎为零。
0.14,一杯奶茶的价格够处理大约700万token的输入。如果你现在在用GPT-5.4 Nano或者Gemini 3.1 Flash-Lite做生产开发,换成DeepSeek V4 Flash的成本节省是实实在在的。
但有几个注意事项:
第一,DeepSeek的合规性一直是问号。模型权重开源,理论上任何人都可以部署,包括在中国境外。这对某些企业可能是优势,对某些企业可能是合规风险。如果你所在的公司对数据出境有要求,用DeepSeek API之前建议先搞清楚数据流向。
第二,性能差距虽然缩小了,但在复杂推理任务上依然是真实的。代码审核、数学证明、多步骤规划这类任务,DeepSeek可能还需要继续追赶。如果你做的是高复杂度任务,单纯因为便宜就切换可能得不偿失。
第三,开源权重意味着Unsloth这些量化团队会很快跟进。如果量化后的V4-Flash真能在消费级GPU上跑起来,那这又会是一次"硬件门槛革命"。这个故事值得继续关注。
行动建议
- 正在用GPT-5.4 Nano/Gemini Flash-Lite的开发者:立刻测一下V4 Flash的指令遵循和你的实际任务匹配度,如果够用,果断切换,省下的都是净利润
- 预算有限的独立开发者:DeepSeek V4就是目前性价比最优解,没有之一。Pro和Flash怎么选看你对性能的要求
- 企业用户:先测,再评估合规风险,不要因为便宜就盲目上
- 关注本地部署的人:盯一下Unsloth的量化版本,这是决定V4能不能在M系列Mac上跑起来的关键