【卷卷观察】DeepSeek V4：$0.14/M Token，OpenAI最便宜的模型也比它贵30%-编程实验室

上周五（4月24日），DeepSeek悄无声息地扔出了两个预览版模型：V4-Pro和V4-Flash。消息传到HN的时候，评论区已经有人在算账了——

"GPT-5.4 Nano输入每M token要

0.14。便宜30%，还带100万token上下文。"

这是我见过最离谱的价格倒挂。

如果你在用任何一款主流大模型做生产开发，这条新闻值得停下来仔细看看。

先说数字

V4-Pro：1.6万亿总参数，激活49B，865GB的HuggingFace权重。V4-Flash：2840亿总参数，激活13B，160GB权重。两者都是MoE（Mixture of Experts）架构，都是100万token上下文，MIT协议开源。

参数规模上，V4-Pro已经是目前开源权重之最——比Kimi K2.6（1.1T）大，比GLM-5.1（754B）大，是上一代V3.2（685B）的两倍多。

但规模不是重点。重点是价格：

模型	输入$/M	输出$/M
DeepSeek V4 Flash	$0.14	$0.28
GPT-5.4 Nano	$0.20	$1.25
Gemini 3.1 Flash-Lite	$0.25	$1.50
Gemini 3 Flash Preview	$0.50	$3.00
GPT-5.4 Mini	$0.75	$4.50
Claude Haiku 4.5	$1.00	$5.00
DeepSeek V4 Pro	$1.74	$3.48
Gemini 3.1 Pro	$2.00	$12.00
GPT-5.4	$2.50	$15.00
Claude Sonnet 4.6	$3.00	$15.00
Claude Opus 4.7	$5.00	$25.00
GPT-5.5	$5.00	$30.00

Flash是所有模型里最便宜的，Pro是旗舰级里最便宜的。这两个放在一起构成了一个很清晰的市场信号：DeepSeek在用价格重新定义什么叫"性价比"。

为什么能这么便宜？

DeepSeek官方论文里有一段数据引起了我的注意：

100万token上下文场景下，V4-Pro只用了V3.2的27%算力，KV cache只有V3.2的10%。Flash更狠——10%算力，7%的KV cache。

这段话翻译一下：别人处理100万token上下文要烧整块GPU的时候，DeepSeek只烧十分之一的力气。不是因为用了更快的硬件，而是架构本身的效率提升。

这背后的关键在于MoE架构的工程优化。MoE不是新技术，但DeepSeek在"如何让专家模型在长上下文场景下更高效地激活"这件事上做了大量工作。100万token是个很重要的场景分界线——超过这个长度，大多数模型要么性能下降，要么成本飙升。DeepSeek V4在这个长度上反而表现出色，这是真正有价值的技术差异点。

Simon Willison在博客里提到，他希望V4-Flash能在他自己的128GB M5 MacBook Pro上跑起来。如果量化版真能本地运行，这又会是一个"消费级硬件跑Frontier模型"的故事。在此之前，这个故事的主角一直是苹果的M系列芯片，现在DeepSeek要把这个故事的门槛再往下拉一截。

HN上真实用户在说什么

比起官方论文里的benchmark，我更关心真实用户在HN上怎么评价这款模型。翻了翻评论，有几个观点值得认真对待：

一个做编译器开发的用户说，他同时在用DeepSeek、Claude、GPT和Kimi处理同一个代码库。DeepSeek的体验是：最便宜的时候表现和贵的模型一样好，遇到极难的问题才切到Claude Opus。他算了算，整个arm64移植项目加后期修复只花了$8的API费用。

这个案例有意思的地方在于：这不是一个简单任务——arm64移植涉及底层调用约定、汇编、跨平台兼容等复杂问题。$8换一次完整的架构移植，放在以前是不可想象的。

另一个用户的反馈更直接：GPT和Claude在处理逆向工程任务时直接拒绝了，还收到了OpenAI的账户警告。DeepSeek没有任何顾虑，直接干活。

这背后其实反映了一个很现实的问题：各家的"安全政策"边界不一致，在某些细分场景（逆向工程、固件分析、安全研究）里，有的模型会主动退场，有的不会。对于真正需要这些能力的人来说，"能用"本身就是最大的价值。

HN上还有人提到，DeepSeek在上下文窗口填满之后也会开始"变笨"。他的解法是定期用/clear或者导出对话清理上下文，然后重新开始。这个问题看起来是长上下文模型的普遍限制，不是DeepSeek特有的。

落后3-6个月，这还重要吗？

DeepSeek自己在论文里写了一段很老实的话：通过扩展推理token，V4-Pro-Max在标准推理benchmark上超越了GPT-5.2和Gemini-3.0-Pro，但距离GPT-5.4和Gemini-3.1-Pro还有3-6个月的差距。

3-6个月。这个差距是真实的。

但问题是：当价格差距大到这个程度（Flash比GPT-5.4 Nano便宜30%，Pro比Claude Sonnet 4.6便宜42%），"差3-6个月"在什么场景下还重要？

对于通用对话、文档处理、代码补全这些日常场景，这个差距大多数时候不会有感知。对于需要最强推理能力的复杂任务，这个差距才值得认真对待。但这个场景本身就是少数。

换个角度想：3-6个月后，DeepSeek又会发布什么？如果它保持每3-6个月发一次新版本，价格还不变，那追赶的速度其实很快。

我的判断

DeepSeek这套打法已经不是第一次了。从V1到V3.2，每次都是"我性能差一点点，但我便宜10倍"。

这次的核心变化是：Flash的价格已经低到让"试一把"的门槛几乎为零。

0.14，一杯奶茶的价格够处理大约700万token的输入。如果你现在在用GPT-5.4 Nano或者Gemini 3.1 Flash-Lite做生产开发，换成DeepSeek V4 Flash的成本节省是实实在在的。

但有几个注意事项：

第一，DeepSeek的合规性一直是问号。模型权重开源，理论上任何人都可以部署，包括在中国境外。这对某些企业可能是优势，对某些企业可能是合规风险。如果你所在的公司对数据出境有要求，用DeepSeek API之前建议先搞清楚数据流向。

第二，性能差距虽然缩小了，但在复杂推理任务上依然是真实的。代码审核、数学证明、多步骤规划这类任务，DeepSeek可能还需要继续追赶。如果你做的是高复杂度任务，单纯因为便宜就切换可能得不偿失。

第三，开源权重意味着Unsloth这些量化团队会很快跟进。如果量化后的V4-Flash真能在消费级GPU上跑起来，那这又会是一次"硬件门槛革命"。这个故事值得继续关注。

行动建议

正在用GPT-5.4 Nano/Gemini Flash-Lite的开发者：立刻测一下V4 Flash的指令遵循和你的实际任务匹配度，如果够用，果断切换，省下的都是净利润
预算有限的独立开发者：DeepSeek V4就是目前性价比最优解，没有之一。Pro和Flash怎么选看你对性能的要求
企业用户：先测，再评估合规风险，不要因为便宜就盲目上
关注本地部署的人：盯一下Unsloth的量化版本，这是决定V4能不能在M系列Mac上跑起来的关键

【卷卷观察】DeepSeek V4：$0.14/M Token，OpenAI最便宜的模型也比它贵30%

先说数字

为什么能这么便宜？

HN上真实用户在说什么

落后3-6个月，这还重要吗？

我的判断

行动建议

如何免费解锁英雄联盟全皮肤：R3nzSkin国服特供版终极指南

LangChain4j结构化输出与参数传递

2025最权威的五大降重复率助手实测分析

别再傻傻分不清！SG90和MG90S舵机到底怎么选？从原理到实战，用STM32CubeMX快速上手

2026具身公司开启数字竞速，魔法原子硅谷发布新品，探讨机器人规模化落地难题

构建本地优先AI智能体记忆系统：基于Markdown文件实现持久化上下文管理