news 2026/5/3 12:34:36

【卷卷观察】DeepSeek V4:$0.14/M Token,OpenAI最便宜的模型也比它贵30%

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【卷卷观察】DeepSeek V4:$0.14/M Token,OpenAI最便宜的模型也比它贵30%

上周五(4月24日),DeepSeek悄无声息地扔出了两个预览版模型:V4-Pro和V4-Flash。消息传到HN的时候,评论区已经有人在算账了——

"GPT-5.4 Nano输入每M token要

0.14。便宜30%,还带100万token上下文。"

这是我见过最离谱的价格倒挂。

如果你在用任何一款主流大模型做生产开发,这条新闻值得停下来仔细看看。


先说数字

V4-Pro:1.6万亿总参数,激活49B,865GB的HuggingFace权重。V4-Flash:2840亿总参数,激活13B,160GB权重。两者都是MoE(Mixture of Experts)架构,都是100万token上下文,MIT协议开源。

参数规模上,V4-Pro已经是目前开源权重之最——比Kimi K2.6(1.1T)大,比GLM-5.1(754B)大,是上一代V3.2(685B)的两倍多。

但规模不是重点。重点是价格:

模型

输入$/M

输出$/M

DeepSeek V4 Flash

$0.14

$0.28

GPT-5.4 Nano

$0.20

$1.25

Gemini 3.1 Flash-Lite

$0.25

$1.50

Gemini 3 Flash Preview

$0.50

$3.00

GPT-5.4 Mini

$0.75

$4.50

Claude Haiku 4.5

$1.00

$5.00

DeepSeek V4 Pro

$1.74

$3.48

Gemini 3.1 Pro

$2.00

$12.00

GPT-5.4

$2.50

$15.00

Claude Sonnet 4.6

$3.00

$15.00

Claude Opus 4.7

$5.00

$25.00

GPT-5.5

$5.00

$30.00

Flash是所有模型里最便宜的,Pro是旗舰级里最便宜的。这两个放在一起构成了一个很清晰的市场信号:DeepSeek在用价格重新定义什么叫"性价比"。


为什么能这么便宜?

DeepSeek官方论文里有一段数据引起了我的注意:

100万token上下文场景下,V4-Pro只用了V3.2的27%算力,KV cache只有V3.2的10%。Flash更狠——10%算力,7%的KV cache。

这段话翻译一下:别人处理100万token上下文要烧整块GPU的时候,DeepSeek只烧十分之一的力气。不是因为用了更快的硬件,而是架构本身的效率提升。

这背后的关键在于MoE架构的工程优化。MoE不是新技术,但DeepSeek在"如何让专家模型在长上下文场景下更高效地激活"这件事上做了大量工作。100万token是个很重要的场景分界线——超过这个长度,大多数模型要么性能下降,要么成本飙升。DeepSeek V4在这个长度上反而表现出色,这是真正有价值的技术差异点。

Simon Willison在博客里提到,他希望V4-Flash能在他自己的128GB M5 MacBook Pro上跑起来。如果量化版真能本地运行,这又会是一个"消费级硬件跑Frontier模型"的故事。在此之前,这个故事的主角一直是苹果的M系列芯片,现在DeepSeek要把这个故事的门槛再往下拉一截。


HN上真实用户在说什么

比起官方论文里的benchmark,我更关心真实用户在HN上怎么评价这款模型。翻了翻评论,有几个观点值得认真对待:

一个做编译器开发的用户说,他同时在用DeepSeek、Claude、GPT和Kimi处理同一个代码库。DeepSeek的体验是:最便宜的时候表现和贵的模型一样好,遇到极难的问题才切到Claude Opus。他算了算,整个arm64移植项目加后期修复只花了$8的API费用。

这个案例有意思的地方在于:这不是一个简单任务——arm64移植涉及底层调用约定、汇编、跨平台兼容等复杂问题。$8换一次完整的架构移植,放在以前是不可想象的。

另一个用户的反馈更直接:GPT和Claude在处理逆向工程任务时直接拒绝了,还收到了OpenAI的账户警告。DeepSeek没有任何顾虑,直接干活。

这背后其实反映了一个很现实的问题:各家的"安全政策"边界不一致,在某些细分场景(逆向工程、固件分析、安全研究)里,有的模型会主动退场,有的不会。对于真正需要这些能力的人来说,"能用"本身就是最大的价值。

HN上还有人提到,DeepSeek在上下文窗口填满之后也会开始"变笨"。他的解法是定期用/clear或者导出对话清理上下文,然后重新开始。这个问题看起来是长上下文模型的普遍限制,不是DeepSeek特有的。


落后3-6个月,这还重要吗?

DeepSeek自己在论文里写了一段很老实的话:通过扩展推理token,V4-Pro-Max在标准推理benchmark上超越了GPT-5.2和Gemini-3.0-Pro,但距离GPT-5.4和Gemini-3.1-Pro还有3-6个月的差距。

3-6个月。这个差距是真实的。

但问题是:当价格差距大到这个程度(Flash比GPT-5.4 Nano便宜30%,Pro比Claude Sonnet 4.6便宜42%),"差3-6个月"在什么场景下还重要?

对于通用对话、文档处理、代码补全这些日常场景,这个差距大多数时候不会有感知。对于需要最强推理能力的复杂任务,这个差距才值得认真对待。但这个场景本身就是少数。

换个角度想:3-6个月后,DeepSeek又会发布什么?如果它保持每3-6个月发一次新版本,价格还不变,那追赶的速度其实很快。


我的判断

DeepSeek这套打法已经不是第一次了。从V1到V3.2,每次都是"我性能差一点点,但我便宜10倍"。

这次的核心变化是:Flash的价格已经低到让"试一把"的门槛几乎为零。

0.14,一杯奶茶的价格够处理大约700万token的输入。如果你现在在用GPT-5.4 Nano或者Gemini 3.1 Flash-Lite做生产开发,换成DeepSeek V4 Flash的成本节省是实实在在的。

但有几个注意事项:

第一,DeepSeek的合规性一直是问号。模型权重开源,理论上任何人都可以部署,包括在中国境外。这对某些企业可能是优势,对某些企业可能是合规风险。如果你所在的公司对数据出境有要求,用DeepSeek API之前建议先搞清楚数据流向。

第二,性能差距虽然缩小了,但在复杂推理任务上依然是真实的。代码审核、数学证明、多步骤规划这类任务,DeepSeek可能还需要继续追赶。如果你做的是高复杂度任务,单纯因为便宜就切换可能得不偿失。

第三,开源权重意味着Unsloth这些量化团队会很快跟进。如果量化后的V4-Flash真能在消费级GPU上跑起来,那这又会是一次"硬件门槛革命"。这个故事值得继续关注。


行动建议

  • 正在用GPT-5.4 Nano/Gemini Flash-Lite的开发者:立刻测一下V4 Flash的指令遵循和你的实际任务匹配度,如果够用,果断切换,省下的都是净利润
  • 预算有限的独立开发者:DeepSeek V4就是目前性价比最优解,没有之一。Pro和Flash怎么选看你对性能的要求
  • 企业用户:先测,再评估合规风险,不要因为便宜就盲目上
  • 关注本地部署的人:盯一下Unsloth的量化版本,这是决定V4能不能在M系列Mac上跑起来的关键

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/3 12:33:06

如何免费解锁英雄联盟全皮肤:R3nzSkin国服特供版终极指南

如何免费解锁英雄联盟全皮肤:R3nzSkin国服特供版终极指南 【免费下载链接】R3nzSkin-For-China-Server Skin changer for League of Legends (LOL) 项目地址: https://gitcode.com/gh_mirrors/r3/R3nzSkin-For-China-Server 你是否厌倦了在英雄联盟中反复使用…

作者头像 李华
网站建设 2026/5/3 12:32:06

LangChain4j结构化输出与参数传递

这一节,我们将深入 AiService 最强大的特性之一:方法返回值可以是任意 Java 类型。你不再需要手动解析 JSON,LangChain4j 会自动完成序列化与反序列化,直接返回 Java 对象给你使用。回想一下在 Spring AI 中如何获取结构化输出&am…

作者头像 李华
网站建设 2026/5/3 12:31:32

2025最权威的五大降重复率助手实测分析

Ai论文网站排名(开题报告、文献综述、降aigc率、降重综合对比) TOP1. 千笔AI TOP2. aipasspaper TOP3. 清北论文 TOP4. 豆包 TOP5. kimi TOP6. deepseek 须从文本特征以及逻辑结构着手,来降低AIGC(人工智能生成内容&#xf…

作者头像 李华