你以为本地跑大模型是玩具?Redis的创造者antirez不这么认为。
他刚刚发布了一个叫DwarfStar(简称ds4)的推理引擎,专门为DeepSeek V4 Flash打造——2840亿参数的巨兽,用2-bit量化压缩后,你的MacBook Pro就能跑起来。没错,是那台你用来写代码的Mac。
这不是llama.cpp的套壳,也不是又一个通用推理框架。这是一个人写(好吧,GPT 5.5深度参与)的、从头到尾为一个大模型量身定做的原生引擎。
为什么值得一个独立引擎?
市面上推理框架多如牛毛,为什么还要造轮子?antirez的回答很直接:因为DeepSeek V4 Flash值得。
这不是妄言。用过本地模型的人都知道,70B的 dense 模型跑起来感觉聪明,但总差那么一口气——尤其是写代码、翻译、复杂推理这些任务。而2840亿参数的DeepSeek V4 Flash,在antirez的测试中,"感觉就像一个准前沿模型"。
几个关键数据让你感受一下差距:
- 100万token上下文窗口
——你没看错,是百万级,不是千级
- 思考模式下,思考长度是其他模型的1/5
,而且与问题复杂度成正比
- 2-bit非对称量化
,96GB的MacBook都能跑(甚至有人用96GB跑通了25万上下文)
- KV缓存可以存到磁盘
——对话状态不丢失,重启后接着聊
🔥末尾可获取该项目的下载地址,继续往下看!
KV缓存革命:磁盘也是一级公民
这个项目最有趣的创新之一,是对KV缓存的处理方式。
传统推理引擎把KV缓存全部塞进内存。上下文越长,内存吃得越凶。128GB的MacBook跑几轮长对话,内存就红了。DwarfStar的做法完全不同——它把KV缓存当作磁盘上的"一等公民"。
DeepSeek V4的KV缓存压缩率极高,配合现代MacBook的高速SSD,磁盘读写速度完全跟得上推理节奏。这意味着你可以:
开启极长上下文而不用担心内存爆炸
暂停对话后随时恢复,状态持久化在磁盘上
在相同硬件上跑比其他模型更大的上下文
这个设计理念简单但深刻:内存不是KV缓存的唯一归宿,快速SSD让它有了更广阔的生存空间。
你的Mac能跑吗?一张图说清楚
硬件门槛是很多人最关心的问题。好消息是,antirez显然是以个人设备为出发点来设计的。
最低门槛:MacBook Pro + 96GB统一内存 + Q2量化,就能跑起来Flash版本。128GB是更舒服的配置。
如果你有Mac Studio(512GB内存),甚至可以跑更大的PRO版本。NVIDIA DGX Spark用户也没被遗忘——有专门的CUDA优化版本。
从基准测试数据看,M5 Max MacBook在长文本预填充时达到了463 tokens/s,M3 Ultra Mac Studio的Q4量化版本也跑出了448 tokens/s。生成速度在25-35 tokens/s区间,日常对话完全够用。
更有意思的是分布式推理功能:两台128GB的MacBook通过Thunderbolt 5连接,可以协作运行4-bit量化的完整Flash模型,预填充速度提升最高1.85倍。对于没有512GB设备的用户,这是一个很务实的方案。
2-bit量化:不只是数字游戏
很多人听到"2-bit量化"第一反应是"那还剩什么精度"。DwarfStar的量化方案恰恰是它最聪明的地方之一。
这不是粗暴地把所有参数一刀切到2-bit。它的做法是"非对称量化"——只对占模型绝大部分体积的路由MoE专家层进行2-bit压缩(up/gate用IQ2_XXS,down用Q2_K),而共享专家、投影层、路由层等关键组件保持原精度。
这样做的效果:模型体积大幅缩小,但核心推理能力不受损。antirez在项目说明中特别强调,这些2-bit量化模型"不是开玩笑的——在编码智能体下工作良好,工具调用可靠"。
配合imatrix(重要性矩阵)校准的版本效果更好,也是官方推荐的首选下载选项。
从Redis到大模型:antirez的极客美学
了解antirez的人不会对这个项目感到意外。从Redis到DwarfStar,贯穿的是同一种产品哲学:把一件事情做到极致,而不是什么都做。
DwarfStar不是通用GGUF加载器,它只运行自己提供的、经过官方logits验证的模型文件。这个"窄而深"的策略在当今"追新模型、追新框架"的AI圈子里显得有些另类,但恰恰是这种另类,让一个模型从头到尾的体验可以做到"完成"而不是"能跑"。
项目还集成了完整的工具链:GGUF生成工具、imatrix收集、质量测试、速度基准测试,甚至一个内置的编码智能体(ds4-agent)。这是一个端到端的本地推理方案,不是某个环节的补丁。
目前代码标记为beta质量,需要时间打磨。但如果antirez对待DwarfStar的态度跟当年对待Redis一样——追求极致的简洁和性能——那这个项目值得持续关注。