news 2026/5/30 17:16:26

Redis之父antirez新作:DeepSeekV4-Pro 284B大模型跑在你Mac上,这才是本地AI的正确打开方式

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Redis之父antirez新作:DeepSeekV4-Pro 284B大模型跑在你Mac上,这才是本地AI的正确打开方式

你以为本地跑大模型是玩具?Redis的创造者antirez不这么认为。

他刚刚发布了一个叫DwarfStar(简称ds4)的推理引擎,专门为DeepSeek V4 Flash打造——2840亿参数的巨兽,用2-bit量化压缩后,你的MacBook Pro就能跑起来。没错,是那台你用来写代码的Mac。

这不是llama.cpp的套壳,也不是又一个通用推理框架。这是一个人写(好吧,GPT 5.5深度参与)的、从头到尾为一个大模型量身定做的原生引擎。

为什么值得一个独立引擎?

市面上推理框架多如牛毛,为什么还要造轮子?antirez的回答很直接:因为DeepSeek V4 Flash值得。

这不是妄言。用过本地模型的人都知道,70B的 dense 模型跑起来感觉聪明,但总差那么一口气——尤其是写代码、翻译、复杂推理这些任务。而2840亿参数的DeepSeek V4 Flash,在antirez的测试中,"感觉就像一个准前沿模型"。

几个关键数据让你感受一下差距:

  • 100万token上下文窗口

    ——你没看错,是百万级,不是千级

  • 思考模式下,思考长度是其他模型的1/5

    ,而且与问题复杂度成正比

  • 2-bit非对称量化

    ,96GB的MacBook都能跑(甚至有人用96GB跑通了25万上下文)

  • KV缓存可以存到磁盘

    ——对话状态不丢失,重启后接着聊

🔥末尾可获取该项目的下载地址,继续往下看!

KV缓存革命:磁盘也是一级公民

这个项目最有趣的创新之一,是对KV缓存的处理方式。

传统推理引擎把KV缓存全部塞进内存。上下文越长,内存吃得越凶。128GB的MacBook跑几轮长对话,内存就红了。DwarfStar的做法完全不同——它把KV缓存当作磁盘上的"一等公民"。

DeepSeek V4的KV缓存压缩率极高,配合现代MacBook的高速SSD,磁盘读写速度完全跟得上推理节奏。这意味着你可以:

  • 开启极长上下文而不用担心内存爆炸

  • 暂停对话后随时恢复,状态持久化在磁盘上

  • 在相同硬件上跑比其他模型更大的上下文

这个设计理念简单但深刻:内存不是KV缓存的唯一归宿,快速SSD让它有了更广阔的生存空间。

你的Mac能跑吗?一张图说清楚

硬件门槛是很多人最关心的问题。好消息是,antirez显然是以个人设备为出发点来设计的。

最低门槛:MacBook Pro + 96GB统一内存 + Q2量化,就能跑起来Flash版本。128GB是更舒服的配置。

如果你有Mac Studio(512GB内存),甚至可以跑更大的PRO版本。NVIDIA DGX Spark用户也没被遗忘——有专门的CUDA优化版本。

从基准测试数据看,M5 Max MacBook在长文本预填充时达到了463 tokens/s,M3 Ultra Mac Studio的Q4量化版本也跑出了448 tokens/s。生成速度在25-35 tokens/s区间,日常对话完全够用。

更有意思的是分布式推理功能:两台128GB的MacBook通过Thunderbolt 5连接,可以协作运行4-bit量化的完整Flash模型,预填充速度提升最高1.85倍。对于没有512GB设备的用户,这是一个很务实的方案。

2-bit量化:不只是数字游戏

很多人听到"2-bit量化"第一反应是"那还剩什么精度"。DwarfStar的量化方案恰恰是它最聪明的地方之一。

这不是粗暴地把所有参数一刀切到2-bit。它的做法是"非对称量化"——只对占模型绝大部分体积的路由MoE专家层进行2-bit压缩(up/gate用IQ2_XXS,down用Q2_K),而共享专家、投影层、路由层等关键组件保持原精度。

这样做的效果:模型体积大幅缩小,但核心推理能力不受损。antirez在项目说明中特别强调,这些2-bit量化模型"不是开玩笑的——在编码智能体下工作良好,工具调用可靠"。

配合imatrix(重要性矩阵)校准的版本效果更好,也是官方推荐的首选下载选项。

从Redis到大模型:antirez的极客美学

了解antirez的人不会对这个项目感到意外。从Redis到DwarfStar,贯穿的是同一种产品哲学:把一件事情做到极致,而不是什么都做

DwarfStar不是通用GGUF加载器,它只运行自己提供的、经过官方logits验证的模型文件。这个"窄而深"的策略在当今"追新模型、追新框架"的AI圈子里显得有些另类,但恰恰是这种另类,让一个模型从头到尾的体验可以做到"完成"而不是"能跑"。

项目还集成了完整的工具链:GGUF生成工具、imatrix收集、质量测试、速度基准测试,甚至一个内置的编码智能体(ds4-agent)。这是一个端到端的本地推理方案,不是某个环节的补丁。

目前代码标记为beta质量,需要时间打磨。但如果antirez对待DwarfStar的态度跟当年对待Redis一样——追求极致的简洁和性能——那这个项目值得持续关注。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/30 17:15:26

Arduino非阻塞Modbus通信:提升工业控制实时性的关键技术

1. 项目概述:为什么我们需要非阻塞Modbus 在嵌入式开发,尤其是工业控制和数据采集领域,Arduino因其灵活性和丰富的生态而备受青睐。然而,当我们试图将Arduino接入由PLC、传感器、电表等构成的工业网络时,Modbus协议几乎…

作者头像 李华
网站建设 2026/5/30 17:15:21

ngx_http_core_rewrite_phase

1 定义 ngx_http_core_rewrite_phase 函数 定义在 ./nginx-1.24.0/src/http/ngx_http_core_module.cngx_int_t ngx_http_core_rewrite_phase(ngx_http_request_t *r, ngx_http_phase_handler_t *ph) {ngx_int_t rc;ngx_log_debug1(NGX_LOG_DEBUG_HTTP, r->connection->l…

作者头像 李华
网站建设 2026/5/30 17:14:01

用STM32CubeMX+Keil5+Proteus8搞定OLED12864显示:一个课程设计的完整仿真流程

STM32CubeMXKeil5Proteus8全流程实战:打造工业级OLED12864显示系统在嵌入式系统开发领域,能够独立完成从硬件配置到软件实现的完整流程是工程师的核心竞争力。本文将带您深入探索如何利用STM32CubeMX、Keil MDK-ARM和Proteus 8 Professional三大工具链&a…

作者头像 李华
网站建设 2026/5/30 17:11:57

低成本仿生机械手制作:Arduino与伺服电机驱动方案详解

1. 项目概述:为什么选择低成本仿生机械手?如果你对机器人技术感兴趣,尤其是想亲手制作一个能模仿人手动作的机械装置,那么基于Arduino和伺服电机的仿生机械手是一个绝佳的入门项目。它不像工业机械臂那样需要复杂的运动学和昂贵的…

作者头像 李华
网站建设 2026/5/30 17:05:58

三分钟掌握专业歌词制作:歌词滚动姬零基础入门指南

三分钟掌握专业歌词制作:歌词滚动姬零基础入门指南 【免费下载链接】lrc-maker 歌词滚动姬|可能是你所能见到的最好用的歌词制作工具 项目地址: https://gitcode.com/gh_mirrors/lr/lrc-maker 歌词滚动姬(lrc-maker)是一款…

作者头像 李华