news 2026/5/1 6:08:48

小米新开源 MiMo-V2-Flash:稀疏注意力+强化学习超越DeepSeek-V3.2?

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
小米新开源 MiMo-V2-Flash:稀疏注意力+强化学习超越DeepSeek-V3.2?

摘要

在追求 AGI 的道路上,如何在保持高性能推理能力的同时,极致压缩计算成本与显存占用?小米 LLM-Core 团队最新发布的MiMo-V2-Flash给出了一个新的角度和方案。这款拥有 309B 参数(激活参数仅 15B)的 MoE 模型,通过混合滑动窗口注意力(Hybrid SWA)轻量级多 Token 预测(MTP)以及多教师在线蒸馏(MOPD),在推理效率和复杂任务处理能力上比肩 DeepSeek-V3.2 等顶尖开源模型。


1. 引言:突破“不可能三角”?

长上下文大语言模型(LLM)长期面临一个“不可能三角”:长窗口(Long Context)、**高智能(High Intelligence)低延迟(Low Latency)**往往难以兼得。全注意力机制(Full Attention)的O(L2)O(L^2)O(L2)复杂度让长文推理步履维艰,而传统的稀疏化手段往往以牺牲模型智力为代价。

MiMo-V2-Flash 的核心突破在于:

  1. 架构侧:利用带“可学习 Sink Bias”的滑动窗口注意力,将 KV Cache 和计算量降低 6 倍。
  2. 推理侧:利用 MTP 模块实现无损投机采样,大幅提升 Decoding 速度。
  3. 训练侧:首创 MOPD 范式,解决了强化学习(RL)中“跷跷板效应”导致的通用能力退化问题。

2. 架构设计:极致效率的追求

MiMo-V2-Flash 基于 Transformer 架构,但在 Attention 和 FFN 层进行了激进的改造。

2.1 混合滑动窗口注意力 (Hybrid SWA)

为了解决长文本下的 KV Cache 瓶颈,MiMo-V2-Flash 并没有选择完全的线性 Attention,而是采用了一种5:1 的混合策略

  • 结构:每 6 层为一个 Block,其中前 5 层使用滑动窗口注意力(Sliding Window Attention, SWA),第 6 层使用全局注意力(Global Attention, GA)。
  • 参数:滑动窗口大小W=128W=128W=128。这是一个极小的窗口(相比于常见的 4K 或 8K),意味着绝大多数层只关注极局部的上下文。
核心创新:可学习的 Attention Sink Bias

传统的 SWA 在堆叠多层后,长距离信息容易丢失。DeepSeek 等模型通过 MLA 缓解此问题,而 MiMo-V2-Flash 选择了一种更轻量的方案:Learnable Attention Sink Bias

在 SWA 层中,模型显式地引入一个可学习的偏置项sink∈R\text{sink} \in \mathbb{R}sinkR,用于调节 Softmax 的分母。这允许模型在不需要关注局部窗口内的任何 Token 时,将注意力权重“倾泻”到 Sink 上,从而保留全局语义的聚合能力。

数学表达
对于 Tokeniiijjj,注意力 Logit 计算如下:
aij=qikjTd a_{ij} = \frac{q_i k_j^T}{\sqrt{d}}aij=dqikjT

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/1 5:04:05

Streamlit + LangChain 1.0 简单实现智能问答前后端

Streamlit LangChain 1.0 简单实现智能问答前后端 概述 Streamlit 是一款专为数据科学家和机器学习工程师设计的 Python 库,可快速将数据脚本转换为交互式 Web 应用,无需前端开发经验,所以最近研究了一下,结合LangChain 1.0 实现…

作者头像 李华
网站建设 2026/5/1 5:05:03

告别鼠标延迟困扰:专业级性能测试工具MouseTester实战指南

你是否在激烈的游戏对抗中因为鼠标响应不及时而错失良机?或是在精细的设计工作中感觉光标移动不够流畅?这些看似主观的感受背后,其实隐藏着客观的性能问题。MouseTester作为一款专业的鼠标性能评测工具,能够将你的使用体验转化为精…

作者头像 李华
网站建设 2026/4/19 10:45:45

Apollo配置中心从单体到分布式的架构演进路径

Apollo配置中心从单体到分布式的架构演进路径 【免费下载链接】apollo 项目地址: https://gitcode.com/gh_mirrors/ap/apollo 随着企业应用规模的指数级增长,配置中心作为微服务架构的核心组件,其架构演进直接决定了系统的可扩展性和稳定性。Apo…

作者头像 李华
网站建设 2026/5/1 5:04:30

5步构建智能视频质量监控系统

5步构建智能视频质量监控系统 【免费下载链接】ffmpeg-python Python bindings for FFmpeg - with complex filtering support 项目地址: https://gitcode.com/gh_mirrors/ff/ffmpeg-python 还在为视频处理中画质不稳定、参数调整繁琐而烦恼吗?传统的视频处理…

作者头像 李华
网站建设 2026/4/16 21:25:44

Dolphin智能文档解析工具:快速实现PDF转Markdown的终极解决方案

Dolphin智能文档解析工具:快速实现PDF转Markdown的终极解决方案 【免费下载链接】Dolphin 项目地址: https://gitcode.com/GitHub_Trending/dolphin33/Dolphin 在当今数字化工作环境中,PDF文档批量转换为可编辑Markdown格式已成为提升工作效率的…

作者头像 李华
网站建设 2026/4/24 2:36:15

EmotiVoice是否会闭源?项目可持续性分析

EmotiVoice是否会闭源?项目可持续性分析 在语音合成技术正从“能说”迈向“会表达”的今天,一个开源项目的命运往往牵动着整个开发者社区的神经。EmotiVoice 就是这样一个引发广泛关注的名字——它不仅实现了高表现力的情感语音生成,还支持仅…

作者头像 李华