GRPO? DAPO? 我用CISPO!

MiniMax-M1 是全球首个开放权重的大规模混合注意力推理模型 ,它通过创新的架构设计和训练方法,旨在高效地扩展模型的测试时计算能力,以处理复杂任务 。该模型的核心动力源于一个结合了混合专家(MoE)与Lightning注意力(Lightning Attention)机制的混合架构 。M1 模型基于其前身 MiniMax-Text-01 开发而来 ,总参数量达到 4560 亿,但每个词元(token)仅激活 459 亿参数 ,从而实现了高效率。得益于其架构,M1 原生支持高达 100 万词元的超长上下文 ,并且计算成本极低,例如,在生成 10 万词元长度的内容时,其计算量仅为 DeepSeek R1 的 25% 。为了训练模型卓越的推理能力,团队采用了大规模强化学习(RL) ,并为此开发了一种名为 CISPO 的新颖 RL 算法 。该算法通过裁剪重要性采样权重而非词元更新来稳定训练,表现优于其他竞争算法 。这种高效的架构与算法相结合,使得 M1 的完整强化学习训练在 512 个 H800 GPU 上仅用三周便得以完成,成本约为 53.47 万美元 。团队公开发布了两个版本,分别拥有 40K 和 80K 的“思考预算” ,在标准基准测试中,其表现与 DeepSeek-R1 和 Qwen3-235B 等顶尖开源模型相当或更优,尤其在复杂的软件工程、智能体工具使用和长上下文任务上展现出明显优势 。 为可扩展的强化学习做准备 这一章的启发点在于它揭示了在进行高成本的强化学习(RL)之前,扎实的“地基”工作是多么重要,以及如何高效地打好这个地基。这个准备工作分为两个关键步骤。 第一步是持续预训练 (Continual Pre-training),目标是增强基础模型的内在推理能力。他们的做法是,在原有模型基础上,再用 7.5 万亿个精心筛选的、侧重于推理的词元进行训练。这里的关键操作是,他们优化了数据处理流程,特别提高了数学和代码类高质量数据的比例至 70%,并且严格避免使用合成数据,以保证数据质量和多样性。一个非常重要的实践经验是,为了训练超长文本(100 万词元),他们没有一步到位,而是采用分阶段逐步延长训练文本长度的策略(从 32K 开始),有效避免了训练过程中可能出现的梯度爆炸问题。 第二步是监督微调 (Supervised Fine-Tuning, SFT),目标是为模型注入特定的“思维模式”,即“思维链”(Chain-of-Thought)。他们的做法是,精心筛选了大量包含长篇思考过程的样本,覆盖数学、代码、问答等多个领域(其中数学和代码占 60%),让模型在强化学习开始前就“学会”如何进行有条理的思考,为后续更高效、更稳定的 RL 训练奠定了坚实的基础。 ...

June 18, 2025 · 小茄墩