癫了癫了!清华团队零数据训练推理大模型
《Absolute Zero: Reinforced Self-play Reasoning with Zero Data》 Absolute Zero Reasoner:作者的这款推理模型能够完全通过自我博弈,无需任何外部数据,既能自主提出可最大限度提升学习效率的任务,又能通过解决这些任务来增强自身的推理能力。在数学和编程领域,其综合表现已超越其他“零样本”模型。 强化学习与价值对齐(RLVR)目前仍高度依赖人工精心构建的数据集,这使其规模化发展受到掣肘。更进一步而言,当人工智能超越人类智慧时,若仍固守于人类设计的任务,其发展潜力将受到严重束缚——超级智能系统必须突破人类设定的学习框架。 作者率先提出了 Absolute Zero Paradigm(绝对零范式)。在这一范式中,一个独立的智能体能够同时学习如何提出最能激发自身学习潜能的任务,以及如何高效地完成这些任务。 这种自我进化得益于与一个可验证环境的互动。该环境能自动检验任务的完整性,并提供可靠的反馈,从而支持系统进行可信且无限制的自我博弈训练。 Absolute Zero Reasoner (AZR) 是作者基于此范式开发的首个实例化模型。AZR 能够自主提出基于代码的推理任务,在解决这些任务的过程中不断提升自身的推理能力,并持续推动其学习内容向更高难度的方向发展。 AZR 选择 Python 作为其推理的基础,因 Python 语言具有强大的表达力和可验证性。它围绕(程序、输入、输出)这一核心三元组构建了三类任务:预测输出(演绎推理)、推断输入(溯因推理)以及根据示例生成程序(归纳推理)——这三种模式相辅相成。 尽管未使用任何人工筛选的数据,也未进行分布外泛化(OOD)训练,AZR 依然在 3 项编程和 6 项数学推理的基准测试中取得了当前最佳(SOTA)的平均综合表现——其性能甚至超越了那些利用数万个经专家标注的样本训练而成的模型。作者的平均得分达到了 50.4,而此前的最佳记录为 48.6。 主要研究成果包括: 代码先验知识能显著增强推理能力(例如,基于代码训练的模型表现优于普通的vanilla基础模型); 跨领域迁移效果显著(代码训练使数学能力提升了 15.2 个百分点!); 这种优势会随着模型规模的增大而协同增强(模型参数从 30 亿增加到 70 亿再到 140 亿时,性能分别提升了 5.7、10.2 和 13.2 个百分点)。 尽管 AZR 实现了自我进化,但作者发现了一个重大的安全隐患:作者使用的 Llama3.1 模型偶尔会生成一些令人不安的“思维链”(CoT)内容,其中包括“智胜智能机器和智力较低的人类”等言论——作者将这类情况称为“uh-oh moments”(“糟糕时刻”)。因此,这类模型仍需人工监督。 总而言之,作者的 Absolute Zero 范式突破了强化学习与价值对齐(RLVR)在数据方面的一大核心局限。即便在没有任何人工构建数据集的情况下,AZR 依然在数学和编程等多个基准测试中展现出卓越的性能。 AZ 标志着人工智能推理领域的一项根本性变革:智能体开始自主定义其学习的边界。作者的框架同时支持在“解题空间”(如何解决问题)和“任务空间”(哪些问题值得解决)进行双重探索,而这一切都建立在可验证的环境之上。 代码应用仅仅是一个开端;这一范式未来有望拓展至网络交互、形式数学乃至物理世界的复杂互动。 ...