Posts

对近期LLM-RL研究主张的质疑

《Incorrect Baseline Evaluations Call into Question Recent LLM-RL Claims》近期大量宣称通过强化学习（RL）改进大语言模型（LLM）“推理能力”的论文，特别是那些声称使用随机或无外部奖励就能取得进步的论文，引发了广泛关注。然而，作者团队分析了7篇热门LLM RL论文后发现，这些研究中RL方法带来的实际改进并不明确。核心问题在于，这些论文报告的预RL模型（即原始模型）的基线性能显著低于Qwen等模型的官方发布数据或其他标准化评估（如“Sober Reasoning”论文）中的数据。在某些情况下，经过RL调优后的模型性能甚至比（正确评估的）原始基线模型还要差。这意味着这些研究所声称的通过RL“激发”出的能力，可能无需任何权重更新或微调，仅通过修正提示工程（prompting）和生成超参数（如使用正确的输出格式、更好的答案解析方法、推荐的采样温度、一致的最大输出token数、使用少样本提示改进格式遵循性）就能实现。如果RL训练主要只是教会模型更好地适应评估格式，那么它并未如期望那样带来新的推理能力。作者呼吁未来论文发布时应至少提供HuggingFace上的开源权重检查点和针对报告评估数据的样本级模型输出。文中的“MATH 500结果快照”图表和随附的表格直观地展示了多篇论文报告的RL后准确率、报告的预RL准确率与“实际”预RL准确率之间的巨大差异，例如“Spurious Rewards”论文中Qwen2.5-7B模型报告的预RL准确率为41.6%，而实际应为64.6%。近期论文结果的仔细审视 1. Spurious Rewards: Rethinking Training Signals in RLVR 该论文声称，即使使用与正确答案关联不大甚至负相关的“虚假奖励”（spurious rewards），强化学习验证奖励（RLVR）也能激发某些模型（如Qwen2.5-Math-7B）强大的数学推理能力，例如通过随机奖励使其在MATH500上的性能提升21.4%。然而，作者指出，该论文报告的多个Qwen模型（如Qwen2.5-Math-7B在MATH500上报告基线49.4%，实际为64.3%；Qwen2.5-7B报告41.6%，实际为59.7%）的基线准确率远低于实际水平。这意味着，论文中通过各种虚假奖励（如一次性奖励、格式奖励、随机奖励、错误标签奖励）获得的性能提升，在与修正后的实际基线比较时，大部分增益都消失了，可能仅仅是弥补了其评估设置未能充分发挥预RL模型能力的缺陷。此外，论文中关于RL对Qwen有效而对Llama无效的附带声明，也可能因为对Llama测试的是指令调优模型，而对Qwen测试的是基础模型——这种模型类型的差异本身就会导致能力表现的巨大不同，因为指令调优本身已在很大程度上激发了基础模型的能力。 2. Maximizing Confidence Alone Improves Reasoning 这篇论文提出了一种完全无监督的RL方法，它不依赖外部奖励或真实答案，而是使用模型对其生成答案的分布熵（即模型置信度）作为内在奖励，声称通过强化高置信度思维链能提升模型的推理能力。作者通过对比发现，该论文报告的多个Qwen模型（如Qwen2.5-1.5B Instruct在GSM8k上报告基线9.7%，实际为73.2%；Qwen2.5-7B Instruct在GSM8k上报告基线78.0%，实际为91.6%）的pre-RL模型基线准确率被严重低估。在许多模型和数据集对上，正确评估的预RL模型性能甚至远高于RL调优后的模型。例如，Qwen2.5-1.5B Instruct在GSM8k上RL后的准确率为72.5%，但其在Qwen官方发布中的实际基线已达73.2%。这让人质疑RL是否真的提升了推理能力，或者仅仅是缓解了因评估设置问题（作者声称是模型未遵循其使用的####.输出格式，而社区更倾向于使用\\boxed{}格式，模型在此格式下表现更好）导致的预RL模型能力被低估的现象。论文中关于仅用格式奖励进行RL训练效果不如其方法的控制实验，并不能充分证明其方法优于简单地修复格式问题，因为格式奖励模型可能优化不足或导致灾难性遗忘。 3. RL with 1 Example 该论文的核心主张是，应用RLVR到基础模型（如Qwen2.5-Math-1.5B），仅通过一个精心挑选的样本进行强化学习，就能显著提升模型在多个数学推理基准上的性能，例如将Qwen2.5-Math-1.5B在MATH500上的性能从36.0%提升到73.6%。然而，作者指出，该论文中DeepSeek-R1-Distill-Qwen-1.5模型在多个基准测试（如MATH500上RL后78.0%，报告基线71.0%，实际基线84.9%）上的RL后准确率，实际上低于正确评估设置下的实际基线模型准确率。对于Qwen2.5-Math-7B模型，虽然RL后的准确率（如MATH500上79.2%）确实超过了实际的零样本基线（64.3%），但由于其报告的基线（51.0%）被严重低估，使得提升幅度看起来远大于实际情况。评估出错的可能原因包括：1. 论文使用了官方Qwen2.5-Math评估流程，而Math-verify等更新的评估方法在答案提取方面更为鲁棒，旧流程可能导致基线偏低；2. 对某些测试集重复8次测试并使用0.6的温度，而对其他测试集使用温度0，这可能不符合Sober Reasoning等推荐的较高温度评估，且温度0在长文本生成时可能导致输出退化。 4. Learning to Reason without External Rewards 这篇论文提出了一种名为INTUITOR的方法，该方法在群体相对策略优化（GRPO）中用自确定性得分替代外部奖励，实现了完全无监督学习，并声称INTUITOR能在数学基准上达到GRPO的性能，并在代码生成等域外任务上实现更好的泛化。作者对比数据后发现，该论文报告的Qwen2.5-3b模型在GSM8k上的RL后准确率为79.2%，而其报告的基线为67.3%，但官方（少样本）准确率已达到79.1%。在CruxEval上，RL后为41.6%，报告基线23.6%，而官方数据为36.5%。这意味着RL后的模型性能似乎并未超越其原始模型在官方（少样本）评估中的表现。因此，不清楚RL是否教会了模型新的推理能力，可能仅仅是修复了导致基线被低估的问题，例如由于其报告的基线评估是零样本，可能存在格式遵循问题。由于论文未完全报告评估设置（如温度、提示、格式遵循百分比），具体原因难以确定。 5. Verifree: Reinforcing General Reasoners without Verifiers 该论文提出了一种名为VeriFree的无验证器方法，它绕过答案验证，直接通过RL最大化生成参考答案的概率，并声称VeriFree在MMLU-Pro、GPQA、数学基准等评估中能匹配甚至超越基于验证器的方法。作者指出，尽管该论文的RL方法（例如Qwen3-4b在MATH500上达到74.8%）确实超过了其所用的Qwen3基础模型的官方报告数字（此处作者自行评估Qwen3-4b在MATH500的官方thinking accuracy为97.0%，但Verifree原文表格的reported thinking accuracy是84.4%，实际pre-RL Verifree用的似乎更低，为73.4%）。然而，论文中报告的Qwen3基础模型、非思考模式和思考模式的参考准确率均被低估。例如，作者自行评估Qwen3-4b在MMLU-Pro上的零样本思考模式准确率为67.5%，而论文报告的思考准确率为62.7%；在GPQA上作者评估为48.6%，论文报告为31.8%。这意味着尽管VeriFree方法本身可能具有潜力，但其图表中错误的参考准确率会误导读者对其功效的判断。评估可能出错的一个原因是论文在多数情况下报告使用温度0进行采样，而Qwen3模型页面明确指出不应这样做，因其可能导致输出退化。 6. Unreasonable Effectiveness of Entropy Minimization ...

强化学习开始做预训练了！

《Reinforcement Pre-Training》传统的大模型预训练虽然可靠，但可能只是在学习表面的文本关联性，而用于对齐的强化学习（RL）又面临数据昂贵、难以规模化的问题。这篇论文最具启发性的做法是，从根本上“重塑”了预训练任务。它不再将“预测下一个词”看作一个简单的分类任务，而是将其提升为一个需要“推理”的过程。模型被激励去思考为什么下一个词是这个，而不是那个，并且只要预测正确，就能从训练数据本身获得一个可验证的奖励。这种方法巧妙地将海量的无标注文本数据，转变成了强化学习的训练场，既解决了RL的规模化问题，又可能让模型学到更深层次的推理能力，而不仅仅是记忆。论文用“樱桃蛋糕”的比喻（将RL融入预训练蛋糕本身）来对比传统的“蛋糕上的樱桃”（RL作为后续微调），生动地说明了这一范式的根本性转变。现代语言模型的基础——标准的“下一个词预测”（NTP）任务，其目标函数是最大化文本序列的对数似然概率，即 “带可验证奖励的强化学习”（RLVR），其目标函数是最大化从环境中获得的期望奖励。通过并列这两种方法，读者可以清晰地看到：一个依赖于庞大的数据进行自监督学习，另一个则依赖于带有明确答案的标注数据和奖励信号进行学习。这个对比凸显了一个核心矛盾：规模化与强反馈之间的差距，而RPT正是在试图弥合这个差距。强化学习预训练首先，在任务定义上，创造性地提出了“下一词元推理”（Next-Token Reasoning）任务。模型在预测下一个词 $y_t$ 之前，必须先生成一段“思考链”（chain-of-thought）$c_t$ 。这种做法，如图2所示，强迫模型在输出最终答案前进行一系列的头脑风暴、自我批判和修正，从而将庞大的预训练语料库转变为一个巨大的推理问题集。其次，在训练机制上，它采用了在线强化学习（on-policy RL）。模型会针对一个上下文，生成多条（实验中为8条）不同的“思考轨迹” ，然后根据最终预测的词是否与真实答案一致来给予奖励。这里的奖励函数设计也很巧妙，采用“前缀匹配奖励”，即预测的字节序列只要是真实答案的有效前缀就给予奖励，这优雅地处理了预测可能跨越多个词元的情况。最后，在预训练设置中，一个非常实用的关键做法是“数据过滤” 。研究者用一个较小的代理模型计算每个词元的预测熵，并过滤掉那些熵很低（即很容易预测）的词元。这使得计算成本高昂的强化学习过程可以专注于那些真正需要复杂推理才能解决的“硬骨头”，极大地提升了训练效率。实验本章通过一系列详实的实验，验证了RPT范式的有效性，其中几个发现尤其具有启发意义。第一，在语言建模能力上，经过RPT训练的14B（140亿参数）模型，其预测下一个词的准确率，不仅远超同等规模的基线模型，甚至能媲美一个大得多的32B模型。这强烈暗示了RPT可能是通往更强模型能力的一条“捷径”，用更少的参数实现了更强的性能。第二，RPT展现了优秀的“规模化特性”（Scaling Properties）。实验数据显示，其性能随着RL计算量的增加，呈现出非常平滑且可预测的幂律增长（公式为 $P(C)=\frac{A}{C^{\alpha}}+P^{*}$）。这是一个至关重要的结论，因为它表明RPT是一个可靠的、可持续的提升模型能力的方法，只要投入更多计算，就能获得更好的模型。第三，RPT预训练过的模型是更好的“强化学习起点” 。在后续针对下游任务的RL微调中，RPT模型能达到更高的性能上限，而如果对基线模型继续做传统的预训练，其推理能力反而会下降。最后，通过对模型“思考过程”的分析，发现RPT诱导出的推理模式与常规解决问题的模式不同，它更多地使用“假设”和“演绎”等探索性思维。案例分析也表明，模型并非在简单地套用模板，而是在进行真正的审议，包括分析上下文、生成多种可能性并进行权衡，这证实了RPT确实在培养更深层次的理解能力。

思考的幻觉？推理模型在高复杂度任务上全部崩溃

《The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity》这篇论文的核心启发在于，它没有停留在简单地评估大型推理模型（LRMs）在基准测试上的最终答案准确率，而是设计了一种系统性的方法来深入探究这些模型“思考”过程的内在机制和真实能力。研究发现，即使是最前沿的推理模型，在问题复杂度超过某个临界点后，其准确率会完全崩溃。一个反直觉的发现是，模型的“思考努力”（即生成的思考过程的长度）并不会随着问题变难而无限增加，反而在接近崩溃点时开始下降。通过与标准大语言模型（LLM）在同等计算资源下进行对比，研究揭示了三种性能表现区间：在低复杂度任务上，标准模型反而表现更优；在中等复杂度任务上，推理模型的“思考”显示出优势；而在高复杂度任务上，两者都会彻底失败。这套研究方法不仅揭示了模型在精确计算和逻辑一致性上的局限，也为我们理解和改进未来的推理模型指明了方向。作者观察到，当前对大型推理模型（如具备“思考”功能的模型）的评估过于依赖已有的数学或代码基准，这种方式存在数据污染的风险，并且无法深入分析模型推理过程的质量和结构。为此，他们提出的关键一步是转向使用“可控的谜题环境”。这种环境的核心优势在于，研究者可以精确地、系统性地调整问题的“组合复杂度”（例如增加汉诺塔的盘子数），同时保持问题底层的逻辑结构不变。这样做不仅能有效避免数据污染问题，更重要的是，它使得研究者能够像调试程序一样，检查模型生成的中间推理步骤（即“思考过程”)是否正确，从而能够更深入、更严谨地分析模型的“思维”模式、优势和根本性局限。模型的推理能力是通用的，还是仅仅是更高级的模式匹配？它们的性能如何随问题复杂度扩展？与投入相同计算资源的标准模型相比，它们的优势何在？通过梳理文献中提到的“过度思考”（overthinking）等现象，作者将自己的研究目标聚焦于系统性地分析模型的思考量与任务复杂度的关系。数学与谜题环境 (Math and Puzzle Environments) 通过对比实验，论证了传统数学基准的局限性，并详细阐述了其核心研究工具——四种可控谜题环境的设计理念。首先，作者通过在MATH-500和AIME等数学基准上的实验发现，推理模型和非推理模型的性能差距并不稳定，这种不一致性可能源于更复杂的推理需求，但也极有可能是因为新基准测试的数据污染较少。这种模棱两可的结果凸显了传统基准在“控制变量”上的不足。为此，作者引入了四个精心设计的谜题：汉诺塔、跳棋、过河问题和积木世界。这些谜题的关键优势在于：（1）复杂度可控：可以通过改变盘子、棋子或积木的数量来精确调整难度，其解决问题所需的最少步数甚至有明确的数学公式，例如汉诺塔的步数是$2^{n}-1$；（2）逻辑明确：解决这些谜题仅需遵循明确给出的规则，考验的是模型的算法推理能力而非背景知识；（3）无数据污染：这些谜题的变体在网络上较少，可以避免模型通过记忆来“作弊”；（4）可验证性：可以利用模拟器对模型生成的每一步进行精确验证，从而进行细致的失败分析。这种从模糊到精确的研究工具转换为后续的深入分析奠定了基础。实验与结果通过一系列精心设计的实验，系统性地揭示了推理模型的行为模式和内在局限。首先，通过在谜题环境中对比“思考”与“不思考”的模型，作者发现了三个清晰的复杂度区间：在低复杂度下，“不思考”的标准模型更高效准确；在中等复杂度下，“思考”模型开始展现优势；而在高复杂度下，两者性能双双崩溃。这揭示了“思考”并非万能，其有效性与任务复杂度密切相关。其次，研究深入分析了推理模型的“崩溃”现象。一个惊人的发现是，随着问题变得越来越难，模型的“思考投入”（以生成的token数量衡量）在达到一个峰值后便开始反常地减少，即使计算预算（token上限）远未用尽。这表明模型似乎存在一种内在的扩展限制，当它“感觉”问题过于困难时，会倾向于“放弃思考”，而不是投入更多努力。再者，作者通过分析模型“思考过程”的中间步骤，获得了更深层的洞见。他们发现，在解决简单问题时，模型会“过度思考”，即很早就找到了正确答案，但仍继续探索错误的路径，浪费计算资源。而在中等难度问题中，模型则表现出一定的“自我修正”能力，通常在探索了多个错误方案后才能找到正确答案。这一发现量化了模型的思考效率和修正能力随复杂度的动态变化。最后，作者提出了一些悬而未决的“谜题行为”。最引人深思的是，即使在提示中明确给出了解决汉诺塔问题的完整算法，模型的表现也几乎没有提升，仍然在相似的复杂度下崩溃。这强烈地暗示了当前模型在严格执行和验证逻辑步骤方面存在根本性缺陷。同时，模型在不同谜题上的表现差异巨大（例如，能解决需要上百步的汉诺塔，却在十几步的过河问题上失败)，这表明其能力可能严重依赖于训练数据中的模式记忆，而非通用的、可泛化的问题解决能力。

累积互信息量越高，模型预测错误率越低

《Demystifying Reasoning Dynamics with Mutual Information: Thinking Tokens are Information Peaks in LLM Reasoning》本文中，作者从信息论的视角研究了大型推理模型的推理轨迹。通过追踪大型推理模型在推理过程中，其中间表征与正确答案之间互信息（MI）的演变，作者观察到一个有趣的“互信息峰值”现象：在特定的生成步骤中，互信息在模型的推理过程中会出现突然且显著的增加。作者从理论上分析了这种现象，并证明了随着互信息的增加，模型的预测错误概率会降低。此外，这些互信息峰值通常对应着表达反思或转折的词元，例如“Hmm”、“Wait”和“Therefore”，作者将其称为“思考词元”。作者接着证明了，这些思考词元对大型推理模型的推理性能至关重要，而其他词元的影响则微乎其微。基于这些分析，作者通过巧妙地利用这些思考词元，提出了两种简单而有效的方法来提升大型推理模型的推理性能。总的来说，作者的工作为大型推理模型的推理机制提供了新颖的见解，并为其推理能力的提升提供了实用的方法。大型推理模型推理轨迹中互信息峰值的涌现首先，在模型进行一步步推理生成答案的过程中，研究者会提取每一步生成的词元所对应的内部隐藏状态（hidden representation），记为$h_t$。同时，他们也将最终的正确答案（golden answer）输入模型，得到一个代表正确答案的隐藏状态$h_y$。接着，本文最核心的操作是利用一种名为“希尔伯特-施密特独立性准则”（HSIC）的工具来估计每一步的$h_t$与最终答案$h_y$之间的互信息（MI）值，因为直接计算高维空间中的MI非常困难，而HSIC是一个有效的替代估计方法。通过对多个大型推理模型（如DeepSeek-R1系列）进行实验，他们一致地观察到，MI值在大部分推理步骤中都比较平稳和低，但在某些稀疏且不规律的节点上会突然出现显著的峰值。为了解释这一现象为何重要，论文从理论上给出了两个不等式（定理1和定理2），证明了模型在推理过程中积累的互信息总量（$\sum_{j=1}^{T}I(y;h_{j}|h_{

蚂蚁强化学习框架又又又大幅升级了！

清华大学交叉信息学院与蚂蚁技术研究院的联合团队近日正式开源了全异步强化学习训练系统——AReaL-boba² (AReaL v0.3)。想要深入了解 AReaL 的发展历程，可以参考吴翼老师的亲自答。此次开源代码诚意十足！本次 v0.3 版本带来了重大升级，全面实现了异步强化学习（RL）训练。新系统完全解耦了模型生成与训练过程，从而大幅提高了显卡利用率并显著提升了训练效率。基于 AReaL v0.3，团队已在代码任务上训练出新的 SOTA模型。 AReaL-boba² 原生支持多轮智能体强化学习训练。通过强化学习算法和训练系统的协同设计 (co-design)，该系统在完全不影响模型效果的前提下，实现了稳定且高效的异步 RL 训练。这标志着团队正朝着全面支持 Agentic AI的最终目标不断迈进。论文：《AReal: A Large-Scale Asynchronous Reinforcement Learning System for Language Reasoning》该论文提出了一种名为AReaL的大规模异步强化学习（RL）系统，传统同步RL系统在训练大型语言模型（LLMs）时，因需等待批处理中最长输出完成才能进行模型更新，导致GPU利用率低下。AReaL通过完全解耦生成（rollout）和训练过程，让rollout工作节点持续生成新输出，训练工作节点则在收集到足够数据后立即更新模型，从而显著提高GPU利用率。为了保证训练稳定性，AReaL平衡了rollout和训练工作节点的负载以控制数据陈旧度，并采用了一种增强的、能处理过时样本的PPO变体。实验表明，AReaL在数学和代码推理任务上，相比同步系统，在相同GPU数量下能实现高达2.77倍的训练加速，同时保持甚至提升了最终性能。同步RL系统的两大局限性马尔可夫决策过程（MDP）框架$<\mathcal{S},\mathcal{A},r,P,\gamma,H>$，其中LRM实现参数化策略 $\pi_{\theta}$。优化目标为实践中常使用$\gamma=1$且仅在最终动作上给予非零奖励的基于规则的奖励函数，并采用PPO算法进行优化，其目标函数为其中 $u_{t}(\theta)=\frac{\pi_{\theta}(a_{t}|s_{t})}{\pi_{old}(a_{t}|s_{t})}$ 是重要性比例。 LRM的分布式训练通常在SFT之后进行，同步RL系统迭代执行生成和训练两个阶段。同步RL系统的两大局限性：一是推理设备利用率不足，因为生成必须等待最长序列完成；二是同步RL系统扩展性差，因为将生成任务分散到所有设备导致每个GPU的解码批次减小，易陷入内存IO瓶颈。系统架构为解决同步系统的局限性，AReaL设计了一个完全解耦生成和训练的异步系统，旨在实现硬件高效、可扩展和灵活的RL工作流。其核心架构包含四个关键组件：1) 可中断Rollout工作节点：处理生成请求和权重更新请求；更新时会中断当前生成，丢弃旧权重计算的KV缓存，用新权重重新计算并继续未完成序列的解码，这导致轨迹可能由不同模型版本生成。2) 奖励服务：评估模型生成响应的准确性（如代码任务中执行单元测试）。3) 训练工作节点：从重放缓冲区采样数据，达到训练批次大小后执行PPO更新，并将参数存入分布式存储；为保数据新鲜，数据仅使用一次。4) Rollout控制器：作为协调者，读取数据，调用rollout工作节点生成，将响应送至奖励服务获取奖励，将轨迹和奖励存入重放缓冲区，并在模型更新后调用rollout工作节点的权重更新。该架构引入了两个算法挑战：一是数据陈旧性，训练批次包含来自多个先前策略版本的数据，可能降低学习性能；二是策略版本不一致，生成的轨迹段可能来自不同策略版本，这从根本上违反了标准PPO的假设。解决AReaL中的算法挑战首先，为了应对数据陈旧性，引入了**“有意识的陈旧性训练” (Staleness-Aware Training)**。关键做法是设定一个超参数 $η$ 表示训练批次中允许的最大陈旧度（相对于策略版本）。当 $\eta=0$ 时，系统退化为同步RL 。系统通过动态控制发送给生成服务器的生成请求吞吐量来实现陈旧度控制，具体约束为 $\lfloor(N_{r}-1)/B\rfloor\le i+\eta$，其中 $N_r$ 是已生成的轨迹数， $B$ 是训练批大小， $i$ 是当前策略版本号。同时，优先从数据缓冲区中选择较旧的轨迹组成训练批次。鼓励使用较大的 $η$ 以获得最佳系统吞吐量，这也促使算法能有效利用更陈旧的数据。其次，为了解决策略版本不一致及进一步处理陈旧数据问题，采用了解耦的PPO目标函数。该目标函数将用于采样轨迹的行为策略$\pi_{behav}$ 和作为近期目标以正则化 $\pi_{\theta}$ 更新的近端策略 $\pi_{prox}$ 解耦。新的目标函数为： ...

Gemini API 支持 TTS

Gemini API 借助其原生的文本转语音 ( TTS ) 功能，可将文本输入转化为单人或多人朗读的音频。用户可以通过自然语言指令来设定交互模式，并调整生成音频的风格、口音、语速和音调。此 TTS 功能有别于通过 Live API 提供的语音生成服务。 Live API 更侧重于交互式、非结构化的音频场景以及多模态的输入输出处理。尽管 Live API 在处理动态对话方面表现优异，但 Gemini API 的 TTS 功能则更适用于那些需要精确复述文本并对音频风格和音效进行精细控制的应用场景，例如播客或有声读物的制作。本指南将演示如何利用文本生成单人朗读和多人对话的音频。 gemini-2.5-pro-preview-tts gemini-2.5-flash-preview-tts 单人文本转语音若要将文本转换为单人朗读的音频，需将响应模式设置为 “audio” ，并传递一个已配置 VoiceConfig 的 SpeechConfig 对象。您需要从预设的输出语音库中选择一个语音名称。以下示例展示了如何将模型输出的音频保存为 wave 文件：多人文本转语音对于多人对话音频，您需要创建一个 MultiSpeakerVoiceConfig 对象，并为每位发言者（最多支持两位）配置相应的 SpeakerVoiceConfig。您需要确保在提示信息中为每位 speaker 定义的名称与配置中的名称一致：音频流除了像单人朗读和多人对话示例中那样将音频保存到 wave 文件，您还可以通过音频流的方式从模型获取输出。音频流会在响应生成过程中逐步返回数据片段，从而带来更流畅的体验。一旦响应开始，音频便会自动播放。通过提示语控制语音风格无论是单人朗读还是多人对话的 TTS ，您都可以使用自然语言提示语来控制音频的风格、音调、口音和语速。例如，在单人朗读的提示语中，您可以这样写：用诡异的耳语朗读： “拇指阵阵刺痛…… 邪恶之物将临近” 在多人对话的提示语中，您需要向模型提供每位发言者的姓名及其对应的文本内容。您还可以针对每位发言者分别给出风格指导：让 Speaker1 的声音听起来疲惫且无聊，让 Speaker2 的声音听起来兴奋且快乐： Speaker1：那么……今天有什么安排？ Speaker2：你绝对猜不到！可以尝试选用与您期望传达的风格或情感相符的语音选项，以进一步强化效果。例如，在上述提示中，选择带有呼吸声的 Enceladus 语音可能会更突显“疲惫”和“无聊”的感觉，而语调欢快的 Puck 语音则能更好地衬托出“兴奋”和“快乐”的情绪。 ...

Claude 4 正式发布！

正式发布新一代 Claude 系列模型：Claude Opus 4 与 Claude Sonnet 4。这两款模型旨在为编程、高级推理及 AI 智能体领域树立全新标杆。 Claude Opus 4 堪称全球顶尖的编程模型，在处理复杂且耗时较长的任务以及智能体工作流方面表现出持续稳定的卓越性能。 Claude Sonnet 4 则是在 Claude Sonnet 3.7 基础上的显著升级，它不仅编程和推理能力更为出色，响应指令也更为精准。除模型本身外，我们同时宣布以下更新：利用工具进行扩展思考（测试版）：两款模型均能在扩展思考过程中调用工具（例如网络搜索），使 Claude 能在推理与工具运用间灵活切换，从而优化输出结果。新增模型功能：两款模型皆可并行使用工具，更精准地遵循指令。此外，在获得开发者授予的本地文件访问权限后，模型将展现大幅提升的记忆能力，能够提取并储存关键信息，确保任务的连贯性，并逐步积累隐性知识。 Claude Code 正式上线：鉴于研究预览版获得了广泛好评，我们进一步拓展了开发者与 Claude 的协作模式。目前， Claude Code 可通过 GitHub Actions 支持后台任务，并已与 VS Code 及 JetBrains 实现原生集成，可直接在用户文件中显示编辑内容，助力无缝结对编程。 API 新增功能：我们在 Anthropic API 上推出了四项新功能，赋能开发者构建更为强大的 AI 智能体。这些功能包括：代码执行工具、 MCP 连接器、 Files API ，以及长达一小时的提示缓存能力。 Claude Opus 4 与 Sonnet 4 均为混合模型，提供两种运行模式：近乎即时的快速响应与用于深度推理的扩展思考模式。 Claude 的 Pro 、 Max 、 Team 及 Enterprise 订阅计划均包含这两款模型及扩展思考功能，同时 Sonnet 4 亦向免费用户开放。这两款模型已登陆 Anthropic API 、 Amazon Bedrock 以及 Google Cloud 的 Vertex AI 平台。其定价策略与前代 Opus 及 Sonnet 模型持平： Opus 4 的输入/输出价格为每百万 tokens $15/$75 ， Sonnet 4 则为 $3/$15 。 ...

大型语言模型“思考”的陷阱：推理如何影响指令遵循

摘要研究者发现，无论是经过专门推理训练还是通过思维链提示的推理增强型大型语言模型（RLLM），在执行许多复杂推理任务时已达到顶尖水平。然而，一个出乎意料且此前被忽视的现象是，明确的思维链推理会显著削弱模型遵循指令的准确性。通过在两个基准（IFEval，包含简单的、规则可验证的约束；ComplexBench，包含复杂的、组合性约束）上评估15个模型，研究一致观察到，当应用思维链提示时，性能会出现下降。大规模案例研究和基于注意力的分析揭示了推理在何处有益（例如，格式化或词汇精度）或有害（例如，忽略简单约束或引入不必要内容）的常见模式。研究者提出了一个名为“约束注意力”的指标，用以量化模型在生成过程中对指令的关注程度，并表明思维链推理常常将注意力从与指令相关的标记上移开。为减轻这些影响，研究引入并评估了四种策略：情境学习、自我反思、自我选择性推理和分类器选择性推理。结果表明，选择性推理策略，特别是分类器选择性推理，可以大幅恢复损失的性能。据研究者所知，这是首次系统性揭示推理引发的指令遵循失败并提供实用缓解策略的研究。 1. 引言研究者提出了一个核心问题：明确的推理是否真的能帮助模型更准确地遵循指令？本文通过实证研究得出了一个令人惊讶的结论：通过思维链进行推理会降低模型遵循指令的能力。为了系统评估大型语言模型的指令遵循情况，引入了IFEval和ComplexBench等基准测试。 3. 实验实验部分详细介绍了评估模型指令遵循能力所使用的数据集、评估指标、参与评估的模型以及思维链提示的应用方式。研究使用了IFEval和ComplexBench两个基准数据集。IFEval包含541个提示，每个提示都与一到三个可验证的约束相关联，这些约束来自25种类型（例如，字数、格式、关键词使用）。ComplexBench是一个手动策划的数据集，旨在评估模型在通过“与”、“链”、“选择”和“嵌套”等操作形成的复杂组合指令上的表现。评估指标主要关注每个指令中满足的约束的比例。研究评估了包括闭源模型（如GPT-40-mini, Claude3.7-Sonnet）和专注于推理的模型（如DeepSeek-R1, Qwen-R1-distilled变体）在内的多种模型。实验结果一致显示，当应用思维链提示时，几乎所有模型在IFEval和ComplexBench上的性能都出现了下降。例如，Llama3-8B-Instruct的准确率从75.2%下降到59.0%，降幅超过16个百分点。 4. 分析 (Analysis) 为了理解推理何时以及为何会降低指令遵循能力，研究者进行了两项分析：一项手动案例研究，检查思维链在何时帮助或损害约束满足；以及一项基于注意力的分析，调查推理如何在生成过程中将模型注意力从约束上移开。在案例研究中，研究者发现推理在满足格式或结构要求以及强制执行覆盖默认倾向的词汇约束方面有所帮助。然而，当多个约束存在时，推理通常会过分关注高级内容规划而忽略简单的机械约束，或者引入多余的或善意的内容，从而无意中违反约束。在基于注意力的分析中，研究者提出了“约束注意力”指标，用于量化模型对指令中约束标记的关注程度。分析表明，明确的推理通常会减少对提示中与约束相关部分的注意力，这种意识的减弱增加了违反指令的风险。 5. 减轻推理引发的指令遵循失败针对推理导致指令遵循性能下降的问题，研究者提出并评估了四种缓解策略：少样本情境学习、自我反思、自我选择性推理和分类器选择性推理。少样本情境学习：通过在每个指令前添加精心挑选的少样本示例来进行，这些示例源自案例研究中发现的代表性失败案例，并经过手动修改以完全满足所有约束。然而，由于令牌长度限制和每个示例的巨大体量，该方法改进效果有限。自我反思：模型首先生成带有思考过程的初始响应，然后在第二次推理中反思其自身的推理和答案。如果模型认为初始响应满意，则保留它作为最终输出；否则，它会修改响应并输出更新后的版本。自我反思在IFEval上产生了显著的改进，但在较弱的模型和包含更具挑战性指令的ComplexBench上效果较差，并且计算成本较高。自我选择性推理：允许模型动态决定是否执行明确的推理。模型根据指令自行评估是否需要思维链推理。此方法在IFEval上取得了适度的收益，在ComplexBench上表现更强。分析发现，模型倾向于高召回率（正确识别大多数推理有益的情况），但精确率较低，即使在不必要时也经常应用推理。分类器选择性推理：使用外部二进制分类器来确定是否应应用思维链推理。研究者为每个目标模型训练一个单独的分类器，以预测使用思维链是否会导致指令遵循性能的提高。该方法被证明非常有效，几乎在所有模型的两个基准测试中都提高了性能。然而，其主要缺点是需要针对每个模型进行特定的训练。研究者基于这些发现提出了一个决策流程：首先，通过简单启发式或训练好的分类器估计指令的复杂性。对于较简单的任务，推荐自我反思或分类器选择性推理；对于更复杂或组合性的任务，自我选择性推理或分类器选择性推理更有效。总体而言，分类器选择性推理在两个基准测试中始终提供最佳的整体性能，尽管需要针对模型进行特定训练。 6. 结论研究确定并系统地探讨了一个出乎意料的现象：通过思维链提示进行的明确推理会对大型语言模型的指令遵循能力产生负面影响。通过在IFEval和ComplexBench两个综合基准上的广泛评估，研究证明了当模型采用明确推理时，性能会持续下降。详细的分析，包括手动案例研究和基于注意力的检查，揭示了推理如何分散模型对与约束相关的标记的注意力，从而导致指令被忽略或违反。提出的四种缓解策略，特别是分类器选择性推理，可以大幅恢复损失的性能。研究者希望这些发现能激发对推理权衡的进一步研究，并有助于构建更具选择性和有效性的推理模型。

大语言扩散模型

摘要该论文挑战了自回归模型 (ARM) 作为大型语言模型 (LLM) 基石的普遍看法，引入了一种从头开始训练的扩散模型 LLaDA 。LLaDA 通过前向数据掩码过程和由标准 Transformer 参数化的反向过程（用于预测被掩码的词元）来建模数据分布。通过优化似然边界，它为概率推断提供了一种有原则的生成方法。论文表明 LLaDA 具有强大的可扩展性，在上下文学习方面 LLaDA 8B 能与 LLaMA3 8B 等强LLM相媲美，并在监督微调 (SFT) 后展现出令人印象深刻的指令遵循能力，例如在多轮对话中。此外，LLaDA 解决了“逆转诅咒”问题，在逆转诗歌补全任务中超越了 GPT-4o 。这些发现确立了扩散模型作为 ARM 的一种可行且有前景的替代方案。引言引言首先指出大型语言模型 (LLM) 完全属于生成模型的范畴，其目标是通过优化模型分布 $p_θ(⋅)$ 来捕捉真实但未知的数据分布 $p_{data}(⋅)$，通常通过最大化对数似然或最小化KL散度实现当前主流方法依赖自回归模型 (ARM)，即下一词元预测范式自回归范式是否是实现 LLM 智能的唯一路径？他们认为，LLM 的基本特性（如可扩展性、指令遵循、上下文学习）源于通用的生成模型原理（公式1），而非自回归结构本身。ARM 自身存在固有限制，如序列化生成计算成本高，以及在逆向推理任务中效果不佳。受此启发，论文引入 LLaDA（Large Language Diffusion with mAsking），一种基于掩码扩散模型 (MDM) 的方法，通过离散随机掩码过程及其逆过程来构建模型，旨在探索超越 ARM 的生成模型路径。LLaDA 的贡献主要体现在：证明了扩散模型的可扩展性，展示了其强大的上下文学习能力、指令遵循能力以及解决逆转推理问题的潜力。方法本章详细介绍了 LLaDA 的概率公式、预训练、监督微调 (SFT) 和推理过程。其核心思想是通过一个前向的掩码过程和一个反向的去噪（预测掩码）过程来定义模型分布 $p_θ(x_0)$ 。在概率公式部分，LLaDA 的核心是一个掩码预测器 $p_θ(⋅∣x_t)$，它接收部分被掩码的序列 $x_t$ 作为输入，并同时预测所有被掩码的词元 (M) 。训练目标是优化: ...

AI Agent 与 Agentic AI：概念、应用与挑战的深度剖析

《AI Agents vs. Agentic AI: A Conceptual Taxonomy, Applications and Challenges》这篇综述论文旨在严格区分人工智能代理（AI Agents）与智能体人工智能（Agentic AI），通过提供结构化的概念分类、应用图谱和挑战分析，阐明两者在设计理念和功能上的差异。研究的核心目标是为开发稳健、可扩展且可解释的人工智能驱动系统提供明确的路线图。 AI Agent的基础理解 AI Agent被定义为在特定数字环境中为实现目标导向的任务执行而设计的自主软件实体。它们能够感知结构化或非结构化输入，基于上下文信息进行推理，并启动行动以实现特定目标，通常作为人类用户或子系统的代理。 AI Agent的核心特征包括：自主性（部署后以最少的人工干预独立行动的能力）；任务特定性（为狭窄范围的任务进行优化，如调度、查询或过滤）；以及反应性与适应性（响应环境变化并利用反馈循环和基本学习启发式方法的能力）。大型语言模型（LLM）和大型图像模型（LIM）作为核心推理和感知引擎，极大地加速了AI Agent的基础性进展。生成式AI被定位为智能体智能的前身，它能生成新内容但缺乏自主性和目标追求；而AI Agent则通过集成外部工具、提示工程和增强的推理机制来推进这些能力。语言模型作为AI Agent发展的引擎将LLM集成为核心推理引擎是推动从反应式生成模型向自主、目标导向的AI Agent转变的关键驱动力。这些最初为自然语言处理任务训练的模型，日益被嵌入到需要自适应规划、实时决策和环境感知行为的框架中。为了克服仅生成式系统的局限性（如幻觉、静态知识），研究人员提出了工具增强的LLM代理，这些系统将外部工具、API和计算平台集成到代理的推理流程中，从而实现实时信息访问、代码执行和与动态数据环境的交互。例如，ReAct框架通过结合推理（思维链提示）和行动（工具使用），使LLM在内部认知和外部环境交互之间交替进行，展现了这种增强功能。从AI Agent基础看Agentic AI的出现 (The Emergence of Agentic AI from AI Agent Foundations) 尽管AI Agent在通过工具增强推理自动化狭窄任务方面取得了显著进展，但其在复杂、多步骤或协作场景中的可扩展性限制催生了更高级的范式：Agentic AI 。 Agentic AI通过允许多个智能实体通过结构化通信、共享内存和动态角色分配来协同追求目标，从而扩展了传统代理的能力。其核心概念飞跃在于从执行孤立任务的单个代理转变为由多个专业代理协作以实现复杂、高级目标的协调系统。这种转变的关键驱动因素包括目标分解、多步骤规划、跨智能体通信以及反思性推理和记忆系统。一个形象的例子是智能家居系统：一个AI Agent可能是一个单独控制温度的智能恒温器，而一个Agentic AI系统则是一个由天气预报、日程安排、能源优化等多个专业代理协同工作的完整生态系统，共同实现舒适、安全和节能的总体目标。论文通过多个表格详细对比了生成式AI、AI Agent以及Agentic AI在核心功能、架构组成、操作机制、范围与复杂性、交互与自主性等多个维度的关键差异。架构演进：从AI Agent到Agentic AI系统 Agentic AI显著扩展了AI Agent的基础架构（感知、推理、行动），通过集成专业化代理、高级推理与规划、持久性内存和编排等高级组件来实现更复杂、分布式和适应性的行为。基础AI Agent通常包含感知模块（处理输入信号）、知识表示与推理模块（应用逻辑）、行动选择与执行模块（转化决策为行动）以及基本的学习与适应机制。Agentic AI系统则在此基础上增强，例如采用专业代理的集合（每个代理负责特定功能，如MetaGPT中的角色扮演），嵌入递归推理能力（如ReAct, CoT）以进行动态规划和适应，整合持久性内存架构（如情景记忆、语义记忆、向量记忆）以跨任务周期或会话保持知识，并引入编排层或元代理来协调子代理的生命周期、管理依赖关系和解决冲突（如ChatDev中的虚拟CEO元代理）。 ...