累积互信息量越高,模型预测错误率越低

《Demystifying Reasoning Dynamics with Mutual Information: Thinking Tokens are Information Peaks in LLM Reasoning》 本文中,作者从信息论的视角研究了大型推理模型的推理轨迹。通过追踪大型推理模型在推理过程中,其中间表征与正确答案之间互信息(MI)的演变,作者观察到一个有趣的“互信息峰值”现象:在特定的生成步骤中,互信息在模型的推理过程中会出现突然且显著的增加。作者从理论上分析了这种现象,并证明了随着互信息的增加,模型的预测错误概率会降低。此外,这些互信息峰值通常对应着表达反思或转折的词元,例如“Hmm”、“Wait”和“Therefore”,作者将其称为“思考词元”。作者接着证明了,这些思考词元对大型推理模型的推理性能至关重要,而其他词元的影响则微乎其微。基于这些分析,作者通过巧妙地利用这些思考词元,提出了两种简单而有效的方法来提升大型推理模型的推理性能。总的来说,作者的工作为大型推理模型的推理机制提供了新颖的见解,并为其推理能力的提升提供了实用的方法。 大型推理模型推理轨迹中互信息峰值的涌现 首先,在模型进行一步步推理生成答案的过程中,研究者会提取每一步生成的词元所对应的内部隐藏状态(hidden representation),记为$h_t$。同时,他们也将最终的正确答案(golden answer)输入模型,得到一个代表正确答案的隐藏状态$h_y$。接着,本文最核心的操作是利用一种名为“希尔伯特-施密特独立性准则”(HSIC)的工具来估计每一步的$h_t$与最终答案$h_y$之间的互信息(MI)值,因为直接计算高维空间中的MI非常困难,而HSIC是一个有效的替代估计方法。通过对多个大型推理模型(如DeepSeek-R1系列)进行实验,他们一致地观察到,MI值在大部分推理步骤中都比较平稳和低,但在某些稀疏且不规律的节点上会突然出现显著的峰值。为了解释这一现象为何重要,论文从理论上给出了两个不等式(定理1和定理2),证明了模型在推理过程中积累的互信息总量($\sum_{j=1}^{T}I(y;h_{j}|h_{

June 10, 2025 · 小茄墩