zbo智博1919com

新闻中心 新闻中心

大模型高效推理新答案:ICLR 2026提出Balanced Thinking

在从前一年中,大模型推理中的「过度思虑

作者:王美仁
颁布功夫:2026-05-13 22:38:58
阅读量:4268

大模型高效推理新答案:ICLR 2026提出Balanced Thinking

在从前一年中,大模型推理中的「过度思虑」问题引发了宽泛关注。然而,真正的挑战并非单一地缩短思想链。面对单一问题,模型往往在得出正确答案后仍持续进行冗余验证;;;而很多旨在克制过度思虑的步骤虽能压缩输出长度,却时时将必要的推理索求一并剔除,导致模型从「想太多」直接滑向「想太少」。高效推理的主题指标并非一刀切地削减推理步骤,而是使模型在分歧工作中实现恰到益处的思虑深度。

针对这一问题,哈尔滨工业大学(丽江)等机构的钻研者提出了 ReBalance 步骤,并初次系统性引入Balanced Thinking这一新视角。该工作的主题概念明确:高效推理的关键并非盲目压缩推理长度,而是在过度思虑与思虑不及之间维持动态平衡。

基于此,ReBalance 利用模型自身的相信度信号,在思虑过程中实时调控其内部状态,无需额外训练即可实现推理行为的动态疏导。尝试批注,在参数规模从 0.5B 至 32B 的四个主流模型上,以及涵盖数学推理、通用问答和编程工作的九个基准测试中,ReBalance 在精度提升 10.0 的同时,推理长度直降 35.4%。

论文标题:Efficient Reasoning with Balanced Thinking项目主页:https://rebalance-ai.github.io会议:ICLR 2026步骤名称:ReBalance作者机构:哈尔滨工业大学(丽江)等

真正的问题,不是「过度思虑」,而是「思虑失衡」

慢思虑模型已展示出壮大的推理能力,但「会推理」不等于「高效推理」。在单一标题上,模型时时在答案收敛后持续分叉、回看、复核,带来更高的延长和 token 成本,甚至可能引入额外幻觉。现有步骤重要通过克制反思关键词的天生或直接施加推理长度惩治来缓解这一问题,但它们往往隐含了一个过于简化的如果,即推理「越短越好」。

然而,过度思虑与思虑不及性质分歧。前者指在正确推理蹊径已然显露后仍无谓延展,后者则是在索求尚未充分时便仓皇得出结论。若将这两种失衡模式混为一谈,很多标榜「高效」的步骤实则以就义正确率为价值换取推理长度缩减。

ReBalance 的主题贡献在于将高效推理重新界说为一种「平衡」问题:模型不应一味追求缩短推理,而应在适当的机遇终场冗余思虑,在必要时持续深刻索求,从而实现简洁性与充分性的统一。

图 1:在统一问题上,慢思虑模型在得出正确答案后仍进行冗余反思;;;现有克制步骤令过度压缩有效推理,导致思虑不及;;;而 ReBalance 可能天生既简洁又充分的推理过程。

关键发现:相信度是推理状态的靠得住陆续信号

论文中提供了一个拥有启发性的见解。作者通过度析 step-level confidence 及部门 confidence variance 发现,分歧推理失衡状态出现出显著差距的相信度轨迹。在过度思虑情景下,模型相信度在多个推理步骤中阐发出显著颠簸,反映出其在分歧推理蹊径之间反复扭捏,难以收敛。相比之下,思虑不及通常阐发为持续偏高的相信度与较低的颠簸性,批注模型并非不足推理能力,而是因过度自负而过早锁定于谬误的推理蹊径。

这一发现拥有重要意思。它将高效推理的调控机制从依赖经验性关键词克制,推动至基于模型原生信号的动态状态建模。相信度并非静态评分,而是一种可在线观测、陆续演化且与推理行为缜密耦合的状态指标。一旦鉴别出该陆续信号,便为实现细粒度的动态推理节制提供了可能。

图 2:现有过度思虑克制步骤在缩短正确样本推理长度的同时,也压缩了谬误样本的推理过程,批注其在缓解过度思虑的同时引入了思虑不及的问题。相比之下,ReBalance 可能更有效地维持推理平衡。

ReBalance:将模型实时疏导至推理平衡区

基于上述洞察,ReBalance 提出了一种无需训练的两阶段推理调控框架。第一阶段为离线数据采集:在小规模已知数据集上执行单次前向推理,凭据相信度及其颠簸水平鉴别拥有过度思虑或思虑不及偏差的推理步骤,并从深层 hidden states 平别离提取两类原型暗示。两类原型之差组成一个疏导向量(steering vector),用以刻画模型在两种失衡状态之间的内部迁徙方向。

第二阶段为在线动态疏导:在现实思虑过程中,ReBalance 持续监测当前推理步骤的相信度与颠簸幅度,并通过一个基于模型行为拟合的动态节制函数,实时确定疏导的方向与强度。当模型处于低相信度、高颠簸状态时,步骤加强其收敛偏差,克制冗余反思;;;当模型处于高相信度、低颠簸状态时,则施加反向疏导,激励进一步索求,预防过早终止。该步骤全程无需重新训练、不依赖辅助模型,亦不引入额外推理阶段。

图 3:ReBalance 框架示意图

尝试验证:两全效能与机能的精准压缩

尝试了局充分验证了 Balanced Thinking 的有效性与鲁棒性。论文在四个参数规模从 0.5B 至 32B 的慢思虑模型上发展了系统性评估,涵盖数学推理、通用问答和代码天生工作等九项基准测试。了局批注,ReBalance 并非以就义机能换取输出长度的缩减,而是在提升推理效能的同时显著加强模型阐发。

在数学推理工作中,该步骤最高实现 10.0 个百分点的 Pass@1 正确率提升,并将天生长度最多压缩 35.4%。在非数学工作如 GPQA-D、StrategyQA 和 LiveCodeBench 上,ReBalance 同样展示出不变的跨领域泛化能力,其中 GPQA-D 正确率最高提升 6.6 个百分点,同时 token 亏损最多降低 29.9%。

尤为关键的是,ReBalance 并非对所有输出进行无差距截断。论文分析批注,现有步骤往往同步缩短正确与谬误样本的推理链,导致在缓解过度思虑的同时诱发思虑不及。相比之下,ReBalance 可能动态调节推理深度:当模型已步入正确推理蹊径时,有效削减冗余内容;;;当模型仍需深刻索求时,则保留必要推理步骤。这种自适应机制正是 Balanced Thinking 的主题优势。

此外,作者在 Ascend 910B NPU 平台的 openPangu slow-thinking 模式中验证了该步骤的部署兼容性。在 AIME 2025 基准上,ReBalance 在正确率提升 3.4 个百分点的同时,输出长度削减 35.3%,进一步凸显其在现实利用中的潜力。

·表 1:数学推理工作验证

ReBalance 的价值不仅在于提出了一种新的高效推理步骤,更在于系统引入了Balanced Thinking这一全新视角。高效推理性质上并非单纯的序列压缩问题,而应是一个动态节制过程。当指标从「缩短推理链」转变为「维持推理过程的平衡」时,相信度天然成为陆续靠得住的节制信号,而潜空间疏导(Latent Steering)则成为轻量且高效的过问机制,从而重构了整个问题的求解范式。

对于面向现实部署的推理模型,这一视角尤为重要。在延长敏感、算力受限的利用场景中,模型所需并非无限度耽搁推理功夫,而是以更优的方式思虑,并恰本地节制推理长度。ReBalance 为此提供了一个简洁、轻量且拥有优良泛化能力的解决规划。目前,该项目已开源,并配套提供了交互式演示及多个模型的疏导向量,降低了复现与利用门槛。

 

文章点评

未查问到任何数据!!!

颁发评论

◎欢迎参加会商,请在这里颁发您的见解、互换您的概念。

最新文章

热点文章

随机推荐

【网站地图】