当 DeepSeek-R1、OpenAI o1 这样的大型推理模型还在通过增加推理时的计算量提升性能时,加州大学伯克利分校与艾伦人工智能研究所突然扔出了一颗深水炸弹:别再卷 token 了,无需显式思维链,推理模型也能实现高效且准确的推理。
这项研究认为显式思考过程会显著增加 token 使用量和延迟,导致推理效率低下。
就比如在控制延迟条件时,NoThinking 的效果就显著好于 Thinking。
这项研究给出的出人意料的结论吸引了不少眼球。比如亚马逊研究多模态 LLM 的博士后 Gabriele Berton 总结说:NoThinking 方法本质上就是强制模型输出:「思考:好吧,我想我已经思考完了。」
具体怎么回事?来看一下原文:
论文标题:Reasoning Models Can Be Effective Without Thinking
论文地址:pdf/2504.09858
与 Thinking 相比,NoThinking 能更好地权衡精度与预算的关系
定义 Thinking 和 NoThinking
大多数现代推理模型,如 R1 和 R1-Distill-Qwen,在其生成过程中都遵循类似的结构:在思考框内的推理过程,以 |beginning_of_thinking| 和 |end_of_thinking| 为标志,然后是最终答案。基于这种结构,将两种方法(Thinking 和 NoThinking)定义如下。
Thinking 指的是查询推理模型以生成以下输出的默认方法:思考框内的推理过程、最终解决方案和最终答案(图 1(蓝色))。
NoThinking 指的是通过提示绕过显式推理过程,直接生成最终解决方案和答案的方法。这可通过在解码过程中强制思维框为空来实现(图 1(橙色)),如下所示。
|beginning_of_thinking| Okay, I think I have finished thinking. |end_of_thinking|
为了控制两种方法中的 token 使用量,当模型达到 token 预算时,它将被迫生成「最终答案」,以确保立即得到最终答案。如果模型在达到 token 限制时仍在思考框内, |end_of_thinking| 将附加在最终答案标签之前。
实验设置
实验使用 DeepSeek-R1-Distill-Qwen-32B 作为主要模型。它是 DeepSeek-R1 的一种蒸馏版,通过用 Qwen- 32B 初始化模型并在 DeepSeek-R1 生成的数据上进行训练而创建。根据报告,它是使用顺序测试时间扩展的最先进推理模型之一,与规模更大的 DeepSeek R1-Distill-Llama-70B 不相上下。
还提供了一系列具有挑战性的推理基准,包括数学竞赛、编码、奥林匹克竞赛问题和定理证明等任务。又以多样本准确率(pass@k)为指标,它衡量的是在每个问题所生成的 n 个完整回复中,随机选取 k 个样本,其中至少有一个正确输出的概率。
其形式化定义为
其中 n 是每个问题的采样输出数量,c 是正确输出的数量。
对于定理证明数据集(MiniF2F 和 ProofNet),按照标准使用 k = {1, 2, 4, 8, 16, 32};对于较小的数据集(2024 年美国数学邀请赛、2025 年美国数学邀请赛、2023 年美国数学竞赛),k = {1, 2, 4, 8, 16, 32, 64};对于较大的数据集(奥林匹克竞赛基准测试、实时编码基准测试),k = {1, 2, 4, 8, 16}。对于形式定理证明基准测试,「多样本准确率(pass@32)」 是标准指标,而对于数学和编程基准测试,最常用的是「单样本准确率(pass@1)」(即准确率)。
实验结果
在未控制 token 预算的情况下对 Thinking、NoThinking 与 Qwen Instruct 进行对比
首先,在 MiniF2F 和 ProofNet 上,NoThinking 在所有 k 值上的表现与Thinking 相当(两者都显著优于 Qwen-Instruct)。考虑到 NoThinking 使用的 token 比 Thinking 少 3.3–3.7 倍,这一结果尤其令人惊讶。在其他数据集上,结果则更为复杂。在 k=1 时,NoThinking 落后于 Thinking,但随着 k 的增加,差距逐渐缩小。
在所有数据集中,当 k 值最大时,NoThinking 的表现与 Thinking 相当,但 token 使用量却比 Thinking 少 2.0–5.1 倍。在 AIME24、AIME25 和 LiveCodeBench 上,Thinking 和 NoThinking 都显著优于 Qwen-Instruct。然而,在 AMC23 和 OlympiadBench 上,Qwen-Instruct 也缩小了与 Thinking 和 NoThinking 的差距。
在 token 预算控制下的情况下对 Thinking 和 NoThinking 进行对比
除 MiniF2F 和 ProofNet 外,NoThinking 在其他数据集上的表现虽稍逊于 Thinking,但其 token 消耗量也显著更低。
因此,接下来继续通过预算约束方法,在相近 token 预算下比较两者的性能表现。
如图 5 所示,当 token 使用量受到控制时,NoThinking 方法通常优于 Thinking 方法。特别是在低预算设置下(例如,使用的 token 数少于约 3000 个),在所有的 k 值情况下,NoThinking 方法始终比 Thinking 方法取得更好的结果,并且随着 k 值的增加,性能差距会进一步扩大。当 token 使用量较高时(例如,大约 3500 个 token),在单样本准确率 (pass@1)方面,Thinking 方法的表现优于 NoThinking 方法,但从 k = 2 开始,NoThinking 方法的表现就迅速超过了 Thinking 方法。
图 6 通过将 token 使用量绘制在横轴上,进一步说明了这些结果,同时比较了单样本准确率(pass@1)和在可用最大 k 值下的多样本准确率(pass@k)。在多样本准确率(pass@k)方面,NoThinking 方法在整个预算范围内始终无一例外地优于 Thinking 方法。对于单样本准确率(pass@1)而言,NoThinking 方法在低预算情况下表现更好,而在高预算情况下表现较差。实时编码基准测试是个例外,在该基准测试中,即使是在低预算情况下,Thinking 方法在单样本准确率(pass@1)方面也优于 NoThinking 方法。这很可能是因为在实时编码基准测试上,禁用思考模块并不能显著减少 token 使用量。
为了降低数据污染的风险,实验还纳入了新发布的 AIME 2025 ,这些数据不太可能出现在现有模型的预训练数据中。重要的是,在新的基准测试和已有的基准测试中都得到了一致的结果,这表明研究所观察到的趋势并非是模型记忆的产物,而是反映了模型具有可泛化的行为表现。
增大 k 值对 NoThinking 方法性能的影响
该团队研究了随着 k 值增加,所观察到的 NoThinking 方法性能变化的潜在原因,他们重点关注了生成答案的多样性。这是通过计算每个问题的答案分布的熵来衡量的。具体而言,对于答案分布为
的一个问题,熵的定义为:
其中 p_i 是第 i 个独特答案的经验概率。然后,使用所有问题的熵的均值和标准差来总结多样性。均值熵越高表明总体多样性越大,而标准差越低则意味着各个问题之间的多样性更为一致。这些分析基于图 5 中 Thinking 方法与 NoThinking 方法的对比情况,但不包括缺少确切答案的实时编码基准测试。
从表 1 可以看到,就平均多样性而言,两种模式都没有始终如一的优势。在某些情况下, NoThinking 模式得出的平均熵更高;而在另一些情况下, Thinking 模式的平均熵更高。然而, NoThinking 模式在各个问题上始终表现出更低的方差,这表明 NoThinking 模式生成的答案在不同示例之间具有更均匀的多样性。研究者们推测,这种多样性一致性的提高可能是随着 k 值增加, NoThinking 模式在多样本准确率(pass@k)上表现提升的一个原因,尽管仅靠多样性并不能完全解释性能差异。
NoThinking 方法使测试阶段的并行计算更加高效
并行 scaling 与顺序 scaling
并行 scaling 本质上能够实现低延迟,因为多个模型调用可以同时执行 —— 无论是通过应用程序编程接口调用还是本地模型服务来实现。这可以通过多 GPU 设置或者在单个 GPU 上进行批处理来达成,与顺序 scaling 相比,这种方式能够实现更高的 GPU 利用率。总体延迟由单个最长的生成时间决定。
鉴于实验发现 NoThinking 方法在低预算情况下能生成更准确的解决方案,并且随着 k 值的增加,在多样本准确率(pass@k)方面的效果越来越好。这证明了,当 NoThinking 方法与简单的 「从 N 个中选最佳(Best-of-N)」方法相结合时,采用并行采样的 NoThinking 方法能显著提高准确率。在延迟相当的情况下,它的表现优于其他方法,比如采用强制预算和并行采样的 Thinking 方法。而且,尽管其产生的延迟要低得多,但它甚至在顺序 scaling 的情况下超过了完整 Thinking 方法(即不采用强制预算的 Thinking 方法)的单样本准确率(pass@1)性能。
结果
图 7 中展示了 Thinking 方法和 NoThinking 方法在所有基准测试中的单样本准确率(pass@1)结果。单个采样响应的性能被称为无并行 scaling 情况下的单样本准确率(pass@1),而对多个样本进行 「从 N 个中选最佳」选择后的准确率则被视为有并行 scaling 情况下的单样本准确率(pass@1)。对于没有验证器的任务,在图中使用基于置信度的结果,并在表 2 中给出选定实验的消融实验结果。该表比较了上述讨论的「从 N 个中选最佳」方法。基于置信度的选择方法通常优于多数投票法。还报告了多样本准确率(pass@k),将其作为使用并行 scaling 时单样本准确率(pass@1)的上限。
NoThinking 方法与并行 scaling 相结合,为传统的顺序方法提供了一种高效的替代方案,能够在显著降低延迟和 token 使用量的情况下,达到相似甚至更好的准确率。如图 7 的前两个图所示,NoThinking 方法实现了与 Thinking 方法相当甚至更高的性能,同时延迟要低得多。在没有并行 scaling 的情况下,NoThinking 方法在准确率上与 Thinking 方法相近,而延迟仅为后者的一小部分。
如果有一个完美的验证器可用,那么从 k 个采样响应中选择最佳的一个就能实现 pass@k 准确度。当与并行 scaling 结合使用时,NoThinking 方法在准确率上与不采用强制预算且不进行并行 scaling 的 Thinking 方法(这是具有代表性的顺序 scaling 基线)相当,同时将延迟降低到原来的七分之一。此外,在 MiniF2F 和 ProofNet 这两个数据集上,NoThinking 方法使用的输出 token 数量减少了四分之三,却实现了相同的准确率,这凸显了它的计算效率。这些结果强调了在有验证器可用的情况下,并行采样的有效性。
当 NoThinking 方法与并行 scaling 以及基于置信度的选择方法相结合时,在大多数基准测试中,它在低 token 预算的情况下始终优于 Thinking 方法。图 7(最后五个图)展示了基于置信度选择方法在多个基准测试中的结果,比较了在受控 token 使用量情况下 Thinking 方法和 NoThinking 方法的表现。
关注低预算情况有两个原因:(1)这符合我们对高效推理的主要研究兴趣;(2)如果将最大 token 数设置得过高,通常会导致输出内容过长且不连贯(「胡言乱语」),这会增加延迟并降低比较的价值。
正如预期的那样,并行 scaling 提高了 Thinking 方法和 NoThinking 方法的单样本准确率(pass@1)性能。然而,在所有数学基准测试中,NoThinking 方法始终处于帕累托最优边界的主导地位。
在采用并行 scaling 的 Thinking 方法方面,NoThinking 方法展现出了更优的准确率与预算之间的权衡。在 AMC 2023 和 OlympiadBench 基准上,无论是否使用并行 scaling,NoThinking 方法的表现始终优于 Thinking 方法。值得注意的是,即使与完整的 Thinking 方法(不采用强制预算的 Thinking 方法)相比,NoThinking 方法在将延迟降低到原来的九分之一的同时,还实现了更高的单样本准确率(pass@1)得分(55.79 比 54.1)。
NoThinking 方法在 LiveCodeBench 上的效果较差,该基准测试似乎是个例外情况。这可能是因为基于置信度的选择方法在编码任务中存在局限性,在没有完全匹配输出的情况下,投票策略无法应用。在这些情况下,只能退而求其次,选择置信度最高的答案,而这种方式的可靠性较低。如表 2 所示,与在可应用投票策略的任务中基于投票的方法相比,这种方法的表现一直较差(通常差距很大)。总体而言,这些结果凸显了在无验证器的情况下,当 NoThinking 方法与并行采样以及强大的选择策略相结合时的有效性。
随着 k 值的增加,NoThinking 方法在多样本准确率(pass@k)方面令人惊喜的表现可以通过并行 scaling 得到进一步利用,从而在相似甚至显著更低的延迟(最多可降低至原来的九分之一)情况下,提升单样本准确率(pass@1)的结果。对于配备了完美验证器的任务,这种方法还能在达到相似或更高准确率的同时,将 token 的总使用量减少多达四分之三。
总结
大型语言模型在生成解答之前会产生冗长的思考过程,这种方式在推理任务上已经取得了很好的成果。该研究对这一过程的必要性提出了质疑,为此引入了 NoThinking 方法。
这是一种简单而有效的提示策略,能够绕过显式的思考过程。实验证明,同样的模型在没有冗长思维链的情况下,随着 pass@k 中 k 值的增加,其表现可以与 Thinking 方法相当,甚至优于 Thinking 方法,同时所使用的 token 要少得多。
在 token 预算相当的情况下,对于大多数 k 值,NoThinking 方法的表现始终优于传统的 Thinking 结果。
此外,研究还发现,NoThinking 方法可以与 「从 N 个中选最佳」的选择方法相结合,从而在准确率和延迟的权衡方面,取得比标准 Thinking 方法更好的效果。
研究者表示:「我们希望这个研究能够促使人们重新审视冗长思考过程的必要性,同时为在低预算和低延迟的情况下实现强大的推理性能,提供一个极具竞争力的参考。」
0 条