狂读论文：Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters

Posted on 2025-02-22 Edited on 2025-02-24 Views:

内容总结

面对具有挑战性的输入查询，让语言模型在测试阶段有效利用额外的计算，从而提高其响应的准确性。
有部署适应性“计算最优”策略的必要性，即根据提示选择利用测试时计算的具体方法，以最佳利用额外的计算资源。
两种测试时计算修改方法：测试时计算应当修改分布，从而生成比直接从LLM采样更好的输出。
1. 输入层面：通过在给定提示中增加一组额外的标记，使LLM在此基础上获得修改后的分布（本研究使用通过改变输入tokens直接修改提议分布）
2. 输出层面：通过从标准语言模型中采样多个候选输出并对这些候选进行处理。（本研究使用验证器）
估计问题难度实现计算优化扩展
1. 用pass@1率估计难度
2. 提出一个公式计算在计算预测 N 下针对问题 q 的计算优化扩展策略。
通过验证器扩展测试时计算
1. 用一种无需人工标签，而是通过从每个解决步骤运行蒙特卡罗展开来监督 PRM 的 PRM 训练方法。（此外提到 PRM 总是优于 ORM）
2. 答案聚合（Answer aggregation），以确定最佳答案：先逐步聚合获得答案最终评分，然后在答案之间聚合以确认最佳答案。
  1. 逐步聚合：使用PRM在最后一步的预测作为完整答案的评分优于取乘积或最小值来聚合每步评分等方法。
  2. 答案间聚合：使用加权最优（best-of-N weighted）。
3. 通过 PRM 的搜索方法
  1. Best-of-N
  2. 束搜索（Beam Search）：N 个预测选 M 个分数最高答案，再对每个选出的答案扩展出 N 个下一步，重复此过程。
  3. 前瞻搜索（Lookahead search）：在束搜索每一步向前模拟 k 步，提高 PRM 对当前步骤的价值估计准确性。但是会消耗额外计算资源。
  4. 结果：小预算束搜索明显优于 Best-of-N，预算增加则改进显著减小，前瞻搜索则在相同预算下表现不佳。
  5. 哪些问题适合搜索改进：束搜索在较难问题和较低计算预算下更为有效，而 best-of-N 在较简单问题和较高预算下更具优势。最难问题任何方法都一般。
4. 改善提议分布：使模型能够迭代地修正自己的答案，从而在测试时动态改善自身的分布。
  1. 修正数据：在上下文中包含最多四个错误答案，具体数量从0到4的均匀分布中随机采样。使用字符编辑距离度量来优先选择与最终正确答案相关的错误答案。
  2. 顺序采样的解决方案表现优于并行采样。
5. 平衡预训练和测试时计算：在简单和中等难度的问题中，这些问题在模型的能力范围内，或者在推理需求较小的环境中，测试时间计算可以轻松弥补额外的预训练。然而，在更具挑战性的问题上，这些问题超出了给定基础模型的能力，或者在推理需求较高的情况下，预训练更可能对提升性能更加有效。

英语单词

non-trivial 不凡的
implications 影响
tradeoff 权衡
primary 主要的
adaptively 自适应地
compute-optimal 计算最优的
install ... into 将...赋予
avenue 途径
agenic 代理的，自主的
proposal distribution 提议分布：为了获取所需样本而设计的一种分布方式。
alter 改变
efficacy 有效性
extent 程度
substitute for 替代
be 1-to-1 exchangeable with 一一对应的
modify 修改
knob 方法
post-hoc 后验的
be reminiscent of 使人想起，类似于
aggregate 聚合，汇总
canonical 典型的，经典的
wherein 其中
allocate 分配
revision 修正
sophisticated 复杂的
notion 概念
ad-hoc 随意的，临时的
discrete 离散的
concretely 具体地
feasible 可行的
incur 招致
confounder 混淆因素
two-fold cross validation 二折交叉验证。它是一种将数据集分为两部分，一部分用于训练模型，另一部分用于验证模型的方法。
vice versa 反之亦然
protocol 协议