狂读论文：blog-scaling-test-time-compute

Posted on 2025-01-16 Edited on 2025-02-23 Views:

原博客连接：https://huggingface.co/spaces/HuggingFaceH4/blogpost-scaling-test-time-compute

内容总结

理解：利用奖励模型在推理阶段扩展
TTC的两种策略：
1. 自我优化，利用大模型来评价
2. 利用奖励模型进行评估（本文利用这种方法）
  1. PRM：可以对每个过程进行评估
  2. ORM：只能评估最后结果
搜索答案方法（类似语言模型的采样方法，分数类似概率）
1. Best-of-N：所有待选项选择最好的。
2. Beam search：每次在M个待选答案中保留最高的N个继续搜索，最终选择总体概率最高的路线。
3. Diverse Verifier Tree Search：独立的进行两个beam search，最后比较各自的最佳结果。
4. 此外文章还用到了不需要 PRM 的 Majority voting：选重复最多次的答案。
流程
1. 对问题生成多个答案
2. 利用PRM评估所有答案，通过搜索策略选择出几个最好答案
3. 再利用选择答案以及相应提示词继续生成多个答案，循环往复，直到EOS的token。
提出了一个公式，根据你的计算量预算，题目难度来选择搜索方法。

理解

利用test-time compute，可以让小模型的准确率大大提升。
有点类似LoRA，主要依赖一个奖励函数和一套运行逻辑，而不需要改变模型本身参数。

英语单词

scaling 扩展 scalable 可扩展的

Over the last few years, the scaling of train-time compute has dominated the progress of large language models (LLMs).
paradigm 模式
clusters 集群
on the horizon 即将
complementary 补充的
inference 推理
optimally 最佳的，优化的 optimise 优化
iterative 迭代的 iteration 迭代
self-refinement 自优化
allocate 分配
rival 匹敌
outperform 胜过
prompt 提示词
counterpart 对应的人或事物

By adaptively allocating test-time compute per prompt, smaller models can rival—and sometimes even outperform—their larger, more resource-intensive counterparts.
constrained 有限的
implementation 实现
verifier 验证，验证器
benchmark 基准测试
ingredients 成分
subsequent 后续的
built-in 内置的
mechanism 机制
candidate 候选人，候选者
sample 采样
intermediate 中间的
fine-grained 细粒的，详细的，深入的
split 拆分
overall 整体的
diagram 图解
derivation 推导
PRM 过程奖励模型 ORM 结果奖励模型
terminate 结束，终止
parameter 参数
unsaturated 不饱和性
variance 方差
incorporate 纳入，包含
self-consistency 自洽
aggregate 聚合 in aggregate 总的来说
quirk 怪癖
eval 评估
subtlety 微妙之处
convert 转换
subtract 减去
canonical 标准，典型
plateau 平稳的
approximately 大约 approximation 近似
plausible 貌似合理的，似乎可信的
variant 变体
weighted 加权的
identical 相同的
prioritise 优先考虑
concatenation 连接，拼接
extract 提取
cumulative 累计的
literature 文献
product 乘积
vanilla 普通的
fall short of 未达到
criterion 标准
partial 部分的
token 标记
verify 验证
hyperparameter 超参数
tradeoff 权衡取舍
distribution 分布
bin...into 将...分为
quintiles 五等分
assign 分配
heuristic 启发式方法
oracle 预言机
ground truth 通过直接观察获得的信息
intuition 直觉
collapse 坍塌
prompt 促使，提示
modification 修改
kick in 开始起作用
manifest 体现
optimal 最优
fade in 消失
surpass 超过
leverage 利用
robustness 鲁棒性
holy grail 圣杯
validate 验证
fine-tuning 微调
nuanced 细微的
sheds light on 阐明
integrate 集成
incorporate 纳入，包含
explicit 明确的
resemble 类似于
inherently 本质上地