狂读论文:blog-scaling-test-time-compute

原博客连接:https://huggingface.co/spaces/HuggingFaceH4/blogpost-scaling-test-time-compute

内容总结

  1. 理解:利用奖励模型在推理阶段扩展
  2. TTC的两种策略:
    1. 自我优化,利用大模型来评价
    2. 利用奖励模型进行评估(本文利用这种方法)
      1. PRM:可以对每个过程进行评估
      2. ORM:只能评估最后结果
  3. 搜索答案方法(类似语言模型的采样方法,分数类似概率)search-strategies
    1. Best-of-N:所有待选项选择最好的。
    2. Beam search:每次在M个待选答案中保留最高的N个继续搜索,最终选择总体概率最高的路线。
    3. Diverse Verifier Tree Search:独立的进行两个beam search,最后比较各自的最佳结果。
    4. 此外文章还用到了不需要 PRM 的 Majority voting:选重复最多次的答案。
  4. 流程system
    1. 对问题生成多个答案
    2. 利用PRM评估所有答案,通过搜索策略选择出几个最好答案
    3. 再利用选择答案以及相应提示词继续生成多个答案,循环往复,直到EOS的token。
  5. 提出了一个公式,根据你的计算量预算,题目难度来选择搜索方法。

理解

  1. 利用test-time compute,可以让小模型的准确率大大提升。
  2. 有点类似LoRA,主要依赖一个奖励函数和一套运行逻辑,而不需要改变模型本身参数。

英语单词

  1. scaling 扩展 scalable 可扩展的

    Over the last few years, the scaling of train-time compute has dominated the progress of large language models (LLMs).

  2. paradigm 模式

  3. clusters 集群

  4. on the horizon 即将

  5. complementary 补充的

  6. inference 推理

  7. optimally 最佳的,优化的 optimise 优化

  8. iterative 迭代的 iteration 迭代

  9. self-refinement 自优化

  10. allocate 分配

  11. rival 匹敌

  12. outperform 胜过

  13. prompt 提示词

  14. counterpart 对应的人或事物

    By adaptively allocating test-time compute per prompt, smaller models can rival—and sometimes even outperform—their larger, more resource-intensive counterparts.

  15. constrained 有限的

  16. implementation 实现

  17. verifier 验证,验证器

  18. benchmark 基准测试

  19. ingredients 成分

  20. subsequent 后续的

  21. built-in 内置的

  22. mechanism 机制

  23. candidate 候选人,候选者

  24. sample 采样

  25. intermediate 中间的

  26. fine-grained 细粒的,详细的,深入的

  27. split 拆分

  28. overall 整体的

  29. diagram 图解

  30. derivation 推导

  31. PRM 过程奖励模型 ORM 结果奖励模型

  32. terminate 结束,终止

  33. parameter 参数

  34. unsaturated 不饱和性

  35. variance 方差

  36. incorporate 纳入,包含

  37. self-consistency 自洽

  38. aggregate 聚合 in aggregate 总的来说

  39. quirk 怪癖

  40. eval 评估

  41. subtlety 微妙之处

  42. convert 转换

  43. subtract 减去

  44. canonical 标准,典型

  45. plateau 平稳的

  46. approximately 大约 approximation 近似

  47. plausible 貌似合理的,似乎可信的

  48. variant 变体

  49. weighted 加权的

  50. identical 相同的

  51. prioritise 优先考虑

  52. concatenation 连接,拼接

  53. extract 提取

  54. cumulative 累计的

  55. literature 文献

  56. product 乘积

  57. vanilla 普通的

  58. fall short of 未达到

  59. criterion 标准

  60. partial 部分的

  61. token 标记

  62. verify 验证

  63. hyperparameter 超参数

  64. tradeoff 权衡取舍

  65. distribution 分布

  66. bin...into 将...分为

  67. quintiles 五等分

  68. assign 分配

  69. heuristic 启发式方法

  70. oracle 预言机

  71. ground truth 通过直接观察获得的信息

  72. intuition 直觉

  73. collapse 坍塌

  74. prompt 促使,提示

  75. modification 修改

  76. kick in 开始起作用

  77. manifest 体现

  78. optimal 最优

  79. fade in 消失

  80. surpass 超过

  81. leverage 利用

  82. robustness 鲁棒性

  83. holy grail 圣杯

  84. validate 验证

  85. fine-tuning 微调

  86. nuanced 细微的

  87. sheds light on 阐明

  88. integrate 集成

  89. incorporate 纳入,包含

  90. explicit 明确的

  91. resemble 类似于

  92. inherently 本质上地