狂读论文:Test-time Computing- from System-1 Thinking to System-2 Thinking

内容总结(关于test-reasoning)

  1. 测试时推理核心是反馈建模和搜索策略

    Illustration of feedback modeling,search strategies and improvement training in test-time reasoning
  2. 反馈建模

    1. 基于分数的反馈:利用验证器
      1. 基于结果的验证器(ORM):使用最终思维链结果的正确性作为训练反馈。
      2. 基于过程的验证器(PRM):则基于每个推理步骤的反馈进行训练。不仅评估中间推理步骤,而且比 ORM 更准确地评估整个推理过程。
        1. PRM 需要更多的人力来注释中间步骤的反馈:蒙特卡洛树搜索(MCTS)算法自动收集高质量的过程监督数据。
        2. PRM 应该评估每个步骤对后续推理的优势,而不仅仅关注其正确性:过程优势验证器(PAVs),并通过蒙特卡洛模拟有效地构建训练数据。
        3. 基于分数的反馈建模忽略了大型语言模型的生成能力,使得难以检测细粒度的错误:GenRM利用指令调整使验证器能够回答“答案是否正确(是/否)?”,并使用生成“是”标记的概率作为分数。GenRM 还可以结合思维链,允许验证器在回答“是”或“否”之前生成相应的理由。
        4. CriticRM联合训练评论模型和验证器。在推理过程中,验证器根据答案和评论模型生成的基于语言的反馈进行评分。(这也放在这一段么?)
    2. 基于语言的反馈:充分利用了大型语言模型的指令遵循能力。通过设计特定的指令,它可以进行成对比较,从多个维度评估答案,甚至以自然语言提供修改建议。
      1. 面临诸如长度、位置和困惑度等偏差:精心设计系统指令以减轻偏差的干扰。
      2. 获得更便宜的基于语言的反馈:监督微调评估模型。
      3. 精细的评估维度:分别训练一个单独的评估模型和一个成对排序模型,然后通过权重合并将它们统一到一个大型语言模型中。
      4. 评估标准更灵活,生成的评估数据更多样化,并且与人类行为更一致:确定每个查询的评估标准,并生成相应的语言反馈。
  3. 搜索策略

    Overall of search strategies
    1. 重复采样:采样策略如 top - p 和 top - k 是大型语言模型推理中常用的解码算法。重点在于验证策略,就是怎么评分。
      1. 多数投票
        1. 犯类似错误:在投票前进行验证或过滤。
      2. Best of N
        1. 变体:根据验证器分数对答案进行加权投票。
        2. 效率低:
          1. 修剪得分低的采样,停止其进一步生成。
          2. PRS使大模型能够自我评论和自我纠正,以减少采样次数。
        3. 改进训练:通过 BoN 采样训练模型以近似 BoN 分布,从而减少推理过程中的搜索空间。
    2. 自我纠正:使大型语言模型能够根据外部或内部反馈迭代地修改和完善生成的结果。
      1. 反馈来源
        1. 人类评估
        2. 工具检查:如编译器检查代码。
        3. 外部模型评估:大模型当评论者,多智能体辩论。
        4. 内在反馈:大模型自我评论。
      2. 有效性争议:被质疑有效性是否高:主要性能瓶颈在于定位错误,建议微调特定模型。
      3. 改进训练:监督微调,在线模仿学习,多轮强化学习方法。
    3. 树搜索:搜索算法和价值函数是树搜索中的两个关键组件。
      1. 搜索算法
        1. 无信息搜索:DFS,BFS,Beam search。
        2. 启发式搜索:MCTS 通过选择、扩展、模拟和反向传播四个步骤逐渐优化搜索结果,接近最优解。Long 使用强化学习训练一个大型语言模型控制器来引导大型语言模型推理器的搜索路径。
      2. 价值函数
        1. RAP 设计一系列启发式价值函数,依任务组合。
        2. AlphaMath 和 TS - LLM 用大语言模型价值函数替代手工函数。
        3. 传统 MCTS 只扩展一个轨迹,rStar 保留多候选路径,用另一个大语言模型推理选路径,并选择两个大模型推理一致的路径。
        4. SC - MCTS 用多个外部奖励模型作价值函数。
      3. 改进训练:奖励函数与偏好优化。

英语单词

  1. modification 改良

  2. calibration 校准

  3. modality 模态,形式

  4. scarcity 稀缺

  5. computational 计算的

  6. shortcoming 缺点

  7. intuitive 直觉的

  8. inference 推理

  9. perceptual 概念的

  10. pattern 模式

  11. assumption 假定

  12. generalization 泛化

  13. leverages 利用

  14. steer 引导

  15. modify 修改

  16. calibrate 校准

  17. preliminary 初步的

  18. decompose 分解

  19. simulate 模拟

  20. remainder 其余部分

  21. deliberate 深思熟虑的

  22. perceptual 感知的

  23. explicitly 明确的,显式的

  24. incrementally 逐步的

  25. be prone to 容易,倾向于

  26. empirical 实证的,经验主义的

  27. cumulative 累计的

  28. etrieval-augmented 搜索增强的

  29. mitigate 减轻

  30. utilize 利用

  31. finetune 微调

  32. taxonomy 分类

  33. distribution 分布

  34. obtain 获得

  35. optimization 优化

  36. algorithm 算法

  37. auxiliary 辅助的

  38. entropy 熵

  39. marginal 边际的

  40. pitfalls 陷阱

  41. trivial 微不足道的

  42. regulation 规则化

  43. multilingual 多语言的

  44. cross-modal 跨模态的

  45. retrieval 检索

  46. caption 字幕

  47. scenarios 场景

  48. normalization 归一化

  49. propagation 传播

  50. covariance 协方差

  51. gradient 梯度

  52. catastrophic 灾难性的

  53. episodic 情节的

  54. latency 延迟

  55. incremental 增量的

  56. exponential 指数的

  57. incorporate 结合

  58. stem from 源于

  59. in-context 上下文的

  60. selection 选择

  61. objective 目标

  62. empirical 实证的

  63. semantically 语义上地

  64. descending 降序的

  65. implicit 隐式的

  66. Bayesian 贝叶斯

  67. sequentical 顺序的

  68. annotation 注释 annotate 注释

  69. subsequent 后续的

  70. traversal 遍历的

  71. bottleneck 瓶颈

  72. externalize 外化

  73. steering 指导的

  74. residual 残差的

  75. alleviate 降低

  76. hallucination 幻觉

  77. toxicity 毒性

  78. compromise 影响

  79. calibrate 校准

  80. contextual 上下文的

  81. transferability 可移植性

  82. component 组成部分

  83. alignment 对齐

  84. rationale 理由

  85. critique 评论

  86. verbal-based 基于语言的

  87. interpretability 可解释性

  88. pairwise 成对的

  89. revision 修改

  90. coherence 连贯性

  91. alignment 对齐性

  92. consistency 一致性

  93. biase 偏差

  94. perplexity 困惑

  95. mitigate 减轻

  96. annotation 符号

  97. criteria 批评

  98. distill 提炼

  99. unify ... into 统一成

  100. align ... with 符合

  101. verify 验证

  102. ensemble 集成

  103. vanilla 普通的

  104. validation 验证

  105. executable 可执行的

  106. variant 变体

  107. surpass 超过

  108. prune 修剪

  109. threshold 阈值

  110. intrinsic 内部的

  111. scalability 可扩展性

  112. template 模板

  113. synthetic 合成的

  114. substantial 实质性的

  115. be susceptible to 容易受到...的影响

  116. adversarial 对抗性的

  117. stance 立场

  118. topological 拓扑的

  119. sparse 稀疏的

  120. be inferior to 比...差

  121. consensus 共识

  122. arithmetic 算术的

  123. degradation 下降

  124. controversial 争议性的

  125. guaranteed 保证的

  126. oracle 预言

  127. decouple 解耦

  128. aforementioned 前面提到的

  129. manually 手动的

  130. trajectory 轨迹

  131. parallel 并行的

  132. heuristic 启发式的

  133. conjecture 猜想

  134. multimoda 多模态

  135. cache 缓存

  136. compression 压缩

  137. speculative 推理的