狂读论文：Test-time Computing- from System-1 Thinking to System-2 Thinking

Posted on 2025-01-23 Edited on 2025-02-23 Views:

内容总结（关于test-reasoning)

测试时推理核心是反馈建模和搜索策略
反馈建模
1. 基于分数的反馈：利用验证器
  1. 基于结果的验证器（ORM）：使用最终思维链结果的正确性作为训练反馈。
  2. 基于过程的验证器（PRM）：则基于每个推理步骤的反馈进行训练。不仅评估中间推理步骤，而且比 ORM 更准确地评估整个推理过程。
    1. PRM 需要更多的人力来注释中间步骤的反馈：蒙特卡洛树搜索（MCTS）算法自动收集高质量的过程监督数据。
    2. PRM 应该评估每个步骤对后续推理的优势，而不仅仅关注其正确性：过程优势验证器（PAVs），并通过蒙特卡洛模拟有效地构建训练数据。
    3. 基于分数的反馈建模忽略了大型语言模型的生成能力，使得难以检测细粒度的错误：GenRM利用指令调整使验证器能够回答“答案是否正确（是/否）？”，并使用生成“是”标记的概率作为分数。GenRM 还可以结合思维链，允许验证器在回答“是”或“否”之前生成相应的理由。
    4. CriticRM联合训练评论模型和验证器。在推理过程中，验证器根据答案和评论模型生成的基于语言的反馈进行评分。（这也放在这一段么？）
2. 基于语言的反馈：充分利用了大型语言模型的指令遵循能力。通过设计特定的指令，它可以进行成对比较，从多个维度评估答案，甚至以自然语言提供修改建议。
  1. 面临诸如长度、位置和困惑度等偏差：精心设计系统指令以减轻偏差的干扰。
  2. 获得更便宜的基于语言的反馈：监督微调评估模型。
  3. 精细的评估维度：分别训练一个单独的评估模型和一个成对排序模型，然后通过权重合并将它们统一到一个大型语言模型中。
  4. 评估标准更灵活，生成的评估数据更多样化，并且与人类行为更一致：确定每个查询的评估标准，并生成相应的语言反馈。
搜索策略
1. 重复采样：采样策略如 top - p 和 top - k 是大型语言模型推理中常用的解码算法。重点在于验证策略，就是怎么评分。
  1. 多数投票
    1. 犯类似错误：在投票前进行验证或过滤。
  2. Best of N
    1. 变体：根据验证器分数对答案进行加权投票。
    2. 效率低：
      1. 修剪得分低的采样，停止其进一步生成。
      2. PRS使大模型能够自我评论和自我纠正，以减少采样次数。
    3. 改进训练：通过 BoN 采样训练模型以近似 BoN 分布，从而减少推理过程中的搜索空间。
2. 自我纠正：使大型语言模型能够根据外部或内部反馈迭代地修改和完善生成的结果。
  1. 反馈来源
    1. 人类评估
    2. 工具检查：如编译器检查代码。
    3. 外部模型评估：大模型当评论者，多智能体辩论。
    4. 内在反馈：大模型自我评论。
  2. 有效性争议：被质疑有效性是否高：主要性能瓶颈在于定位错误，建议微调特定模型。
  3. 改进训练：监督微调，在线模仿学习，多轮强化学习方法。
3. 树搜索：搜索算法和价值函数是树搜索中的两个关键组件。
  1. 搜索算法
    1. 无信息搜索：DFS，BFS，Beam search。
    2. 启发式搜索：MCTS 通过选择、扩展、模拟和反向传播四个步骤逐渐优化搜索结果，接近最优解。Long 使用强化学习训练一个大型语言模型控制器来引导大型语言模型推理器的搜索路径。
  2. 价值函数
    1. RAP 设计一系列启发式价值函数，依任务组合。
    2. AlphaMath 和 TS - LLM 用大语言模型价值函数替代手工函数。
    3. 传统 MCTS 只扩展一个轨迹，rStar 保留多候选路径，用另一个大语言模型推理选路径，并选择两个大模型推理一致的路径。
    4. SC - MCTS 用多个外部奖励模型作价值函数。
  3. 改进训练：奖励函数与偏好优化。

英语单词

modification 改良
calibration 校准
modality 模态，形式
scarcity 稀缺
computational 计算的
shortcoming 缺点
intuitive 直觉的
inference 推理
perceptual 概念的
pattern 模式
assumption 假定
generalization 泛化
leverages 利用
steer 引导
modify 修改
calibrate 校准
preliminary 初步的
decompose 分解
simulate 模拟
remainder 其余部分
deliberate 深思熟虑的
perceptual 感知的
explicitly 明确的，显式的
incrementally 逐步的
be prone to 容易，倾向于
empirical 实证的，经验主义的
cumulative 累计的
etrieval-augmented 搜索增强的
mitigate 减轻
utilize 利用
finetune 微调
taxonomy 分类
distribution 分布
obtain 获得
optimization 优化
algorithm 算法
auxiliary 辅助的
entropy 熵
marginal 边际的
pitfalls 陷阱
trivial 微不足道的
regulation 规则化
multilingual 多语言的
cross-modal 跨模态的
retrieval 检索
caption 字幕
scenarios 场景
normalization 归一化
propagation 传播
covariance 协方差
gradient 梯度
catastrophic 灾难性的
episodic 情节的
latency 延迟
incremental 增量的
exponential 指数的
incorporate 结合
stem from 源于
in-context 上下文的
selection 选择
objective 目标
empirical 实证的
semantically 语义上地
descending 降序的
implicit 隐式的
Bayesian 贝叶斯
sequentical 顺序的
annotation 注释 annotate 注释
subsequent 后续的
traversal 遍历的
bottleneck 瓶颈
externalize 外化
steering 指导的
residual 残差的
alleviate 降低
hallucination 幻觉
toxicity 毒性
compromise 影响
calibrate 校准
contextual 上下文的
transferability 可移植性
component 组成部分
alignment 对齐
rationale 理由
critique 评论
verbal-based 基于语言的
interpretability 可解释性
pairwise 成对的
revision 修改
coherence 连贯性
alignment 对齐性
consistency 一致性
biase 偏差
perplexity 困惑
mitigate 减轻
annotation 符号
criteria 批评
distill 提炼
unify ... into 统一成
align ... with 符合
verify 验证
ensemble 集成
vanilla 普通的
validation 验证
executable 可执行的
variant 变体
surpass 超过
prune 修剪
threshold 阈值
intrinsic 内部的
scalability 可扩展性
template 模板
synthetic 合成的
substantial 实质性的
be susceptible to 容易受到...的影响
adversarial 对抗性的
stance 立场
topological 拓扑的
sparse 稀疏的
be inferior to 比...差
consensus 共识
arithmetic 算术的
degradation 下降
controversial 争议性的
guaranteed 保证的
oracle 预言
decouple 解耦
aforementioned 前面提到的
manually 手动的
trajectory 轨迹
parallel 并行的
heuristic 启发式的
conjecture 猜想
multimoda 多模态
cache 缓存
compression 压缩
speculative 推理的