FusionBrain团队发明了让AI更聪明地“多思考几种解法”的新方法

发布时间:2026-03-16 16:36  浏览量:1

ProGRPO方法的核心创新在于引入了一种"优势重新加权机制"。简单来说,这种方法会根据AI对不同答案的自信程度来调整奖励信号。当AI对某个答案过于自信时,系统会适当降低对这个答案的奖励,同时鼓励那些AI不太确定但实际上也正确的答案路径。这就像一位智慧的老师,不仅会夸奖学生的好答案,还会特别鼓励那些思路新颖但学生自己还不太确定的解法。

研究团队将这个过程比作平衡木表演。传统的训练方法就像让所有表演者都往天平的一边跑,最终天平严重倾斜。而ProGRPO方法则会根据天平的倾斜程度动态调整,让表演者在天平上保持相对平衡,这样就能维持多样性。

为了实现这种平衡,研究团队设计了两个关键的信心评估指标:提示困惑度和答案信心度。提示困惑度衡量的是AI对问题本身的熟悉程度,就像学生看到题目时的第一反应是"这题我见过"还是"这题看起来很陌生"。答案信心度则评估AI对自己生成答案的把握程度,类似于学生写完答案后心里的那种"我觉得这样做对"或"我不太确定这样对不对"的感觉。

特别值得注意的是,研究团队采用了一种叫做"低概率词元长度标准化"的技术。这个名字听起来很复杂,实际上解决的是一个很实际的问题:在AI生成的文本中,有些词是"送分题",比如"答案是"这样的功能性词汇,AI几乎总是能正确选择;而有些词则是"难题",需要真正的推理能力。传统方法会把这两类词混在一起评估,就像把英语听力考试中的"hello"和复杂的专业术语放在一起打分一样不合理。新方法只关注那些真正需要思考的"难词",大约占总词数的20%,这样评估出来的信心度更能反映AI的真实推理质量。

在数学推理任务上的实验结果令人印象深刻。以Qwen2.5-7B模型为例,ProGRPO方法在Pass@1指标上比传统GRPO方法提高了5.7%,在Pass@32指标上更是提高了13.9%。这里的Pass@k指标可以理解为"给AI k次机会,看它能否至少答对一次"。Pass@1就是"一次就答对"的概率,而Pass@32则是"给32次机会至少答对一次"的概率。传统方法虽然在Pass@1上表现不错,但在Pass@32上的提升有限,说明AI虽然找到了一种靠谱的解法,但缺乏探索其他正确路径的能力。而ProGRPO方法在保持Pass@1性能的同时,大幅提升了Pass@32性能,证明它确实让AI学会了多样化的正确思维方式。

研究团队还在多个数学竞赛数据集上进行了测试,包括美国数学邀请赛(AIME)2024和2025、美国数学竞赛(AMC)23、MATH500等。在所有这些测试中,ProGRPO都表现出了一致的优势。特别是在最具挑战性的AIME 2024数据集上,ProGRPO的Pass@1性能达到21.3%,比传统FlowRL方法高出12.1个百分点,Pass@32性能更是达到53.3%,显著超越了所有对比方法。

除了数学推理,研究团队还在代码生成任务上验证了方法的有效性。在LiveCodeBench、CodeForces和HumanEval+等编程竞赛数据集上,ProGRPO同样表现出色。在CodeForces平台上,使用ProGRPO训练的模型达到了1422.49的评分,对应75.4%的百分位排名,比传统GRPO方法高出近180分。这相当于从一个初级程序员的水平提升到了中级程序员的水平。

为了验证方法的泛化能力,研究团队还在一些分布外(OOD)数据集上进行了测试。在MMLU-Pro和GPQA等通用领域测试集上,ProGRPO同样保持了相对传统GRPO方法的优势,证明这种方法不仅在训练领域有效,在面对新的、未见过的问题类型时也能保持较好的性能。

从训练动态的角度来看,ProGRPO展现出了独特的熵变化模式。在训练的早期阶段,模型的输出熵(即答案的多样性)会先下降,这是因为模型正在学习如何给出正确答案。但随着训练的进行,熵开始回升并最终稳定在一个较高的水平。这种现象可以理解为:模型先学会了"怎样做是对的",然后学会了"有哪些不同的对的做法"。相比之下,传统GRPO方法的熵会持续下降,最终趋于零,表明模型的思维越来越僵化。

研究团队还分析了生成答案的多样性质量。通过计算Distinct-2、Self-BLEU和语义余弦相似度等指标,他们发现ProGRPO生成的正确答案在词汇和语义层面都更加多样化。虽然表面的词汇多样性(Distinct-2)略有降低,但语义层面的多样性显著提升,说明模型学会了用不同的思路和表达方式来解决同一个问题,而不是简单地变换措辞。

在实际应用层面,这项研究对于改进AI助手的推理能力具有重要意义。目前的AI助手虽然在很多任务上表现不错,但往往缺乏思维的灵活性。当用户提出一个问题时,AI助手可能只会用一种固定的方式回答,即使这种方式对特定用户来说并不是最好的。ProGRPO方法可以让AI助手学会多种正确的解题思路,从而能够根据不同用户的需求和偏好提供更加个性化和多样化的回答。

从理论角度来看,这项研究为强化学习中的探索-利用权衡问题提供了一个新的视角。传统的强化学习方法往往侧重于利用已知的高回报策略,而忽视了对新策略的探索。ProGRPO通过引入基于置信度的奖励调节机制,在保证性能的同时促进了探索,为解决这一经典问题提供了新的思路。

研究团队在论文中还提供了详细的理论分析,证明了ProGRPO方法在数学上的合理性。他们证明了这种方法会收敛到一个"置信度均衡"状态,在这种状态下,所有正确答案的置信度趋于相等,从而实现了最大熵分布。这意味着模型不会过度偏向某一种特定的解法,而是会平等地对待所有正确的解决方案。

在实验设计上,研究团队采用了严格的对照实验方法。他们不仅与传统的GRPO方法进行了对比,还与最近提出的FlowRL等方法进行了比较。此外,他们还进行了详细的消融实验,逐一验证了方法中各个组件的作用。这些实验结果表明,提示困惑度和答案信心度的结合使用是实现性能提升的关键,单独使用其中任何一个指标都无法达到最佳效果。

研究团队还探讨了超参数α的影响。这个参数控制着置信度调节的强度,类似于调味料的用量。实验发现,当α设置为0.3时效果最好,这时既能有效促进多样性,又不会破坏训练的稳定性。如果α设置过大,就像调料放得过多,会掩盖原本的味道,影响模型的整体性能。

值得一提的是,这种方法在计算开销方面也很实用。与一些需要额外价值网络的方法相比,ProGRPO只需要在现有的GRPO框架基础上增加少量的置信度计算,不会显著增加训练时间和计算资源需求。这使得该方法在实际应用中更具可行性。

研究团队还发现了一个有趣的现象:模型在面对不同难度的问题时,表现出了自适应的行为。对于简单的问题,模型的置信度普遍较高,此时ProGRPO会适当抑制过度自信,鼓励模型探索不同的解法。对于困难的问题,模型的置信度普遍较低,此时ProGRPO会更加温和地进行调节,避免过度干扰模型的学习过程。这种自适应性使得方法在处理不同类型和难度的问题时都能保持良好的效果。

从更宏观的角度来看,这项研究反映了AI发展的一个重要趋势:从追求单一指标的优化转向追求多维度的综合提升。过去,我们往往只关注模型在特定任务上的准确率,但现在越来越重视模型的泛化能力、鲁棒性和多样性。ProGRPO正是这种理念的体现,它在保证准确性的同时,大幅提升了模型输出的多样性和创造性。

这项研究的意义不仅限于技术层面,还有重要的教育启示。在人类教育中,我们也常常面临类似的问题:学生容易形成固化的思维模式,只会用一种方法解决问题。ProGRPO的成功经验提示我们,在教育过程中应该适当地"奖励多样性",鼓励学生探索不同的解题思路,即使这些思路在初期看起来不够完美。

当然,这项研究也有一些局限性。首先,方法的效果在很大程度上依赖于置信度评估的准确性。如果置信度计算不够准确,可能会误导优化过程。其次,方法中的低概率词元识别需要预先设定阈值,这个阈值的选择可能需要根据不同的任务和模型进行调整。最后,虽然方法在数学和编程任务上表现出色,但在其他类型的推理任务上的效果还需要进一步验证。

总的来说,这项研究为解决AI推理中的多样性问题提供了一个优雅而有效的解决方案。通过巧妙地利用模型自身的置信度信号,ProGRPO成功地实现了探索与利用的平衡,让AI既能保持高准确性,又能展现丰富的创造性。这不仅是技术上的突破,更是对AI学习机制的深刻理解和创新应用。随着这类方法的进一步发展和完善,我们可以期待看到更加智能、灵活和富有创造力的AI系统。

Q&A

Q1:ProGRPO方法是什么?

A:ProGRPO是一种新的AI训练方法,通过调节奖励信号来防止AI在学习推理时只会用一种固定思路。它会根据AI对答案的自信程度动态调整奖励,鼓励AI探索多种正确的解题路径,就像鼓励学生用不同方法解数学题一样。

Q2:这个方法比传统方法好在哪里?

A:传统方法容易让AI越练越"钻牛角尖",最终只会一种解法。ProGRPO在保持准确率的同时大幅提升了答案多样性,在Qwen2.5-7B模型上,Pass@32指标提升了13.9%,意味着AI能用更多种正确方式解决同一个问题。

Q3:ProGRPO方法适用于哪些任务?

A:目前在数学推理和代码生成任务上效果最明显,包括数学竞赛题目、编程竞赛等。研究团队在AIME、AMC、CodeForces等多个测试集上都验证了效果,未来可能扩展到更多需要创造性思维的AI任务。