颠覆性突破!最新扩散模型解决对齐难题,训练速度狂飙5倍!

发布时间:2025-09-23 18:16  浏览量:21

在AI绘画与视频生成如火如荼的今天,一个深刻的矛盾摆在研究者面前:我们越是希望模型能精准理解人类的审美与意图,所需付出的计算代价与面临的训练不稳定性就越是惊人。效率与效果,如同天平的两端,难以兼得。

那么,是否存在一种方法,能够巧妙地打破这个僵局,让AI在变得更“懂你”的同时,还能大幅降低训练成本并保持稳定呢?

一项由北京大学、北京师范大学与字节跳动联合团队提出的新技术BranchGRPO,以其独特的“树形”思维,给出了一个令人振奋的肯定答案。

想让扩散模型或流匹配模型生成的图像更美、视频更连贯,而不仅仅是随机噪点的堆砌,就需要进行“人类偏好对齐”。

这好比不是让模型学会“绘画”,而是学会画出“让人喜欢的画”,目前,主流方法是使用人类反馈强化学习(RLHF),特别是群体相对策略优化(GRPO),直接优化模型参数。

可当GRPO应用于扩散模型这类需要多步(有时是数百步)生成的模型时,两大瓶颈便暴露无遗。

首先是低效性,传统的GRPO采用顺序展开的方式,这意味着为了比较不同策略的优劣,需要为每个样本从头到尾独立运行整个扩散过程。

想象一下,你要测试两种不同的绘画方法,但每次比较都必须从铺开画布开始重新画一遍,其中大量的笔画其实是重复的。

这种冗余计算使得训练成本随着扩散步数线性增长,严重制约了在大型图像、尤其是更长序列的视频生成任务上的应用。

其次是稀疏奖励与反馈失准,现有方法通常只在最终生成的那张图片或那段视频上计算一个奖励分数,然后简单地将这个“终极判决”平均回传给生成过程中的每一步。

这合理吗?你可能会问,难道一幅画的好坏,其每一笔的“功劳”或“过错”都是均等的吗?

显然不是,这种“稀疏且均匀”的反馈机制,使得模型难以精准判断在生成的哪个关键环节做出了正确或错误的决策,导致信用分配(creditassignment)不准确,进而引发训练波动大、收敛困难甚至性能倒退的问题。

BranchGRPO的创新核心,在于它将原本线性的、一步接一步的扩散采样过程,重新构想成了一棵不断生长、分叉的“决策树”,这绝非简单的概念替换,而是从底层机制上提升了效率与精度。

BranchGRPO不再让每条生成路径都孤独地走完全程,它在预设的某些扩散步骤(例如,在第10步、第20步)设置“分叉点”。

在分叉点之前,所有路径共享相同的计算前缀,到达分叉点后,一条路径可以“分裂”成多条子路径,各自探索不同的生成可能性。

这种结构设计,从根本上减少了计算冗余,将采样复杂度从令人望而生畏的O(N×T)降了下来。

那么,这套理论上如此精巧的“树形”引擎,在真实的图像与视频生成战场上,究竟能爆发出多大的能量?它的表现是否真能兑现其承诺的“兼得”愿景?

实验结果是检验新方法最硬核的标准,BranchGRPO在标准的图像偏好数据集HPDv2.1和WanX-1.3B视频生成模型上进行了全面测试,交出了一份令人印象深刻的成绩单。

广泛的消融实验进一步验证了各个组件的有效性,并揭示了如“早期密集分叉”、“路径加权奖励融合”等最佳实践。

同时,分析表明,BranchGRPO在显著提升性能的同时,并未牺牲生成样本的多样性,其MMD²距离与顺序采样方法几乎一致,证明了这是一种“健壮”的优化,而非“过拟合”式的讨好。

看到这里,你或许会好奇,这样一个在效率和效果上都取得突破的方法,其影响力究竟能延伸到多远?它是否只是当前技术的一个小补丁,还是真正开启了一扇新的大门?

BranchGRPO的突破性,远不止于其在特定数据集上取得的几个百分点提升或数倍加速,它的真正价值在于,为扩散模型或流匹配模型的人类偏好对齐提供了一种全新的、可扩展的范式。

它成功地证明了,通过精巧的算法设计,特别是引入树形结构、分叉、奖励融合与剪枝机制,我们完全有可能在同一个框架内,同时攻克效率瓶颈与稳定难题。

这将极大降低AI生成技术迈向实用化、精准化的门槛,让更多研究者能够以可承受的成本训练出更符合人类价值观和审美需求的高质量模型。

展望未来,BranchGRPO所代表的“树形”思维拥有广阔的想象空间,更重要的是,这一范式具有很强的可扩展性,能够轻松应对更大规模的模型和更复杂的多模态对齐任务。

它为解决“规模扩大、对齐成本飙升”这一未来核心挑战,铺就了一条极具潜力的技术路径。