昆仑万维再次开源奖励模型!Skywork-Reward-V2在七大主流奖励模型评测榜单中全面夺魁
2024年9月,昆仑万维首次开源了Skywork-Reward系列模型及相关数据集。过去九个月中,这一系列模型与数据已被开源社区广泛应用于研究与实践,在HuggingFace平台上的累计下载量超过75万次,并助力多个前沿模型在RewardBench等权威评测中取得优异成绩。
2025年7月4日,昆仑万维继续开源第二代奖励模型(Reward Model)Skywork-Reward-V2系列,共包含8个基于不同基座模型和不同大小的奖励模型,参数规模从6亿到80亿不等,其在七大主流奖励模型评测榜单中全面夺魁。
Skywork-Reward-V2下载地址
HuggingFace地址:
https://huggingface.co/collections/Skywork/skywork-reward-v2-685cc86ce5d9c9e4be500c84
GitHub地址:
https://github.com/SkyworkAI/Skywork-Reward-V2
技术报告:
https://arxiv.org/abs/2507.01352
奖励模型在从人类反馈中强化学习(RLHF)过程中发挥着至关重要的作用。在打造这一新一代奖励模型的过程中,我们构建了一个包含总共4000万对偏好对比的混合数据集Skywork-SynPref-40M。
为实现大规模、高效的数据筛选与过滤,昆仑万维特别设计了人机协同的两阶段流程,将人工标注的高质量与模型的规?;砟芰ο嘟岷稀T谡庖涣鞒讨?,人类提供经过严格验证的高质量标注,大型语言模型(LLMs)则根据人工指导进行自动整理和扩充。
基于上述优质的混合偏好数据,我们开发了Skywork-Reward-V2系列,其展现了广泛的适用性,在多个能力维度上表现出色,包括对人类偏好的通用对齐、客观正确性、安全性、风格偏差的抵抗能力,以及best-of-N扩展能力。经实验验证,该系列模型在七个主流奖励模型评测基准上均获得最佳表现。
01 Skywork-SynPref-40M:
人机协同,完成千万级人类偏好数据筛选
即使是当前最先进的开源奖励模型,在大多数主流评测基准上表现仍然不足。它们未能有效捕捉人类偏好中细致而复杂的特征,尤其是在面对多维度、多层次反馈时,其能力尤为有限。
此外,许多奖励模型容易在特定的基准任务上表现突出,却难以迁移到新任务或新场景,表现出明显的“过拟合”现象。尽管已有研究尝试通过优化目标函数、改进模型架构,以及近期兴起的生成式奖励模型(Generative Reward Model)等方法来提升性能,但整体效果仍然十分有限。
图左丨31个顶尖开源奖励模型在RewardBench上的能力对比;图右丨分数的相关性——很多模型在RewardBench上性能提升后,在其他Benchmark上成绩却「原地踏步」,这可能意味着过拟合现象。
与此同时,以OpenAI的o系列模型和DeepSeek-R1为代表的模型推动了“可验证奖励强化学习”(Reinforcement Learning with Verifiable Reward,RLVR)方法的发展,通过字符匹配、系统化单元测试或更复杂的多规则匹配机制,来判断模型生成结果是否满足预设要求。
虽然此类方法在特定场景中具备较高的可控性与稳定性,但本质上难以捕捉复杂、细致的人类偏好,因此在优化开放式、主观性较强的任务时存在明显局限。
为了解决上述问题,我们认为当前奖励模型的脆弱性主要源于现有偏好数据集的局限性,这些数据集往往覆盖范围有限、标签生成方式较为机械,或缺乏严格的质量控制。
因此,在新一代奖励模型的研发中,我们不仅延续了第一代模型在数据优化方面的经验,还通过引入更加多样且规模更大的真实人类偏好数据,力求在提升数据规模的同时兼顾数据质量。
图丨“人机协同、两阶段迭代”的数据甄选流水线
因此,昆仑万维提出了Skywork-SynPref-40M——迄今为止规模最大的偏好混合数据集,总计包含4000万对偏好样本。其核心创新在于一条“人机协同、两阶段迭代”的数据甄选流水线。
第一阶段:人类引导的小规模高质量偏好构建
团队首先构建了一个未经验证的初始偏好池,并借助大语言模型(LLM)生成与偏好相关的辅助属性,如任务类型、客观性、争议性等。在此基础上,人工标注者依照一套严格的验证协议,并借助外部工具与先进的大语言模型,对部分数据进行精细审核,最终构建出一个小规模但高质量的“金标准”数据集,作为后续数据生成与模型评估的依据。
随后,我们以金标准数据中的偏好标签为引导,结合LLM大规模生成高质量的“银标准”数据,从而实现数据量的扩展。团队还进行了多轮迭代优化:每一轮中,训练奖励模型并根据其在金标准数据上的表现,识别模型的薄弱环节;再通过检索相似样本并利用多模型一致性机制自动标注,进一步扩展和增强银标准数据。这一人机协同的闭环流程持续迭代,有效提升了奖励模型对偏好的理解与判别能力。
第二阶段:全自动大规模偏好数据扩展
在获得初步高质量模型之后,第二阶段转向自动化的大规模数据扩展。此阶段不再依赖人工审核,而是采用训练完成的奖励模型执行一致性过滤:
若某个样本的标签与当前最优模型预测不一致,或模型置信度较低,则调用LLM重新自动标注;
若样本标签与“金模型”(即仅使用人工数据训练的模型)预测一致,且获得当前模型或LLM支持,则可直接通过筛选。
借助该机制,团队从原始的4000万样本中成功筛选出2600万条精选数据,在极大减少人工标注负担的同时,实现了偏好数据在规模与质量之间的良好平衡。
02 Skywork-Reward-V2:
以小模型尺寸,全方位匹配大模型性能
相比上一代Skywork-Reward,昆仑万维全新发布的Skywork-Reward-V2系列提供了基于Qwen3和LLaMA3系列模型训练的8个奖励模型,参数规模覆盖从6亿至80亿。
在 Reward Bench v1/v2、PPE Preference & Correctness、RMB、RM-Bench、JudgeBench 等共七个主流奖励模型评估基准上,Skywork-Reward-V2系列全面达到了当前最优(SOTA)水平。
图丨Skywork-Reward-V2系列在七个主流评测集上的表现
以数据质量与丰富度弥补模型规模限制
即便基于最小模型Skywork-Reward-V2-Qwen3-0.6B,其整体性能已几乎达到上一代最强模型Skywork-Reward-Gemma-2-27B-v0.2的平均水平。更进一步,Skywork-Reward-V2-Qwen3-1.7B在平均性能上已超越当前开源奖励模型的SOTA——INF-ORM-Llama3.1-70B。而最大规模的Skywork-Reward-V2-Llama-3.1-8B,在所有主流基准测试中实现了全面超越,成为当前整体表现最优的开源奖励模型。
图丨Skywork-Reward-V2系列在RewardBench v2评测集上的表现
广泛覆盖多维人类偏好能力
在通用偏好评估基准(如Reward Bench)上,Skywork-Reward-V2系列优于多个参数更大的模型(如70B)及最新的生成型奖励模型,进一步验证了高质量数据的重要性。
在客观正确性评估方面(如JudgeBench和PPE Correctness),尽管整体略逊于少数专注于推理与编程的闭源模型(如OpenAI的o系列),但在知识密集型任务中表现突出,超越了所有其他开源模型。
此外,Skywork-Reward-V2在多项高级能力评估中均取得领先成绩:包括Best-of-N(BoN)任务、偏见抵抗能力测试(RM-Bench)、复杂指令理解及真实性判断(RewardBench v2),展现了出色的泛化能力与实用性。
图丨Skywork-Reward-V2在PPE Correctness下五个子集的Best-of-N任务中皆达到最佳
图丨在难度较高、专注评估模型对风格偏好的抗性的RM-Bench上,Skywork-Reward-V2系列也取得了SOTA表现
数据筛选流程具备高度扩展性,显著提升奖励模型性能
除了在性能评估中表现优异,团队还发现在“人机协同、两阶段迭代”的数据构建流程中,经过精细筛选和过滤的偏好数据,在多轮迭代训练中能够持续有效地提升奖励模型的整体性能,尤其是在第二阶段的全自动数据扩展中表现尤为显著。
相比之下,若仅盲目地扩充原始数据,非但无法提升初始性能,反而可能引入噪声,带来负面影响。为进一步验证数据质量的关键作用,我们在早期版本的1600万条数据子集上进行实验,结果显示,仅使用其中1.8%(约29万条)的高质量数据训练一个8B规模模型,其性能就已超过当前的70B级SOTA奖励模型。这一结果再次印证了Skywork-SynPref数据集不仅在规模上处于领先地位,更在数据质量方面具有显著优势。
Skywork-Reward-V2 的测试样例展示
通过下述案例,我们一起来看看,Skywork-Reward-V2-Llama-3.1-8B在极为困难的 RewardBench 2 测试集上的实际预测结果。
实例1 Skywork-Reward-V2-Llama-3.1-8B 拥有判断模型回复是否精确循序指令的能力
实例2 Skywork-Reward-V2-Llama-3.1-8B 能够选择最安全和稳妥的回答,并对带有泄露隐私的模型回复给予低分
实例3
Skywork-Reward-V2-Llama-3.1-8B 在一定程度上能够识别细微的事实性错误
03 迎开源奖励模型新里程碑
助力打造未来AI基础设施
在本次第二代奖励模型Skywork-Reward-V2的研究工作中,团队提出了Skywork-SynPref-40M,一个包含4000万个偏好对的数据混合集(其中2600万对经过精心筛?。?,以及Skywork-Reward-V2,一系列共八个具备最先进性能的奖励模型,设计目标是适用于广泛任务。
我们相信,这项研究工作和奖励模型的持续迭代,有助于推动开源奖励模型的发展,并更广泛促进了基于人类反馈强化学习(RLHF)研究的进步,这是该领域向前迈出的重要一步,也能够进一步加速开源社区的繁荣。
Skywork-Reward-V2系列模型专注于对偏好数据规模扩展的研究,今后团队也将研究辐射面陆续转向其他尚未被充分探索的领域,例如替代训练技术与建模目标。
与此同时,考虑到近期领域内的发展趋势——奖励模型与奖励塑造机制已然成为当今大规模语言模型训练流程中的核心环节,这不仅适用于基于人类偏好学习和行为引导的RLHF,也适用于包含数学、编程或通用推理任务的RLVR以及基于智能体的学习场景。
因此,未来我们设想奖励模型或者更广义的统一奖励系统,有望构成AI基础设施的核心。它们不再仅仅是行为或正确性的评估器,而将成为智能系统在复杂环境中航行的“指南针”,帮助其对齐人类价值观,并持续进化,朝着更有意义的目标前行。