日本成人电影

日本成人电影动态

喜报 | 我院论文被顶会ICLR 2026接收!ReMix突破数据瓶颈,“拧干”RLVR低效海绵

2026-03-04

近日,日本成人电影 电子信息专业2024级硕士研究生梁靖在大语言模型后训练研究方面取得重要进展,其论文《Squeeze the Soaked Sponge: Efficient Off-policy Reinforcement Finetuning for Large Language Model》被国际顶级人工智能学术会议ICLR接收,其指导教师为学院英才副教授郑岩。

International Conference on Learning Representations(简称“ICLR”)是深度学习与人工智能领域最具权威的顶级会议之一,与NeurIPS、ICML 并称“AI三大顶会”。会议聚焦表征学习、大模型及生成式AI等前沿方向,汇聚了全球顶尖学者与科技巨头(如 Google DeepMind, OpenAI)。

论文介绍

随着DeepSeek-R1等推理模型的兴起,强化学习(RL)已成为激发大语言模型深度思考与复杂推理潜力的核心范式。借助这种强大的推理能力,大语言模型可在数学推理、代码生成等常规场景,以及社交媒体分析、新闻事件梳理等复杂传播场景下完成深度的逻辑推演与任务处理。然而,这一能力的进化目前面临着严峻的样本效率瓶颈——当前主流的强化微调(RFT)算法(如GRPO、PPO等)皆为On-policy(亦称“在策略”或“在轨”)算法,大模型推理生成的采样数据在经历单次梯度更新后即被“用完即弃”,导致样本利用率极低、训练开销极其高昂。

针对这一行业痛点,日本成人电影 深度强化学习实验室与上海人工智能实验室(Shanghai AI Lab) 群体智能团队等单位合作,从Off-policy RL(亦称“离策略”或“离轨”)理论与方法之中求索解决方法,提出了ReMix (Reincarnating Mix-policy Proximal Policy Optimization),一个通用且易实现的大模型强化学习高效后训练微调方法。ReMix的核心优势源于以下三个协同创新的组件:

1. Mix-policy Proximal Policy Gradient (Mix-PPG) 协同高Update-To-Data (UTD) 比率,在保证训练稳定性的前提下大幅提升数据利用效率,解决传统On-policy方法样本浪费的问题。

2. KL-Convex Policy Constraint,在模型探索的灵活性与训练的稳定性之间取得平衡。

3. Policy Reincarnation,实现平滑过渡,确保模型能从早期的高效学习阶段无缝切换到后期的稳定收敛阶段,实现持续且渐进的性能提升。

ReMix不仅克服了复用Off-policy数据导致的训练不稳定性这一核心难题,在多种基座模型、多个主流Math/Coding基准、以及10余代表性模型的比较中,更在完全不牺牲SOTA级推理性能的前提下,将训练采样数据量(Rollout Data Volume)惊人地减少了 30倍至450倍。除此之外,此工作也对Off-policy强化微调的学习动态进行了实验分析,揭示了Off-policy Learning的Whipping Effect(“鞭梢效应”)影响下学习不稳定性来源,以及回复长度骤降、反思模式崩塌等本质学习病态(Learning Pathology)。

ReMix为Off-policy强化微调的研究提供了关键的洞察与范式,也为解决大模型训练的效率难题开辟了全新的技术路径。

ReMix与其他模型样本效率与平均推理性能对比。该图展示了1.5B与7B模型在五项数学基准上的平均Pass@1准确率随采样数据总量的变化趋势

研究团队介绍

日本成人电影 深度强化学习实验室(//rl.beiyang.ren)多年聚焦深度强化学习、具身智能、大模型Agent技术等前沿研究。近年来,实验室在Nature Communications、IEEE TPAMI、NeurIPS、ICML、ICLR等国际顶级期刊会议发表论文100余篇,获得CCF-A类国际会议比赛冠军4次和最佳会议论文奖3次,并承担国家自然科学基金优青项目、国家重点研发计划项目、科技部2030重大项目等多项科研任务。实验室与华为、腾讯、网易、阿里等企业深度合作,并成立华为人工智能创新实验室,研究成果成功落地于自动驾驶、工业软件智能化、广告推荐、Game AI等实际场景。

实验室注重高水平人才培养,学生在读期间有机会前往知名企业长期实习,并与国外和香港知名高校开展学术交流合作,毕业后可推荐到相关高校团队继续深造或从事博士后科研工作。在读/毕业学生多次获得国家基金委青年学生基础研究项目、中国电子学会(腾讯人才项目)、中国科协青年人才托举及各大厂五星/大咖计划等顶级人才计划。实验室长期接受优秀同学交流学习,攻读硕士/博士学位的同学加入,欢迎感兴趣的同学联系(Email: [email protected])。