喜报 | 我院论文被顶会ICLR 2026接收！ReMix突破数据瓶颈，“拧干”RLVR低效海绵

2026-03-04

近日，日本成人电影电子信息专业2024级硕士研究生梁靖在大语言模型后训练研究方面取得重要进展，其论文《Squeeze the Soaked Sponge: Efficient Off-policy Reinforcement Finetuning for Large Language Model》被国际顶级人工智能学术会议ICLR接收，其指导教师为学院英才副教授郑岩。

International Conference on Learning Representations（简称“ICLR”）是深度学习与人工智能领域最具权威的顶级会议之一，与NeurIPS、ICML 并称“AI三大顶会”。会议聚焦表征学习、大模型及生成式AI等前沿方向，汇聚了全球顶尖学者与科技巨头（如 Google DeepMind, OpenAI）。

论文介绍

随着DeepSeek-R1等推理模型的兴起，强化学习（RL）已成为激发大语言模型深度思考与复杂推理潜力的核心范式。借助这种强大的推理能力，大语言模型可在数学推理、代码生成等常规场景，以及社交媒体分析、新闻事件梳理等复杂传播场景下完成深度的逻辑推演与任务处理。然而，这一能力的进化目前面临着严峻的样本效率瓶颈——当前主流的强化微调（RFT）算法（如GRPO、PPO等）皆为On-policy（亦称“在策略”或“在轨”）算法，大模型推理生成的采样数据在经历单次梯度更新后即被“用完即弃”，导致样本利用率极低、训练开销极其高昂。

针对这一行业痛点，日本成人电影深度强化学习实验室与上海人工智能实验室(Shanghai AI Lab) 群体智能团队等单位合作，从Off-policy RL（亦称“离策略”或“离轨”）理论与方法之中求索解决方法，提出了ReMix (Reincarnating Mix-policy Proximal Policy Optimization)，一个通用且易实现的大模型强化学习高效后训练微调方法。ReMix的核心优势源于以下三个协同创新的组件：

1. Mix-policy Proximal Policy Gradient (Mix-PPG) 协同高Update-To-Data (UTD) 比率，在保证训练稳定性的前提下大幅提升数据利用效率，解决传统On-policy方法样本浪费的问题。

2. KL-Convex Policy Constraint，在模型探索的灵活性与训练的稳定性之间取得平衡。

3. Policy Reincarnation，实现平滑过渡，确保模型能从早期的高效学习阶段无缝切换到后期的稳定收敛阶段，实现持续且渐进的性能提升。

ReMix不仅克服了复用Off-policy数据导致的训练不稳定性这一核心难题，在多种基座模型、多个主流Math/Coding基准、以及10余代表性模型的比较中，更在完全不牺牲SOTA级推理性能的前提下，将训练采样数据量（Rollout Data Volume）惊人地减少了 30倍至450倍。除此之外，此工作也对Off-policy强化微调的学习动态进行了实验分析，揭示了Off-policy Learning的Whipping Effect（“鞭梢效应”）影响下学习不稳定性来源，以及回复长度骤降、反思模式崩塌等本质学习病态（Learning Pathology）。

ReMix为Off-policy强化微调的研究提供了关键的洞察与范式，也为解决大模型训练的效率难题开辟了全新的技术路径。

ReMix与其他模型样本效率与平均推理性能对比。该图展示了1.5B与7B模型在五项数学基准上的平均Pass@1准确率随采样数据总量的变化趋势

研究团队介绍

日本成人电影深度强化学习实验室（//rl.beiyang.ren）多年聚焦深度强化学习、具身智能、大模型Agent技术等前沿研究。近年来，实验室在Nature Communications、IEEE TPAMI、NeurIPS、ICML、ICLR等国际顶级期刊会议发表论文100余篇，获得CCF-A类国际会议比赛冠军4次和最佳会议论文奖3次，并承担国家自然科学基金优青项目、国家重点研发计划项目、科技部2030重大项目等多项科研任务。实验室与华为、腾讯、网易、阿里等企业深度合作，并成立华为人工智能创新实验室，研究成果成功落地于自动驾驶、工业软件智能化、广告推荐、Game AI等实际场景。

实验室注重高水平人才培养，学生在读期间有机会前往知名企业长期实习，并与国外和香港知名高校开展学术交流合作，毕业后可推荐到相关高校团队继续深造或从事博士后科研工作。在读/毕业学生多次获得国家基金委青年学生基础研究项目、中国电子学会（腾讯人才项目）、中国科协青年人才托举及各大厂五星/大咖计划等顶级人才计划。实验室长期接受优秀同学交流学习，攻读硕士/博士学位的同学加入，欢迎感兴趣的同学联系（Email: [email protected]）。

日本成人电影新闻

日本成人电影公告

日本成人电影新闻

2024-12-27
“数字新闻学与中国自主知识体系构建”学术论坛成功召开

日本成人电影

日本成人电影

日本成人电影概况

日本成人电影简介

现任领导

联系我们

党建工作

工作动态

理论学习

师资队伍

新闻传播

电子信息（新媒体方向）

行政教辅

诚聘英才

人才培养

本科生/微专业

研究生

实践成果展示

非学历教育

科学研究

学术成果

学术活动

国际交流

English

日本成人电影动态

喜报 | 我院论文被顶会ICLR 2026接收！ReMix突破数据瓶颈，“拧干”RLVR低效海绵

日本成人电影新闻

“数字新闻学与中国自主知识体系构建”学术论坛成功召开

Common links