蚂蚁开源轻量级推理模型Ring-lite,在多项Benchmark中达到SOTA效果,性能媲美3倍激活参数大小的10B以下Dense模型,验证了MoE架构的潜力。Ring-lite基于此前开源的Ling-lite-1.5(总参数16.8B,激活参数2.75B)开发,并采用独创的C3PO强化学习训练方法提升稳定性。其三大技术亮点包括:首创C3PO方法,解决RL训练中回复长度波动问题;通过熵损失平衡Long-CoT SFT与RL的训练比重,提升token效率;探索多领域任务联合训练,实现数学、代码、科学三重协同增益。在AIME、LiveCodeBench、CodeForces等榜单中,Ring-lite表现优异,数学推理得分76.61、编程竞赛得分60.66,均超过对比模型。此外,Ring-lite在高考数学题中得分约130分,物理题测试也表现良好。团队还构建了高质量的Long-CoT和RL训练数据集,涵盖数学、编程、科学等领域,并通过多阶段质量管控确保数据专业性。未来,团队计划进一步优化C3PO方法,实现动态学习节奏和端到端协同优化,推动AI训练更高效稳定。
版权属于:智观行业
作品采用《署名-非商业性使用-相同方式共享 4.0 国际 (CC BY-NC-SA 4.0)》许可协议授权