阿里通义实验室智能计算团队推出新算法 FIPO金十数据 4 月 7 日讯，4 月 7 日，阿里通义实验室智能计算团队宣布推出新算法 FIPO（Future-KL Influenced Policy Optimization），引入 Future-KL 机制，奖励关键 Token，解决纯强化学习（Pure RL）训练中“推理长度停滞”难题

阿里通义实验室智能计算团队推出新算法 FIPO
金十数据 4 月 7 日讯，4 月 7 日，阿里通义实验室智能计算团队宣布推出新算法 FIPO（Future-KL Influenced Policy Optimization），引入 Future-KL 机制，奖励关键 Token，解决纯强化学习（Pure RL）训练中“推理长度停滞”难题。据该团队介绍，在 32B 规模的纯 RL 设定下，率先实现对 o1-mini 与同规模 DeepSeek-Zero-MATH 的性能反超。