爆点资讯

这项由香港科技大学潘凌教授团队联合快手科技、StepFun等机构共同完成的研究，发表于2025年9月29日的arXiv预印本平台（论文编号：arXiv:2509.24981v1）。研究团队提出了一种名为ROVER的全新AI训练方法，颠覆了人们对机器学习复杂性的认知。有兴趣深入了解技术细节的读者可以通过论文编号在arXiv平台查询完整论文。

当我们谈论训练AI解决数学问题时，大多数人可能会想象这需要极其复杂的算法和精密的计算。然而，香港科技大学的研究团队却发现了一个令人意外的现象：有时候，最简单的方法反而能产生最好的效果。这就像在烹饪界，有些大厨经过多年探索后发现，最朴素的食材搭配往往能烹制出最美味的佳肴一样。

目前，训练AI进行数学推理主要依赖一种叫做"强化学习"的技术。这种方法就像训练一个学生做数学题：先让学生尝试解题，如果答对了就给奖励，答错了就给惩罚，然后不断调整学生的解题策略。在AI领域，这种方法被称为PPO（Proximal Policy Optimization）或GRPO（Group-Relative Policy Optimization）等算法。

这

香港科大：用＂随机策略＂训练AI数学推理，效果竟然超越复杂算法

特朗普：伊朗...

以色列警告加...

被扫地出门的...

跟队记者：柯...

男子吃饭像兔...

朱光耀：中美...

加沙停火协议生效后的48小时：人质将释放、民众返乡

医保兜底救命药！阿斯利康系，迪哲医药携两款创新药冲击港股|港E声

兰帕德有能，考文垂队史首次取得单赛季联赛六连胜

双后场助76人客场掀翻凯尔特人三分投不准时绿军该咋办？

悦龙科技闯关北交所：研发人员大量流失，大客户秒变孙公司惹隐忧

妻儿三人被丈夫发小杀害：空调开16℃ 地上没有血迹

特朗普下令重启核试验美官员称暂不含核爆炸

戚薇李承铉能消停点不？为圈钱上800个综艺，夫妻那点破事看腻了

张萌携老公现身演唱会，被拍后导演紧急切屏

撒贝宁随李白回加拿大探亲，俩人带着龙凤胎闲逛

何健麒公开无犯罪记录证明，回应前女友涉毒举报

国企董事长上门殴打他人被行拘3天本人拒绝回应

资深天使投资人肖庆平在西藏车祸离世朋友圈内容披露

252名记者在加沙遇难巴勒斯坦记者游行悼念

微胖中年女人别乱穿！3个核心搭配技巧，轻松穿出优雅时髦感

世体：皇马今天在雨中训练，阿拉巴、卡瓦哈尔和吕迪格依然缺席

黑吃黑！骗走全球36亿的“币圈割王”，被精准猎杀

中国AIGC用户破5亿，增长1倍；美团：今年超7成外卖低于15元；新能源事故，「破窗锤」被网友买爆

“恐龙院士”徐星：在朝阳，孩子们可以近距离与化石对话

KAIST团队突破视频生成瓶颈：让AI学会＂自我反思＂修正动作错误

曝李金铭怀孕待产！直播账号已停更近半年，曾卷入知三当三风波

业务调整、AI广泛应用，印度IT业“无声裁员”冲击数万岗位

诺伊尔说希望自己看上去没有马特乌斯那么老，随后赶紧纠正

跳舞，撑不住人形机器人