爆点资讯

这项由香港科技大学潘凌教授团队联合快手科技、StepFun等机构共同完成的研究，发表于2025年9月29日的arXiv预印本平台（论文编号：arXiv:2509.24981v1）。研究团队提出了一种名为ROVER的全新AI训练方法，颠覆了人们对机器学习复杂性的认知。有兴趣深入了解技术细节的读者可以通过论文编号在arXiv平台查询完整论文。

当我们谈论训练AI解决数学问题时，大多数人可能会想象这需要极其复杂的算法和精密的计算。然而，香港科技大学的研究团队却发现了一个令人意外的现象：有时候，最简单的方法反而能产生最好的效果。这就像在烹饪界，有些大厨经过多年探索后发现，最朴素的食材搭配往往能烹制出最美味的佳肴一样。

目前，训练AI进行数学推理主要依赖一种叫做"强化学习"的技术。这种方法就像训练一个学生做数学题：先让学生尝试解题，如果答对了就给奖励，答错了就给惩罚，然后不断调整学生的解题策略。在AI领域，这种方法被称为PPO（Proximal Policy Optimization）或GRPO（Group-Relative Policy Optimization）等算法。

这

香港科大：用＂随机策略＂训练AI数学推理，效果竟然超越复杂算法

互黑式宣发：...

糊了22年，...

Shams：...

台媒：英美等...

不再有任何限...

费迪南德：穆...

马罗塔：国米不考虑中途换帅

北京78-93天津1喜3忧！太吃杰曼状态，陈盈骏低迷，许利民辣眼！

拉波尔塔：如无意外月底回归诺坎普；弗里克在巴萨很开心

造车新势力，重要时刻！

苹果供应链大动作：部分Mac Mini生产今年将从亚洲转移到美国

5月首发亮相奕派M8 奕派科技4月销量20537辆

北京大学联合多所知名高校突破机器人视角转换技术

小米成都车祸引解锁争议打不开的电动车门成监管焦点

欧洲各国在格陵兰岛凑出一个排兵力丹麦驻军大幅增加

进口头孢西力欣涨价30倍！国内已停供2年，医生称非理性囤货没必要

女友BELLA+封面 | SUPER JUNIOR-D&E 双子星的友情叙事诗

蔚来官宣再融资11.6亿美元！

特朗普称已考虑接替穆杰塔巴的人选外交部表态

Cariad不再是“灵魂”担当，大众请外援能否赌赢未来？

这届大美人，怎么入冬撞衫率100%

9岁女孩在埃及飚英语维权:8个月起就跟爸爸＂浪迹天涯＂

兰博基尼 CEO 温科尔曼称至少十年内不会放弃内燃机

帕多瓦诺：我为图多尔感到遗憾；让我选新帅绝对是曼奇尼

杨紫胡歌“以命换命”，《生命树》到底讲了什么？

张馨予减肥致体质差，170身高仅百斤两月发烧三次

石油巨头裹足不前的心理阴影：委内瑞拉与美国的百年石油恩怨

商汤绝影发布可悠，把“龙虾”揣兜里随身携带？

助力识别、延缓或逆转老年疾病，全新“自然奖项”问世

霍家主母显气度：一代卖船供学二代稳大局三代全颜面，四代无人及