关闭广告

香港科大:用"随机策略"训练AI数学推理,效果竟然超越复杂算法

科技行者835人阅读


这项由香港科技大学潘凌教授团队联合快手科技、StepFun等机构共同完成的研究,发表于2025年9月29日的arXiv预印本平台(论文编号:arXiv:2509.24981v1)。研究团队提出了一种名为ROVER的全新AI训练方法,颠覆了人们对机器学习复杂性的认知。有兴趣深入了解技术细节的读者可以通过论文编号在arXiv平台查询完整论文。

当我们谈论训练AI解决数学问题时,大多数人可能会想象这需要极其复杂的算法和精密的计算。然而,香港科技大学的研究团队却发现了一个令人意外的现象:有时候,最简单的方法反而能产生最好的效果。这就像在烹饪界,有些大厨经过多年探索后发现,最朴素的食材搭配往往能烹制出最美味的佳肴一样。

目前,训练AI进行数学推理主要依赖一种叫做"强化学习"的技术。这种方法就像训练一个学生做数学题:先让学生尝试解题,如果答对了就给奖励,答错了就给惩罚,然后不断调整学生的解题策略。在AI领域,这种方法被称为PPO(Proximal Policy Optimization)或GRPO(Group-Relative Policy Optimization)等算法。

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

71岁上海爷叔网恋"小姑娘"转30万 约会遭对方持刀勒索

上观新闻 浏览 15043

NBA官方:大洛佩斯获得2022-23赛季鲍勃-兰尼尔社区关怀奖

直播吧 浏览 15248

主打运动与智能 零跑Lafa5内饰首发亮相

网易汽车 浏览 1019

零跑C10:半价的理想L6,开车不再用脚?

Autolab 浏览 12583

今日最难得,我们十一周年啦!

黎贝卡的异想世界 浏览 793

安以恩:邦本宜裕是很“高级”的球员,我们能秒懂彼此的意图

懂球帝 浏览 368

金店报价逼近670元,黄金涨势难止步

第一财经资讯 浏览 11291

哈马斯官员称将“很快”回复停火提议

新华社 浏览 12218

孙兴慜两连杀!争四大战独造3球,21场造21球,维拉真克星

奥拜尔 浏览 11931

普京公开重要情报:全国人民都该了解

环球时报新闻 浏览 637

日媒曝福原爱江宏杰离婚 男方曾在老婆孕期放狠话

网易娱乐 浏览 26599

房产遇灾能获赔百万?“家财险”值得买吗?

环球网资讯 浏览 14613

以色列民众反对进攻加沙 民意与政府撕裂加剧

海外网 浏览 1463

【早知道】十四届全国人大一次会议在京开幕;国资委启动国企对标世界一流企业价值创造行动

证券时报e公司 浏览 19304

盾安环境高溢价收购上海大创 亏损标的业绩承诺如何兑现

时代周报 浏览 10770

77亿的工厂16亿卖 自主“捡漏”合资产能背后的车市剧变

道哥说车 浏览 390

县委原书记收金矿俩老板送的1800万 退赃500万又要回来

上游新闻 浏览 75421

四轮单独控制,现代摩比斯MOBION概念车正式亮相

天天汽车 浏览 12825

京东系高层大换防

全天候科技 浏览 15901

张兰回应海外欠债9.8亿:被资本算计,没欠任何人

Tech星球 浏览 19255

宝马投资7亿美元改造慕尼黑工厂,2027年底开始专门生产纯电动车

网易科技报道 浏览 12429
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1