关闭广告

LLM 仅靠自身就能增强推理?SePT 给出简洁在线自训练范式

机器之心Pro1347人阅读



本文第一作者李梦琦为香港中文大学(深圳)计算机科学专业博士生。本项研究是与上海交通大学赵磊老师、香港中文大学苏文藻老师合作,并在香港中文大学(深圳)孙若愚老师与李肖老师的共同指导下完成。

在推理后训练里,多数方法仍依赖奖励模型、验证器或额外教师信号。如果不依赖这些外部信号,只使用模型自身生成的答案进行自训练,是否仍然能够提升推理能力?是的!SePT(Self-evolving Post-Training)给出肯定答案,简洁的自训练方法,可在数学推理任务准确率直升10个点!



版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

高校通报"食堂花生米黄曲霉毒素超标11倍":学生未食用

大风新闻 浏览 7525

伊朗"蚊子舰队"披露:被美方视为霍尔木兹海峡的主要威胁

扬子晚报 浏览 1277

协议中加入"毒丸"条款 美国与印尼的贸易协议面临破裂

第一财经资讯 浏览 20434

天空记者:阿森纳的冬窗会相对平静,他们想在夏季完成交易

懂球帝 浏览 3466

体图:格纳布里愿意接受较低薪资,拜仁可能和他续约两年

懂球帝 浏览 4102

小S二女儿疑曝出恋情,在墨尔本和一男子游玩

小徐讲八卦 浏览 3054

杨瀚两双登热搜第一!对抗明显提升 有球权真不差 拓媒怀念比帅

颜小白的篮球梦 浏览 3638

激光雷达上车 比亚迪新款海豹06EV申报图曝光

网易汽车 浏览 3223

巴以冲突两周年 加沙“仿佛已从地图上被抹去”

环球网资讯 浏览 4243

李小鹏女儿14岁奥莉近照刷屏!真是女大十八变

今古深日报 浏览 1366

吴佩慈发大S照片悼念:我失去的岂止是一个好朋友

素素娱乐 浏览 2951

A股公司老总被抓宣布离婚 80后前妻分9.24亿紧急接班

每日经济新闻 浏览 9178

下辈子换我长郑恩彩这样好吗?

时尚COSMO 浏览 3311

4平米阳台爆改“卧室”、110平3房有15平阳台!中建东孚中环麓岛“高得房率神话”背后

地产深度报道 浏览 4077

纳瓦拉同平台/油耗6.8L 郑州日产金锐骐上市8.68万元起

网易汽车 浏览 3117

詹姆斯坐骨神经痛进展:湖人计划让他11月中旬复出 将耐心康复

醉卧浮生 浏览 4266

上市近30年终落幕,天茂集团主动退市

虎投邦 浏览 4322

主要针对能源企业,仍然保留对话空间,俄称已对美欧制裁形成“免疫力”

环球网资讯 浏览 4131

特斯拉深度解读|马斯克的2025 CEO绩效奖

不看车bukanche 浏览 4308

高市早苗当选日本首相 成为日本历史上首名女首相

环球网 浏览 9163

阿卡进四强上轮电子设备没收却再惹争议,生产商:这又不是类固醇

网球之家 浏览 2960
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1