关闭广告

LLM 仅靠自身就能增强推理?SePT 给出简洁在线自训练范式

机器之心Pro756人阅读



本文第一作者李梦琦为香港中文大学(深圳)计算机科学专业博士生。本项研究是与上海交通大学赵磊老师、香港中文大学苏文藻老师合作,并在香港中文大学(深圳)孙若愚老师与李肖老师的共同指导下完成。

在推理后训练里,多数方法仍依赖奖励模型、验证器或额外教师信号。如果不依赖这些外部信号,只使用模型自身生成的答案进行自训练,是否仍然能够提升推理能力?是的!SePT(Self-evolving Post-Training)给出肯定答案,简洁的自训练方法,可在数学推理任务准确率直升10个点!



版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

徐冬冬尹子维婚礼延期!不是感情生变而是变故

一盅情怀 浏览 2604

徐彬:这边训练节奏快,能适应英国生活,语言已能听懂五六十

懂球帝 浏览 2369

CBA疯狂一夜:广东遭上海双杀,前总冠军23连败,最新积分榜如下

侃球熊弟 浏览 2401

华为:HarmonyOS 5终端设备数量突破2000万台

大象新闻 浏览 4325

新一期U17国足集训名单出炉:浮嶋敏挂帅,邝兆镭、帅惟浩在列

懂球帝 浏览 2612

绝色美人赛道,太适合何晴了!

温柔娱公子 浏览 2411

首日大涨,成都一家“AI小巨人”敲钟了

深蓝财经 浏览 2859

以军夜间大规模空袭加沙城 坦克已入城

每日经济新闻 浏览 4326

西班牙U20主帅:很高兴亚马尔、库巴西、赫伊森能进成年队

懂球帝 浏览 4196

普通人穿衣真的很简单!单品选对、搭配合理,大方舒适又得体

静儿时尚达人 浏览 2025

全球首个太空AI诞生,H100在轨炼出!马斯克爆赞

新智元 浏览 3007

风云突变,俄欧提前“对决”,中美怎么办?

浏览 26770

皇社球员阿兰布鲁:要把绝杀进球献给经历艰难时刻的委内瑞拉

懂球帝 浏览 2701

普京:俄罗斯将在战场解放本国故土 欧洲"猪猡"将下台

参考消息 浏览 13538

"与辉同行"带货83元3只"皖西麻黄鸡"被打假 客服回应

澎湃新闻 浏览 6841

肖荣基带肖思远的照片亮相九三阅兵

环球网资讯 浏览 3776

德转意甲身价涨幅榜:帕莱斯特拉+1650万,巴尔泰萨吉+1500万

懂球帝 浏览 2870

特朗普政府酝酿关税B计划

北京商报 浏览 3253

贝克汉姆家闹出大瓜!豪门大戏再添新章

观察鉴娱 浏览 4195

王传君影帝封号引发争议,24小时后遭遇令人不适事件

80后房车生活 浏览 3377

巴黎时装周|来看,全世界最美的衣服

LinkFashion 浏览 3846
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1