关闭广告

LLM 仅靠自身就能增强推理?SePT 给出简洁在线自训练范式

机器之心Pro759人阅读



本文第一作者李梦琦为香港中文大学(深圳)计算机科学专业博士生。本项研究是与上海交通大学赵磊老师、香港中文大学苏文藻老师合作,并在香港中文大学(深圳)孙若愚老师与李肖老师的共同指导下完成。

在推理后训练里,多数方法仍依赖奖励模型、验证器或额外教师信号。如果不依赖这些外部信号,只使用模型自身生成的答案进行自训练,是否仍然能够提升推理能力?是的!SePT(Self-evolving Post-Training)给出肯定答案,简洁的自训练方法,可在数学推理任务准确率直升10个点!



版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

引援自救!内蒙古矿业富豪入局,贾国龙朋友圈托举西贝

时代财经 浏览 1718

金鸡国产电影展|片单发布:百廿回眸,新程再启

幕味儿 浏览 3526

夜读体验史诗级提升:苹果 M5 iPad Pro 屏幕亮度最低为 1 尼特

IT之家 浏览 3773

大衣里面穿什么?这件内搭才是今年冬天的“顶流”

LinkFashion 浏览 2506

从口袋PC到智能座舱:华为新品矩阵亮相2025中国移动全球合作伙伴大会 解码智慧生活

快科技 浏览 3726

中印巴令人意外地站在了同一边 反对美方举措

澎湃新闻 浏览 5330

“多巴胺风”又又又火了!这样穿时髦又减龄

LinkFashion 浏览 2370

马斯克:比尔盖茨最好尽快平掉特斯拉空头头寸

鞭牛士 浏览 3162

卡耐基梅隆大学发现让AI更聪明的秘诀:犯错后自我纠正

科技行者 浏览 2623

TA:世界杯美国队首战门票销量堪忧,甚至远不如同一场地伊朗的比赛

懂球帝 浏览 770

科瓦奇:本塞拜尼能出战奥格斯堡;迪朗维尔先去二队恢复体能

懂球帝 浏览 3511

美军无人装备计划受挫 曾称要让台湾海峡变"地狱景观"

环球网资讯 浏览 40075

男子凌晨打车嫌98元车费太贵 和的哥在派出所耗到天亮

环球网资讯 浏览 8111

罗永浩炮轰电信宽带缩水:再不解决,就要在网上发疯了

观察者网 浏览 3008

被记者询问涉移民言论 德国总理回呛"问你们女儿去吧"

环球时报国际 浏览 11209

新版《保管合同(示范文本)》发布 进一步明确权责促进交易公平

央视财经 浏览 2919

荣梓杉塌房太离谱!出轨家暴还反咬?

东方不败然多多 浏览 3737

美国抓走马杜罗计划曾外泄 美媒收到计划后未公布

新京报 浏览 2640

鸿蒙智行全年累计交付589107台 12月单月交付89611台

网易汽车 浏览 2874

便宜几千块!三星家电撤出中国后,闲鱼上的「骨折价」值得买吗?

雷科技 浏览 253

外媒:中法元首会谈议题十分广泛 似乎找到更多共识

环球网资讯 浏览 36280
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1