关闭广告

LLM 仅靠自身就能增强推理？SePT 给出简洁在线自训练范式

机器之心Pro759人阅读

本文第一作者李梦琦为香港中文大学（深圳）计算机科学专业博士生。本项研究是与上海交通大学赵磊老师、香港中文大学苏文藻老师合作，并在香港中文大学（深圳）孙若愚老师与李肖老师的共同指导下完成。

在推理后训练里，多数方法仍依赖奖励模型、验证器或额外教师信号。如果不依赖这些外部信号，只使用模型自身生成的答案进行自训练，是否仍然能够提升推理能力？是的！SePT（Self-evolving Post-Training）给出肯定答案，简洁的自训练方法，可在数学推理任务准确率直升10个点！

版权与免责声明：本文内容转载自其他媒体，目的在于传递更多信息，不代表本网观点或立场，不承担此类作品侵权行为的自己责任及连带责任。

精彩推荐

引援自救！内蒙古矿业富豪入局，贾国龙朋友圈托举西贝

时代财经浏览 1718

金鸡国产电影展｜片单发布：百廿回眸，新程再启

幕味儿浏览 3526

夜读体验史诗级提升：苹果 M5 iPad Pro 屏幕亮度最低为 1 尼特

IT之家浏览 3773

大衣里面穿什么？这件内搭才是今年冬天的“顶流”

LinkFashion 浏览 2506

从口袋PC到智能座舱：华为新品矩阵亮相2025中国移动全球合作伙伴大会解码智慧生活

快科技浏览 3726

中印巴令人意外地站在了同一边反对美方举措

澎湃新闻浏览 5330

“多巴胺风”又又又火了！这样穿时髦又减龄

LinkFashion 浏览 2370

马斯克：比尔盖茨最好尽快平掉特斯拉空头头寸

鞭牛士浏览 3162

卡耐基梅隆大学发现让AI更聪明的秘诀：犯错后自我纠正

科技行者浏览 2623

TA：世界杯美国队首战门票销量堪忧，甚至远不如同一场地伊朗的比赛

懂球帝浏览 770

科瓦奇：本塞拜尼能出战奥格斯堡；迪朗维尔先去二队恢复体能

懂球帝浏览 3511

美军无人装备计划受挫曾称要让台湾海峡变＂地狱景观＂

环球网资讯浏览 40075

男子凌晨打车嫌98元车费太贵和的哥在派出所耗到天亮

环球网资讯浏览 8111

罗永浩炮轰电信宽带缩水：再不解决，就要在网上发疯了

观察者网浏览 3008

被记者询问涉移民言论德国总理回呛＂问你们女儿去吧＂

环球时报国际浏览 11209

新版《保管合同（示范文本）》发布进一步明确权责促进交易公平

央视财经浏览 2919

荣梓杉塌房太离谱！出轨家暴还反咬？

东方不败然多多浏览 3737

美国抓走马杜罗计划曾外泄美媒收到计划后未公布

新京报浏览 2640

鸿蒙智行全年累计交付589107台 12月单月交付89611台

网易汽车浏览 2874

便宜几千块！三星家电撤出中国后，闲鱼上的「骨折价」值得买吗？

雷科技浏览 253

外媒：中法元首会谈议题十分广泛似乎找到更多共识

环球网资讯浏览 36280

LLM 仅靠自身就能增强推理？SePT 给出简洁在线自训练范式

刘维伟回国寄...

网红小狗靠捡...

泽连斯基称乌...

天数智芯成功...

台媒：大陆在...

争夺女性用户...

苏亚雷斯：保级信心主要来自我的球员，包括逆境中展现的决心

燃油A级SUV再进化瑞虎7双车上市限时6.99万起

前后双红枫！华为的又一把“杀手锏”

引援自救！内蒙古矿业富豪入局，贾国龙朋友圈托举西贝

金鸡国产电影展｜片单发布：百廿回眸，新程再启

夜读体验史诗级提升：苹果 M5 iPad Pro 屏幕亮度最低为 1 尼特

大衣里面穿什么？这件内搭才是今年冬天的“顶流”

从口袋PC到智能座舱：华为新品矩阵亮相2025中国移动全球合作伙伴大会解码智慧生活

中印巴令人意外地站在了同一边反对美方举措

“多巴胺风”又又又火了！这样穿时髦又减龄

马斯克：比尔盖茨最好尽快平掉特斯拉空头头寸

卡耐基梅隆大学发现让AI更聪明的秘诀：犯错后自我纠正

TA：世界杯美国队首战门票销量堪忧，甚至远不如同一场地伊朗的比赛

科瓦奇：本塞拜尼能出战奥格斯堡；迪朗维尔先去二队恢复体能

美军无人装备计划受挫曾称要让台湾海峡变＂地狱景观＂

男子凌晨打车嫌98元车费太贵和的哥在派出所耗到天亮

罗永浩炮轰电信宽带缩水：再不解决，就要在网上发疯了

被记者询问涉移民言论德国总理回呛＂问你们女儿去吧＂

新版《保管合同（示范文本）》发布进一步明确权责促进交易公平

荣梓杉塌房太离谱！出轨家暴还反咬？

美国抓走马杜罗计划曾外泄美媒收到计划后未公布

鸿蒙智行全年累计交付589107台 12月单月交付89611台

便宜几千块！三星家电撤出中国后，闲鱼上的「骨折价」值得买吗？

外媒：中法元首会谈议题十分广泛似乎找到更多共识

LLM 仅靠自身就能增强推理？SePT 给出简洁在线自训练范式

刘维伟回国寄...

网红小狗靠捡...

泽连斯基称乌...

天数智芯成功...

台媒：大陆在...

争夺女性用户...

苏亚雷斯：保级信心主要来自我的球员，包括逆境中展现的决心

燃油A级SUV再进化 瑞虎7双车上市 限时6.99万起

前后双红枫！华为的又一把“杀手锏”

引援自救！内蒙古矿业富豪入局，贾国龙朋友圈托举西贝

金鸡国产电影展｜片单发布：百廿回眸，新程再启

夜读体验史诗级提升：苹果 M5 iPad Pro 屏幕亮度最低为 1 尼特

大衣里面穿什么？这件内搭才是今年冬天的“顶流”

从口袋PC到智能座舱：华为新品矩阵亮相2025中国移动全球合作伙伴大会 解码智慧生活

中印巴令人意外地站在了同一边 反对美方举措

“多巴胺风”又又又火了！这样穿时髦又减龄

马斯克：比尔盖茨最好尽快平掉特斯拉空头头寸

卡耐基梅隆大学发现让AI更聪明的秘诀：犯错后自我纠正

TA：世界杯美国队首战门票销量堪忧，甚至远不如同一场地伊朗的比赛

科瓦奇：本塞拜尼能出战奥格斯堡；迪朗维尔先去二队恢复体能

美军无人装备计划受挫 曾称要让台湾海峡变＂地狱景观＂

男子凌晨打车嫌98元车费太贵 和的哥在派出所耗到天亮

罗永浩炮轰电信宽带缩水：再不解决，就要在网上发疯了

被记者询问涉移民言论 德国总理回呛＂问你们女儿去吧＂

新版《保管合同（示范文本）》发布 进一步明确权责促进交易公平

荣梓杉塌房太离谱！出轨家暴还反咬？

美国抓走马杜罗计划曾外泄 美媒收到计划后未公布

鸿蒙智行全年累计交付589107台 12月单月交付89611台

便宜几千块！三星家电撤出中国后，闲鱼上的「骨折价」值得买吗？

外媒：中法元首会谈议题十分广泛 似乎找到更多共识

燃油A级SUV再进化瑞虎7双车上市限时6.99万起

从口袋PC到智能座舱：华为新品矩阵亮相2025中国移动全球合作伙伴大会解码智慧生活

中印巴令人意外地站在了同一边反对美方举措

美军无人装备计划受挫曾称要让台湾海峡变＂地狱景观＂

男子凌晨打车嫌98元车费太贵和的哥在派出所耗到天亮

被记者询问涉移民言论德国总理回呛＂问你们女儿去吧＂

新版《保管合同（示范文本）》发布进一步明确权责促进交易公平

美国抓走马杜罗计划曾外泄美媒收到计划后未公布

外媒：中法元首会谈议题十分广泛似乎找到更多共识