关闭广告

LLM 仅靠自身就能增强推理?SePT 给出简洁在线自训练范式

机器之心Pro760人阅读



本文第一作者李梦琦为香港中文大学(深圳)计算机科学专业博士生。本项研究是与上海交通大学赵磊老师、香港中文大学苏文藻老师合作,并在香港中文大学(深圳)孙若愚老师与李肖老师的共同指导下完成。

在推理后训练里,多数方法仍依赖奖励模型、验证器或额外教师信号。如果不依赖这些外部信号,只使用模型自身生成的答案进行自训练,是否仍然能够提升推理能力?是的!SePT(Self-evolving Post-Training)给出肯定答案,简洁的自训练方法,可在数学推理任务准确率直升10个点!



版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

吴建豪妈妈晒与言承旭周渝民阿信合照

准备好了吗 浏览 2549

「寻芯记」上市后首个大动作!摩尔线程公布全功能GPU架构路线图,国产芯片发起生态冲刺

华夏时报 浏览 2932

全球最大容器镜像库Docker Hub安全调查:10000+镜像泄露敏感密钥

IT之家 浏览 3083

利润暴跌99%,保时捷赚不到钱了?

汽车公社 浏览 2912

文班亚马:我真的不在乎个人荣誉,若拿到DPOY说明我帮到球队了

懂球帝 浏览 3585

国际油价上涨谁会是赢家?外媒:美国石油商“直接受益”,跨国油企希望回归平稳

环球网资讯 浏览 1673

张兰小玥儿成都公园亲密散步,玥儿举止略显拘束

小娱乐悠悠 浏览 3539

王大陆逃兵役案新后续,贾静雯老公受牵连

查尔菲的笔记 浏览 3005

被霍尔木兹海峡"困"住 中国货代2周损失140万焦头烂额

新京报 浏览 115696

奔驰“小G”海外路试谍照曝光

大象新闻 浏览 3272

卡塔尔首相与法国总统举行会谈 重点讨论加沙局势

上观新闻 浏览 3778

西方14国发布联合声明 有乌克兰参与但没有美国

新民晚报 浏览 9278

人过五十别瞎穿!少碰花衣和紧身裤,这样穿才叫越老越有味道

静儿时尚达人 浏览 3653

航母“弹射三连”释放哪些信号

经济日报 浏览 4258

多名男女在呼伦贝尔大草原上跳起"纸片舞" 当地回应

扬子晚报 浏览 8809

卡佩罗:国米最后的角球防守太随意;扳平比分后他们就松懈了

懂球帝 浏览 3329

这场研讨会关注视障教育将如何被AI改变?

上观新闻 浏览 2991

印度发射该国迄今最重军用卫星 用于提升印海军远洋作战能力

澎湃新闻 浏览 3426

吴尊元旦晒全家福!一家四口笑容灿烂温馨幸福

失宠的小野猪 浏览 2771

辛芷蕾拿影后是 “靠运作”?央视都看不下去,为她发声真解气!

娱乐圈笔娱君 浏览 3522

联想 ThinkPad P1 2026 AI 元启版 10 月 20 日首销,25999 元起

IT之家 浏览 3807
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1