关闭广告

清华大学团队NeurIPS 2025文章分析 RL 与 SFT 泛化性差异

机器之心Pro3964人阅读

在具身智能领域，视觉 - 语言 - 动作（VLA）大模型正展现出巨大潜力，但仍面临一个关键挑战：当前主流的有监督微调（SFT）训练方式，往往让模型在遇到新环境或任务时容易出错，难以真正做到类人般的泛化。但在大语言模型（LLM/VLM）领域，强化学习（RL）已被证明能显著提升模型的泛化能力。RL 究竟能为 VLA 带来哪些独特的泛化优势？与 SFT 相比，它们的优劣势分别体现在哪里？

来自清华大学的研究团队在 NeurIPS 2025 发表文章，首次系统性地揭示了强化学习（RL）在提升 VLA 泛化能力上的独特优势，并带来了一套全面的评测基准和高效训练方法。通讯作者是清华大学教授汪玉和博士后于超。

版权与免责声明：本文内容转载自其他媒体，目的在于传递更多信息，不代表本网观点或立场，不承担此类作品侵权行为的自己责任及连带责任。

猜你喜欢

相关阅读

百亿龙头股董事长获刑，已上诉！IPO关键期行贿官员，过程曝光

深蓝财经浏览 3419

港股无人矿卡第一股诞生！大疆教父李泽湘敲钟，红杉百度联手押注

车东西浏览 2456

1399元，JBL SOUNDGEAR CLIPS琉璃扣耳机预售

IT之家浏览 3247

精彩推荐

国家外汇管理局副局长刘斌：研究长期限、多品种、小币种等外汇市场发展问题｜2025外滩年会

国际金融报浏览 3657

前妻许婧晒外籍丈夫后，陈赫终于高调秀恩爱

阿废冷眼观察所浏览 3542

中方回应是否放松稀土出口管制

财联社浏览 12973

博主：据了解长春亚泰旧将王栋执教中乙长春喜都

懂球帝浏览 2713

中信银行开年搅局！中信金租增资至120亿，杀进头部第八位

密探财经浏览 2456

美称空袭叙利亚西北部打死一名与“基地”组织关联头目

新华社浏览 2716

像颜如晶这样坚持，做什么都会成功吧！

时尚COSMO 浏览 3089

A股利好来了！多只医药股发布消息

上观新闻浏览 2994

微软官方确认：Windows 11任务管理器出问题了！

快科技浏览 3448

胜利就是最佳礼物，B费：为曼联出战300场最好的庆祝方式

懂球帝浏览 3004

习惯一身黑的穿搭？其实换一种穿衣思路更高级，养眼又有活力

静儿时尚达人浏览 313

申万宏源：牛市1.0高点看26年春季关注储能、存储、创新药与国防军工

智通财经浏览 3473

TikTok上掀起＂当中国人很酷＂潮流有人感到很荣幸

上游新闻浏览 14371

最圆最近！年度超级月亮今晚登场

封面新闻浏览 3490

搭载1.5T发动机奇瑞瑞虎5运动版官图发布

车质网浏览 1748

特斯拉Model Y成为首款通过美国NHTSA新ADAS测试的车型

不看车bukanche 浏览 244

港台影视圈已经没有“小花”了

仙女事件簿浏览 3547

于根伟激励全队：付出最大的努力，把最后4轮比赛“咬”下来

懂球帝浏览 3853

国产车强的可怕！德日韩法美系车，全线溃败

说财猫浏览 2560

太空“4S店”要开张：Starfish验证“单眼”卫星交会PRO操作

IT之家浏览 3063

把孩子气的！某新能源车一配置被小学生投诉，车企一本正经回应了

小李车评李建红浏览 1828

本站所有信息收集于互联网，如本站收集信息侵权，请联系我们及时删除
沪ICP备20017958号-1