关闭广告

清华大学团队NeurIPS 2025文章分析 RL 与 SFT 泛化性差异

机器之心Pro3960人阅读

在具身智能领域，视觉 - 语言 - 动作（VLA）大模型正展现出巨大潜力，但仍面临一个关键挑战：当前主流的有监督微调（SFT）训练方式，往往让模型在遇到新环境或任务时容易出错，难以真正做到类人般的泛化。但在大语言模型（LLM/VLM）领域，强化学习（RL）已被证明能显著提升模型的泛化能力。RL 究竟能为 VLA 带来哪些独特的泛化优势？与 SFT 相比，它们的优劣势分别体现在哪里？

来自清华大学的研究团队在 NeurIPS 2025 发表文章，首次系统性地揭示了强化学习（RL）在提升 VLA 泛化能力上的独特优势，并带来了一套全面的评测基准和高效训练方法。通讯作者是清华大学教授汪玉和博士后于超。

版权与免责声明：本文内容转载自其他媒体，目的在于传递更多信息，不代表本网观点或立场，不承担此类作品侵权行为的自己责任及连带责任。

猜你喜欢

相关阅读

从北京到平壤的火车线路被指将于周四开通外交部回应

外交部网站浏览 32010

VOGUE盛典太抓马！刘亦菲压轴出场，大合影杨幂扭头表情尴尬

Yuki女人故事浏览 3731

米体：尤文希望在冬窗引进新后卫，目标包括什克和金玟哉

懂球帝浏览 3704

精彩推荐

海信CES发布全新一代RGB-Mini LED电视，搭载“玲珑4芯”真彩背光

IT之家浏览 2696

两女生称花90多元入住成都民宿在空调管道发现摄像头

极目新闻浏览 106117

三年半亏掉62亿，244亿大模型巨头剑指港股

雷达财经浏览 2853

迪士尼官宣10亿美元投资OpenAI，允许Sora生成米老鼠等视频

IT之家浏览 3157

美参议员就谷歌与特朗普达成2200万美元和解协议质询谷歌、YouTube

界面新闻浏览 3741

欧尔班：欧盟正讨论迫使俄赔偿乌方从而偿还欧盟贷款

大风新闻浏览 7061

吴子嘉问＂上任后如何收拾民进党＂郑丽文回应

海峡导报社浏览 9801

塞尔记者：维尼修斯迎来绝佳机会，皇马希望主场球迷不要嘘他

懂球帝浏览 2746

高管减持、股东跑路、产品爆炸：上市公司的“中年危机”

诗与星空浏览 3751

5-1狂胜仍不敢怠慢！法鹰欧冠逆天赛程：马竞利物浦那不勒斯巴萨

直播吧浏览 4443

“万元定价”已成新趋势？人形机器人也打起了价格战

澎湃新闻浏览 3689

中年女人想穿得时髦，少穿羽绒服+紧身裤，换成这些好看保暖

静儿时尚达人浏览 3234

窦骁何超莲不忍了合体发文，公开回应婚变

一娱三分地浏览 3486

新一轮货币宽松到来

泽平宏观展望浏览 2632

人类会彻底沦为无用阶级吗？

虎嗅APP 浏览 3097

吉利汽车集团：银河品牌全系电混车型纯电续航突破200公里

IT之家浏览 2054

76岁欢喜哥去世！众星悼念

查尔菲的笔记浏览 3564

王学圻出山，易烊千玺入局，郑保瑞这部统一台湾的大片要火了

娱乐圈笔娱君浏览 3559

车企“灵魂论”彻底“失声”？

盖世汽车浏览 4280

澳国防部称监测到中国舰队活动外交部回应

财联社浏览 3153

向太声称女生不要下嫁，网友质疑何超莲窦骁离婚

草莓解说体育浏览 3682

本站所有信息收集于互联网，如本站收集信息侵权，请联系我们及时删除
沪ICP备20017958号-1