关闭广告

清华大学团队NeurIPS 2025文章分析 RL 与 SFT 泛化性差异

机器之心Pro1076人阅读



在具身智能领域,视觉 - 语言 - 动作(VLA)大模型正展现出巨大潜力,但仍面临一个关键挑战:当前主流的有监督微调(SFT)训练方式,往往让模型在遇到新环境或任务时容易出错,难以真正做到类人般的泛化。但在大语言模型(LLM/VLM)领域,强化学习(RL)已被证明能显著提升模型的泛化能力。RL 究竟能为 VLA 带来哪些独特的泛化优势?与 SFT 相比,它们的优劣势分别体现在哪里?

来自清华大学的研究团队在 NeurIPS 2025 发表文章,首次系统性地揭示了强化学习(RL)在提升 VLA 泛化能力上的独特优势,并带来了一套全面的评测基准和高效训练方法。通讯作者是清华大学教授汪玉和博士后于超。


版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

港媒:中美达成共识后,荷兰在接管安世问题上进退两难

环球时报国际 浏览 750

蜜雪冰城开卖啤酒:价格5.9元至14.9元不等 只能外带

极目新闻 浏览 5029

清洁工躺车库通道午睡被碾身亡 司机无罪后获国家赔偿

澎湃新闻 浏览 86145

秦始皇为什么焚书?李斯为什么建议要焚这些书?

趣看热点 浏览 26371

李靓蕾庆37岁生日 许玮甯出席侯佩岑因工作没现身

素素娱乐 浏览 19621

被说成“智商税”的眼霜,有必要买吗?

时尚COSMO 浏览 13600

飞机事故连连 波音再遇重创

北京商报 浏览 11349

2-0!申花扬眉吐气,掀翻韩国劲旅获首胜,亚冠排名超蓉城进前八

侃球熊弟 浏览 863

3股业绩大涨!制冷剂价格持续上行

证券时报e公司 浏览 867

分析机构称AMD份额被蚕食,英特尔第12/13代酷睿处理器更具竞争力

超能网 浏览 19357

56岁郑伊健发福憔悴认不出,妻子蒙嘉慧定居日本

不八卦会死星人 浏览 13629

失联5天的女演员已找到 其母最新发声:遭遇洗脑诈骗

上观新闻 浏览 76288

怼周鸿祎"翻车"的程前 访谈视频收费几十万

每日经济新闻 浏览 12665

又有集体离职!董事会仅剩1人

中国基金报 浏览 19654

章子怡带女儿在酒店喝千元下午茶 上亿豪宅疑曝光

不八卦会死星人 浏览 15366

蔚来2023年交付超16万辆|汽势之声

汽势传媒 浏览 12960

拉斯帕多里:意大利拥有成功所需的一切;我对加盟马竞很满意

懂球帝 浏览 378

地平线苏箐:3年后 准L4级系统大概率已经量产

网易汽车 浏览 70

短道速滑世巡赛:刘少昂500米摘银,孙龙摔倒后夺得铜牌

懂球帝 浏览 946

达利奇:莫德里奇会自己决定未来,年轻球员和他一起会取得进步

直播吧 浏览 16298

增速跑赢大盘3倍的长城汽车,2024要支棱起来了?

路咖汽车 浏览 12660
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1