关闭广告

清华大学团队NeurIPS 2025文章分析 RL 与 SFT 泛化性差异

机器之心Pro4510人阅读

在具身智能领域，视觉 - 语言 - 动作（VLA）大模型正展现出巨大潜力，但仍面临一个关键挑战：当前主流的有监督微调（SFT）训练方式，往往让模型在遇到新环境或任务时容易出错，难以真正做到类人般的泛化。但在大语言模型（LLM/VLM）领域，强化学习（RL）已被证明能显著提升模型的泛化能力。RL 究竟能为 VLA 带来哪些独特的泛化优势？与 SFT 相比，它们的优劣势分别体现在哪里？

来自清华大学的研究团队在 NeurIPS 2025 发表文章，首次系统性地揭示了强化学习（RL）在提升 VLA 泛化能力上的独特优势，并带来了一套全面的评测基准和高效训练方法。通讯作者是清华大学教授汪玉和博士后于超。

版权与免责声明：本文内容转载自其他媒体，目的在于传递更多信息，不代表本网观点或立场，不承担此类作品侵权行为的自己责任及连带责任。

猜你喜欢

相关阅读

退休警察举报11年前交通事故：当年鉴定疑未勘验实车

红星新闻浏览 10151

库里南也绷不住了！四年销量崩一半：中国土豪为什么不爱劳斯了？

少数派报告Report 浏览 3117

4岁女童车内睡觉失踪超24小时镇长：确实太蹊跷了

上游新闻浏览 9974

精彩推荐

理查兹：道曼和萨卡位置重叠，为球员未来发展应该将他外租

懂球帝浏览 3983

澳网官方推出预测活动，男女任一签表结果全对可得1000万澳元奖金

懂球帝浏览 3209

太阳报：奥利塞帮助埃泽适应枪手新生活，二人经常会在线下棋

懂球帝浏览 3606

70亿，保时捷把布加迪卖了

华尔街见闻官方浏览 955

杨紫一家三口同框，难怪杨紫是美女呢

草莓解说体育浏览 3190

今晚空降！傅东育又一力作来袭

娱乐圈笔娱君浏览 3014

今年冬天最火的靴子，越“皱”越时髦！

LinkFashion 浏览 3585

佩斯科夫：＂海燕＂巡航导弹试验不应影响俄美互动

国际在线浏览 4112

泰军方：已初步控制泰柬边境一处关键高地

上观新闻浏览 3370

26款奔驰“小S级”售价亲民，外观豪华，车长超5米，搭载2.0T轻混

小史谈车浏览 2632

【官宣】罗马尼亚国脚、中场球员斯坦丘加盟大连英博

体坛周报浏览 2937

国外产子，知三当三，江疏影传闻哪个是真的

黔乡小姊妹浏览 1137

乘联分会崔东树：2025年汽车以旧换新规模预计超1800亿元

IT之家浏览 3666

＂4只皮皮虾1035元＂店主事发次日病逝家属：不再开业

扬子晚报浏览 95637

米哈游持股11.86%，Suplay冲刺“收藏级卡牌第一股”|港E声

时代周报浏览 3345

主力车增配降价，丰田销量明显上涨，能带动日系车反攻吗？

路咖汽车浏览 4793

上海楼市温和回暖，招商、保利5天狂揽近30亿销售额

国际金融报浏览 861

富勒姆出价3500万英镑求购鲍勃

体坛周报浏览 3119

追觅俞浩内部放狠话：造车PK理想，手机跟华为小米三分天下；TP-Link芯片事业部全员解散；马斯克用亲信管理AI公司引发冲突丨雷峰早报

雷峰网浏览 4828

包钢板材厂爆炸工人被气浪掀飞一铁球飞射砸塌二层楼

上游新闻浏览 7694

特斯拉两员大将，被小米挖走了！马斯克花5000万留人

象视汽车浏览 1644

本站所有信息收集于互联网，如本站收集信息侵权，请联系我们及时删除
沪ICP备20017958号-1