关闭广告

清华大学团队NeurIPS 2025文章分析 RL 与 SFT 泛化性差异

机器之心Pro4642人阅读



在具身智能领域,视觉 - 语言 - 动作(VLA)大模型正展现出巨大潜力,但仍面临一个关键挑战:当前主流的有监督微调(SFT)训练方式,往往让模型在遇到新环境或任务时容易出错,难以真正做到类人般的泛化。但在大语言模型(LLM/VLM)领域,强化学习(RL)已被证明能显著提升模型的泛化能力。RL 究竟能为 VLA 带来哪些独特的泛化优势?与 SFT 相比,它们的优劣势分别体现在哪里?

来自清华大学的研究团队在 NeurIPS 2025 发表文章,首次系统性地揭示了强化学习(RL)在提升 VLA 泛化能力上的独特优势,并带来了一套全面的评测基准和高效训练方法。通讯作者是清华大学教授汪玉和博士后于超。


版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

这次结果如何?切尔西上次在1月换帅后拿了欧冠

懂球帝 浏览 3443

随着日本3-0,韩国4-2,U23亚洲杯最新形势:2支6分队未提前晋级

侃球熊弟 浏览 3288

台媒:解放军演习戳破“美日救台”迷梦

参考消息 浏览 17862

立陶宛宣布关闭与白俄罗斯边境 卢卡申科回应

环球网资讯 浏览 4132

豪掷近5000万买豪宅,曾被马云看重的男人身家68亿

雷达财经 浏览 4131

装腔鸭王长发男,民间小赛都在比什么?

Vista氢商业 浏览 1756

《繁花》声明翻车!官微开始紧急删评,主演胡歌唐嫣等全被牵连

萌神木木 浏览 4040

美联储的“十字路口”

21世纪经济报道 浏览 5022

媒体:中美元首打电话"提及台湾" 极为重要、极不寻常

环球网资讯 浏览 16552

北京现代纯电SUV EO羿欧开启预售 13–15万元

网易汽车 浏览 4069

“沙僧”刘大刚去世!生前最后露面消瘦,去年师徒合体表演成绝唱

萌神木木 浏览 4098

趁换代前“捡漏”30万豪华中型SUV之选

网易汽车 浏览 5232

伊姐周日热推:电视剧《我的山与海》;电视剧《在你灿烂的季节》......

伊周潮流 浏览 2257

新年第一顶帽子,就要不基础

时尚COSMO 浏览 2703

婚后的申敏儿,爱上了穿牛仔

时尚COSMO 浏览 1231

鸿蒙智行L3,从架构革命到出行方式重构

汽车公社 浏览 3652

高市早苗APEC会议期间与台湾地区人员会面 国台办回应

澎湃新闻 浏览 9478

克林顿夫妇作证时间确认 民主党人炸锅:特朗普你等着

澎湃新闻 浏览 94908

成功冲乙,厦门壹零贰陆主帅:厦门是一座有足球底蕴的城市

懂球帝 浏览 4436

吉利大战欣旺达:江湖不是打打杀杀,是人情世故

诗与星空 浏览 3464

陶虹与朋友相聚,17岁女儿五官与神态似徐峥

黔乡小姊妹 浏览 3598
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1