关闭广告

高效训练新标杆!华人开源原生VLM-NEO,以少数据追平顶级模型

DeepTech深科技3788人阅读

当下主流的视觉语言模型(Vision-Language Models, VLM),通常都采用这样一种设计思路:将预训练的视觉编码器与大语言模型通过投影层拼接起来。这种模块化架构成就了当前 VLM 的辉煌,但也带来了一系列新的问题——多阶段训练复杂、组件间语义对齐成本高,不同模块的扩展规律难以协调。

由南洋理工大学 S-Lab 助理教授刘子纬领导的联合团队最近提出了 NEO,试图用另一种思路解决这些问题。这项工作试图回答一个根本性问题:如果不依赖预训练的视觉编码器,能否构建出与顶级模块化 VLM 相媲美的原生统一架构?


图丨相关论文(来源:arXiv)

在传统方法中,视觉编码器通常基于 CLIP 或 SigLIP 等预训练模型,这些编码器虽然在视觉理解上表现出色,但其固有的语义偏置会限制模型在特定任务上的灵活性。

更重要的是,视觉编码器和语言模型之间存在天然的“代沟”——前者采用双向注意力机制来捕捉图像中的全局关系,后者则使用因果注意力进行文本的自回归生成。这种架构上的不匹配使得多阶段训练不仅复杂,还需要大量的对齐数据来弥合两个模态之间的鸿沟。

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

罗马诺:切尔西接近聘请前利物浦球探总监戴夫-法洛斯

懂球帝 浏览 3615

特斯拉Model Y成为首款通过美国NHTSA新ADAS测试的车型

不看车bukanche 浏览 229

国足出战FIFA系列赛!媒体人热议:托国际足联福,别一直闭门造车

奥拜尔 浏览 2734

香港理工大学团队开发全方位数据科学助手测评系统

科技行者 浏览 2578

曾负债超200亿,创始人已跑路!这家新势力官宣复活,即将发新车

明镜pro 浏览 3577

"最快女护士"张水华辞职后首战获第六名 本人赛后回应

每日经济新闻 浏览 6904

停办吧!《奔跑吧》首播差评一片,请一大堆明星没一个能拿得出手

娱乐圈笔娱君 浏览 3222

PPE平台打造 宾利全新纯电SUV测试谍照曝光

车质网 浏览 3166

彩虹-7高空高速隐身无人机成功首飞 实现重大突破

新京报 浏览 8642

华盛顿大学与耶鲁大学联手:医疗数据库为何让顶尖AI模型"抓狂"

科技行者 浏览 2699

俩小伙卖给美军无人机:建"无中国"供应链太难了

澎湃新闻 浏览 33410

TA:尤文逐渐展现出斯帕莱蒂所期望的风格,形成了独特的打法

懂球帝 浏览 2493

恩里克:萨福诺夫是我执教过的最擅长点球预判的门将

懂球帝 浏览 2378

主销售价45万起,极氪8X路试谍照曝光

网易汽车 浏览 3164

省委书记暗访次日 市委书记赴现场办公要求加快整改

新京报政事儿 浏览 7175

21点中国U17女足战南美黑马!打平即世界杯出线 16强赛遇3大强队

我爱英超 浏览 3660

沈腾携好友强势回归 《飞驰人生3》成春节档首选

石坝村村长 浏览 2418

长安启源全新 Q05 车型 11 月 21 日上市,纯电续航 506km

IT之家 浏览 3477

5年内在英国推出10款新车 吉利EX5伦敦上市售3.199万英镑起

网易汽车 浏览 3615

媒体:欧洲还是不敢动俄罗斯 哪怕普京正在恋爱中

新民晚报 浏览 13904

王菲女儿李嫣疑恋爱!与帅气男生现身机场

二妹扯娱 浏览 2694
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1