关闭广告

高效训练新标杆!华人开源原生VLM-NEO,以少数据追平顶级模型

DeepTech深科技3805人阅读

当下主流的视觉语言模型(Vision-Language Models, VLM),通常都采用这样一种设计思路:将预训练的视觉编码器与大语言模型通过投影层拼接起来。这种模块化架构成就了当前 VLM 的辉煌,但也带来了一系列新的问题——多阶段训练复杂、组件间语义对齐成本高,不同模块的扩展规律难以协调。

由南洋理工大学 S-Lab 助理教授刘子纬领导的联合团队最近提出了 NEO,试图用另一种思路解决这些问题。这项工作试图回答一个根本性问题:如果不依赖预训练的视觉编码器,能否构建出与顶级模块化 VLM 相媲美的原生统一架构?


图丨相关论文(来源:arXiv)

在传统方法中,视觉编码器通常基于 CLIP 或 SigLIP 等预训练模型,这些编码器虽然在视觉理解上表现出色,但其固有的语义偏置会限制模型在特定任务上的灵活性。

更重要的是,视觉编码器和语言模型之间存在天然的“代沟”——前者采用双向注意力机制来捕捉图像中的全局关系,后者则使用因果注意力进行文本的自回归生成。这种架构上的不匹配使得多阶段训练不仅复杂,还需要大量的对齐数据来弥合两个模态之间的鸿沟。

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

区情|玩转杨数浦,京东自提服务打造数商融合消费新体验!

上观新闻 浏览 2836

E句话| 新F4上海开唱,朱孝天疑似内涵阿信?

仙女事件簿 浏览 2990

女人过了40岁穿衣别发愁,学会这些日常穿搭,高级又显气质

静儿时尚达人 浏览 1658

U23国足防线多人有伤在身,后卫鲍世蒙开场不久伤退

懂球帝 浏览 2646

英超:维拉3比1富勒姆取联赛首胜

体坛周报 浏览 4168

以总理"碰瓷"中国 媒体:找错了对象更开错了药方

看看新闻Knews 浏览 15433

阳光电源:前三季度净利润119亿元 同比增长56%

网易财经 浏览 2959

冬天“半身裙”最丑的3种穿法!

Yuki女人故事 浏览 3207

多只明星基金减仓茅台,为啥茅台不被资本欢迎了?

江瀚视野 浏览 294

18亿大并购,光模块独角兽,打响量产第一枪!

飞鲸投研 浏览 1031

美联储降息、买短债,鲍威尔偏鸽,美股、短期美债、黄金涨,美元跌,比特币震荡

华尔街见闻官方 浏览 3184

看完10集《太平年》,我头皮发麻,终于有人把“牵羊礼”拍出来了

娱乐圈笔娱君 浏览 2503

三种动力配置 星光560将于1月15日上市

网易汽车 浏览 2619

董璇女儿和佟丽娅儿子同登湾区晚会

妙知 浏览 4166

高市早苗求见特朗普要聊聊中国 美国没憋住开口"帮腔"

观察者网 浏览 7864

有望首次入选全明星的球员:湖人里夫斯在列 杨瀚森队友有戏

仰卧撑FTUer 浏览 2961

让“死嘴”会说多说,不太好听又如何

时尚COSMO 浏览 3430

“过年红”就这么穿,真不俗!

Yuki女人故事 浏览 2462

美军:不会容忍伊朗在军演中的“不安全行为”

新华社 浏览 2437

蔚来又一车型爆单!

电动知家 浏览 2673

郭敬明太爱用风险艺人!吸毒的、偷税的、进监狱的,埋了好几部戏

萌神木木 浏览 2284
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1