关闭广告

高效训练新标杆!华人开源原生VLM-NEO,以少数据追平顶级模型

DeepTech深科技4309人阅读

当下主流的视觉语言模型(Vision-Language Models, VLM),通常都采用这样一种设计思路:将预训练的视觉编码器与大语言模型通过投影层拼接起来。这种模块化架构成就了当前 VLM 的辉煌,但也带来了一系列新的问题——多阶段训练复杂、组件间语义对齐成本高,不同模块的扩展规律难以协调。

由南洋理工大学 S-Lab 助理教授刘子纬领导的联合团队最近提出了 NEO,试图用另一种思路解决这些问题。这项工作试图回答一个根本性问题:如果不依赖预训练的视觉编码器,能否构建出与顶级模块化 VLM 相媲美的原生统一架构?


图丨相关论文(来源:arXiv)

在传统方法中,视觉编码器通常基于 CLIP 或 SigLIP 等预训练模型,这些编码器虽然在视觉理解上表现出色,但其固有的语义偏置会限制模型在特定任务上的灵活性。

更重要的是,视觉编码器和语言模型之间存在天然的“代沟”——前者采用双向注意力机制来捕捉图像中的全局关系,后者则使用因果注意力进行文本的自回归生成。这种架构上的不匹配使得多阶段训练不仅复杂,还需要大量的对齐数据来弥合两个模态之间的鸿沟。

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

强化AI编程能力迎战谷歌!OpenAI发布GPT-5.2-Codex,软件工程和网安一把抓

华尔街见闻官方 浏览 3550

为“打击贩毒” 美军调派“福特”号航母至加勒比海

央视新闻客户端 浏览 2994

A股董事被拘!涉嫌违法放贷,早年工行履历被关注

财通社 浏览 4389

官方:朴茨茅斯vs伊普斯维奇因场地严重积水推迟

懂球帝 浏览 2999

外媒:泽连斯基向特朗普展示俄境内潜在打击目标地图

环球网资讯 浏览 9721

媒体:急于获取支持 特朗普又开始"画大饼"了

澎湃新闻 浏览 9262

约翰霍普金斯大学:让卫星"慧眼"像人类一样逐步发现地面变化

科技行者 浏览 3169

金银"大跳水" 深圳水贝有档口单日卖出200万元金条

红星新闻 浏览 7638

雷军回应内部会议将玄戒O1读成01:鬼使神差念错了

IT之家 浏览 3152

美国已正式开始出售委内瑞拉石油

新京报 浏览 3242

拜仁高层:希望凯恩长期为拜仁效力

体坛周报 浏览 4848

中方代表团成员当面质问荷兰国防大臣

每日经济新闻 浏览 107

向渠道要效率,理想汽车:将关闭一些能效低的门店,目前还处于评估阶段

时代财经 浏览 3041

福原爱首次回应再婚怀孕 现任丈夫正是出轨风波男主

新民周刊 浏览 8521

鲁本-迪亚斯:经验告诉我们,如果不在最佳状态就无法夺冠

懂球帝 浏览 3447

一句话点评10月紧凑型SUV:燃油车不仅没有死,居然还愈战越勇了

汽车公社 浏览 3820

暴增1530%!锂矿龙头天齐锂业,一季度业绩爆发

侃见财经 浏览 1331

鲁杰里:西蒙尼和加帅有共通之处;我们有效限制了国米的发挥

懂球帝 浏览 3735

报道:哈塞特势头不稳,特朗普一些亲信推举沃什当美联储主席

华尔街见闻官方 浏览 3504

对话深投控何建锋:当好耐心资本、长期资本、大胆资本|连线两会

中国企业家杂志 浏览 2332

文联春晚录制现场好真实!大咖太多没人惯着

萌神木木 浏览 2958
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1