关闭广告

高效训练新标杆!华人开源原生VLM-NEO,以少数据追平顶级模型

DeepTech深科技3803人阅读

当下主流的视觉语言模型(Vision-Language Models, VLM),通常都采用这样一种设计思路:将预训练的视觉编码器与大语言模型通过投影层拼接起来。这种模块化架构成就了当前 VLM 的辉煌,但也带来了一系列新的问题——多阶段训练复杂、组件间语义对齐成本高,不同模块的扩展规律难以协调。

由南洋理工大学 S-Lab 助理教授刘子纬领导的联合团队最近提出了 NEO,试图用另一种思路解决这些问题。这项工作试图回答一个根本性问题:如果不依赖预训练的视觉编码器,能否构建出与顶级模块化 VLM 相媲美的原生统一架构?


图丨相关论文(来源:arXiv)

在传统方法中,视觉编码器通常基于 CLIP 或 SigLIP 等预训练模型,这些编码器虽然在视觉理解上表现出色,但其固有的语义偏置会限制模型在特定任务上的灵活性。

更重要的是,视觉编码器和语言模型之间存在天然的“代沟”——前者采用双向注意力机制来捕捉图像中的全局关系,后者则使用因果注意力进行文本的自回归生成。这种架构上的不匹配使得多阶段训练不仅复杂,还需要大量的对齐数据来弥合两个模态之间的鸿沟。

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

曾负债超200亿,创始人已跑路!这家新势力官宣复活,即将发新车

明镜pro 浏览 3586

E句话|《怦然心动》的导演,被儿子杀死 ?

仙女事件簿 浏览 2352

北京“远航天梦”航天科技体验中心项目正式落成

环球网资讯 浏览 2668

吴尊元旦晒全家福!一家四口笑容灿烂温馨幸福

失宠的小野猪 浏览 2771

黄金价格回调ETF热度不减 不同跟踪标的下黄金ETF涨跌区别在哪儿?

金证研 浏览 3576

约翰霍普金斯大学:让卫星"慧眼"像人类一样逐步发现地面变化

科技行者 浏览 2633

加盟米兰至今只替补出场1次,斯基拉:奥多古可能在冬窗离队

懂球帝 浏览 3478

每体:老佛爷想立即解雇阿隆索,但身边人士说服他不让其下课

懂球帝 浏览 2973

欧洲多国讨论部署军队 格陵兰岛坚称"不做美国人"

环球网资讯 浏览 2646

新款阿维塔12实车首曝光 华为靳玉志评其脱胎换骨

网易汽车 浏览 2628

塞内西:只想为阿根廷效力,不想去唱毫无认同感的意大利国歌

懂球帝 浏览 2547

一年前“掐点”成立 多只基金无缘“翻倍基”

证券时报 浏览 4103

苏丹快速支援部队宣布同意实行人道主义停火

国际在线 浏览 3455

1.8亿存款消失,竟是行长疯了卷款跑路

大猫财经Pro 浏览 2374

从冰箱彩电大沙发到“1室1厅1厨” 场景化创新驱动中国汽车细分市场竞争升级

封面新闻 浏览 2981

金鸡奖开幕星光黯淡,周冬雨开场陈飞宇主持,网友感慨电影圈萧条

萌神木木 浏览 2745

突破LLM遗忘瓶颈,谷歌「嵌套学习」让AI像人脑一样持续进化

机器之心Pro 浏览 3491

Noble M10:从车库诞生的英国跑车梦想

老爷车 浏览 2855

特斯拉Model Y低调升级?标配16寸2K大屏+0息政策

大李说车 浏览 2831

铜梁融媒:U16国足已抵达重庆备战,全力冲刺U17亚洲杯预选赛

懂球帝 浏览 3486

他怎么在内娱男女通吃?颜值一般但性张力绝了

Yuki女人故事 浏览 5451
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1