关闭广告

高效训练新标杆!华人开源原生VLM-NEO,以少数据追平顶级模型

DeepTech深科技811人阅读

当下主流的视觉语言模型(Vision-Language Models, VLM),通常都采用这样一种设计思路:将预训练的视觉编码器与大语言模型通过投影层拼接起来。这种模块化架构成就了当前 VLM 的辉煌,但也带来了一系列新的问题——多阶段训练复杂、组件间语义对齐成本高,不同模块的扩展规律难以协调。

由南洋理工大学 S-Lab 助理教授刘子纬领导的联合团队最近提出了 NEO,试图用另一种思路解决这些问题。这项工作试图回答一个根本性问题:如果不依赖预训练的视觉编码器,能否构建出与顶级模块化 VLM 相媲美的原生统一架构?


图丨相关论文(来源:arXiv)

在传统方法中,视觉编码器通常基于 CLIP 或 SigLIP 等预训练模型,这些编码器虽然在视觉理解上表现出色,但其固有的语义偏置会限制模型在特定任务上的灵活性。

更重要的是,视觉编码器和语言模型之间存在天然的“代沟”——前者采用双向注意力机制来捕捉图像中的全局关系,后者则使用因果注意力进行文本的自回归生成。这种架构上的不匹配使得多阶段训练不仅复杂,还需要大量的对齐数据来弥合两个模态之间的鸿沟。

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

弗里克:来巴萨后我变了,我也不希望孙子看到爷爷是这样的

懂球帝 浏览 862

又一起!菲律宾高官家中被枪杀 3名嫌犯被捕

环球网资讯 浏览 19005

汪小菲与女儿互动 小玥儿自曝希望爸爸不再生小孩

娱记新资 浏览 15016

法尔克:曼城有意科隆前锋赛义德-马拉,巴黎和国米也在关注

懂球帝 浏览 756

马拉多纳签名被伪造,其私人医生或企图隐瞒真相

趣看热点 浏览 25734

百亿龙头股董事长获刑,已上诉!IPO关键期行贿官员,过程曝光

深蓝财经 浏览 592

延迟写《南京照相馆》?好电影,确实是对比出来的

娱乐官已上任 浏览 1609

以专家:以色列唯一正确选择 就是100%服从特朗普安排

中国新闻周刊 浏览 8894

美媒:预计在耶伦访华后 美将针对中国芯片再采取行动

环球网资讯 浏览 94028

微信AI团队,悄悄干了件大事,算力消耗暴降44%!

智东西 浏览 669

开年首周88只基金换将 过去三年基金经理变更频繁

证券时报 浏览 12943

50、60岁的女人就要这么穿!自然老去,不扮嫩反而更美了

静儿时尚达人 浏览 964

花旗:投资者都去拥抱比特币 金价就此涨到头了!

华尔街见闻 浏览 26285

16岁女孩为要5万元 将母亲绑在家中断水断食致其饿死

妃子戏史 浏览 95104

问界某车主在4s店门口拉白色横幅:等车100天,开车60天变老款!

火山诗话 浏览 11061

泡泡玛特回应79有点贵直播事故;山姆回应支付跳色情网站丨邦早报

创业邦 浏览 664

寻找AI无法替代的最后一公里丨去现场 做原创

封面新闻 浏览 659

数字人民币新增“微信支付”钱包快付,已支持部分微信小程序

澎湃新闻 浏览 19365

氛围感帅哥,都梳起了小辫儿?

YOKA网 浏览 13315

巨人网络80后CEO张栋辞职 前任刘伟再掌舵

中新经纬 浏览 11754

巴菲特被曝已清仓比亚迪,持股期间比亚迪股价涨超38倍

澎湃新闻 浏览 1578
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1