关闭广告

高效训练新标杆!华人开源原生VLM-NEO,以少数据追平顶级模型

DeepTech深科技3794人阅读

当下主流的视觉语言模型(Vision-Language Models, VLM),通常都采用这样一种设计思路:将预训练的视觉编码器与大语言模型通过投影层拼接起来。这种模块化架构成就了当前 VLM 的辉煌,但也带来了一系列新的问题——多阶段训练复杂、组件间语义对齐成本高,不同模块的扩展规律难以协调。

由南洋理工大学 S-Lab 助理教授刘子纬领导的联合团队最近提出了 NEO,试图用另一种思路解决这些问题。这项工作试图回答一个根本性问题:如果不依赖预训练的视觉编码器,能否构建出与顶级模块化 VLM 相媲美的原生统一架构?


图丨相关论文(来源:arXiv)

在传统方法中,视觉编码器通常基于 CLIP 或 SigLIP 等预训练模型,这些编码器虽然在视觉理解上表现出色,但其固有的语义偏置会限制模型在特定任务上的灵活性。

更重要的是,视觉编码器和语言模型之间存在天然的“代沟”——前者采用双向注意力机制来捕捉图像中的全局关系,后者则使用因果注意力进行文本的自回归生成。这种架构上的不匹配使得多阶段训练不仅复杂,还需要大量的对齐数据来弥合两个模态之间的鸿沟。

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

消失8年,她一回归又是王炸

独立鱼 浏览 2755

新一代理想L9电池加码体型加大 重夺高端话语权

网易汽车 浏览 2567

AI成核心方向 银行启动博士后招聘

北京商报 浏览 3272

女子乘二等座买到"单人座":空间较宽敞 旁边能放行李

极目新闻 浏览 7057

外媒:美对华威胁加税100% 极限施压报复北京近期举动

环球网资讯 浏览 6543

豪华5座中大型SUV!续航2327km,瞄准理想L6

隔壁说车老王 浏览 3444

女星陈匡怡怒斥台媒毁人名节,自曝写了遗书,拒绝富商追求遭抹黑

萌神木木 浏览 2400

周末大利好!国常会、证监会重磅,商业航天、AI应用迎来重要催化

看财经show 浏览 2583

eSIM来了,但还在来的路上

北京商报 浏览 3676

特朗普:我100%会加税 欧洲等着吧

澎湃新闻 浏览 11614

TimeSeriesScientist:AI首个实现全自动时间序列分析

科技行者 浏览 3660

赛力斯今日成功在香港主板上市 张兴海:开拓中国高端车全球新赛道

证券市场周刊 浏览 3491

10月25日车圈早报:赵长江发文离开比亚迪

车市红点 浏览 3682

美航母大火持续超30小时后被扑灭 600多人无床可睡

环球网资讯 浏览 125035

特朗普:美舰向伊朗货船开火炸出个洞

新华社 浏览 756

男团奋勇剑指卫冕!王楚钦抢五过关 林诗栋完胜 梁靖崑完全觉醒

颜小白的篮球梦 浏览 250

韩媒:韩国女足抗议足协只让男足坐商务舱,情况严重可能罢赛

懂球帝 浏览 3769

一文解读杨振宁的百年人生密码 曾与爱因斯坦做同事

北京日报客户端 浏览 5882

香港科大:用"随机策略"训练AI数学推理,效果竟然超越复杂算法

科技行者 浏览 3605

男子在悬崖边请人拍照滑倒坠下 遗体在水潭底部被找到

封面新闻 浏览 9282

为摆脱困局,本田采取“壮士断腕”?

禾颜阅车 浏览 797
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1