关闭广告

高效训练新标杆!华人开源原生VLM-NEO,以少数据追平顶级模型

DeepTech深科技805人阅读

当下主流的视觉语言模型(Vision-Language Models, VLM),通常都采用这样一种设计思路:将预训练的视觉编码器与大语言模型通过投影层拼接起来。这种模块化架构成就了当前 VLM 的辉煌,但也带来了一系列新的问题——多阶段训练复杂、组件间语义对齐成本高,不同模块的扩展规律难以协调。

由南洋理工大学 S-Lab 助理教授刘子纬领导的联合团队最近提出了 NEO,试图用另一种思路解决这些问题。这项工作试图回答一个根本性问题:如果不依赖预训练的视觉编码器,能否构建出与顶级模块化 VLM 相媲美的原生统一架构?


图丨相关论文(来源:arXiv)

在传统方法中,视觉编码器通常基于 CLIP 或 SigLIP 等预训练模型,这些编码器虽然在视觉理解上表现出色,但其固有的语义偏置会限制模型在特定任务上的灵活性。

更重要的是,视觉编码器和语言模型之间存在天然的“代沟”——前者采用双向注意力机制来捕捉图像中的全局关系,后者则使用因果注意力进行文本的自回归生成。这种架构上的不匹配使得多阶段训练不仅复杂,还需要大量的对齐数据来弥合两个模态之间的鸿沟。

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

科幻神作首度来袭,苏州跨年放映今日开票!

幕味儿 浏览 163

江恩:什么是波段操作的铁律?3条准则看似简单,95%的人却做不到

60秒商业解读 浏览 11978

身段美不美?用腰带说话

YOKA网 浏览 13441

厄德高谈晋级世界杯:这种感觉无法用语言形容,简直疯狂至极

懂球帝 浏览 530

YouTube服务出现“宕机”:正在修复中

界面新闻 浏览 4530

日本欲推迟驻日美军费用分摊谈判,等待拜登上台再谈才是上策

趣看热点 浏览 26128

尤文vs亚特兰大:米利克、基耶萨、伊林首发,DV9停赛

懂球帝 浏览 11711

美英打击胡塞武装 行动规模或限定在“小范围”

澎湃新闻 浏览 12530

记者:尽管与热刺和切尔西传出绯闻,但托尼1月不会返回英超

懂球帝 浏览 987

德容:理解巴萨曾想卖了我,当时财政困难

懂球帝 浏览 885

阿尔特塔:厄德高和因卡皮耶身体状况不足以进入替补,好在有萨卡

直播吧 浏览 1528

阿里交出“拆分”后第一份答卷

虎嗅APP 浏览 14344

蓝佛安:财政工作要统筹国内与国际、发展与安全 政策制定要更有国际视野、更具前瞻性

财政部 浏览 10933

地方大员密集调整 多位正部级官员履新

上观新闻 浏览 73834

揭秘广州男篮打NBA季前赛:获马刺快船森林狼邀请 还能赚出场费

醉卧浮生 浏览 992

伊周周日热推:电视剧《大江大河之岁月如歌》,电影《年会不能停》......

伊周潮流 浏览 13602

任正非称教育不能太实用主义:应该让学生“胡思乱想”

Tech星球 浏览 19349

女人过了50岁 这3种包包再喜欢也别背!

潮范儿 浏览 16322

空调“自动化”成卖点,大众智能化这么拉胯了?真的有点心疼ID.7

小李车评李建红 浏览 12285

张泉灵硬核督战,CEO当场跑路,万千惠真的被做局了?

仙女事件簿 浏览 1537

特斯拉Model3/ModelY Standard正式发布

网易汽车 浏览 992
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1