爆点资讯

当下主流的视觉语言模型（Vision-Language Models, VLM），通常都采用这样一种设计思路：将预训练的视觉编码器与大语言模型通过投影层拼接起来。这种模块化架构成就了当前 VLM 的辉煌，但也带来了一系列新的问题——多阶段训练复杂、组件间语义对齐成本高，不同模块的扩展规律难以协调。

由南洋理工大学 S-Lab 助理教授刘子纬领导的联合团队最近提出了 NEO，试图用另一种思路解决这些问题。这项工作试图回答一个根本性问题：如果不依赖预训练的视觉编码器，能否构建出与顶级模块化 VLM 相媲美的原生统一架构？

图丨相关论文（来源：arXiv）

在传统方法中，视觉编码器通常基于 CLIP 或 SigLIP 等预训练模型，这些编码器虽然在视觉理解上表现出色，但其固有的语义偏置会限制模型在特定任务上的灵活性。

更重要的是，视觉编码器和语言模型之间存在天然的“代沟”——前者采用双向注意力机制来捕捉图像中的全局关系，后者则使用因果注意力进行文本的自回归生成。这种架构上的不匹配使得多阶段训练不仅复杂，还需要大量的对齐数据来弥合两个模态之间的鸿沟。

高效训练新标杆！华人开源原生VLM-NEO，以少数据追平顶级模型

涉嫌支持台军...

中国犀旺队｜...

苹果新品上线...

媒体：马克龙...

靠老婆出圈，...

福建舰未来还...

特朗普：可能接管伊朗的哈梅内伊接班人在空袭中丧生

社交神器？赛博宠物？Vbot维他机器狗开售，价格不过万

大湾区晚会收视出炉！小沈阳父女拿下最高点，王源和时团联手赶客

消失8年，她一回归又是王炸

新一代理想L9电池加码体型加大重夺高端话语权

AI成核心方向银行启动博士后招聘

女子乘二等座买到＂单人座＂：空间较宽敞旁边能放行李

外媒：美对华威胁加税100% 极限施压报复北京近期举动

豪华5座中大型SUV！续航2327km，瞄准理想L6

女星陈匡怡怒斥台媒毁人名节，自曝写了遗书，拒绝富商追求遭抹黑

周末大利好！国常会、证监会重磅，商业航天、AI应用迎来重要催化

eSIM来了，但还在来的路上

特朗普：我100%会加税欧洲等着吧

TimeSeriesScientist：AI首个实现全自动时间序列分析

赛力斯今日成功在香港主板上市张兴海：开拓中国高端车全球新赛道

10月25日车圈早报：赵长江发文离开比亚迪

美航母大火持续超30小时后被扑灭 600多人无床可睡

特朗普:美舰向伊朗货船开火炸出个洞

男团奋勇剑指卫冕！王楚钦抢五过关林诗栋完胜梁靖崑完全觉醒

韩媒：韩国女足抗议足协只让男足坐商务舱，情况严重可能罢赛

一文解读杨振宁的百年人生密码曾与爱因斯坦做同事

香港科大：用＂随机策略＂训练AI数学推理，效果竟然超越复杂算法

男子在悬崖边请人拍照滑倒坠下遗体在水潭底部被找到

为摆脱困局，本田采取“壮士断腕”？