关闭广告

超越纯视觉模型!不改VLM标准架构,实现像素级深度预测

新智元3777人阅读


新智元报道

编辑:LRST

【新智元导读】Meta开源DepthLM,首证视觉语言模型无需改架构即可媲美纯视觉模型的3D理解能力。通过视觉提示、稀疏标注等创新策略,DepthLM精准完成像素级深度估计等任务,解锁VLM多任务处理潜力,为自动驾驶、机器人等领域带来巨大前景。

在当前多模态AI发展浪潮中,视觉语言模型(Vision Language Models, VLMs)因其能通过「看图 + 文字交互」处理多样任务而备受关注。

然而,尽管在语义理解、视觉问答、图像指令等任务上表现优异,它们在从 2D 图像理解 3D 空间结构方面仍显薄弱。相比之下,纯视觉模型(pure vision models)在 绝对深度估计(metric depth estimation) 等三维理解任务上,凭借专门设计的网络结构与损失函数,早已达到了超越人类的精度。

这就带来了一个核心问题:「视觉语言模型是否有可能不更改其标准架

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

孙艺珍最新生图撞脸老公玄彬,43岁显出老态,剪短发装嫩太违和

萌神木木 浏览 3750

媒体:泰军缴获柬军中国制造反坦克导弹 有人阴阳怪气

新民周刊 浏览 13654

陈涛:保级不能只寄希望于领袖球员;结果不好,我一人来承担

懂球帝 浏览 3681

英伟达正式发布LPU,CPU重磅更新:GPU不再是GTC唯一主角

半导体行业观察 浏览 1663

早春绝美cp:九分裤+运动鞋

Yuki女人故事 浏览 2492

“五菱宏光家族焕新:燃油、增程、纯电三动力,5.48 万元起

IT之家 浏览 3436

盛放之日·春启颐和:满园春色“想开了”

时尚COSMO 浏览 482

小鹏将推出长途增程混合动力X9,单次续航1600公里

MOTO 浏览 4544

“大起”被防住后,下周A股怎么走?

每经牛眼 浏览 2554

月薪涨150被骂抠门?宁德时代宣布涨薪,回应来了;小米汽车将开放「现车选购」,预计年底前可提;字节联手中兴打造首款豆包助手手机

雷峰网 浏览 3162

在罗塞尼尔执教的13场比赛中,切尔西因定位球丢了7球

懂球帝 浏览 1977

乌戈:今天是场起伏很大的比赛;过去几场打出了我们想要的风格

懂球帝 浏览 2315

老外到中国看病会不会挤占医疗资源 三级医院院长回应

每日经济新闻 浏览 4796

中俄联合空中战略巡航引日本担忧 国防部回应

界面新闻 浏览 3073

章泽天播客翻车删帖,网友怒斥怕批评就别出门

萌神木木 浏览 2591

冬天穿衣一点都不难!裤子宽松、大衣简约,高级舒适又耐看

静儿时尚达人 浏览 2069

六旬女子做痔疮手术9天后突然去世 当地卫健委介入

极目新闻 浏览 8228

中国天眼新成果发布 揭示快速射电暴双星起源关键证据

环球网资讯 浏览 2640

楊千嬅开live老公乱入因一事说离婚

粤睇先生 浏览 2956

国庆可提车 吉利银河星耀6先享预售价7.98万元起

网易汽车 浏览 4311

比速腾L略小 入门级的全新速腾S将发布

网易汽车 浏览 2683
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1