关闭广告

超越纯视觉模型!不改VLM标准架构,实现像素级深度预测

新智元3770人阅读


新智元报道

编辑:LRST

【新智元导读】Meta开源DepthLM,首证视觉语言模型无需改架构即可媲美纯视觉模型的3D理解能力。通过视觉提示、稀疏标注等创新策略,DepthLM精准完成像素级深度估计等任务,解锁VLM多任务处理潜力,为自动驾驶、机器人等领域带来巨大前景。

在当前多模态AI发展浪潮中,视觉语言模型(Vision Language Models, VLMs)因其能通过「看图 + 文字交互」处理多样任务而备受关注。

然而,尽管在语义理解、视觉问答、图像指令等任务上表现优异,它们在从 2D 图像理解 3D 空间结构方面仍显薄弱。相比之下,纯视觉模型(pure vision models)在 绝对深度估计(metric depth estimation) 等三维理解任务上,凭借专门设计的网络结构与损失函数,早已达到了超越人类的精度。

这就带来了一个核心问题:「视觉语言模型是否有可能不更改其标准架

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

俄美乌首次三方会谈在阿联酋举行

环球网资讯 浏览 2473

千年《琵琶行》,预制“公关秀”

时尚COSMO 浏览 3593

伊姐周六热推:电视剧《四喜》;电视剧《唐朝诡事录之长安》......

伊周潮流 浏览 3560

立起来的高铁:“海上巨人”启航风电新征程

人民网 浏览 3421

黄晓明新片差评如潮,主演电影连扑三部,票房号召力越来越差了

萌神木木 浏览 3619

一线城市二手房挂牌量下降,2026年会迎来股市楼市齐涨的局面吗?

郭施亮 浏览 2075

"鸡排哥"在座谈会上发言 被指"讲出了6亿项目的气魄"

扬子晚报 浏览 40477

韩国峰会临近特朗普频频放风 突然公布一涉华重磅消息

现代小青青慕慕 浏览 6642

今年秋天的上衣,太上头了!

Yuki女人故事 浏览 3547

郭富城夫妇合体看赛马,透露三胎预产期

疯说时尚 浏览 3744

尼克斯112-100力克湖人豪取6连胜,东契奇30分,詹姆斯22分

懂球帝 浏览 2404

何穗孕照被扒!和陈伟霆一举得男,超模都偏爱港男,生娃不办婚礼

萌神木木 浏览 3679

o1之后下一个范式?隐式CoT大突破,让推理不再「碎碎念」

机器之心Pro 浏览 2421

没补贴、收购置税,新能源车好日子到头了?现实会打服“恨电派”

小李车评李建红 浏览 4319

登上热搜!王欣瑜激战阿尼西莫娃

网球之家 浏览 2573

美拉德失宠了?今年冬天最流行的3个颜色,谁穿谁好看!

LinkFashion 浏览 2887

成功冲乙,厦门壹零贰陆主帅:厦门是一座有足球底蕴的城市

懂球帝 浏览 3808

“满200减20”变“满200减200”,豆瓣App致歉:将对所有异常订单进行自动退款

扬子晚报 浏览 1969

蔚来又一车型爆单!

电动知家 浏览 2668

美军13死200伤 特朗普称“战争不久后就会结束”

上观新闻 浏览 119679

牛弹琴:英国"动真格"了 王子被"大义灭亲"剥夺头衔

上游新闻 浏览 14448
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1