关闭广告

超越纯视觉模型!不改VLM标准架构,实现像素级深度预测

新智元4287人阅读


新智元报道

编辑:LRST

【新智元导读】Meta开源DepthLM,首证视觉语言模型无需改架构即可媲美纯视觉模型的3D理解能力。通过视觉提示、稀疏标注等创新策略,DepthLM精准完成像素级深度估计等任务,解锁VLM多任务处理潜力,为自动驾驶、机器人等领域带来巨大前景。

在当前多模态AI发展浪潮中,视觉语言模型(Vision Language Models, VLMs)因其能通过「看图 + 文字交互」处理多样任务而备受关注。

然而,尽管在语义理解、视觉问答、图像指令等任务上表现优异,它们在从 2D 图像理解 3D 空间结构方面仍显薄弱。相比之下,纯视觉模型(pure vision models)在 绝对深度估计(metric depth estimation) 等三维理解任务上,凭借专门设计的网络结构与损失函数,早已达到了超越人类的精度。

这就带来了一个核心问题:「视觉语言模型是否有可能不更改其标准架

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

资负统筹,多元发展,中国人寿前三季度新业务价值强劲增长41.8%

证券市场周刊 浏览 4045

"柴怼怼"被逮捕:因"打假"走红后售假 有人消费近10万

澎湃新闻 浏览 8789

乌戈:今天是场起伏很大的比赛;过去几场打出了我们想要的风格

懂球帝 浏览 2860

美伊海上对峙升级 阿联酋拦截伊朗导弹、无人机

央视新闻客户端 浏览 1005

泽连斯基称乌美代表团将于本周晚些时候举行会谈

国际在线 浏览 3601

何小鹏邀罗永浩体验 VLA:好产品不怕检验 罗永浩回应笑翻网友

快科技 浏览 2163

哲凯还是谢什科?鲁尼:伊萨克谢什科二选一我也还是会选后者

懂球帝 浏览 4093

在迎来更多国际承认之际 巴勒斯坦领土已"所剩无几"

参考消息 浏览 20751

伊朗最高领袖顾问:特朗普理应担心有更多美国人伤亡

环球网资讯 浏览 40478

复旦张军平:AI正在进入产业和金融场景,但模型边界与风险治理同样关键

观察者网 浏览 106

京粤沪专家齐聚,2026“人工智能+”教育行动在深外举行

南方都市报 浏览 1093

王家卫持续被扒!《东邪西毒》事件推锅临时工

boss外传 浏览 3940

激烈攻防暴露美军中东反导漏洞

环球网资讯 浏览 2124

美国举起关税大棒持续施压 伊朗要给“难忘教训”

环球网资讯 浏览 3229

冬天穿衣也可以很简单!这些造型赶紧照搬,舒适时髦两不误

静儿时尚达人 浏览 3400

这个APEC城市的金融巨无霸,正撕下“老登”标签

博闻财经 浏览 4002

央视公开“点名”孙俪,原来张艺谋没说错

银河史记 浏览 3941

今年冬天最流行搭配:裤子+靴子,高级又时髦!

LinkFashion 浏览 3697

护肤新趋势!从“表面功夫”到“内调外养”的转变

时尚COSMO 浏览 2577

普通人冬天就该这么穿,衣服不昂贵、搭配不老气,简单又日常

静儿时尚达人 浏览 3569

山西103-77大胜同曦取4连胜,诺威尔20+6,郭昊文23分

懂球帝 浏览 3395
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1