关闭广告

超越纯视觉模型!不改VLM标准架构,实现像素级深度预测

新智元954人阅读


新智元报道

编辑:LRST

【新智元导读】Meta开源DepthLM,首证视觉语言模型无需改架构即可媲美纯视觉模型的3D理解能力。通过视觉提示、稀疏标注等创新策略,DepthLM精准完成像素级深度估计等任务,解锁VLM多任务处理潜力,为自动驾驶、机器人等领域带来巨大前景。

在当前多模态AI发展浪潮中,视觉语言模型(Vision Language Models, VLMs)因其能通过「看图 + 文字交互」处理多样任务而备受关注。

然而,尽管在语义理解、视觉问答、图像指令等任务上表现优异,它们在从 2D 图像理解 3D 空间结构方面仍显薄弱。相比之下,纯视觉模型(pure vision models)在 绝对深度估计(metric depth estimation) 等三维理解任务上,凭借专门设计的网络结构与损失函数,早已达到了超越人类的精度。

这就带来了一个核心问题:「视觉语言模型是否有可能不更改其标准架

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

售19.99万元起,广汽本田新款皓影混动/插混版上市

天天汽车 浏览 12407

谷歌更新计划泄露:Bard将于2月1日获得Gemini Pro更新

IT之家 浏览 12174

乌方将向美提交新20点和平计划 泽连斯基表态

财联社 浏览 95

一文读懂保罗若被裁该去哪:最优解去湖人联手詹眉 还3队存可能性

醉卧浮生 浏览 16868

美军多海域再现“航母真空”

环球网资讯 浏览 597

女甲第8轮综述:海南琼中女足8战全胜高居榜首,广州女足1分垫底

直播吧 浏览 16039

美国芝加哥极寒下惊现“特斯拉坟场”!车主:我们这里有一堆死去的机器

红星新闻 浏览 12237

15岁女儿被票选为"最好看星二代" 翁虹首度回应

扒圈818 浏览 18944

高畠勉:高准翼停赛有不小的影响,希望胜利能成为球队的新起点

直播吧 浏览 15570

色彩凝聚笔尖,描绘双唇明眸之美

时尚COSMO 浏览 759

航天专家被策反出卖核心情报 国安公布抓捕画面

政知新媒体 浏览 75092

内塔尼亚胡强势点名联大离场国家 3个地区被重点提及

文汇报 浏览 1922

硬件不会绑定新特性:荣耀 Magic6 / 7 全系将支持追色和胶片功能

IT之家 浏览 763

美中央司令部证实:一艘美国货轮遭胡塞武装袭击

央视新闻客户端 浏览 77893

或为黄色特别版 斯巴鲁BRZ新车型预告图发布

车质网 浏览 1039

单月销售再破30万!比亚迪2024年1-5月累计销售超126万辆

封面新闻 浏览 10860

明天开播!40集女性古装权谋剧来袭,有暑期档黑马潜质

肥罗大电影 浏览 10908

拉姆:相信诺伊尔能找回状态,他和穆勒依然能帮助任何球队

直播吧 浏览 16202

800名美欧官员指责政府可能参与战争罪

环球网 浏览 12569

庄羽正式成立反剽窃基金郭敬明将汇款300万至反剽窃基金

趣看热点 浏览 26222

50岁女人穿衣,记得色不过三、衣不紧身,照着穿想不气质都难

静儿时尚达人 浏览 780
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1