关闭广告

超越纯视觉模型！不改VLM标准架构，实现像素级深度预测

新智元4288人阅读

新智元报道

编辑：LRST

【新智元导读】Meta开源DepthLM，首证视觉语言模型无需改架构即可媲美纯视觉模型的3D理解能力。通过视觉提示、稀疏标注等创新策略，DepthLM精准完成像素级深度估计等任务，解锁VLM多任务处理潜力，为自动驾驶、机器人等领域带来巨大前景。

在当前多模态AI发展浪潮中，视觉语言模型（Vision Language Models, VLMs）因其能通过「看图 + 文字交互」处理多样任务而备受关注。

然而，尽管在语义理解、视觉问答、图像指令等任务上表现优异，它们在从 2D 图像理解 3D 空间结构方面仍显薄弱。相比之下，纯视觉模型（pure vision models）在绝对深度估计（metric depth estimation）等三维理解任务上，凭借专门设计的网络结构与损失函数，早已达到了超越人类的精度。

这就带来了一个核心问题：「视觉语言模型是否有可能不更改其标准架

版权与免责声明：本文内容转载自其他媒体，目的在于传递更多信息，不代表本网观点或立场，不承担此类作品侵权行为的自己责任及连带责任。

猜你喜欢

相关阅读

大盘五连涨！今年3次五连涨后发生了什么？

每日经济新闻浏览 3434

纯电续航达550km 吉利银河A7 EV官图发布

车质网浏览 1600

全身爱马仕的马筱梅生完孩子却穿三百块套装

小邵说剧浏览 940

精彩推荐

43岁贾玲退出春晚、解散公司

月光作笺a 浏览 3132

西班牙青训球队开除4名U16球员，他们曾为泄愤持刀威胁对手

懂球帝浏览 3846

赵震：中国青训最需要解决的是体系问题，应坚持搞校园足球

懂球帝浏览 3437

球员是否因阿森纳输球更有动力？瓜帅：我建议他们专注于自己

懂球帝浏览 3020

TA：阿莫林对3-4-3的执念，从一开始就注定了他在曼联的失败

懂球帝浏览 3224

影视大佬吴敦离世，贾静雯林志颖发文悼念

素素娱乐浏览 2966

反趋势？理想汽车盈转亏！MEGA召回烧没11亿元？

道哥说车浏览 3823

美股存储芯片全线爆发，美光科技猛涨10%，闪迪涨超9%，英特尔涨超7%，国际油价突破100美元

21世纪经济报道浏览 848

长这样的外套，大骨架女孩不要买！

Yuki女人故事浏览 4075

工信部：将会同有关部门加强养老服务机器人研发

IT之家浏览 3811

刘嘉玲怒怼肉娱小鲜肉?

港剧叔浏览 4048

小儿子拜师少林寺邹市明称3个儿子没有一个子承父业

环球网资讯浏览 9924

澎湃OS优化进展公布，小米15手机相机体验等问题已修复

IT之家浏览 3479

更年轻化新款丰田卡罗拉将于12月21日上市

车质网浏览 3517

刘涛女儿近照曝光，这才是“顶级富养”的典范！

动物奇奇怪怪浏览 4328

上海机场48岁总经理因个人原因辞职，上任仅9个月，去年年薪上百万元

红星资本局浏览 4167

莱万特3-0大胜塞维利亚，卡洛斯-阿尔瓦雷斯、卡洛斯-埃斯皮破门

懂球帝浏览 3233

特朗普称批准韩国建造核潜艇

澎湃新闻浏览 4009

窦泽成下赛季重返美巡赛

体坛周报浏览 4254

基准新规划定过渡期！近75%基金“及格线”或需调整

券商中国浏览 3977

英超：维拉3比1富勒姆取联赛首胜

体坛周报浏览 4662

本站所有信息收集于互联网，如本站收集信息侵权，请联系我们及时删除
沪ICP备20017958号-1