关闭广告

超越纯视觉模型!不改VLM标准架构,实现像素级深度预测

新智元4288人阅读


新智元报道

编辑:LRST

【新智元导读】Meta开源DepthLM,首证视觉语言模型无需改架构即可媲美纯视觉模型的3D理解能力。通过视觉提示、稀疏标注等创新策略,DepthLM精准完成像素级深度估计等任务,解锁VLM多任务处理潜力,为自动驾驶、机器人等领域带来巨大前景。

在当前多模态AI发展浪潮中,视觉语言模型(Vision Language Models, VLMs)因其能通过「看图 + 文字交互」处理多样任务而备受关注。

然而,尽管在语义理解、视觉问答、图像指令等任务上表现优异,它们在从 2D 图像理解 3D 空间结构方面仍显薄弱。相比之下,纯视觉模型(pure vision models)在 绝对深度估计(metric depth estimation) 等三维理解任务上,凭借专门设计的网络结构与损失函数,早已达到了超越人类的精度。

这就带来了一个核心问题:「视觉语言模型是否有可能不更改其标准架

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

43岁贾玲退出春晚、解散公司

月光作笺a 浏览 3132

西班牙青训球队开除4名U16球员,他们曾为泄愤持刀威胁对手

懂球帝 浏览 3846

赵震:中国青训最需要解决的是体系问题,应坚持搞校园足球

懂球帝 浏览 3437

球员是否因阿森纳输球更有动力?瓜帅:我建议他们专注于自己

懂球帝 浏览 3020

TA:阿莫林对3-4-3的执念,从一开始就注定了他在曼联的失败

懂球帝 浏览 3224

影视大佬吴敦离世,贾静雯林志颖发文悼念

素素娱乐 浏览 2966

反趋势?理想汽车盈转亏!MEGA召回烧没11亿元?

道哥说车 浏览 3823

美股存储芯片全线爆发,美光科技猛涨10%,闪迪涨超9%,英特尔涨超7%,国际油价突破100美元

21世纪经济报道 浏览 848

长这样的外套,大骨架女孩不要买!

Yuki女人故事 浏览 4075

工信部:将会同有关部门加强养老服务机器人研发

IT之家 浏览 3811

刘嘉玲怒怼肉娱小鲜肉?

港剧叔 浏览 4048

小儿子拜师少林寺 邹市明称3个儿子没有一个子承父业

环球网资讯 浏览 9924

澎湃OS优化进展公布,小米15手机相机体验等问题已修复

IT之家 浏览 3479

更年轻化 新款丰田卡罗拉将于12月21日上市

车质网 浏览 3517

刘涛女儿近照曝光,这才是“顶级富养”的典范!

动物奇奇怪怪 浏览 4328

上海机场48岁总经理因个人原因辞职,上任仅9个月,去年年薪上百万元

红星资本局 浏览 4167

莱万特3-0大胜塞维利亚,卡洛斯-阿尔瓦雷斯、卡洛斯-埃斯皮破门

懂球帝 浏览 3233

特朗普称批准韩国建造核潜艇

澎湃新闻 浏览 4009

窦泽成下赛季重返美巡赛

体坛周报 浏览 4254

基准新规划定过渡期!近75%基金“及格线”或需调整

券商中国 浏览 3977

英超:维拉3比1富勒姆取联赛首胜

体坛周报 浏览 4662
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1