关闭广告

超越纯视觉模型!不改VLM标准架构,实现像素级深度预测

新智元927人阅读


新智元报道

编辑:LRST

【新智元导读】Meta开源DepthLM,首证视觉语言模型无需改架构即可媲美纯视觉模型的3D理解能力。通过视觉提示、稀疏标注等创新策略,DepthLM精准完成像素级深度估计等任务,解锁VLM多任务处理潜力,为自动驾驶、机器人等领域带来巨大前景。

在当前多模态AI发展浪潮中,视觉语言模型(Vision Language Models, VLMs)因其能通过「看图 + 文字交互」处理多样任务而备受关注。

然而,尽管在语义理解、视觉问答、图像指令等任务上表现优异,它们在从 2D 图像理解 3D 空间结构方面仍显薄弱。相比之下,纯视觉模型(pure vision models)在 绝对深度估计(metric depth estimation) 等三维理解任务上,凭借专门设计的网络结构与损失函数,早已达到了超越人类的精度。

这就带来了一个核心问题:「视觉语言模型是否有可能不更改其标准架

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

俄无人机救下一名正遭乌军性侵女子 顾不上提裤子拔腿就逃

大象新闻 浏览 1001

适合中年女性的搭配 简约基础款穿出大方气质

巧百搭 浏览 19531

张艺兴拿拖拉机驾照,将在向往的生活节目中担任专业收割机驾驶员?

趣看热点 浏览 26640

钱迷心窍!这家大行分行行长与员工收受数百万"好处费"

券商中国 浏览 26820

TOPCon新建需求持续旺盛 捷佳伟创上半年净利预增逾五成|财报解读

科创板日报 浏览 10813

《赴山海》:一集至少两个漏洞

流云天下 浏览 1673

爱德华兹像乔丹又实锤了? 火箭名宿:没人像乔丹但我喜欢华子

仰卧撑FTUer 浏览 986

西亚卡姆:球队的篮板是个大问题 我们必须团结起来解决它

直播吧 浏览 13498

破亿品牌数增长,3万品牌成交翻倍,今年双11的商业变革悄然开始

一点财经 浏览 838

小鹏汽车增程车型矩阵加速落地 构建"纯电+增程"双线格局

海南车小二 浏览 243

92岁默多克第6次订婚 未婚妻第一任丈夫为俄石油大亨

新民周刊 浏览 70262

美国前财长对"去美元化"焦虑:美国正失去全球影响力

直新闻 浏览 114598

福岛近海捕捞鱼放射性物质超标,此类海鱼已停止在市场销售

趣看热点 浏览 111493

OpenAI上线GPT商店,但要赶超苹果应用商店还很难

界面新闻 浏览 12687

你不知道的《城市猎人》幕后冷知识_是王晶与成龙首次也是唯一一次合作

趣看热点 浏览 26367

第三次世界大战爆发了吗?我们该怎么办?

新民周刊 浏览 19477

56岁女星患癌第三次手术 大S和具俊晔合体送祝福

素素娱乐 浏览 19049

秋季的穿衣难度并不高,选择基础款、配色不沉闷,舒适又减龄

静儿时尚达人 浏览 1005

今年春天小香风又火了!谁穿谁好看

LinkFashion 浏览 12699

女子急寻人:和去世丈夫攒下百万 想给40年没见的女儿

杭州网 浏览 93961

83岁的何享健再度冲击IPO,美的系第十子即将诞生?

BT财经 浏览 1693
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1