关闭广告

南洋理工、腾讯等机构联手突破:让AI像人一样"指点"图片中的东西

科技行者581人阅读


你有没有试过这样的体验:跟朋友聊天时,你想让他看看照片里的某个东西,但又不知道怎么准确描述它的位置?你可能会说"就是那个红色的杯子",朋友却问"哪个红色杯子?"这种沟通障碍在人工智能领域同样存在,而且更加复杂。

由南洋理工大学、腾讯微信视觉团队、新加坡科技研究局等多家知名机构组成的国际研究团队,最近在这个问题上取得了重要突破。他们的研究成果发表在了计算机视觉领域的顶级学术平台上,论文题目是"PATCH-AS-DECODABLE-TOKEN: TOWARDS UNIFIED MULTI-MODAL VISION TASKS IN MLLMS"(arXiv:2510.01954v1),感兴趣的读者可以通过这个编号查阅完整论文。

这项研究解决的核心问题可以用一个简单场景来理解:当你问AI"这张照片里有什么?"时,传统AI只能告诉你"有一只猫、一个杯子、一张桌子",但它无法像人一样直接"指出"这些东西的具体位置。更糟糕的是,当你要求AI找到"桌子上那个蓝色杯子"时,它往往会给出一串看起来很专业但实际上并不准确的数字坐标,比如"[245, 156, 378, 298]",普通人根本无法理解这些数字代表什么。

<
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

疑华谊二公子袭警获刑 私照曝光为23岁美籍硕士

网易娱乐 浏览 26753

唯一参展的中国品牌,为何能在东京车展被“挤爆”?

道哥说车 浏览 749

孔蒂:球迷应忽略球队的谣言;欧洲裁判比意甲好?我不聊这个

懂球帝 浏览 734

东体质疑宋凯十六字方针:目标不变属死命令,不怕压垮国足?

懂球帝 浏览 12854

平均每天27项!比亚迪全球累计申请专利超4.8万项

快科技 浏览 12315

新老更替!詹杜库历史首次同队仅42分 不如唐斯50分沦为“配角”

醉卧浮生 浏览 12519

大厂秋招又起:为什么“ATMD”成第一梯队

三言科技 浏览 14001

刘诗诗终于选对发型了 不仅减龄还很显脸小!

一只可可 浏览 15911

"失联风波"过后 画家范曾首度公开露面:近期喜得独子

澎湃新闻 浏览 8586

周华健回潮汕探亲祭祖

阿纂看事 浏览 177

货拉拉涉事司机父亲:我儿子人老实前房东和邻居也发声,具体是怎么说的?

趣看热点 浏览 143978

全智贤风波升级,雪花秘扇时期表现被审判,此前曾多次翻车

扒虾侃娱 浏览 1660

台"馆长"称"把赖清德狗头斩下来" 遭民进党当局约谈

环球时报新闻 浏览 17882

一路繁花2:刘嘉玲夸王家卫,何赛飞装都不装了

娱乐圈笔娱君 浏览 649

李书福砍了一刀,尹同跃打出一枪!车市大战硝烟弥漫

象视汽车 浏览 723

评论丨网购衣服上的“密码锁”,是商业诚信的刺眼“疤痕”

红星新闻 浏览 671

应对日本130万吨核污水排海 国内城市有道"防线"

每日经济新闻 浏览 86533

克洛普:曼城有最好的教练,最好的中锋,最好的英格兰球员

懂球帝 浏览 12309

AI狂热不敌冷峻现实:企业下调AI代理预期,实现全自动化仍需数年时间

华尔街见闻官方 浏览 680

报道指字节跳动关闭印度音乐流媒体服务Resso

观点机构 浏览 12441

詹姆斯和保罗生涯首次季后赛碰面,湖人太阳球员2021年薪水一览

趣看热点 浏览 25771
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1