关闭广告

南洋理工、腾讯等机构联手突破:让AI像人一样"指点"图片中的东西

科技行者3439人阅读


你有没有试过这样的体验:跟朋友聊天时,你想让他看看照片里的某个东西,但又不知道怎么准确描述它的位置?你可能会说"就是那个红色的杯子",朋友却问"哪个红色杯子?"这种沟通障碍在人工智能领域同样存在,而且更加复杂。

由南洋理工大学、腾讯微信视觉团队、新加坡科技研究局等多家知名机构组成的国际研究团队,最近在这个问题上取得了重要突破。他们的研究成果发表在了计算机视觉领域的顶级学术平台上,论文题目是"PATCH-AS-DECODABLE-TOKEN: TOWARDS UNIFIED MULTI-MODAL VISION TASKS IN MLLMS"(arXiv:2510.01954v1),感兴趣的读者可以通过这个编号查阅完整论文。

这项研究解决的核心问题可以用一个简单场景来理解:当你问AI"这张照片里有什么?"时,传统AI只能告诉你"有一只猫、一个杯子、一张桌子",但它无法像人一样直接"指出"这些东西的具体位置。更糟糕的是,当你要求AI找到"桌子上那个蓝色杯子"时,它往往会给出一串看起来很专业但实际上并不准确的数字坐标,比如"[245, 156, 378, 298]",普通人根本无法理解这些数字代表什么。

<
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

加密货币跌势连绵,近10亿美元杠杆仓被平,现货比特币ETF上周仅小幅净流入

华尔街见闻官方 浏览 3042

喜报!识局助力一家机器人企业落户西南某地!

识局 浏览 3536

女生希望"慢慢相处" 男子以送早餐为名进酒店实施性侵

红星新闻 浏览 12907

山东99-75战胜宁波 球员评价:3人优秀,5人及格,2人低迷

篮球资讯达人 浏览 2503

女子卷入前夫780余万巨债 诉讼9年均被判"夫妻共债"

红星新闻 浏览 31228

咸阳7亿多投资重点项目"未批先建" 当地:情况属实

大风新闻 浏览 8083

圣米伦夺苏格兰联赛杯,进球队员赛后采访不慎爆粗后道歉

懂球帝 浏览 3006

《危险关系》是“大圆满”的结局?错了,这是一个彻底的悲剧

娱乐圈笔娱君 浏览 1086

Robotaxi发生伤人事故 哈啰出行自动驾驶业务暂停运营

界面新闻 浏览 20826

谁是真汇源?

经济观察报 浏览 2623

美国“福特”号航母驶往加勒比海

上观新闻 浏览 3436

张艺兴单依纯都在跳,“技能五子棋”是什么?

黔乡小姊妹 浏览 3979

靳东这波转型,真是让人佩服得五体投地。

小光侃娱乐 浏览 4359

10月份,本田飞度就卖出去3辆,你没看错,就是3辆

凡兮说 浏览 3504

上海独居女子离世引关注,超百万元房产无人继承,记者实探→

每日经济新闻 浏览 2906

金价暴跌 不少上海人跑外地买黄金:就像在抢大白菜

极目新闻 浏览 6682

中年女人,冬天这么穿羽绒服、大衣,优雅都藏在这3个细节里

静儿时尚达人 浏览 2930

伊能静再婚11年首晒比基尼照,腰臀曲线引热议

柠檬有娱乐 浏览 2429

浙江助教:尽全力去拿下胜利;对王钰栋和张瑷晖的缺阵有预案

懂球帝 浏览 3559

鲁内眼中,那个让他敬畏的辛纳是如何炼成的

网球之家 浏览 2639

许家印侄子许火健豪宅被法拍,起拍价4400万元,配有5个洗手间

红星资本局 浏览 2611
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1