关闭广告

GUI自动化的新突破:ServiceNow让AI更准确定位屏幕界面元素

科技行者801人阅读


这项由ServiceNow、魁北克人工智能研究院、蒙特利尔大学、约克大学、蒙特利尔理工学院和麦吉尔大学联合进行的研究发表于2025年10月,论文编号为arXiv:2510.03230v1。研究团队由王苏宇辰、张天宇、Ahmed Masry、Christopher Pal、Spandana Gella、刘邦和Perouz Taslakian等学者组成,他们致力于解决人工智能在GUI(图形用户界面)自动化中面临的核心难题。有兴趣深入了解的读者可以通过论文编号arXiv:2510.03230v1查询完整论文。

现代生活中,我们每天都要与各种软件界面打交道——从手机应用到电脑程序,从网页浏览到办公软件。如果能让人工智能像人类一样准确地识别和操作这些界面元素,将会极大提升工作效率。然而,要让AI准确找到屏幕上的按钮、文本框或菜单项,就像要求一个从未见过地图的人在陌生城市中找到特定建筑物一样困难。

这项研究的核心贡献在于解决了当前视觉语言模型在GUI定位任务中的一个根本性问题:如何将自然语言指令准确转换为屏幕上的像素坐标。研究团队发现,现有方法就像让一个盲人通过触摸来画地图一样效率低下,因为AI模型需要在没有明确参照物的

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

外媒:乌克兰驻以色列大使称内塔尼亚胡正考虑访乌

参考消息 浏览 15733

“十五五”规划建议:共有15个部分、61条,分为三大板块

国是直通车 浏览 794

冰箱:哈登不愿做脏活累活 这样只能赢几场常规赛不可能夺冠

直播吧 浏览 14736

空军航空兵某旅开展实弹射击训练

环球网资讯 浏览 16240

国产、进口全线降!特斯拉3天2次降价暴击电动车市场

封面新闻 浏览 14572

普京否认"俄计划攻击北约" 喊话西方国家:睡个好觉

环球网资讯 浏览 1017

巴黎客战布雷斯特:阿什拉夫、巴尔科拉首发, 登贝莱替补

懂球帝 浏览 859

晚点独家丨千问 app,阿里要怎么做中国的 “ChatGPT”

晚点LatePost 浏览 572

夏天少穿短裤、短裙,跟着气质女神穿衣服,才能美得优雅得体

静儿时尚达人 浏览 10824

美中情局局长听取乌方“停火谈判”计划

界面新闻 浏览 15869

这场研讨会关注视障教育将如何被AI改变?

上观新闻 浏览 908

文晏回应争奖!直言不认识白百何否认沪圈投资,白百何再次内涵

萌神木木 浏览 724

"老钱风"搭配火起来了!时髦显贵气

静儿时尚达人 浏览 13259

拉姆:相信诺伊尔能找回状态,他和穆勒依然能帮助任何球队

直播吧 浏览 16199

“中”字头股票轮番大涨,谁在“潜伏”?

中国证券报 浏览 18923

海外投资者争做基石!摩根大通:中国药企全球竞争力提升,投融资持续活跃

券商中国 浏览 825

美官员谈布林肯访华:并不期待可交付成果清单

环球网资讯 浏览 16690

魏牌咖啡系列OTA重磅升级 搭载最新语音大模型

网易汽车 浏览 11200

牛弹琴:中国的强烈愤怒还在继续 日本有三个没想到

北京日报客户端 浏览 41328

新渲染图曝光,消息称iPhone 15 Pro机型泰坦灰将替代金色

IT之家 浏览 14005

加速推进!机器人板块传出大消息!

扬子晚报 浏览 206
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1