关闭广告

加州大学圣地亚哥分校发现:AI评估基准存在滞后性

科技行者3546人阅读


这项由加州大学圣地亚哥分校的江训益、常丁艺、朱利安·麦考利和徐鑫等研究人员组成的团队完成的研究,发表于2025年10月8日,编号为arXiv:2510.07238v1。感兴趣的读者可以通过该编号在学术数据库中查询完整论文。

当我们谈论人工智能模型的能力时,就像评判一个学生的学习成绩一样,需要用一套标准化的考试题目来测试。在AI领域,这些"考试题目"被称为基准测试。然而,加州大学圣地亚哥分校的研究团队发现了一个令人震惊的问题:我们用来评估AI模型的这些"考试题目"已经严重过时了,就像用十年前的地理课本来考今天的学生,问的还是"世界人口最多的国家是中国"这样的问题,而正确答案早已变成了印度。

这个问题的严重性超出了人们的想象。研究团队发现,在五个广泛使用的AI评估基准中,竟然有24%到64%的问题答案都已经过时。更糟糕的是,那些能够给出最新、最准确答案的先进AI模型,反而在这些过时的测试中被扣分,就像一个博学的学生因为知道最新知识而在老旧考试中失分一样荒谬。

这项研究的重要性在于,它第一次系统性地揭示了AI评估领域的这个盲点。想象一下,如果我们一直用错误的尺子来衡量物品长

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

英伟达联手诺基亚,能否复制“Wintel神话”

经济观察报 浏览 3479

NCAA常规赛:俄勒冈85-88失利,林葳14中8砍新高23分+三分绝平

懂球帝 浏览 2709

进口车大崩盘,出口车三连冠!中国汽车反杀外国车

象视汽车 浏览 1933

领英平台新型钓鱼骗术瞄准高净值人士,微软账号安全受威胁

IT之家 浏览 3642

有品味的中年女人,穿衣都有4个共同点,看看你掌握了几个

静儿时尚达人 浏览 3464

遭美国施压 卡尼:加拿大无意与中国达成自由贸易协定

环球网资讯 浏览 6538

双电机还不够?三电机都来了 新款阿维塔12申报图曝光

网易汽车 浏览 2705

闫妮:除非她再拿视后

小椰的奶奶 浏览 3653

华境S登场在即 手捧华为智能全家桶走入寻常百姓家

网易汽车 浏览 2070

跨时代的武侠视觉巨制,今晚迎来告别放映!

幕味儿 浏览 2941

中国联通原副总经理获刑12年 曾搞权色、钱色交易

政知新媒体 浏览 13237

西汉姆联助理教练帕科·赫梅斯澄清与努诺·埃斯皮里托·桑托的场边争执

绿茵情报局 浏览 2440

蔚来ET5T暗影套装限定版上市 售价31.6万元

车质网 浏览 3593

2026年首月A股新开492万户,高于2025所有月份,如何看这个数据?

财联社 浏览 2395

罗晋《时差一万公里》首播,追5集,我想说:终于有像样都市剧了

娱乐圈笔娱君 浏览 3091

燃油A级SUV再进化 瑞虎7双车上市 限时6.99万起

网易汽车 浏览 1051

媒体:泽连斯基妥协 刚冻结俄资产的欧洲"惊觉一场空"

上观新闻 浏览 19706

今年最流行的穿法:裤子+针织、裙子+针织,时髦又减龄!

LinkFashion 浏览 2486

网约车送断指乘客在交警带路闯红灯时出车祸 被判全责

新民晚报 浏览 7324

秦雯袭警风波升级!新剧开播前四天紧急撤档,上星困难唐嫣被牵连

萌神木木 浏览 3665

杨蓉右脸烫伤后晒自拍:“带疤的脸很酷”

今古深日报 浏览 771
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1