关闭广告

加州大学圣地亚哥分校发现:AI评估基准存在滞后性

科技行者4066人阅读


这项由加州大学圣地亚哥分校的江训益、常丁艺、朱利安·麦考利和徐鑫等研究人员组成的团队完成的研究,发表于2025年10月8日,编号为arXiv:2510.07238v1。感兴趣的读者可以通过该编号在学术数据库中查询完整论文。

当我们谈论人工智能模型的能力时,就像评判一个学生的学习成绩一样,需要用一套标准化的考试题目来测试。在AI领域,这些"考试题目"被称为基准测试。然而,加州大学圣地亚哥分校的研究团队发现了一个令人震惊的问题:我们用来评估AI模型的这些"考试题目"已经严重过时了,就像用十年前的地理课本来考今天的学生,问的还是"世界人口最多的国家是中国"这样的问题,而正确答案早已变成了印度。

这个问题的严重性超出了人们的想象。研究团队发现,在五个广泛使用的AI评估基准中,竟然有24%到64%的问题答案都已经过时。更糟糕的是,那些能够给出最新、最准确答案的先进AI模型,反而在这些过时的测试中被扣分,就像一个博学的学生因为知道最新知识而在老旧考试中失分一样荒谬。

这项研究的重要性在于,它第一次系统性地揭示了AI评估领域的这个盲点。想象一下,如果我们一直用错误的尺子来衡量物品长

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

维持看涨!摩根大通预计金价明年底均价升至5055美元

第一财经资讯 浏览 4228

41岁张靓颖的现状,给所有中年女性提了个醒

科学发掘 浏览 3680

老外到中国看病会不会挤占医疗资源 三级医院院长回应

每日经济新闻 浏览 5332

“京圈恶少”王烁:睡遍娱乐圈女星,殴打继母王艳,枪指刘涛老公

史潎的生活日记 浏览 3165

大鹏工业:外购标准件采购占比超七成 自研的被评奖项目背后现客户

金证研 浏览 4178

曼城vs埃克塞特城:塞门约首秀,哈兰德、罗德里、阿克首发

懂球帝 浏览 2564

智元推出多场景“六边形战士”精灵G2,首发前已获数亿元订单

文汇报 浏览 4281

女子用"AI流浪汉"照片整蛊丈夫引来警察 网友表示不解

央视网 浏览 11308

孙宏斌逃出生天

创业家 浏览 3952

亚历山大:我当然想超越科比,能否做到让我们拭目以待吧

懂球帝 浏览 4210

2025年“演技最好女演员”排名,第1实至名归海

皮皮电影 浏览 3507

天才少年姚顺雨入职腾讯后首次公开发声

21世纪经济报道 浏览 3130

法尔克:皇马考虑今夏以1.6亿至1.65亿欧元求购奥利塞

懂球帝 浏览 1626

欧盟限制中国企业参与5G建设,商务部回应:坚决反对

时代周报 浏览 3043

《阿凡达3》第一波真实口碑,国内票价令人咋舌

娱乐圈笔娱君 浏览 3451

一农商行员工骗贷1600万,曾任某支行行长,以农村残疾困难户名义贷出上百万

新京报 浏览 274

前安永合伙人,因酒吧斗殴被解雇,早前涉嫌勾引已婚女合伙人被警告

财通社 浏览 4010

法兰克福3-4柏林联合,伯克戴帽,伯卡特点射,瓦希送助攻

懂球帝 浏览 4928

内娱又增新赛道,叶祖新坐着就抢了主角的戏

最爱酷影视 浏览 3412

上市1月破发20%!“空调屠夫”奥克斯,对不起基石投资者

深蓝财经 浏览 4263

桑德兰前锋伊西多尔:亨利发信息祝贺我,鼓励我继续前进

懂球帝 浏览 4796
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1