关闭广告

加州大学圣地亚哥分校发现:AI评估基准存在滞后性

科技行者3545人阅读


这项由加州大学圣地亚哥分校的江训益、常丁艺、朱利安·麦考利和徐鑫等研究人员组成的团队完成的研究,发表于2025年10月8日,编号为arXiv:2510.07238v1。感兴趣的读者可以通过该编号在学术数据库中查询完整论文。

当我们谈论人工智能模型的能力时,就像评判一个学生的学习成绩一样,需要用一套标准化的考试题目来测试。在AI领域,这些"考试题目"被称为基准测试。然而,加州大学圣地亚哥分校的研究团队发现了一个令人震惊的问题:我们用来评估AI模型的这些"考试题目"已经严重过时了,就像用十年前的地理课本来考今天的学生,问的还是"世界人口最多的国家是中国"这样的问题,而正确答案早已变成了印度。

这个问题的严重性超出了人们的想象。研究团队发现,在五个广泛使用的AI评估基准中,竟然有24%到64%的问题答案都已经过时。更糟糕的是,那些能够给出最新、最准确答案的先进AI模型,反而在这些过时的测试中被扣分,就像一个博学的学生因为知道最新知识而在老旧考试中失分一样荒谬。

这项研究的重要性在于,它第一次系统性地揭示了AI评估领域的这个盲点。想象一下,如果我们一直用错误的尺子来衡量物品长

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

陈天桥亲自下场押注脑机接口赛道,中国首家超声波BCI企业格式塔成立

华夏时报 浏览 2735

趁换代前“捡漏”30万豪华中型SUV之选

网易汽车 浏览 4576

22点至8点严禁催收、电话最多6次/天,消费贷催收新规划重点

上观新闻 浏览 2423

通勤路上,也有忒Panda的陪伴!

时尚COSMO 浏览 4220

母亲被父亲刺28刀死亡 11岁儿子因给父亲开门深深自责

都市报道 浏览 14154

委内瑞拉外长:感谢中方支持

环球网资讯 浏览 13761

坦克300泰国版外观酷似“大G”!预计售价亲民,搭载2.4T柴油+9AT

小史谈车 浏览 2426

柬埔寨内政部:柬泰冲突已致31名柬平民死亡

国际在线 浏览 2591

何赛飞年初二下海岛拜年,圈外老公罕出镜

小徐讲八卦 浏览 2074

这才是50岁女人该有的冬季穿搭,既保暖又体面,想不优雅都难

静儿时尚达人 浏览 2976

我国电动船舶锂电池安全防控技术实现新突破

新华社 浏览 2829

3件开心小事|| 这条视频竟然有一千万人看了

黎贝卡的异想世界 浏览 2918

1万亿订单再加3500-5000亿美元!OpenAI“停不下来”,“当你欠每家数千亿美元,钱的问题自己会解决”?

华尔街见闻官方 浏览 3924

"花坛白骨案"告破:女老板遭谋杀 凶手"换脸"逃亡28年

封面新闻 浏览 13359

三战全胜,巴列卡诺主帅伊尼戈-佩雷斯当选西甲10月最佳教练

懂球帝 浏览 3573

荣耀Magic8 Pro Air支持eSIM,搭配实体SIM卡可实现四卡双待

IT之家 浏览 2625

AI赋能体育教育新图景:构建中小学智慧体育新生态

南方都市报 浏览 3472

被出示黄牌,西蒙斯社媒晒知名网红uno梗图

懂球帝 浏览 2473

男子去理发结果给店家投40多万 自称不好意思拒绝别人

极目新闻 浏览 8485

离开央视为钱四处奔波的李思思,已然风光不再

TVB的四小花 浏览 2409

比小说更魔幻!前华人首富,为何被特朗普特赦

说财猫 浏览 3701
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1