关闭广告

加州大学圣地亚哥分校发现:AI评估基准存在滞后性

科技行者3559人阅读


这项由加州大学圣地亚哥分校的江训益、常丁艺、朱利安·麦考利和徐鑫等研究人员组成的团队完成的研究,发表于2025年10月8日,编号为arXiv:2510.07238v1。感兴趣的读者可以通过该编号在学术数据库中查询完整论文。

当我们谈论人工智能模型的能力时,就像评判一个学生的学习成绩一样,需要用一套标准化的考试题目来测试。在AI领域,这些"考试题目"被称为基准测试。然而,加州大学圣地亚哥分校的研究团队发现了一个令人震惊的问题:我们用来评估AI模型的这些"考试题目"已经严重过时了,就像用十年前的地理课本来考今天的学生,问的还是"世界人口最多的国家是中国"这样的问题,而正确答案早已变成了印度。

这个问题的严重性超出了人们的想象。研究团队发现,在五个广泛使用的AI评估基准中,竟然有24%到64%的问题答案都已经过时。更糟糕的是,那些能够给出最新、最准确答案的先进AI模型,反而在这些过时的测试中被扣分,就像一个博学的学生因为知道最新知识而在老旧考试中失分一样荒谬。

这项研究的重要性在于,它第一次系统性地揭示了AI评估领域的这个盲点。想象一下,如果我们一直用错误的尺子来衡量物品长

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

清华大学团队发明"聪明偷懒"的AI:让人工智能只在难题上深度思考

科技行者 浏览 2620

卢拉:不希望美国对委发动“地面入侵”

参考消息 浏览 3335

古二录音被忽略的细节!秦雯闺蜜歧视妇女,业内编剧还在嫌弃观众

萌神木木 浏览 3424

仅10%援助卡车获准进入 加沙地带饥荒危机加剧

极目新闻 浏览 3749

守护行人安全 四川省人大代表韩华亮建议:制定管理细则,提高电动车违法成本|代表在这里

封面新闻 浏览 2458

海尔集团与阿里巴巴达成全面AI合作

环球网资讯 浏览 3875

科技巨头疯狂投资AI基建,芯片厂商吞了云服务企业的利润?

澎湃新闻 浏览 3737

首秀高效表现,马刺榜眼秀哈珀18分钟6中4得9分3助攻,正负值+20

懂球帝 浏览 3785

UC圣地亚哥学者巧用树形搜索让AI画画训练快2.4倍

科技行者 浏览 2736

阿里小贷正式完成注销,退出历史舞台!

中国基金报 浏览 3770

美总统威胁对尼日利亚动武 尼方回应

环球网资讯 浏览 3617

新季各队最令人期待球员中部篇 内姆哈德追逐MIP?

体坛周报 浏览 4432

张雨绮被实名举报代孕、插足婚姻 举报人公开监控画面

大风新闻 浏览 6864

大爷拍"素颜巴黎"火了:欧洲行费用1万多 不会说英语

极目新闻 浏览 13356

郝蕾说金敏喜是自己在亚洲的唯一对手

芊手若 浏览 3418

马杜罗怒斥美“南方之矛”行动:国际法终将被维护

国际在线 浏览 3292

黑灯工厂+35%毛利率,国潮IP玩具厂商递表港股,高瓴砸2.35亿元!|港E声

时代周报 浏览 2697

《红色电影录音机》背后的:花高片酬请来美国人

随申Hi 浏览 2772

金莎穿娃娃领白衬衣领证,衬衫很宽松显肚子

秋姐居 浏览 1092

东风日产N6最新申报图曝光:选装轮圈与红色卡钳

网易汽车 浏览 3843

击败鲍里妮出线有望为何赛后不庆祝?高芙自揭答案:赢得侥幸

网球之家 浏览 3540
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1