关闭广告

上海AI实验室推出ATLAS:让AI在科学推理中"败下阵来"的超级考场

科技行者2649人阅读


这项由上海AI实验室领导的研究于2024年11月发表在arXiv预印本平台,论文编号为2511.14366。有兴趣深入了解的读者可以通过该编号查询完整论文。研究团队包括来自复旦大学、北京大学、上海交通大学等25所知名院校的专家学者,他们共同开发了一个名为ATLAS的科学推理评测平台。

当人工智能在各种考试中频频刷新高分记录时,一个有趣的现象出现了:那些曾经被视为"金标准"的测试题目,如今对顶级AI模型来说似乎变得过于简单。就像一个天赋异禀的学生轻松通过了小学考试,但我们却不知道他是否真正具备了解决复杂现实问题的能力。

正是在这样的背景下,上海AI实验室的研究团队决定为AI模型打造一个真正的"地狱级考场"。他们开发的ATLAS平台就像是一个专门设计来让AI"败下阵来"的超级测试场,专门检验AI在科学推理方面的真实能力。这个名字本身就很有意味——ATLAS意为"AGI导向的科学逻辑应用测试平台",寓意着要像古希腊神话中扛起天空的巨人一样,承担起衡量AI真实科学推理能力的重任。

想象一下,如果把现有的AI测试比作小学数学题,那么ATLAS就像是博士入学考试。它不满足于简单的

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

伊姐十一热推:电影《震耳欲聋》;电视剧《三更雪》......

伊周潮流 浏览 3122

罗体:萨里向洛蒂托要求在一月引进一名高水平中场球员

懂球帝 浏览 3223

哈兰德:我对吕迪格一直很尊重;确实很想念贝林厄姆

懂球帝 浏览 3152

王诗龄放假回北京了,照片曝光很漂亮

瞻史 浏览 3618

E句话|“我只眼神给出去”?黑白颠周媛账号被封

仙女事件簿 浏览 2462

罗志恒:三季度经济增速为何放缓?四季度经济前景如何?

首席经济学家论坛 浏览 3736

身价第一的全球大网红“野兽先生”哭穷,为啥?

喜欢历史的阿繁 浏览 4228

真我realme UI本月有更新计划,适配GT Neo 6 SE及以上机型

IT之家 浏览 1774

特朗普甩开中国单干当"和事老" 意外遭泰国硬怼:失望

新民周刊 浏览 8565

夏天的白裙,可以像赫本那样穿

Yuki女人故事 浏览 309

今年最狠悬疑剧,好人为何集体沉沦?

仙女事件簿 浏览 3662

全球车企一哥,急需纯电车市场!

懂车之道 浏览 3062

许绍雄患癌仍敬业!今年参演9部作品努力宣传剧集

萌神木木 浏览 3597

科技范儿·在现场|“AI+智能座舱”让每次出发都是“懂你的陪伴”

上游新闻 浏览 2949

财政负担持续累积,“节油意识”难以培养,岛内担忧“冻油价”加剧能源困局

环球网资讯 浏览 1644

加拿大总理:加美经济关系已结束

北京日报客户端-长安街知事 浏览 10159

高市早苗要和中国打时间差 或赶在特朗普访华前访美

北京日报客户端-长安街知事 浏览 13944

假期4大变量共振 哪些是A股正向催化剂?

财联社 浏览 2066

你觉得美,可能是大脑在偷偷节能|光锥读论文

未来光锥 浏览 3100

原来做自媒体的“成功心法”都是同一个

黎贝卡的异想世界 浏览 3592

熊园:“十五五”大方向已定,如何跟踪?

首席经济学家论坛 浏览 3683
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1