关闭广告

谁是AI之王?聊聊备受争议的AI评测与崛起的LMArena

硅谷101743人阅读

撰稿 |张珺玥

编辑 |陈茜

在大模型激战的当下,究竟谁更强?是OpenAI的GPT,还是Anthropic的Claude?是谷歌的Gemini,还是中国的DeepSeek?

当AI模型排行榜开始被各种刷分作弊之后,谁家大模型最牛这个问题就变得非常主观,直到一家线上排行榜诞生,它叫:LMArena。

在文字、视觉、搜索、文生图、文生视频等不同的AI大模型细分领域,LMArena上每天都有上千场的实时对战,由普通用户来匿名投票选出哪一方的回答更好。最近以来,很多AI研究者都纷纷发声,认为大模型竞赛的下半场,最重要的事情之一就是重新思考模型评估。

因为当技术创新趋于饱和,真正拉开差距的,可能将不再是谁的参数更多、推理更快,而是谁能更准确地衡量、理解模型的智能边界。

在大模型评测上,传统的Benchmark(基准测试)究竟存在什么问题,是已经过时了吗?LMArena的竞技场模式为什么会被视为一种新的标准?它的技术机制、公平性和商业化隐藏着怎样的挑战?而下一代的大模型评测,又可能会走向哪里?

(本文为视频改写,欢迎大家收看以下视频)

01

题库泄露、数据污染传统Be

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

奥巴梅扬:马赛会继续在欧联杯前进;我是射门不是传中

懂球帝 浏览 12183

刘梓晨近况曝光!依旧炫富疑有新恋情,拍照扭成蛇精,被骂很做作

文艺圈娱乐号 浏览 13076

董子健带女儿现身公园玩 父女俩一见面就乐开花儿

翰林涛涛 浏览 1006

女网红被"开盒"收大量骚扰信息全家被迫搬离 本人发声

环球网资讯 浏览 20100

曾凡博等多人生病缺席!北京末节崩盘难阻深圳5连胜 范子铭24+9

醉卧浮生的体育世界 浏览 19300

杨洋新恋情曝光,全网:恭喜迪丽热巴!

LadyDaily 浏览 19092

天气正好,和牛仔靴踏春去!

嘉人marieclaire 浏览 19417

卢卡申科证实普里戈任抵达白俄罗斯

界面新闻 浏览 89254

赵本山女儿力挺辛巴,是真性情还是情商低

趣看热点 浏览 26387

12岁女孩手脚遭绑关厕所17天被虐亡 继母二审维持死刑

大风新闻 浏览 28969

乌军方称对俄铁路发起特别作战行动

国际在线 浏览 1573

空姐穿毛衣上班,被吐槽“很土”?

正解局 浏览 628

“重大转变”,泰国拟严格限制大麻用途

环球时报国际 浏览 12686

女人会不会打扮 通过鞋子就能看出来

潮人方法论 浏览 16192

小米 17 Pro Max 手机获澎湃 OS 3.0.24.0 版本升级

IT之家 浏览 897

关晓彤奶茶店再次陷入合同纠纷 被执行标8.1万元

网易娱乐 浏览 16090

四个男顶流火了之后怎么变丑了?

想刊刊 浏览 13131

星巴克和它所代表的一切,正与我们渐行渐远

虎嗅APP 浏览 676

中甲综述:广西平果哈嘹5分领跑 广州队收获赛季主场首胜

直播吧 浏览 15324

蔚来官宣再融资11.6亿美元!

电动知家 浏览 1632

余承东首次直播忙着给智界问界带货,称华为智驾体验优于特斯拉

界面新闻 浏览 10952
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1