爆点资讯

撰稿｜张珺玥

编辑｜陈茜

在大模型激战的当下，究竟谁更强？是OpenAI的GPT，还是Anthropic的Claude？是谷歌的Gemini，还是中国的DeepSeek？

当AI模型排行榜开始被各种刷分作弊之后，谁家大模型最牛这个问题就变得非常主观，直到一家线上排行榜诞生，它叫：LMArena。

在文字、视觉、搜索、文生图、文生视频等不同的AI大模型细分领域，LMArena上每天都有上千场的实时对战，由普通用户来匿名投票选出哪一方的回答更好。最近以来，很多AI研究者都纷纷发声，认为大模型竞赛的下半场，最重要的事情之一就是重新思考模型评估。

因为当技术创新趋于饱和，真正拉开差距的，可能将不再是谁的参数更多、推理更快，而是谁能更准确地衡量、理解模型的智能边界。

在大模型评测上，传统的Benchmark（基准测试）究竟存在什么问题，是已经过时了吗？LMArena的竞技场模式为什么会被视为一种新的标准？它的技术机制、公平性和商业化隐藏着怎样的挑战？而下一代的大模型评测，又可能会走向哪里？

（本文为视频改写，欢迎大家收看以下视频）

题库泄露、数据污染传统Be

谁是AI之王？聊聊备受争议的AI评测与崛起的LMArena

特朗普邀请俄...

格列兹曼：媒...

细节调整新...

赛力斯闯关港...

网友称在按摩...

特朗普称＂阻...

海南冯强再被通报：酒驾工作时间沉迷打高尔夫球

刘欢，早已走上另一条大道

Beats苹果iPhone 17e专用保护壳发售，399元

印欧达成自由贸易协定

最强充电宝国标将至，英集芯推出蓝牙智能方案引领行业升级

极氪右转：为何回归一个吉利？

豪掷近5000万买豪宅，曾被马云看重的男人身家68亿

变盘？危险的下注开始了

泰柬刚停火又开打媒体：＂特朗普和平＂成了笑话

给她的宇宙，Matthieu Blazy重塑香奈儿女性

十年前的百度，聚拢了硅谷最杰出的天才，每个都比姚顺雨耀眼……

特斯拉在欧洲加速推广FSD！新增试驾体验，产品进入全新国家

杨迪回应爬山过程中朋友被救护车拉走

明年一季度利率上限降至20% 消费金融迎来“阵痛期”

联合国启动下任秘书长遴选三大热门人选亮相

特朗普亮明＂弃台＂主张学者：美在台海已不具军事优势

耗资3000万，正面对决吴京，我感慨：41岁谢苗终于迈出了这一步

消失1年，王子异自称得了抑郁症

央视主持人遭AI仿冒带货官方通报

巴萨向拉什福德提出买断条件！帮助压价曼联并降薪，承诺加强防守

高市早苗再有新动作日本准备拥有核武中俄要早做准备

马拉松冠军选手冲线时被拦停强行带离重庆田协通报

晚旗报：随着齐米卡斯留在罗马，罗伯逊不会在冬窗离开利物浦

赖清德被迫取消窜访斯威士兰更多细节披露