爆点资讯

1月30日，上海人工智能实验室发布了大模型开源开放评测体系司南（OpenCompass2.0），同时在对部分主流大模型评测诊断的基础上，揭晓了年度大模型评测榜单，提到了国内大模型的优势与短板。

根据评测，复杂推理相关能力是大模型普遍面临的难题，国内大模型相比于GPT-4还存在差距，这是大模型在金融、工业等要求可靠的场景落地需要的关键能力。不过，在中文场景下国内最新的大模型已展现出独特优势，尤其在语言、知识维度上接近GPT-4 Turbo的水平。

在客观评测能力排行上，整体来看大语言模型整体能力仍有较大提升空间。在百分制的客观评测基准中，GPT-4 Turbo（升级版GPT-4）在各项评测中均获最佳表现，也仅达到61.8分的及格水平。

OpenCompass2.0的分析结果显示，不少国内厂商近期新发布的模型在多个能力维度上正在快速缩小与GPT-4 Turbo的差距，包括智谱清言GLM-4、阿里巴巴Qwen-Max、百度文心一言4.0的排名较为靠前，反映了这些新模型具有较为均衡和全面的性能。

值得一提的是，此次大模型排行并未纳入所

国内大模型与GPT-4较高下：语言知识能力接近，复杂推理仍是短板

李鸿其王紫璇...

中俄防长1年...

新能源车卖得...

岳云鹏高考祝...

早秋衬衫最全...

知名策略师预...

贝嫂晒视频为儿媳庆生沙滩全家福曝光次子缺席

具俊晔穿老年袜骑自行车耍酷头盔上的数字表白大S

日本研究运输机发射远程导弹可变身战略轰炸机

教师服务期未满辞职疑被逼捐5万违约金教体局:系自愿

端午节消费回暖，预示经济呈复苏迹象

问界某车主在4s店门口拉白色横幅：等车100天，开车60天变老款！

美国拉拢越南对抗中国，解放军早就把话说透

一笑随歌李沁陈哲远短短37秒吻戏床戏都上尺度了

斯坦福MLE-Smith：自动生成机器学习竞赛题目

一句话点评10月紧凑型SUV：燃油车不仅没有死，居然还愈战越勇了

韩国房价犹如过山车，大起大落背后是什么原因？

男子认亲1年后被警方告知＂亲哥找到了＂：那家里的是谁

万科董事长辛杰辞职！年薪0元、原定明年退休，曾多次代表深铁力挺万科

李开复筹组新公司定名零一万物：数十名核心成员到位

法蒂：梦想在巴萨取得成功；弗里克肯定会取得好成绩

网攻武汉地震监测中心事件发现境外情报机构特征

美国连射战斧巡航导弹胡塞武装:没产生重大影响

SpaceX计划最早在2月份进行星际飞船第三次飞行测试

别低估了连衣裙的美好看又好穿

大连“智”造金属螺钉骨植入材料将上市

环球小姐赛事双东家被签发逮捕令

17.18万元起！广丰第九代凯美瑞上市，车机智能化竟成了最大卖点

今日热点：神偷奶爸4首支预告；霉霉拥吻比赛胜利的男友......

特朗普提议俄乌＂在当前战线停火＂克宫表态