关闭广告

国内大模型与GPT-4较高下:语言知识能力接近,复杂推理仍是短板

第一财经资讯12479人阅读

1月30日,上海人工智能实验室发布了大模型开源开放评测体系司南(OpenCompass2.0),同时在对部分主流大模型评测诊断的基础上,揭晓了年度大模型评测榜单,提到了国内大模型的优势与短板。

根据评测,复杂推理相关能力是大模型普遍面临的难题,国内大模型相比于GPT-4还存在差距,这是大模型在金融、工业等要求可靠的场景落地需要的关键能力。不过,在中文场景下国内最新的大模型已展现出独特优势,尤其在语言、知识维度上接近GPT-4 Turbo的水平。

在客观评测能力排行上,整体来看大语言模型整体能力仍有较大提升空间。在百分制的客观评测基准中,GPT-4 Turbo(升级版GPT-4)在各项评测中均获最佳表现,也仅达到61.8分的及格水平。

OpenCompass2.0的分析结果显示,不少国内厂商近期新发布的模型在多个能力维度上正在快速缩小与GPT-4 Turbo的差距,包括智谱清言GLM-4、阿里巴巴Qwen-Max、百度文心一言4.0的排名较为靠前,反映了这些新模型具有较为均衡和全面的性能。


值得一提的是,此次大模型排行并未纳入所

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

日本加息,“可怕”的逻辑拆解

郎club 浏览 14848

自曝落后25年!福特CEO称绝不会再错过中国,能兑现吗?

车宇世界 浏览 159

赵昭仪,开启叮呤咣啷系穿搭第一人

时尚COSMO 浏览 11404

美联储年内“三连降”,2026年利率走向何方?

中新经纬 浏览 59

24座“万亿之城”一季报:12城GDP增速超全国

澎湃新闻 浏览 18322

回应美日韩军演 朝鲜火箭弹飞向“太平洋靶场”

环球网资讯 浏览 19101

世纪美少女被曝出轨后退圈,曾经的她有多火?

毒舌电影 浏览 15360

浙江挖笋失联村民已无生命体征 被指没带厚衣服和食物

极目新闻 浏览 81018

在《狐妖小红娘》里有理有据地“转世续缘”

时尚COSMO 浏览 11999

网红抓银环蛇被咬伤疑因"嫌注射血清贵不打" 好友发声

潇湘晨报 浏览 12138

涉诉被冻结20万股权?汪小菲成被执行人,麻六记张兰添新烦恼

时代周报 浏览 17997

本田东京车展亮相0系列电动概念车 揭示未来出行

网易汽车 浏览 717

酒鬼酒,四起四落

斑马消费 浏览 12925

塔图姆谈防守华子:我所做的全部就是想告诉他 别想在今天爆发

直播吧 浏览 12880

吹不动了!美职联官推崩溃,网友求梅西放水,名嘴:足坛奥本海默

我爱英超 浏览 14598

不止是你看到的辉煌!汽车市场被重洗,众多品牌相继出局

CAR路里 浏览 12550

湖人已经给里夫斯4年5200万美元顶薪报价,他将等待别队给出更高价

OnFire 浏览 15553

蓄发哥开始重新等待五连胜,阿莫林:希望他能尽快剪掉头发

懂球帝 浏览 651

西裤一定要搭配皮鞋?今夏潮圈男士更爱运动鞋

男士穿衣搭配杂志 浏览 15993

6岁男童失踪15天后身亡嫌疑人系邻居13岁孩子,到底是怎么回事?

趣看热点 浏览 508852

别克至境L7:新能源赛道,没有人能靠旧身份活下去

AutoBusiness 浏览 1668
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1