关闭广告

国内大模型与GPT-4较高下:语言知识能力接近,复杂推理仍是短板

第一财经资讯12492人阅读

1月30日,上海人工智能实验室发布了大模型开源开放评测体系司南(OpenCompass2.0),同时在对部分主流大模型评测诊断的基础上,揭晓了年度大模型评测榜单,提到了国内大模型的优势与短板。

根据评测,复杂推理相关能力是大模型普遍面临的难题,国内大模型相比于GPT-4还存在差距,这是大模型在金融、工业等要求可靠的场景落地需要的关键能力。不过,在中文场景下国内最新的大模型已展现出独特优势,尤其在语言、知识维度上接近GPT-4 Turbo的水平。

在客观评测能力排行上,整体来看大语言模型整体能力仍有较大提升空间。在百分制的客观评测基准中,GPT-4 Turbo(升级版GPT-4)在各项评测中均获最佳表现,也仅达到61.8分的及格水平。

OpenCompass2.0的分析结果显示,不少国内厂商近期新发布的模型在多个能力维度上正在快速缩小与GPT-4 Turbo的差距,包括智谱清言GLM-4、阿里巴巴Qwen-Max、百度文心一言4.0的排名较为靠前,反映了这些新模型具有较为均衡和全面的性能。


值得一提的是,此次大模型排行并未纳入所

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

教师服务期未满辞职疑被逼捐5万违约金 教体局:系自愿

澎湃新闻 浏览 87324

端午节消费回暖,预示经济呈复苏迹象

开伟思考 浏览 15590

问界某车主在4s店门口拉白色横幅:等车100天,开车60天变老款!

火山诗话 浏览 11063

美国拉拢越南对抗中国,解放军早就把话说透

浏览 10544

一笑随歌李沁陈哲远短短37秒吻戏床戏都上尺度了

陈意小可爱 浏览 1043

斯坦福MLE-Smith:自动生成机器学习竞赛题目

科技行者 浏览 644

一句话点评10月紧凑型SUV:燃油车不仅没有死,居然还愈战越勇了

汽车公社 浏览 369

韩国房价犹如过山车,大起大落背后是什么原因?

界面新闻 浏览 16390

男子认亲1年后被警方告知"亲哥找到了":那家里的是谁

极目新闻 浏览 12659

万科董事长辛杰辞职!年薪0元、原定明年退休,曾多次代表深铁力挺万科

时代周报 浏览 1037

李开复筹组新公司定名零一万物:数十名核心成员到位

雷递 浏览 15772

法蒂:梦想在巴萨取得成功;弗里克肯定会取得好成绩

懂球帝 浏览 11124

网攻武汉地震监测中心事件发现境外情报机构特征

界面新闻 浏览 14959

美国连射战斧巡航导弹 胡塞武装:没产生重大影响

环球网资讯 浏览 12669

SpaceX计划最早在2月份进行星际飞船第三次飞行测试

网易科技报道 浏览 12677

别低估了连衣裙的美 好看又好穿

一只可可 浏览 16074

大连“智”造金属螺钉骨植入材料将上市

半岛晨报 浏览 1646

环球小姐赛事双东家被签发逮捕令

土澳的故事 浏览 330

17.18万元起!广丰第九代凯美瑞上市,车机智能化竟成了最大卖点

电车通 浏览 12234

今日热点:神偷奶爸4首支预告;霉霉拥吻比赛胜利的男友......

伊周潮流 浏览 12743

特朗普提议俄乌"在当前战线停火" 克宫表态

环球网 浏览 893
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1