关闭广告

国内大模型与GPT-4较高下:语言知识能力接近,复杂推理仍是短板

第一财经资讯12491人阅读

1月30日,上海人工智能实验室发布了大模型开源开放评测体系司南(OpenCompass2.0),同时在对部分主流大模型评测诊断的基础上,揭晓了年度大模型评测榜单,提到了国内大模型的优势与短板。

根据评测,复杂推理相关能力是大模型普遍面临的难题,国内大模型相比于GPT-4还存在差距,这是大模型在金融、工业等要求可靠的场景落地需要的关键能力。不过,在中文场景下国内最新的大模型已展现出独特优势,尤其在语言、知识维度上接近GPT-4 Turbo的水平。

在客观评测能力排行上,整体来看大语言模型整体能力仍有较大提升空间。在百分制的客观评测基准中,GPT-4 Turbo(升级版GPT-4)在各项评测中均获最佳表现,也仅达到61.8分的及格水平。

OpenCompass2.0的分析结果显示,不少国内厂商近期新发布的模型在多个能力维度上正在快速缩小与GPT-4 Turbo的差距,包括智谱清言GLM-4、阿里巴巴Qwen-Max、百度文心一言4.0的排名较为靠前,反映了这些新模型具有较为均衡和全面的性能。


值得一提的是,此次大模型排行并未纳入所

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

综合续航超1400公里 奇瑞风云T9是你的菜吗?

汽车经纬网 浏览 13046

拜登指示美军袭击叙利亚和伊拉克境内目标

央视新闻客户端 浏览 12410

2021世俱杯改为日本承办,24支球队缩减至7支

趣看热点 浏览 25450

翁青雅被官媒点名,言辞直戳其肺管子

娱乐圈笔娱君 浏览 714

M3旅行版上市售94.39万元 告别平行进口

网易汽车 浏览 700

俄称挫败乌军空降行动

上观新闻 浏览 662

一夜翻盘,炫富网红蓝战非复活了

TVB的四小花 浏览 1040

百日破十万!比亚迪海狮06改写爆款规则,海洋网的成长密码

大象新闻 浏览 699

无缘总决赛!多米尼加正式出局,中国女排躺枪,输给对手创纪录

天涯沦落人 浏览 15497

西贝的新考题:如何券后留客

北京商报 浏览 199

美国男子携带超级抗体,九个月后仍然能杀死至少六种新冠病毒

趣看热点 浏览 25521

曼联晒照祝贺利马与埃里克森劳伦斯获奖:笑一个吧!

直播吧 浏览 18664

连马斯克都盯上了这块“肥肉”

汽车公社 浏览 574

贾静雯17岁大女儿湿发秀事业线,穿着性感无人敢问

花花lo先森 浏览 19247

随着阿森纳1-0领先,曼城0-1落后,英超最新积分榜:利物浦4连败

侃球熊弟 浏览 838

夏日新风尚:西装短裤,优雅高级又显瘦

Yuki时尚酱 浏览 10940

扎克伯格称赞马斯克:推特大裁员是行业榜样

界面新闻 浏览 16255

李嘉诚为长孙女铺路!李思德进核心产业或成接班人

传媒一班 浏览 15473

国情咨文演讲中使用"非法"一词形容移民后 拜登后悔了

环球网资讯 浏览 77626

上年纪的女人,别总穿运动鞋和恨天高,这样穿鞋子得体又优雅

静儿时尚达人 浏览 2053

客观评价房地产的重要性、问题及建议

泽平宏观 浏览 12586
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1