关闭广告

为什么复旦MOSS大模型的中文水平不如英文?

澎湃新闻19088人阅读

·“数据质量的差别是主要瓶颈之一。相较于英文数据,中文数据的开源程度较低,导致中文数据集的规模相对较小。此外,英文作为科研主流语言,在学术界和工业界中得到广泛应用,积累了大量高质量的语料数据,这为英文自然语言处理的研究提供了极大的优势。”
2月20日晚间,复旦大学邱锡鹏教授团队发布国内首个类ChatGPT模型MOSS,引发各界人士参与内测的热情。一个显著的反馈是,MOSS的英文回答水平比中文高,这在公众与ChatGPT的互动中也有类似体现。为何如此?
位于深圳的粤港澳IDEA研究院认知计算与自然语言中心文本生成算法团队负责人王昊对澎湃科技(www.thepaper.cn)表示,“数据质量的差别是主要瓶颈之一。相较于英文数据,中文数据的开源程度较低,导致中文数据集的规模相对较小。此外,英文作为科研主流语言,在学术界和工业界中得到广泛应用,积累了大量高质量的语料数据,这为英文自然语言处理的研究提供了极大的优势。”
MOSS研究团队也坦诚,“MOSS的英文回答水平比中文高,因为它的模型基座学习了3000多亿个英文单词,中文词语只学了约300亿个。”
王昊认为,对于中文来说,高质量无监督语料和指令数据尤其严重不足。因此,中文自然语言处理领域需要更多的投入和努力来积累高质量的数据,并将其开源,以促进中文自然语言处理的发展。
清华大学计算机科学与技术系长聘副教授、聆心智能创始人黄民烈曾制定了全球首个《AI对话系统分级定义》,他在接受澎湃科技(www.thepaper.cn)采访时表示,“从数据和应用的角度来说,中国的科技企业目前来看有比较大的优势。从数据角度来说,国内其实是产出了大量数据的,但数据的准确性和可靠性如果能够提上去,对于模型的学习和生成来说都会帮助很大。”
“而国内的应用场景和市场其实是更加广阔的,在新闻、广告、教育等等领域,而应用

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

金鸡国产电影展|片单发布:百廿回眸,新程再启

幕味儿 浏览 771

2026款捷途旅行者新增车型上市 售价19.19万

车质网 浏览 369

啥时候打过这么富裕的仗啊!湖人新赛季能摆出五锋线阵容

直播吧 浏览 15277

突发:阿斯巴甜或首次被认定为可能致癌物,可口可乐和这些产品也在用

爱范儿 浏览 15482

利物浦起飞?今夏砸2.4亿连签3强援升级中场!首发豪阵曝光可争冠

我爱英超 浏览 14524

辛芷蕾这部新片被好莱坞大片打懵了

娱乐圈笔娱君 浏览 605

海口警方通报 "一女子穿仿制日本军服在夜市嬉闹"

环球网资讯 浏览 19506

知名男演员景区打工两个月成"顶流NPC" 本人回应

极目新闻 浏览 6093

多特官宣冬窗首签!桑乔租借回归,三赢交易多特血赚,滕帅赢了

奥拜尔 浏览 13112

谷歌解雇数百名语音助理项目人员

界面新闻 浏览 12325

火力全开!杰伦-布朗23中15&三分12中6 砍全队第二高36分另8板3助

直播吧 浏览 12232

外星人是假的?可它真能挣钱啊!

酷玩实验室 浏览 12568

拜登宣称:将“很快”前往越南

海外网 浏览 14518

新能源汽车的轮胎,为啥那么贵?

小李车评李建红 浏览 839

纯爷们也开始戴珍珠了

市界 浏览 14089

十大券商看后市|A股情绪将迎来修复,市场回调提供布局良机

澎湃新闻 浏览 12707

Robotaxi发生伤人事故 哈啰出行自动驾驶业务暂停运营

界面新闻 浏览 14049

卖货主播逃离618:去年月入3万,今年降薪离职

开菠萝Media 浏览 16257

伊朗总统最新表态:将重建核设施

政知新媒体 浏览 715

三十多岁患癌,中医、西医给了N个方案!怎么选?

国是直通车 浏览 19210

勒阿弗尔1-0图卢兹,克里斯托弗-奥佩里制胜

懂球帝 浏览 11775
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1