关闭广告

为什么复旦MOSS大模型的中文水平不如英文?

澎湃新闻19068人阅读

·“数据质量的差别是主要瓶颈之一。相较于英文数据,中文数据的开源程度较低,导致中文数据集的规模相对较小。此外,英文作为科研主流语言,在学术界和工业界中得到广泛应用,积累了大量高质量的语料数据,这为英文自然语言处理的研究提供了极大的优势。”
2月20日晚间,复旦大学邱锡鹏教授团队发布国内首个类ChatGPT模型MOSS,引发各界人士参与内测的热情。一个显著的反馈是,MOSS的英文回答水平比中文高,这在公众与ChatGPT的互动中也有类似体现。为何如此?
位于深圳的粤港澳IDEA研究院认知计算与自然语言中心文本生成算法团队负责人王昊对澎湃科技(www.thepaper.cn)表示,“数据质量的差别是主要瓶颈之一。相较于英文数据,中文数据的开源程度较低,导致中文数据集的规模相对较小。此外,英文作为科研主流语言,在学术界和工业界中得到广泛应用,积累了大量高质量的语料数据,这为英文自然语言处理的研究提供了极大的优势。”
MOSS研究团队也坦诚,“MOSS的英文回答水平比中文高,因为它的模型基座学习了3000多亿个英文单词,中文词语只学了约300亿个。”
王昊认为,对于中文来说,高质量无监督语料和指令数据尤其严重不足。因此,中文自然语言处理领域需要更多的投入和努力来积累高质量的数据,并将其开源,以促进中文自然语言处理的发展。
清华大学计算机科学与技术系长聘副教授、聆心智能创始人黄民烈曾制定了全球首个《AI对话系统分级定义》,他在接受澎湃科技(www.thepaper.cn)采访时表示,“从数据和应用的角度来说,中国的科技企业目前来看有比较大的优势。从数据角度来说,国内其实是产出了大量数据的,但数据的准确性和可靠性如果能够提上去,对于模型的学习和生成来说都会帮助很大。”
“而国内的应用场景和市场其实是更加广阔的,在新闻、广告、教育等等领域,而应用

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

陈乔恩老公首公开真实家境

小先生笔记 浏览 750

纳瓦罗收获个人中网首胜

体坛周报 浏览 1497

一则关注函,曝出大消息!众泰汽车筹划变更实控人

创作者_1486537600008 浏览 15611

想要在春季穿得简约又时髦,看看这几套穿搭方案,学起来容易

静儿时尚达人 浏览 12674

国会终极谈判开启!美国能否承受债务违约后果?

第一财经资讯 浏览 18403

普京谈及乌克兰局势:如果乌克兰和西方想谈那就谈

参考消息 浏览 74214

6月新势力销量:你别说,带“油箱”真好卖

汽车公社 浏览 10809

华裔考生"美国高考"几乎拿下满分 被六大名校拒之门外

长安剑 浏览 89739

夏天日常穿衣很简单!多用基础款、多穿收腰裙,显瘦又舒适

静儿时尚达人 浏览 2033

宗馥莉将独立经营“娃小宗” 名下仍关联超200家企业

21世纪经济报道 浏览 999

中国海警:菲方侵闯中国领海 故意冲撞中国海警船

央视新闻客户端 浏览 1701

卖楼抵债!“烘焙第一股”克莉丝汀关闭所有门店

21世纪经济报道 浏览 15718

BP全员为Jennie庆生!公开超青涩合照曝其非主流一面,性感咬手指

文艺圈娱乐号 浏览 12997

俄外交部就加拿大没收俄运输机表态 或对等报复

参考消息 浏览 16826

舒淇,东亚女孩的恨海情天

时尚COSMO 浏览 603

姆巴佩已完成职业生涯400球,为最年轻达成此成就球员

懂球帝 浏览 250

镜报:格拉利什对阵曼城需要回避,这让英超的公平性受到损害

懂球帝 浏览 998

车企全力冲刺 固态电池迎“新拐点”?

盖世汽车 浏览 13112

最牛退休女工,靠卖易拉罐,纳税100亿

创业家 浏览 995

杨学增:连续客战使队伍出现一些伤病和疲劳 与浙江实力差距较大

直播吧 浏览 19208

5大美媒预测火箭状元签选中文班!美记展望先发:哈登+文班+格林

颜小白的篮球梦 浏览 18968
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1