关闭广告

为什么复旦MOSS大模型的中文水平不如英文?

澎湃新闻19074人阅读

·“数据质量的差别是主要瓶颈之一。相较于英文数据,中文数据的开源程度较低,导致中文数据集的规模相对较小。此外,英文作为科研主流语言,在学术界和工业界中得到广泛应用,积累了大量高质量的语料数据,这为英文自然语言处理的研究提供了极大的优势。”
2月20日晚间,复旦大学邱锡鹏教授团队发布国内首个类ChatGPT模型MOSS,引发各界人士参与内测的热情。一个显著的反馈是,MOSS的英文回答水平比中文高,这在公众与ChatGPT的互动中也有类似体现。为何如此?
位于深圳的粤港澳IDEA研究院认知计算与自然语言中心文本生成算法团队负责人王昊对澎湃科技(www.thepaper.cn)表示,“数据质量的差别是主要瓶颈之一。相较于英文数据,中文数据的开源程度较低,导致中文数据集的规模相对较小。此外,英文作为科研主流语言,在学术界和工业界中得到广泛应用,积累了大量高质量的语料数据,这为英文自然语言处理的研究提供了极大的优势。”
MOSS研究团队也坦诚,“MOSS的英文回答水平比中文高,因为它的模型基座学习了3000多亿个英文单词,中文词语只学了约300亿个。”
王昊认为,对于中文来说,高质量无监督语料和指令数据尤其严重不足。因此,中文自然语言处理领域需要更多的投入和努力来积累高质量的数据,并将其开源,以促进中文自然语言处理的发展。
清华大学计算机科学与技术系长聘副教授、聆心智能创始人黄民烈曾制定了全球首个《AI对话系统分级定义》,他在接受澎湃科技(www.thepaper.cn)采访时表示,“从数据和应用的角度来说,中国的科技企业目前来看有比较大的优势。从数据角度来说,国内其实是产出了大量数据的,但数据的准确性和可靠性如果能够提上去,对于模型的学习和生成来说都会帮助很大。”
“而国内的应用场景和市场其实是更加广阔的,在新闻、广告、教育等等领域,而应用

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

掉队!第一省会,急了!

城市财经 浏览 11216

百强房企超五成未拿地,什么情况?

中国基金报 浏览 15629

俄总统新闻秘书:北约在与俄罗斯作战

新京报 浏览 1624

赚了70亿票房,她值得

新周刊 浏览 14754

腾势D9将迎来第30万辆交付

大象新闻 浏览 341

恒大被清盘 前员工:家人买恒大理财 不敢问收回多少

每日经济新闻 浏览 77566

年代犯罪剧又出王炸!才播3集热度第一,张家辉演技惊艳四座

娱乐圈笔娱君 浏览 1500

杨德龙:稳增长政策继续加码 资本市场改革不断深化 扭转市场走势

首席经济学家 浏览 10881

360创始人,不端着了,去读博

华商韬略 浏览 15655

郭富城夫妇合体看赛马,透露三胎预产期

疯说时尚 浏览 945

乐摩科技八成设备“躺”在影院

北京商报 浏览 369

“羽绒服+半身裙”,混搭风太好看了!保暖又气质!

Yuki女人故事 浏览 531

以军称对黎巴嫩真主党目标发动新一轮空袭

上观新闻 浏览 1688

命名Milano,阿尔法·罗密欧新紧凑型SUV名称公布

天天汽车 浏览 12672

翁青雅被官媒点名,言辞直戳其肺管子

娱乐圈笔娱君 浏览 729

才发现“打底裤”居然这么时髦!掌握这3点精髓,谁穿谁好看

静儿时尚达人 浏览 13215

桑德兰前锋伊西多尔:亨利发信息祝贺我,鼓励我继续前进

懂球帝 浏览 1492

比尔·盖茨:人工智能会给每人创造个人代理,科技市场将重新洗牌

澎湃新闻 浏览 19183

大S律师首次发声,怒斥张兰:过分到连鬼都害怕的程度!

缘木不求娱 浏览 12534

明孝宗并非简单的守成之君,而是政绩斐然

趣看热点 浏览 26550

工程师崩溃!某车企研发开始试行“两班倒”!

明镜pro 浏览 900
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1