关闭广告

为什么复旦MOSS大模型的中文水平不如英文?

澎湃新闻19081人阅读

·“数据质量的差别是主要瓶颈之一。相较于英文数据,中文数据的开源程度较低,导致中文数据集的规模相对较小。此外,英文作为科研主流语言,在学术界和工业界中得到广泛应用,积累了大量高质量的语料数据,这为英文自然语言处理的研究提供了极大的优势。”
2月20日晚间,复旦大学邱锡鹏教授团队发布国内首个类ChatGPT模型MOSS,引发各界人士参与内测的热情。一个显著的反馈是,MOSS的英文回答水平比中文高,这在公众与ChatGPT的互动中也有类似体现。为何如此?
位于深圳的粤港澳IDEA研究院认知计算与自然语言中心文本生成算法团队负责人王昊对澎湃科技(www.thepaper.cn)表示,“数据质量的差别是主要瓶颈之一。相较于英文数据,中文数据的开源程度较低,导致中文数据集的规模相对较小。此外,英文作为科研主流语言,在学术界和工业界中得到广泛应用,积累了大量高质量的语料数据,这为英文自然语言处理的研究提供了极大的优势。”
MOSS研究团队也坦诚,“MOSS的英文回答水平比中文高,因为它的模型基座学习了3000多亿个英文单词,中文词语只学了约300亿个。”
王昊认为,对于中文来说,高质量无监督语料和指令数据尤其严重不足。因此,中文自然语言处理领域需要更多的投入和努力来积累高质量的数据,并将其开源,以促进中文自然语言处理的发展。
清华大学计算机科学与技术系长聘副教授、聆心智能创始人黄民烈曾制定了全球首个《AI对话系统分级定义》,他在接受澎湃科技(www.thepaper.cn)采访时表示,“从数据和应用的角度来说,中国的科技企业目前来看有比较大的优势。从数据角度来说,国内其实是产出了大量数据的,但数据的准确性和可靠性如果能够提上去,对于模型的学习和生成来说都会帮助很大。”
“而国内的应用场景和市场其实是更加广阔的,在新闻、广告、教育等等领域,而应用

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

香港这一夜,62岁刘德华的“江湖地位”被展现得淋漓尽致

娱乐白名单 浏览 10850

柬埔寨拒引渡3名韩国籍"杀猪盘"头目回韩国:就地审判

红星新闻 浏览 6197

环球时报:149亿美元收购案遇阻,日本应反思

环球时报国际 浏览 12724

克洛普:我不在意阿诺德说的话;瓜迪奥拉是世界上最好的教练

懂球帝 浏览 12256

这些才是适合普通人的穿搭!秋天多穿蓝色单品和风衣,好耐看

静儿时尚达人 浏览 817

媒体:瓦格纳从莫斯科掉头转向基辅 美国现在有点懵

上游新闻 浏览 15752

新版《聊斋》杀青,六个单元主演全亮相,林允、宋祖儿倾力加盟

最爱酷影视 浏览 1634

贝克汉姆爱妻公开女儿泳装照 11岁小七长成美少女

好丹 浏览 18539

大逆转!全球疯买中国车

华商韬略 浏览 12382

空间实用/补能高效 吉利蓝气球限时钜惠价3.99万元起

网易汽车 浏览 843

杨笠突然清空社媒!自曝生病睡眠差,长期遭攻击疑似萌生退意

萌神木木 浏览 774

小试牛刀!塔图姆13中8拿到20分&填满数据栏

直播吧 浏览 12340

每体:球打到巴萨球员手臂就会判点;轮到皇马就要“解读”

懂球帝 浏览 787

黄心颖承认结婚:选许志安生日翌日注册 马国明祝福

叶公子 浏览 14566

“羽绒服+半身裙”,混搭风太好看了!保暖又气质!

Yuki女人故事 浏览 532

特斯拉称投资比特币后 市值蒸发2000亿美元

网易科技报道 浏览 26739

法尔克:拜仁曾准备以7500万欧引进阿劳霍,但遭到巴萨的拒绝

直播吧 浏览 12482

瞄准"比黄金更令人垂涎"的锑资源 阿拉斯加州掀采矿热

澎湃新闻 浏览 5012

腾讯的残酷年会:视频号被重点夸奖,游戏被重点批评

36氪 浏览 12554

撒贝宁去加拿大探望丈人,带着老婆孩子逛街

甜柠聊史 浏览 1012

AI赋能体育教育新图景:构建中小学智慧体育新生态

南方都市报 浏览 714
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1