关闭广告

为什么复旦MOSS大模型的中文水平不如英文?

澎湃新闻19080人阅读

·“数据质量的差别是主要瓶颈之一。相较于英文数据,中文数据的开源程度较低,导致中文数据集的规模相对较小。此外,英文作为科研主流语言,在学术界和工业界中得到广泛应用,积累了大量高质量的语料数据,这为英文自然语言处理的研究提供了极大的优势。”
2月20日晚间,复旦大学邱锡鹏教授团队发布国内首个类ChatGPT模型MOSS,引发各界人士参与内测的热情。一个显著的反馈是,MOSS的英文回答水平比中文高,这在公众与ChatGPT的互动中也有类似体现。为何如此?
位于深圳的粤港澳IDEA研究院认知计算与自然语言中心文本生成算法团队负责人王昊对澎湃科技(www.thepaper.cn)表示,“数据质量的差别是主要瓶颈之一。相较于英文数据,中文数据的开源程度较低,导致中文数据集的规模相对较小。此外,英文作为科研主流语言,在学术界和工业界中得到广泛应用,积累了大量高质量的语料数据,这为英文自然语言处理的研究提供了极大的优势。”
MOSS研究团队也坦诚,“MOSS的英文回答水平比中文高,因为它的模型基座学习了3000多亿个英文单词,中文词语只学了约300亿个。”
王昊认为,对于中文来说,高质量无监督语料和指令数据尤其严重不足。因此,中文自然语言处理领域需要更多的投入和努力来积累高质量的数据,并将其开源,以促进中文自然语言处理的发展。
清华大学计算机科学与技术系长聘副教授、聆心智能创始人黄民烈曾制定了全球首个《AI对话系统分级定义》,他在接受澎湃科技(www.thepaper.cn)采访时表示,“从数据和应用的角度来说,中国的科技企业目前来看有比较大的优势。从数据角度来说,国内其实是产出了大量数据的,但数据的准确性和可靠性如果能够提上去,对于模型的学习和生成来说都会帮助很大。”
“而国内的应用场景和市场其实是更加广阔的,在新闻、广告、教育等等领域,而应用

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

比亚迪奖励21位线索提供人:初步奖励最高30万元

快科技 浏览 10489

演员李菁菁疑官宣四婚,男方浓眉大眼被赞夫妻相

盖饭娱乐官方号 浏览 15762

用户称地震时7部苹果手机均无预警,客服回应了

每日经济新闻 浏览 12903

又一A股公司,跨界玩算力

中国基金报 浏览 12704

超300倍就清零!超高位科技股突然暴跌,中芯国际重挫7%

深蓝财经 浏览 976

俄称在克里米亚附近击落乌导弹和无人机

环球网资讯 浏览 10862

NVIDIA推出ChronoEdit:让AI图像编辑拥有物理常识的革命性技术

科技行者 浏览 724

中国造歼-10C狂砍阵风,印机绝望中凌空炸碎

浏览 5000

拉面哥称后悔签合约,不想被人利用去赚钱

趣看热点 浏览 25853

美官员谈布林肯访华:并不期待长长的可交付成果清单

环球网资讯 浏览 89683

周杰伦穿西装在厦门扫楼 与刘畊宏向粉丝打招呼

笑猫说说 浏览 18492

奥迪Q8 e-tron达喀尔版官图发布,将限量发售99台

天天汽车 浏览 12584

速战速胜!东部战区陆军某旅开展空地协同演练

环球网资讯 浏览 18330

知名策略师预警:美股“聪明钱”已离场看戏,找不到值得买的票

财通社 浏览 650

皮耶罗评尤文浪费机会太多:皇马就不会浪费这么多机会

懂球帝 浏览 901

一场春节档,让人看到了62岁刘德华在内地的“窘困”

不八卦会死星人 浏览 12650

中美科技角力20年:从山寨王国到弯道超车

字母榜 浏览 18077

你的新年战袍准备了么?快来看看“红色大衣”的搭配

静儿时尚达人 浏览 13295

才播6集热度破8900,悬疑剧有天花板了

娱乐圈笔娱君 浏览 728

你恐慌我贪婪!约500亿资金借道ETF蜂拥进场,主力机构正重金下注这些板块(附名单)

每经牛眼 浏览 1003

被演唱会上的叶倩文惊艳

喵喵娱乐团 浏览 1032
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1