关闭广告

为什么复旦MOSS大模型的中文水平不如英文?

澎湃新闻19082人阅读

·“数据质量的差别是主要瓶颈之一。相较于英文数据,中文数据的开源程度较低,导致中文数据集的规模相对较小。此外,英文作为科研主流语言,在学术界和工业界中得到广泛应用,积累了大量高质量的语料数据,这为英文自然语言处理的研究提供了极大的优势。”
2月20日晚间,复旦大学邱锡鹏教授团队发布国内首个类ChatGPT模型MOSS,引发各界人士参与内测的热情。一个显著的反馈是,MOSS的英文回答水平比中文高,这在公众与ChatGPT的互动中也有类似体现。为何如此?
位于深圳的粤港澳IDEA研究院认知计算与自然语言中心文本生成算法团队负责人王昊对澎湃科技(www.thepaper.cn)表示,“数据质量的差别是主要瓶颈之一。相较于英文数据,中文数据的开源程度较低,导致中文数据集的规模相对较小。此外,英文作为科研主流语言,在学术界和工业界中得到广泛应用,积累了大量高质量的语料数据,这为英文自然语言处理的研究提供了极大的优势。”
MOSS研究团队也坦诚,“MOSS的英文回答水平比中文高,因为它的模型基座学习了3000多亿个英文单词,中文词语只学了约300亿个。”
王昊认为,对于中文来说,高质量无监督语料和指令数据尤其严重不足。因此,中文自然语言处理领域需要更多的投入和努力来积累高质量的数据,并将其开源,以促进中文自然语言处理的发展。
清华大学计算机科学与技术系长聘副教授、聆心智能创始人黄民烈曾制定了全球首个《AI对话系统分级定义》,他在接受澎湃科技(www.thepaper.cn)采访时表示,“从数据和应用的角度来说,中国的科技企业目前来看有比较大的优势。从数据角度来说,国内其实是产出了大量数据的,但数据的准确性和可靠性如果能够提上去,对于模型的学习和生成来说都会帮助很大。”
“而国内的应用场景和市场其实是更加广阔的,在新闻、广告、教育等等领域,而应用

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

被上海素人街拍美到了!长裤拖地、穿裙露袜,却个个时髦洋气

潮人志Fashion 浏览 13024

特朗普为何在最后时刻缩水降级“加冕典礼”?

浏览 22837

晕了晕了!机构大动作调仓,55只行业主题ETF被疯狂扫货,而热门的半导体竟被悄然抛售

每经牛眼 浏览 656

以色列对胡塞开展投弹量最大一次空袭

环球网资讯 浏览 1513

媒体:高市早苗当选首相 对华采取挑衅措施的可能提升

界面新闻 浏览 5729

格林再进化!长高5厘米增肌17磅最大弹跳1.27米 美记:投篮也更准

颜小白的篮球梦 浏览 15675

猪肉消费大变革!爱尔兰猪肉抢占新赛道

餐饮老板内参 浏览 637

马斯克承认其他车企不想获得特斯拉FSD授权:他们简直疯了

IT之家 浏览 424

中国5月M2增11.6% 存款增加1.46万亿

中国人民银行网站 浏览 16648

美国喊停"毒计":会就相关问题跟中国谈判

澎湃新闻 浏览 6162

限量30台 仰望U9X将于广州车展亮相

车质网 浏览 561

明年1季度上市 广汽传祺/华为打造豪华旗舰轿车

网易汽车 浏览 11347

外媒:安世半导体已暂停向中国工厂供应晶圆

澎湃新闻 浏览 11735

靠好角色逆风翻盘,娱乐圈是全世界最势利眼的地方?

八卦三缺一 浏览 12887

拥抱变局!2025外滩年会揭幕,聚焦新秩序、新科技

国际金融报 浏览 882

高德拿了谷歌剧本,餐饮商家想当主角

蓝鲸新闻 浏览 1483

4.0T V8发动机 阿斯顿·马丁DB12 S官图发布

车质网 浏览 1072

实拍陆军直升机跨昼夜实弹射击演练

环球网资讯 浏览 16028

这场“难人”的考试,怎么就黄子弘凡毕了业?

时尚COSMO 浏览 11594

跻身世界第一梯队!这一行业,迎爆发风口

环球网资讯 浏览 950

泰晤士报:竞购曼联之前,拉特克利夫曾试图收购巴萨50%股份

直播吧 浏览 15467
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1