关闭广告

NYU研究揭示:模型宽度与能力非线性相关

科技行者4060人阅读


当我们使用ChatGPT或其他大语言模型时,可能很少想过这样一个问题:这些模型内部那些看似强大的组件,真的在高效地工作吗?就像一家大公司虽然员工众多,但可能存在大量的"摸鱼"现象一样,人工智能模型内部也可能存在类似的资源浪费问题。

纽约大学的研究团队Nandan Kumar Jha和Brandon Reagen在2025年10月发表的这项研究,就像给大语言模型做了一次"内部审计",专门检查模型中一个关键组件——前馈网络的工作效率。这项发表在arXiv预印本平台的研究(论文编号:arXiv:2510.00537v1),首次系统性地揭示了一个令人意外的现象:当我们让这些网络变得更宽时,新增的容量大多数都被浪费了。

这就好比一个餐厅的厨房,老板以为增加更多的炉灶就能提高出菜效率,但实际情况却是新增的炉灶大多数时间都在闲置,真正发挥作用的仍然是那几个核心炉灶。研究团队通过一套巧妙的"检测工具",发现了大语言模型中存在的这种"不对称浪费"现象,这个发现可能会彻底改变我们设计和优化人工智能模型的方式。

一、什么是前馈网络,为什么它如此重要?

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

美官员称委内瑞拉代总统即将到访 委方尚未证实

环球网资讯 浏览 2965

梁朝伟谈《寂静的朋友》,它“改变了我与自然的关系”

幕味儿 浏览 3187

价格猛涨、库存连降!环氧丙烷题材股接连涨停

览富财经网 浏览 3125

溢价24%仍失败!必和必拓被爆出价400亿英镑被拒,英美资源坚持自身并购计划

华尔街见闻官方 浏览 3736

石破天惊,日本电影新浪潮的开山大师名作!

幕味儿 浏览 4255

陈伟霆无预警官宣结婚生子,与何穗相恋6年终圆满,众星发声祝福

扒虾侃娱 浏览 4187

时尚启蒙必看片单,终于更新了

时尚COSMO 浏览 1297

巴以冲突两周年 加沙“仿佛已从地图上被抹去”

环球网资讯 浏览 4241

官方:西汉姆联宣布波特下课

体坛周报 浏览 4596

凯塞多:之前没意识到自己的进球能力,现在会尝试并靠近禁区

懂球帝 浏览 2962

太子集团创始人陈志被撤销柬埔寨国籍

北京日报客户端-长安街知事 浏览 8345

2025年双11来了!京东提前至10月9日开启:满300元减50元 活动玩法出炉

快科技 浏览 4789

有人被拖欠工资!毫末智行北京总部人去楼空,员工抱着显示器离开;曝ASML为美国监控中国客户!官方否认;雷军斥资超1亿港元增持小米

雷峰网 浏览 3705

HWG!罗马诺:维拉1200万欧签下梅斯16岁前锋马乔已达成协议

懂球帝 浏览 3211

太阳报:曼联预计未来几周官宣前往沙特踢季中赛

懂球帝 浏览 3936

深圳105-95山西取CBA3连胜,贺希宁23分,迪亚洛空砍31分

懂球帝 浏览 3137

双星鞋业84岁创始人宣布断绝父子关系:儿子抢公章夺权

红星新闻 浏览 10822

最高法公开征求意见!“开门杀”保险赔偿不明确或成过去时

北京商报 浏览 3963

最高363km纯电续航 魏牌V9X远山详解

网易汽车 浏览 2585

全球第二、国内第一!最强文本的文心5.0 Preview一手实测来了

机器之心Pro 浏览 3957

惨烈!马刺三人遭遇伤病被逆转14分 文班亚马或休10天造黑七?

颜小白的篮球梦 浏览 1302
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1