关闭广告

NYU研究揭示:模型宽度与能力非线性相关

科技行者3562人阅读


当我们使用ChatGPT或其他大语言模型时,可能很少想过这样一个问题:这些模型内部那些看似强大的组件,真的在高效地工作吗?就像一家大公司虽然员工众多,但可能存在大量的"摸鱼"现象一样,人工智能模型内部也可能存在类似的资源浪费问题。

纽约大学的研究团队Nandan Kumar Jha和Brandon Reagen在2025年10月发表的这项研究,就像给大语言模型做了一次"内部审计",专门检查模型中一个关键组件——前馈网络的工作效率。这项发表在arXiv预印本平台的研究(论文编号:arXiv:2510.00537v1),首次系统性地揭示了一个令人意外的现象:当我们让这些网络变得更宽时,新增的容量大多数都被浪费了。

这就好比一个餐厅的厨房,老板以为增加更多的炉灶就能提高出菜效率,但实际情况却是新增的炉灶大多数时间都在闲置,真正发挥作用的仍然是那几个核心炉灶。研究团队通过一套巧妙的"检测工具",发现了大语言模型中存在的这种"不对称浪费"现象,这个发现可能会彻底改变我们设计和优化人工智能模型的方式。

一、什么是前馈网络,为什么它如此重要?

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

官方:亚美尼亚和格鲁吉亚将联合举办2029年U20世界杯

懂球帝 浏览 517

出海容易融入难:中国品牌出海的公关挑战与破局

金角财经 浏览 2541

临危受命18个月,横琴人寿董事长或“功成身退”!

独角金融 浏览 2421

终结三连败!商竣程取得大满贯第七胜

网球之家 浏览 2616

30万的玛莎拉蒂,被一抢而空!超跑皇后暴击中国人

象视汽车 浏览 2982

阿尔特塔:英超是欧冠决赛的预演?我不认为球员会这么想

懂球帝 浏览 235

“China Shopping”热展现中国制造全球吸引力

环球网资讯 浏览 3889

高端海鲜“老炮儿”,开始扎堆做小火锅

餐饮老板内参 浏览 2165

中国男子在意涉嫌抢枪被警察击伤头部 疑是两孩父亲

扬子晚报 浏览 9202

股价暴涨!又一超级风口来了?

财经锐眼 浏览 2632

颜丙燕公开恋情 男友小她20岁,被误认成“儿子”

韩小娱 浏览 3727

为了挡住豆包,腾讯撒出10亿红包

中国企业家杂志 浏览 2446

【亚冠精英】阿苏埃头球路易斯建功 申花2比0首尔

体坛周报 浏览 3678

丹麦赛石宇奇击败阿塞尔森进决赛

体坛周报 浏览 3668

特朗普威胁:是时候在伊朗寻找新的领导层了

新京报政事儿 浏览 6721

配备大尺寸中控屏 奇瑞T1Q内饰谍照曝光

车质网 浏览 3221

强奸大嫂凶手出狱去大嫂家 大嫂吓得穿内衣跑街上求救

澎湃新闻 浏览 93332

伊朗新任最高领袖受伤内幕:遭袭前几分钟外出死里逃生

江南都市报 浏览 112652

三星最贵手机:Galaxy Z TriFold三折叠手机跑分首曝

IT之家 浏览 3120

印度发射该国迄今最重军用卫星 用于提升印海军远洋作战能力

澎湃新闻 浏览 3412

她与名导同居多年被抛弃,如今复出却无人问津

吴蒂旅行ing 浏览 2863
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1