关闭广告

NYU研究揭示:模型宽度与能力非线性相关

科技行者3565人阅读


当我们使用ChatGPT或其他大语言模型时,可能很少想过这样一个问题:这些模型内部那些看似强大的组件,真的在高效地工作吗?就像一家大公司虽然员工众多,但可能存在大量的"摸鱼"现象一样,人工智能模型内部也可能存在类似的资源浪费问题。

纽约大学的研究团队Nandan Kumar Jha和Brandon Reagen在2025年10月发表的这项研究,就像给大语言模型做了一次"内部审计",专门检查模型中一个关键组件——前馈网络的工作效率。这项发表在arXiv预印本平台的研究(论文编号:arXiv:2510.00537v1),首次系统性地揭示了一个令人意外的现象:当我们让这些网络变得更宽时,新增的容量大多数都被浪费了。

这就好比一个餐厅的厨房,老板以为增加更多的炉灶就能提高出菜效率,但实际情况却是新增的炉灶大多数时间都在闲置,真正发挥作用的仍然是那几个核心炉灶。研究团队通过一套巧妙的"检测工具",发现了大语言模型中存在的这种"不对称浪费"现象,这个发现可能会彻底改变我们设计和优化人工智能模型的方式。

一、什么是前馈网络,为什么它如此重要?

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

吊打比亚迪、用“老头乐”狂割美国人,这家车企要赴港上市了

钛媒体APP 浏览 3592

汪小菲最重要的两个女人,一个爱,一个适合

半身Naked 浏览 4297

冬天穿衣既要有温度又要有风度!看看这些穿搭,优雅又显瘦

静儿时尚达人 浏览 2636

李想汽车研究院:让AI从"工具使用者"进化为"工具创造者"

科技行者 浏览 2344

赵樱子回应与张康乐绯闻:我提过人一个名字吗?

韩小娱 浏览 3532

美国一军用炸药厂爆炸致16人死亡 现场一片废墟

极目新闻 浏览 3707

11月7日正式预售 零跑Lafa5将于广州车展上市

网易汽车 浏览 3565

特朗普称批准韩国建造核潜艇

澎湃新闻 浏览 3515

人均25元的素食自助,排爆商场

餐饮老板内参 浏览 3575

王楚钦低调现身演唱会!全场观众疯狂尖叫

小椰的奶奶 浏览 4327

李羲承退出ENHYPEN,组合未来将以六人形式活动

精彩背后的故事 浏览 1771

以色列对胡塞开展投弹量最大一次空袭

环球网资讯 浏览 4132

女网红名下公司涉嫌逃税逾千万被查处 仍在高频次直播

红星新闻 浏览 7951

“霸凌”周迅的奚美娟,现在付出代价了?

除夕烟火灿烂 浏览 3080

女友BELLA+封面 | Jimmy&Ohm:人生拼图

伊周潮流 浏览 2420

金鸡国产电影展|片单发布:百廿回眸,新程再启

幕味儿 浏览 3518

《叵测》中刘烨、聂远上演教科书级正邪对弈

晴晴的娱乐日记 浏览 1046

山东海阳老人扎堆领结婚证现场挤满人 有村庄包车去办

极目新闻 浏览 9698

每体:特尔施特根已进行轻度训练,但还需至少1个月康复

懂球帝 浏览 3560

代码无需审核、数据随便喂,AI 正在催生下一场企业级灾难

IT之家 浏览 3542

星光大赏残酷名利场:张国立赵露思坐第一排C位,座位图等级分明

娱乐圈笔娱君 浏览 3047
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1