关闭广告

清华大学提出NHA:让AI语言模型既快又准的"双重记忆"新架构

科技行者4032人阅读


这项由清华大学杜举森、胡佳熹、张涛教授,上海人工智能实验室孙维高研究员,以及香港中文大学程余教授共同完成的研究发表于2025年10月的arXiv预印本平台,论文编号为arXiv:2510.07019v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

当你使用ChatGPT或其他AI语言模型时,有没有想过它是如何记住你前面说过的话的?就像人类既有短期记忆又有长期记忆一样,AI模型也需要处理眼前的信息和遥远的上下文。但现有的AI模型在这方面存在一个两难问题:要么像传统的Transformer模型一样记住所有细节但速度极慢,要么像线性模型一样速度很快但容易忘记重要信息。

研究团队提出了一种名为"原生混合注意力"(Native Hybrid Attention,简称NHA)的全新架构,巧妙地解决了这个难题。这就好比给AI配备了一套"双重记忆系统":一个像照相机一样精确记录最近发生的事情,另一个像日记本一样压缩保存长期的重要信息。更巧妙的是,这套系统能够根据当前需要自动决定更多地依赖哪种记忆,而不需要人工设定固定的规则。

传统的混合模型通常是将两种不同的注意力机制分别计算,

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

“京圈恶少”王烁:睡遍娱乐圈女星,殴打继母王艳,枪指刘涛老公

史潎的生活日记 浏览 3168

董璇带小酒窝给朵朵庆生,陈思诚佟丽娅大方合照

爱吃冰棍的小痞子 浏览 2944

瑞信前副总裁挪用客户资金,判囚13年,24名高净值人士获赔8690万

财通社 浏览 3160

TikTok上掀起"当中国人很酷"潮流 有人感到很荣幸

上游新闻 浏览 14930

科瓦奇谈客战拜仁:在安联球场一味退守通常不能得到好结果

懂球帝 浏览 4496

考古中秋“顶流”的出道史

时尚COSMO 浏览 6157

23岁硕士徒步因高反去世 刚出现症状时没有听劝下撤

红星新闻 浏览 8915

齐沃:阿森纳和拜仁是目前欧洲最强,但这不意味着我们输定了

懂球帝 浏览 3121

曾毅手表事件休整后首次露面,发布新团队全家福

迷迭香的记忆a 浏览 3458

女子不喜欢名字"丽春"多次申请改名被拒 县公安局回应

环球网资讯 浏览 17198

指责俄侵犯领空 北约考虑降低开火门槛

新京报 浏览 4287

新款享界S9纯电版曝光 尾部细节调整

网易汽车 浏览 4337

这一天:杨幂蚂蚁腰无敌了,赵丽颖生图抗打,陈坤咋长这样了

娱乐圈笔娱君 浏览 3048

这家中国民企,破解了“迪拜之眼”难题,还拿下30多项“世界第一”!

国是直通车 浏览 4020

韩国U23 4-2逆转黎巴嫩U23,姜成真、金泰元建功,文承旻破门

懂球帝 浏览 3180

星纪魅族前美女副总裁,转投小米公关部

财通社 浏览 2442

窦骁何超莲不忍了合体发文,公开回应婚变

一娱三分地 浏览 3997

人类遗忘的难题解法,被GPT-5重新找出来了

量子位 浏览 4240

NeurIPS 2025放榜:阿里Qwen门控注意力获最佳论文

量子位 浏览 3681

沙特官员向德黑兰承诺:不会向美军开放领空

红星新闻 浏览 8667

我国建成全球最大可再生能源体系,十年来风光发电新增装机占六成

IT之家 浏览 4167
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1