关闭广告

清华大学提出NHA:让AI语言模型既快又准的"双重记忆"新架构

科技行者3507人阅读


这项由清华大学杜举森、胡佳熹、张涛教授,上海人工智能实验室孙维高研究员,以及香港中文大学程余教授共同完成的研究发表于2025年10月的arXiv预印本平台,论文编号为arXiv:2510.07019v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

当你使用ChatGPT或其他AI语言模型时,有没有想过它是如何记住你前面说过的话的?就像人类既有短期记忆又有长期记忆一样,AI模型也需要处理眼前的信息和遥远的上下文。但现有的AI模型在这方面存在一个两难问题:要么像传统的Transformer模型一样记住所有细节但速度极慢,要么像线性模型一样速度很快但容易忘记重要信息。

研究团队提出了一种名为"原生混合注意力"(Native Hybrid Attention,简称NHA)的全新架构,巧妙地解决了这个难题。这就好比给AI配备了一套"双重记忆系统":一个像照相机一样精确记录最近发生的事情,另一个像日记本一样压缩保存长期的重要信息。更巧妙的是,这套系统能够根据当前需要自动决定更多地依赖哪种记忆,而不需要人工设定固定的规则。

传统的混合模型通常是将两种不同的注意力机制分别计算,

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

质选车:丰田RAV4荣放以全球品质再续辉煌

车质网 浏览 2928

俄称击退乌军解围行动 乌称击退俄军进攻

国际在线 浏览 3288

共谋细胞与基因治疗产业创新发展!珠海举行前沿技术交流会

南方都市报 浏览 4369

TVB颁奖典礼:佘诗曼黄宗泽拿视帝视后,《新闻女王》成最大赢家

扒虾侃娱 浏览 2776

告别奥博穆时代,保时捷加速落子研发"中国棋"

网易汽车 浏览 3450

决胜盘落后顽强逆转!奇纳四进挑战赛决赛终夺冠,迎生涯新突破

网球之家 浏览 1959

存储芯片涨价潮蔓延,半导体细分龙头业绩“水涨船高”

览富财经网 浏览 2432

让大模型能自己想出安全方案——KAIST团队的突破性研究

科技行者 浏览 2407

黎智英等9名被告人一连4日进行求情 香港大量警员戒备

扬子晚报 浏览 13021

记者:在不用参与训练时,B费也会在场边观看以给予队友鼓励

懂球帝 浏览 3512

鲁尼:萨拉赫应该回撤参与协防;范戴克的进球应该算作有效

懂球帝 浏览 3360

澳网公布创纪录奖金池,史上最大奖金提升引发热议

网球之家 浏览 2819

怕停产清单|| 用了8年的白月光竟然要涨价?100+捡漏快来

黎贝卡的异想世界 浏览 482

健康活到100岁,科学能做些什么?@U35张汉林试图寻找衰老背后的“隐藏逻辑”

上观新闻 浏览 2747

加沙城民众生计仍然艰难 天气与蚊虫也成威胁

极目新闻 浏览 3605

千人来珠峰"逛公园" 有人冻到绝望:以为要永远留在这

新京报 浏览 19994

张凯丽34岁嫁给作家,偏偏生了个不省心的女儿?

娱乐看阿敞 浏览 3496

从嬉皮士到硅谷教父,他写了一本关于“维修”的书

DeepTech深科技 浏览 767

牛弹琴:欧洲大怒 多支军队兵发格陵兰抗衡美国吞并

现代快报 浏览 2637

深夜,全线大跌!“超级风暴”突袭!

券商中国 浏览 1998

追梦:当勇士保持健康,我认为没有哪支球队是我们无法击败的

懂球帝 浏览 3939
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1