关闭广告

清华大学提出NHA:让AI语言模型既快又准的"双重记忆"新架构

科技行者637人阅读


这项由清华大学杜举森、胡佳熹、张涛教授,上海人工智能实验室孙维高研究员,以及香港中文大学程余教授共同完成的研究发表于2025年10月的arXiv预印本平台,论文编号为arXiv:2510.07019v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

当你使用ChatGPT或其他AI语言模型时,有没有想过它是如何记住你前面说过的话的?就像人类既有短期记忆又有长期记忆一样,AI模型也需要处理眼前的信息和遥远的上下文。但现有的AI模型在这方面存在一个两难问题:要么像传统的Transformer模型一样记住所有细节但速度极慢,要么像线性模型一样速度很快但容易忘记重要信息。

研究团队提出了一种名为"原生混合注意力"(Native Hybrid Attention,简称NHA)的全新架构,巧妙地解决了这个难题。这就好比给AI配备了一套"双重记忆系统":一个像照相机一样精确记录最近发生的事情,另一个像日记本一样压缩保存长期的重要信息。更巧妙的是,这套系统能够根据当前需要自动决定更多地依赖哪种记忆,而不需要人工设定固定的规则。

传统的混合模型通常是将两种不同的注意力机制分别计算,

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

Ella自曝曾遭遇性骚扰:我是爬着出来、哭着出来的

网易娱乐 浏览 16079

金曲奖:艾怡良颁错奖成史上最大乌龙

萌神木木 浏览 15576

消息称Meta重新开始招聘被裁员工 薪酬有所降低

网易科技 浏览 14501

马斯克与美国证交会达成协议 将向投资者赔偿4000万美元

财联社 浏览 14435

全新H车标 本田发布"Honda 0"系列纯电动概念车

网易汽车 浏览 12720

港姐亚军自曝遭网暴!骚扰者竟是小区保安

TVB剧评社 浏览 907

经营分化、债务违约 地方AMC众生相

北京商报 浏览 12706

售价47.8-66.8万元 2025款捷豹F-PACE正式上市

网易汽车 浏览 10629

白百何工作室放聊天记录了!锤了剧组没撒谎,东京之前就有矛盾

萌神木木 浏览 679

鲁尼:萨拉赫应该回撤参与协防;范戴克的进球应该算作有效

懂球帝 浏览 626

人民日报:警惕日本战略走向的危险转向

人民网-人民日报 浏览 41591

18岁男子多次与11岁女孩发生性关系 检方曾对其不批捕

澎湃新闻 浏览 92355

男子夜钓被误认为是猎物头部遭枪击 20余天仍昏迷不醒

极目新闻 浏览 6107

尴尬的红毯!倪妮撞衫 孟子义摔倒 上淇流鼻血

叶公子 浏览 13577

夏天穿裙子气质会更好,尤其是这几款

虎哥说衣不二 浏览 18918

中年女性发型不能太随意 试试锁骨发和过肩卷发

成铭聊发型 浏览 17148

工信部释放重磅信号 三大主线成形!两大背离信号隐现

券商中国 浏览 26307

官方:武汉女足塔比莎加盟里昂,上赛季外租巴黎获法女甲金靴

直播吧 浏览 10868

恩里克:我们在23分钟内丢了3个球?那是对手球员的实力所致

懂球帝 浏览 1012

天域生态无人员储备又要切入汽车领域,会踩雷吗?

界面新闻 浏览 12797

陆毅女儿漂亮到认不出!年仅16岁身高超一米七,长相神似陈都灵

温柔娱公子 浏览 1096
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1