关闭广告

清华大学提出NHA:让AI语言模型既快又准的"双重记忆"新架构

科技行者3515人阅读


这项由清华大学杜举森、胡佳熹、张涛教授,上海人工智能实验室孙维高研究员,以及香港中文大学程余教授共同完成的研究发表于2025年10月的arXiv预印本平台,论文编号为arXiv:2510.07019v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

当你使用ChatGPT或其他AI语言模型时,有没有想过它是如何记住你前面说过的话的?就像人类既有短期记忆又有长期记忆一样,AI模型也需要处理眼前的信息和遥远的上下文。但现有的AI模型在这方面存在一个两难问题:要么像传统的Transformer模型一样记住所有细节但速度极慢,要么像线性模型一样速度很快但容易忘记重要信息。

研究团队提出了一种名为"原生混合注意力"(Native Hybrid Attention,简称NHA)的全新架构,巧妙地解决了这个难题。这就好比给AI配备了一套"双重记忆系统":一个像照相机一样精确记录最近发生的事情,另一个像日记本一样压缩保存长期的重要信息。更巧妙的是,这套系统能够根据当前需要自动决定更多地依赖哪种记忆,而不需要人工设定固定的规则。

传统的混合模型通常是将两种不同的注意力机制分别计算,

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

截至9月底 全国累计发电装机容量同比增长17.5%

央视财经 浏览 2966

秋季的穿衣难度并不高,选择基础款、配色不沉闷,舒适又减龄

静儿时尚达人 浏览 3795

最新现场:山东舰完成年度最后一次海上训练

环球网资讯 浏览 2990

恰20:今天我们运气不错,我们要努力达到我们应得的位置

懂球帝 浏览 3439

上海男子进不了门有家难回崩溃求救 网友狠狠共情了

环球网资讯 浏览 8148

59岁无儿无女,王晶为何说张卫健一点都不惨

林雁飞 浏览 2584

伊朗外长率团抵达巴基斯坦

环球网资讯 浏览 487

匿名霸榜、阿里“不认”,HappyHorse是谁?

AIX财经 浏览 1138

舍伍德:大家都想看枪手掉链子,但我真希望他们赢得英超冠军

懂球帝 浏览 3024

43天内两度被约谈引关注,携程的奔跑与隐忧

天下财道社 浏览 3705

国内生产国内不卖?比亚迪高管亲口承认,这款车要“回流”国内了

小李车评李建红 浏览 3783

伊姐周日热推:电视剧《依依向北风》;电视剧《水龙吟》......

伊周潮流 浏览 3112

新增双色特别涂装 全新宝马X7将2027年上市

车质网 浏览 2393

重庆一大学生发帖称老师"刻薄" 老师不接受道歉将起诉

封面新闻 浏览 9501

极氪启动跨代智驾众筹 24款老车主可低价直升Thor-U

网易汽车 浏览 3202

瓜帅:维拉一直是最难对付的对手;多库的1对1能力让他很特别

懂球帝 浏览 3643

为明年的 iPhone 设计的“A20”芯片价格可能会大幅上涨

威锋网 浏览 3590

女子取240万现金"给外甥当彩礼" 外甥:根本没有对象

环球网资讯 浏览 13136

台大与中研院突破:新型防御技术实现AI深度内容遗忘

科技行者 浏览 2658

抗癌不到一年,曝刘谦近况

林轻吟 浏览 3506

第九届人单合一模式引领论坛举行 构建AI时代的智能交互生态

尺度商业 浏览 4588
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1