关闭广告

清华大学提出NHA:让AI语言模型既快又准的"双重记忆"新架构

科技行者3516人阅读


这项由清华大学杜举森、胡佳熹、张涛教授,上海人工智能实验室孙维高研究员,以及香港中文大学程余教授共同完成的研究发表于2025年10月的arXiv预印本平台,论文编号为arXiv:2510.07019v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

当你使用ChatGPT或其他AI语言模型时,有没有想过它是如何记住你前面说过的话的?就像人类既有短期记忆又有长期记忆一样,AI模型也需要处理眼前的信息和遥远的上下文。但现有的AI模型在这方面存在一个两难问题:要么像传统的Transformer模型一样记住所有细节但速度极慢,要么像线性模型一样速度很快但容易忘记重要信息。

研究团队提出了一种名为"原生混合注意力"(Native Hybrid Attention,简称NHA)的全新架构,巧妙地解决了这个难题。这就好比给AI配备了一套"双重记忆系统":一个像照相机一样精确记录最近发生的事情,另一个像日记本一样压缩保存长期的重要信息。更巧妙的是,这套系统能够根据当前需要自动决定更多地依赖哪种记忆,而不需要人工设定固定的规则。

传统的混合模型通常是将两种不同的注意力机制分别计算,

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

美财长公然挑拨中阿关系:米莱承诺"让中国退出阿根廷"

环球网资讯 浏览 6615

今年母亲节,和妈妈一起变漂亮

时尚COSMO 浏览 210

牛弹琴:针对16岁以下的孩子 澳洲干了件前所未有的事

现代快报 浏览 7894

邮报:罗塞尼尔邀请麦克法兰加入切尔西一线队教练组

懂球帝 浏览 2669

硬核风格 奥迪Q6 e-tron越野版假想图曝光

车质网 浏览 3160

波兰外交部称有炮弹击中该国驻乌克兰大使馆

极目新闻 浏览 4265

明年上市 金标大众首款轿车 与众07申报信息发布

网易汽车 浏览 3808

ByteDance最新发布:一个能从任意数量图像重建3D世界的神奇模型

科技行者 浏览 2600

是时候考虑购买美国大豆了,为了“拴住”特朗普!

北向财经 浏览 3502

被自称前女友的网友实名举报涉毒 短剧"顶流":别搞我

极目新闻 浏览 6888

美媒:特朗普政府再就霍尔木兹海峡拼凑国际联盟

上观新闻 浏览 304

大幅上调英伟达目标价,这家大行的理由:台积电产能分配远超预期,OpenAI“闭环交易”

华尔街见闻官方 浏览 3784

拉夫罗夫联大提议:以中俄为核心在亚洲搞个安全体系

现代小青青慕慕 浏览 35606

5名共和党议员"倒戈" 特朗普"愤怒"向其打电话威胁

环球网资讯 浏览 13287

付豪:其实我们比球迷更想赢球,但球队实力与过去不可同日而语

懂球帝 浏览 2734

小S复出获奖细节:纹了大S名字还带了骨灰

萌神木木 浏览 3718

亚洲最美面孔,还是救不了这片

独立鱼 浏览 3084

从“道地药材”到“数字服务”,九州通“链”出中药增长新动能

正经社 浏览 3629

随着阿森纳1-0领先,曼城0-1落后,英超最新积分榜:利物浦4连败

侃球熊弟 浏览 3655

委代总统称遭美威胁:马杜罗已死

每日经济新闻 浏览 2473

申万宏源:牛市1.0高点看26年春季 关注储能、存储、创新药与国防军工

智通财经 浏览 3467
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1