关闭广告

清华大学提出NHA:让AI语言模型既快又准的"双重记忆"新架构

科技行者4027人阅读


这项由清华大学杜举森、胡佳熹、张涛教授,上海人工智能实验室孙维高研究员,以及香港中文大学程余教授共同完成的研究发表于2025年10月的arXiv预印本平台,论文编号为arXiv:2510.07019v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

当你使用ChatGPT或其他AI语言模型时,有没有想过它是如何记住你前面说过的话的?就像人类既有短期记忆又有长期记忆一样,AI模型也需要处理眼前的信息和遥远的上下文。但现有的AI模型在这方面存在一个两难问题:要么像传统的Transformer模型一样记住所有细节但速度极慢,要么像线性模型一样速度很快但容易忘记重要信息。

研究团队提出了一种名为"原生混合注意力"(Native Hybrid Attention,简称NHA)的全新架构,巧妙地解决了这个难题。这就好比给AI配备了一套"双重记忆系统":一个像照相机一样精确记录最近发生的事情,另一个像日记本一样压缩保存长期的重要信息。更巧妙的是,这套系统能够根据当前需要自动决定更多地依赖哪种记忆,而不需要人工设定固定的规则。

传统的混合模型通常是将两种不同的注意力机制分别计算,

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

极狐问道V9正式上市 限时19.48万元起

网易汽车 浏览 292

陈涛:我们最后四轮赛程可以用地狱级来形容,已经没有退路了

懂球帝 浏览 4326

月之暗面创始人杨植麟:中国技术不仅要好用还要参与制定规则

IT之家 浏览 3213

李平康:国安在谈一名东欧外教,其人在北京&还是以前的渠道

懂球帝 浏览 4033

钟欣潼前夫被曝婚变,第三任妻子删光合照

树娃 浏览 4062

三万俱乐部的疲态:“蔚小理” 的 2025

晚点LatePost 浏览 3555

财务造假?自主可控龙头也不行,罚他倾家荡产

诗与星空 浏览 4967

英超:维拉3比1富勒姆取联赛首胜

体坛周报 浏览 4663

今年秋天最好看的5件风衣!

LinkFashion 浏览 4731

科学家研发可遥控癌痛克星,比阿片类药物更安全

DeepTech深科技 浏览 3126

春天别总傻傻穿一身黑,看看这些日常穿搭,高级舒适又优雅

静儿时尚达人 浏览 918

内娱声明还有可信度吗?

韩小娱 浏览 4186

伊姐周六热推:电视剧《小城大事》;电视剧《轧戏》......

伊周潮流 浏览 3219

官方声明:王硕威不是福建舰总设计师

界面新闻 浏览 4014

美方在北约外长会上"炮轰"欧盟 被指系又一次强硬姿态

澎湃新闻 浏览 35022

遭美政府和科技企业联合施压 欧盟扛不住了又打算屈服

澎湃新闻 浏览 8058

刘润:企业盈利的5种模型

创业家 浏览 4142

推广中奖名单-更新至2025年12月15日推广

黎贝卡的异想世界 浏览 3370

大S逝世一周年 S家没通知大S子女惹争议

萌神木木 浏览 3008

天才少年姚顺雨入职腾讯后首次公开发声

21世纪经济报道 浏览 3131

全新旗舰级SUV 奥迪Q9霍希版谍照曝光

车质网 浏览 3271
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1