关闭广告

中科大和华为联手破解大语言模型"注意力"背后的神秘规律

科技行者2923人阅读


这项由中国科学技术大学脑认知智能感知教育部重点实验室与华为技术有限公司、天津大学智能与计算学院联合完成的研究发表于2026年的国际学习表征会议(ICLR)。有兴趣深入了解的读者可以通过论文编号arXiv:2601.21709查询完整论文。

当我们阅读一篇文章时,眼球会在不同的词语之间跳跃,有时专注于某个关键词,有时快速扫过熟悉的内容。这个过程看似随意,实际上遵循着精妙的规律。令人惊讶的是,人工智能中的大语言模型在处理文字时,也展现出了类似的"注意力"模式。然而,长期以来,科学家们对这些模式为什么会出现、如何形成,一直缺乏统一的解释。

就好比我们知道鸟儿会迁徙,但不明白它们如何选择路线一样,研究人员发现大语言模型会表现出各种注意力模式——有的像聚光灯一样反复照亮某几个重要词汇,有的像扫描仪一样按序逐个关注,还有的像万花筒一样呈现周期性变化。但这些模式背后的形成机理却始终是个谜。

这项研究的突破在于,研究团队首次提出了一个名为"时间注意力模式可预测性分析"(TAPPA)的统一框架,从时间连续性的角度解释了为什么会出现这些看似迥异的注意力模式。更重要的是,他们发现了

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

50+妈妈冬季穿搭范本:“短羽绒服+阔腿裤”,保暖时髦不费力

静儿时尚达人 浏览 2976

黄仁勋:2027年AI芯片营收至少1万亿美元!最新演讲信息量很大:进军太空、“一键养虾”……

都市快报橙柿互动 浏览 2179

俄白联合军演两名美军军官"意外现身" 白俄防长:可随意参观

环球网资讯 浏览 4971

17年,巴菲特投资比亚迪累计套利至少80亿港元

第一财经资讯 浏览 4914

演完《与凤行》演《逍遥》,她减肥50斤

失宠的小野猪 浏览 3221

张柏芝与向太的关系彻底崩塌?

涵豆说娱 浏览 4690

清华教授:高市狂言是对中国武力威胁 暴露日危险走向

上观新闻 浏览 7306

一线城市二手房挂牌量下降,2026年会迎来股市楼市齐涨的局面吗?

郭施亮 浏览 2624

哈马斯同意“20点计划”提议:释放所有以色列人质

央视新闻客户端 浏览 4383

跟队:纽卡vs巴萨赛前发布会上加泰记者很放松,还有人接电话

懂球帝 浏览 2308

15.69 万元起!全新深蓝 S07 上市交付

汽车商评 浏览 4963

理想i6“涨价”:现金减免从1万元调整为5000元

电动知家 浏览 4142

媒体:南博受赠名画被鉴伪后拨给文物店 以6800元售出

新华社 浏览 13701

MiniMax把自家“实习生”放出来了!

量子位 浏览 3110

王晶大谈力捧谢霆锋原因,狄波拉是恩人,谢贤更是讲义气

温柔娱公子 浏览 4160

特朗普下令美重启核试验 打开潘多拉魔盒的危险一步

澎湃新闻 浏览 4132

豪华5座中大型SUV!续航2327km,瞄准理想L6

隔壁说车老王 浏览 3973

退休三年后“落马”,恒邦财险原董事长肖晓华被查

蓝鲸Insurance 浏览 3128

美媒:特朗普敲打高市 要求日本在台海问题上降调

观察者网 浏览 30938

马斯克宣布X Money四月公测

财闻 浏览 2295

集微咨询发布《2025中国半导体后道设备行业上市公司研究报告》;

爱集微 浏览 3333
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1