关闭广告

ICML2024高分!魔改注意力,让小模型能打两倍大的模型

量子位11139人阅读

彩云科技团队 投稿
量子位 | 公众号 QbitAI

改进Transformer核心机制注意力,让小模型能打两倍大的模型

ICML 2024高分论文,彩云科技团队构建DCFormer框架,替换Transformer核心组件多头注意力模块(MHA),提出可动态组合的多头注意力(DCMHA)。

DCMHA解除了MHA注意力头的查找选择回路和变换回路的固定绑定,让它们可以根据输入动态组合,从根本上提升了模型的表达能力。

可以近似理解为,原来每层有固定的H个注意力头,现在用几乎同样的参数量和算力,可按需动态组合出多至HxH个注意力头。

DCMHA即插即用,可在任何Transformer架构中替换MHA,得到通用、高效和可扩展的新架构DCFormer。



阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

媒体:秦刚讲的"寒冰" 代表中国高层对中美关系的判断

直新闻 浏览 111432

利物浦老板亨利:一直希望为俱乐部带来成功 英超是世界最佳联赛

直播吧 浏览 19307

欧盟考虑强制中企转让技术 彭博社:可能引发强烈反弹

环球网资讯 浏览 4997

看这位50岁博主 才知道什么叫岁月不败美人

虎哥说衣不二 浏览 16988

领克07官方伪装照:轿跑造型+EM-P动力,合资又要“头大”了?

Nice好车 浏览 12518

近期生产安全事故频发 相关部门分析原因

央视新闻客户端 浏览 78503

创造历史! 金球奖首位华人最佳女导演:赵婷

网易娱乐 浏览 26676

米仓凉子涉毒被抓!当小三、遭家暴、交往瘾君子,50岁人生一团糟

萌神木木 浏览 1057

欧美媒体唱衰福建舰仅6成战力 赖岳谦:他们开心就好

看看新闻Knews 浏览 6779

女子花费2000多元认养老虎 结果虎园隐瞒老虎死讯数月

大风新闻 浏览 28665

进军游戏业!奈飞考虑战略转型 从视频游戏中获取新利润

第一财经资讯 浏览 12460

停办吧!《奔跑吧》首播差评一片,请一大堆明星没一个能拿得出手

娱乐圈笔娱君 浏览 363

售价为2990元,别克E4哆啦A梦主题套件上市

天天汽车 浏览 12399

研究称AI写的微博比真人的更让人信服,无论话题真假

网易科技报道 浏览 15895

朱克力:自动驾驶重塑未来,创新需要理性呵护

经济观察报 浏览 11018

第三次动脸了吧?她是怎么瞒天过海的?

新氧 浏览 15946

机构抱团是A股特色?NO!美股抱团是常态

券商中国 浏览 26335

OpenAI 呼吁美国政府将芯片法案的税收抵免扩大至 AI 数据中心

IT之家 浏览 648

Linus新年首骂:和谷歌大佬大吵4天,“你的代码就是垃圾”

量子位 浏览 12422

媒体:美国曾用F-15击落自家MQ-9"死神"无人机

极目新闻 浏览 19257

电影《寻秦记》番位惹争议,白百何排第三成女主,原版女主变女二

萌神木木 浏览 320
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1