关闭广告

ICML2024高分!魔改注意力,让小模型能打两倍大的模型

量子位11152人阅读

彩云科技团队 投稿
量子位 | 公众号 QbitAI

改进Transformer核心机制注意力,让小模型能打两倍大的模型

ICML 2024高分论文,彩云科技团队构建DCFormer框架,替换Transformer核心组件多头注意力模块(MHA),提出可动态组合的多头注意力(DCMHA)。

DCMHA解除了MHA注意力头的查找选择回路和变换回路的固定绑定,让它们可以根据输入动态组合,从根本上提升了模型的表达能力。

可以近似理解为,原来每层有固定的H个注意力头,现在用几乎同样的参数量和算力,可按需动态组合出多至HxH个注意力头。

DCMHA即插即用,可在任何Transformer架构中替换MHA,得到通用、高效和可扩展的新架构DCFormer。



阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

Vision Pro被科技博主吹爆,却难掩四大致命硬伤,初代产品谨慎买

雷科技 浏览 16493

卢卡申科证实普里戈任抵达白俄罗斯

界面新闻 浏览 89272

中国今年首场重大主场外交活动后 陕西省长率团出访

政知新媒体 浏览 91328

2025款岚图FREE+新车商品性评价

车质网 浏览 829

湖人内讧加剧?詹眉疑不满哈姆曝光:老詹翻白眼 浓眉懒得听战术

厝边人侃体育 浏览 12507

11月十大必看短剧

仙女事件簿 浏览 260

高盛顶级交易员:美股临近CTA卖盘触发位,市场企稳看政府开门

华尔街见闻官方 浏览 709

特朗普:南非对白人搞"屠杀" G20峰会美国不去了

澎湃新闻 浏览 6698

没有一顿火锅解决不了的事,除了爆痘......

时尚COSMO 浏览 13327

高薪族最“受伤”?美国申领失业金群体中增长最快的是这群人

财联社 浏览 14588

金晨疑似恋情曝光后首露面,被问与胡夏恋情进展,她回应模棱两可

扒虾侃娱 浏览 12986

今年秋天一定要拥有的10件单品,时髦又高级!

LinkFashion 浏览 1031

杨振宁获诺奖速度纪录至今未破 提出理论到获奖仅1年

澎湃新闻 浏览 4610

皮肤衣到底是防晒神器 还是虚有其表?

一帐Camplus 浏览 19237

媒体:马英九戳破民进党"皇帝的新衣" 赖清德恼羞成怒

直新闻 浏览 76090

女子用"AI流浪汉"照片整蛊丈夫引来警察 网友表示不解

央视网 浏览 8939

连续被血洗!今年前十个月的涨幅,币圈一个月跌完了

华尔街见闻官方 浏览 675

去海外淘金,哪些公司赢麻了?

定焦One 浏览 14630

Shams:莫兰特最快在周四主场迎战火箭的比赛中复出

直播吧 浏览 19217

历史罕见!董事长发声:业绩“不可接受”,股价大跌!

中国基金报 浏览 19573

比肩库里浓眉獭兔!唐斯砍下50+ 全明星历史第4人

直播吧 浏览 12227
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1