关闭广告

港科大广州校区突破大模型训练瓶颈:让AI学习像数学考试高效

科技行者2939人阅读


这项由香港科技大学广州校区xLeaF实验室团队完成的研究于2026年2月发表在预印本平台,论文编号为arXiv:2601.23000v1。研究团队提出了一种名为Mano的全新优化器,能够大幅提升大型语言模型的训练效率,同时显著降低计算成本和内存消耗。

训练大型语言模型就像是在教授一个拥有数千亿个参数的超级大脑学习语言,这个过程需要消耗巨额的计算资源和电力。现有的训练方法就好比让学生用最笨拙的方式学习数学——要么只看到局部信息而忽视整体结构,要么过度追求完美而丢失了重要细节。当前最流行的AdamW优化器就像一个只会逐个检查每道题目的老师,完全忽略了题目之间的内在联系和整体规律。而另一种叫做Muon的优化器虽然能够统一处理所有维度的信息,但在这个过程中却丢失了宝贵的曲率信息,就像为了保持答题速度一致而忽略了题目的难易程度。

研究团队从一个全新的角度来思考这个问题。他们发现,传统的流形优化方法虽然在数学理论上很优美,但在实际的大模型训练中表现很差,这让很多研究者对这类方法失去了信心。然而,港科大的研究团队没有放弃,而是创新性地改造了这些方法。

他们的核心洞察是这样的

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

或成新公路之王! 极氪8X预售37.68万起

网易汽车 浏览 2258

AI快速生成抗体设计图,大卫·贝克最新研究或改变传染病应对模式

DeepTech深科技 浏览 3990

实弹射击 禁止驶入 山东潍坊发布警告

极目新闻 浏览 4087

特朗普:对伊朗的军事行动我们已经赢了 但还没赢够

每日经济新闻 浏览 32092

公募基金业绩比较基准迎规范,证监会、中基协公开征求意见

华夏时报 浏览 4062

1999元起 华为畅享70X尊享版开售:麒麟8000芯片、一键发送北斗卫星消息

快科技 浏览 3686

迪拜大力发展自动驾驶产业

人民网 浏览 4816

NBA战报:凯尔特人119-114逆转热火,安芬尼-西蒙斯39+4+4

懂球帝 浏览 3110

今年秋冬流行“漏斗领外套”,时髦又高级!

LinkFashion 浏览 3478

石药集团185亿美元合作背后

YOUNG财经 浏览 2979

40余名高二学生被强收7500元网课费 两地教育局调查

大风新闻 浏览 17553

面相变了!看活动上“挂脸”的杨幂,才懂林永健对她的评价

娱乐圈笔娱君 浏览 4152

王宝强没想到,和马蓉离婚9年后,自己的一双儿女开始为他争光了

TVB的四小花 浏览 4818

特朗普称美将管理委直至安全过渡

新华社 浏览 2600

马杜罗预计5日在纽约"首次出庭"

扬子晚报 浏览 3283

美媒:美军已向特朗普提交对委内瑞拉动武方案

环球网资讯 浏览 3839

拓普泰克股权集中,研发占比低,客户集中,与兆威机电信披冲突

权衡财经 浏览 976

腾讯突破:AI实现对话到电影的完整自动化制作

科技行者 浏览 2981

河南村庄设环保监测点发通知限制燃油车进村 当地回应

大风新闻 浏览 16338

付豪:其实我们比球迷更想赢球,但球队实力与过去不可同日而语

懂球帝 浏览 3296

2026时髦风向:穿出氛围感才高级!

LinkFashion 浏览 3053
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1