爆点资讯

由东南大学计算机科学与工程学院的杨俊明、许宁、刘彪、乔世奇和耿新等研究者组成的团队，最近在人工智能领域取得了一项重要突破。这项研究发表于2025年，论文编号为arXiv:2509.23371v1，提出了一种名为MetaAPO（Meta-Weighted Adaptive Preference Optimization）的全新AI训练方法。有兴趣深入了解的读者可以通过该编号查询完整论文。

要理解这项研究的重要性，我们先来看一个生活中的例子。假设你正在教孩子学习做饭，你有两种教学资源：一套经典的家传菜谱（就像AI训练中的离线数据），还有让孩子实际动手练习的机会（就像在线生成的数据）。传统的AI训练方法就像只用家传菜谱或只让孩子盲目练习，而东南大学团队的新方法则像是配备了一位智慧的厨艺老师，这位老师能够根据孩子当前的水平，灵活决定什么时候该参考菜谱，什么时候该放手让孩子实践，从而让学习效果达到最佳。

当前的大型语言模型训练面临着一个根本性的挑战：如何让AI既能从人类已有的经验中学习，又能通过实践不断改进自己。这就像是在平衡传承与创新的关系。传统方法要么过度依赖预先收集的人类反馈数据，导致AI无法适应新情况；要么完全

东南大学突破：AI学会情境化拒绝能力

捐款超150...

央视一周 4...

帕多瓦诺：我...

欧洲高颜值王...

乔治亚理工学...

一艘船多付6...

爱马仕女骑士无需披甲，却最为强大

4大城市群的机场扩建潮背后：不止争人气，还要争“世界级枢纽”

阿里达摩院推出电商智能体全面测试基准

海廷加：奥斯梅恩和伊布、德罗巴一样强大，始终是一个威胁

章子怡近照脸部发肿，最具特色的骨相优势都没了

玩家用PS5手柄意外获得6700台大疆扫地机器人控制权：实时视频流泄露官方回应

豪森智能联手中科院沈自所，深化AI+制造业创新合作

8年过后再看冯小刚亲选的“芳华三美”

柬埔寨提高获取公民身份投资门槛：至少需100万美元

百日破十万！比亚迪海狮06改写爆款规则，海洋网的成长密码

“2025全球十大工程成就”揭晓，DeepSeek开源大模型等上榜

以军再袭约旦河西岸巴方谴责以“吞并”企图

软银清仓英伟达，孙正义套现415亿

辱骂西蒙尼的球迷：我没说种族歧视的话，也没提马岛战争

中印巴令人意外地站在了同一边反对美方举措

被娃写作业逼疯妈妈＂邪修法＂直播写作业引2万人围观

50岁女性过冬穿搭：有大衣和羽绒服就够了，简约从容才是优雅

37岁生日变冷清，杨颖人设崩塌后的人情冷暖

崔家溪退赛，陈芋汐搭档卢为出战跳水世界杯女子双人10米台

卫衣+百褶裙，初秋最韩系穿搭，又美又撩人！

李璇：三镇开出国内球员顶薪与邓涵文续约，但没能续约成功

何超琼身价突破700亿，手里的包包成为亮点

程强：外部冲击下市场波动加剧

卷首语 | 在动物园散步才是正经事