关闭广告

智能体系统如何「边做边学」?斯坦福团队探索在线优化的新范式

机器之心Pro4116人阅读



如何让智能体进行复杂推理与工具调用?传统方法主要有两类:训练单一的大语言模型,使其同时承担思考与工具调用的任务;要么依赖静态提示词驱动的 training-free 智能体系统。

然而,前者在长链推理、工具多样化与动态环境反馈下训练常变得不稳定,缺乏可扩展性(scalability);后者则缺少学习与适应能力,难以应对复杂场景。

为此,斯坦福大学联合德州农工大学(Texas A&M)、加州大学圣地亚哥分校(UC San Diego)和 Lambda 的研究团队提出了 AgentFlow 框架,通过多个独立 Agent 模块协作,并且提出 Flow-GRPO 算法用于训练。在评测中,AgentFlow 在搜索、代理、数学与科学任务上均取得显著提升,即便是 3B 模型,也能超越 405B 的 Llama-3.1 和 200B 的 GPT-4o。

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

金棕榈年度女性最佳力作,首次造访艺术影院

幕味儿 浏览 4272

皮尔斯:库里强于詹姆斯,库里3次战胜詹姆斯还在巅峰詹时拿过全票MVP

懂球帝 浏览 3531

女人过了60岁打扮要得体!看这些穿搭就有灵感,简约不老气

静儿时尚达人 浏览 4186

第三代元PLUS:价格小涨,但用上闪充了

爱驾天下 浏览 268

第一阶段加沙停火协议正式生效

界面新闻 浏览 4421

新款本田飞度有望26年1月上市 全新外观设计

太平洋汽车 浏览 3490

普京指挥俄战略核力量演习 发射洲际弹道导弹

新华社 浏览 4190

杉杉股份易主:任元林接盘,“民营船王”入主锂电材料巨头

征探财经 浏览 4399

厦门大学等突破AI自学限制:让计算机为自己量身定制学习计划

科技行者 浏览 2947

彭小苒的逆袭不止“紫衣杀”

小小敏娱乐 浏览 4197

张纪中爆料不留情面,刘晓庆风流妖精形象受创

精彩背后 浏览 2984

波兰称考虑禁止中国电动汽车进入其军事基地 中方回应

财联社 浏览 7523

E句话| 马尔福已经成了马年吉祥物?

仙女事件簿 浏览 2921

87岁哈梅内伊严正警告美国 公开露面被指传递三层信号

每日经济新闻 浏览 7504

歼-35"0001编号"战机亮相 喷涂英文缩写或量产出口

央视新闻客户端 浏览 94933

《骄阳似我》热度24000,这才是现偶剧该有的样子

娱乐圈笔娱君 浏览 3495

女人不管年纪多大,衣柜里都要准备几件衬衫,百搭耐穿又简约

静儿时尚达人 浏览 879

离婚分走4亿财产,最爽的投行女出现了

金融八卦女 浏览 3206

国民党"内讧"郑丽文开会不邀卢秀燕 党内炸锅大佬现身

博览历史 浏览 10146

今晚发布,OPPO Find X9 系列手机提供 eSIM 版本

IT之家 浏览 4278

财经早餐:多地明确取消35岁考编限制;商务部回应美方威胁加征100%关税

网易财经 浏览 4324
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1