关闭广告

智能体系统如何「边做边学」?斯坦福团队探索在线优化的新范式

机器之心Pro842人阅读



如何让智能体进行复杂推理与工具调用?传统方法主要有两类:训练单一的大语言模型,使其同时承担思考与工具调用的任务;要么依赖静态提示词驱动的 training-free 智能体系统。

然而,前者在长链推理、工具多样化与动态环境反馈下训练常变得不稳定,缺乏可扩展性(scalability);后者则缺少学习与适应能力,难以应对复杂场景。

为此,斯坦福大学联合德州农工大学(Texas A&M)、加州大学圣地亚哥分校(UC San Diego)和 Lambda 的研究团队提出了 AgentFlow 框架,通过多个独立 Agent 模块协作,并且提出 Flow-GRPO 算法用于训练。在评测中,AgentFlow 在搜索、代理、数学与科学任务上均取得显著提升,即便是 3B 模型,也能超越 405B 的 Llama-3.1 和 200B 的 GPT-4o。

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

对阵纳什维尔3球1助,梅西达成连续17年上演帽子戏法成就

懂球帝 浏览 910

布林肯再次对胡塞武装放“狠话”

环球网资讯 浏览 12763

央行重磅会议释放新信号!下半年行情开门红可期?

每日经济新闻 浏览 15646

俄称挫败乌军空降行动

上观新闻 浏览 660

小S二女儿穿露脐装跳舞,被指动作僵硬难看

乔米世娱乐说 浏览 19715

G7外长会开幕 欧洲领导人或在"中国问题"上示弱

上观新闻 浏览 119963

豆瓣9.1,宫崎骏大师动画神作最后告别放映!

幕味儿 浏览 790

福岛近海捕捞鱼放射性物质超标,此类海鱼已停止在市场销售

趣看热点 浏览 111493

美国国会的监督机构对联邦住房金融管理局局长Pulte展开调查

华尔街见闻官方 浏览 176

鹏华基金,也亏麻了

包不同 浏览 12957

西北交通格局,将有大变化!

国是直通车 浏览 972

特朗普称俄为"纸老虎" 普京回应

央视新闻客户端 浏览 903

在歼35之后,空军版歼31隐形战斗机也来了

浏览 11357

国家安全机关破获美国中央情报局间谍案

国家安全部 浏览 84051

哈维尔:泰山队身体占优让我们很不适应 客场拿到1分可以接受

直播吧 浏览 15561

毕节两名少年骑车失联21天 遗体在20公里外村中被发现

极目新闻 浏览 7243

美联储年内“三连降”,2026年利率走向何方?

中新经纬 浏览 63

甘肃男子亲历地震:当时零下15度 很多人熬不住回家了

红星新闻 浏览 74955

E句话| 这对邪门CP又是哪里来的?

仙女事件簿 浏览 726

台湾一古宅所有正房大门都向着大陆 原因让人动容

都市快报橙柿互动 浏览 6696

华谊兄弟策划师王天也酒后殴打三名民警 获刑一年

北京日报 浏览 26017
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1