关闭广告

智能体系统如何「边做边学」?斯坦福团队探索在线优化的新范式

机器之心Pro3613人阅读



如何让智能体进行复杂推理与工具调用?传统方法主要有两类:训练单一的大语言模型,使其同时承担思考与工具调用的任务;要么依赖静态提示词驱动的 training-free 智能体系统。

然而,前者在长链推理、工具多样化与动态环境反馈下训练常变得不稳定,缺乏可扩展性(scalability);后者则缺少学习与适应能力,难以应对复杂场景。

为此,斯坦福大学联合德州农工大学(Texas A&M)、加州大学圣地亚哥分校(UC San Diego)和 Lambda 的研究团队提出了 AgentFlow 框架,通过多个独立 Agent 模块协作,并且提出 Flow-GRPO 算法用于训练。在评测中,AgentFlow 在搜索、代理、数学与科学任务上均取得显著提升,即便是 3B 模型,也能超越 405B 的 Llama-3.1 和 200B 的 GPT-4o。

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

小米研究院推出AI视频理解:让机器像人一样"回看"思考视频内容

科技行者 浏览 2608

罗马诺:鲍勃转会富勒姆谈判进最后阶段,曼城坚持要3500万镑

懂球帝 浏览 2537

美军机沿伊朗边界飞行 伊朗寻求外交支持

新华社 浏览 2712

纪念戴安基顿,伍迪艾伦最高杰作告别放映❤️

幕味儿 浏览 2625

口碑爆棚,票房扑惨,最争议的大片来了

独立鱼 浏览 2925

全红婵不参赛有多致命?180元门票惨遭冷落

TVB的四小花 浏览 483

上映27天被观众赶出院线!网播也救不了它,事实证明烂片已无市场

娱乐圈笔娱君 浏览 2511

多省份公布金融数据:居民储蓄高增,浙江人均存款超17万元

第一财经资讯 浏览 2698

香港科技大学突破文本理解难题:让AI模型内部"自我改造"

科技行者 浏览 2582

刘强东“10年1元年薪”之约到期,律师解构高净值人群如何妥善处理财产

红星资本局 浏览 4319

全国人大代表梁伟:用AI打通中国芯片弯道超车的 “任督二脉” | 代表在这里

封面新闻 浏览 1807

邻居在家门口干了匪夷所思的事 杭州女子:提心吊胆

极目新闻 浏览 33406

白百何被骂翻了!聊天记录自锤耍大牌难搞?

萌神木木 浏览 3451

蔚来ES9压轴登场,“9系”五强争霸:谁是中国豪华新能源的终极答案?|汽车观察

封面新闻 浏览 1070

致敬球队传奇,多特官方商城为球迷免费印11号罗伊斯

懂球帝 浏览 3026

推广|| 被刘亦菲、辛芷蕾种草的宝藏单品,确实很好搭!

黎贝卡的异想世界 浏览 3518

业务调整、AI广泛应用,印度IT业“无声裁员”冲击数万岗位

环球网资讯 浏览 3805

大陆制裁3家涉对台军售美企 国台办回应

界面新闻 浏览 3905

同样被网友玩梗,李湘给张纪中“上了一课”?

深析古今 浏览 2909

更换人工髋关节,拉梅拉:希望这能让我过上无疼痛的生活

懂球帝 浏览 559

50岁阿姨也能穿得亮眼高级,这些搭配的技巧请收好,特别实用

静儿时尚达人 浏览 5919
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1