关闭广告

智能体系统如何「边做边学」?斯坦福团队探索在线优化的新范式

机器之心Pro3618人阅读



如何让智能体进行复杂推理与工具调用?传统方法主要有两类:训练单一的大语言模型,使其同时承担思考与工具调用的任务;要么依赖静态提示词驱动的 training-free 智能体系统。

然而,前者在长链推理、工具多样化与动态环境反馈下训练常变得不稳定,缺乏可扩展性(scalability);后者则缺少学习与适应能力,难以应对复杂场景。

为此,斯坦福大学联合德州农工大学(Texas A&M)、加州大学圣地亚哥分校(UC San Diego)和 Lambda 的研究团队提出了 AgentFlow 框架,通过多个独立 Agent 模块协作,并且提出 Flow-GRPO 算法用于训练。在评测中,AgentFlow 在搜索、代理、数学与科学任务上均取得显著提升,即便是 3B 模型,也能超越 405B 的 Llama-3.1 和 200B 的 GPT-4o。

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

老干妈,还得靠老妈

华商韬略 浏览 2495

拒15亿,Andrew Tulloch重返Meta,Thinking Machines Lab痛失联创

机器之心Pro 浏览 3843

吉利发布全域AI 2.0 千里浩瀚G-ASD全面进化

网易汽车 浏览 2746

实弹射击 禁止驶入 山东潍坊发布警告

极目新闻 浏览 3579

专访苹果副总裁:一个小红书博主,该用什么样的苹果工具?

爱范儿 浏览 2379

东部战区战士:已做好真打实打准备

北京日报客户端 浏览 1987

“这个风格”今年冬天又火了!谁穿谁高级

LinkFashion 浏览 2545

松延动力创始人姜哲源回应“低价”:机器人本身就不该那么贵

中国经营报 浏览 3698

外媒:特朗普反复威胁 欧洲领导人已感到厌倦

参考消息 浏览 14461

第五届意大利繁花电影节片单暨日程发布!

幕味儿 浏览 3123

斥资5.6亿,看完《惊蛰无声》预告片,我想说:张艺谋又赌赢了!

娱乐圈笔娱君 浏览 2532

《赴山海》:唐方父亲一直躲在幕后,身份应该很不简单!

柳缘阁主 浏览 3781

马德兴:国少有身高优势却让高中锋替补,浮嶋敏备战有大问题

懂球帝 浏览 341

复星医药14亿元押注停产药,其疗效问题饱受市场争议,公司回复监管函

红星资本局 浏览 2891

余承东展示鸿蒙智行门锁安全设计:安全是最大的豪华

三言科技 浏览 3755

今日热点:电影《飞驰人生3》定档春节;大麦否认与黄牛挂钩……

伊周潮流 浏览 2898

《喜人奇妙夜2》即将收官,给你的戒断加点料

时尚COSMO 浏览 3029

港媒曝光何超莲家中资产分配,签不签婚前协议,窦骁都捞不到好处

萌神木木 浏览 3590

浙江大学最新研究:让AI像人类一样"转头看"来回答问题

科技行者 浏览 2699

向太怒骂范冰冰经纪人,众星力捧向佐的《封神》,她却耍大牌

不八卦会死星人 浏览 3719

数读“十四五”答卷︱世界第一、全球领先!一组数据看我国科技事业历史性成就

海外网 浏览 4466
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1