跳到主要内容

1 篇博文 含有标签「Tool Robustness」

查看所有标签

2026-06-06 AI 动态

· 阅读需 3 分钟
本期焦点
  1. Agent Planning Benchmark 提出 4209 个多模态规划案例,专门诊断 Agent 规划能力。
  2. APB 将失败拆到规划阶段,而不是只看端到端执行是否成功。
  3. 评测覆盖 22 个领域和 5 类设置,强调工具噪声、坏工具、不可解任务和拒答校准。
  4. 随着 Agent 进入生产环境,规划诊断会成为执行评测的重要前置环节。