2026-06-06 AI 动态2026年6月6日 · 阅读需 3 分钟本期焦点 Agent Planning Benchmark 提出 4209 个多模态规划案例,专门诊断 Agent 规划能力。 APB 将失败拆到规划阶段,而不是只看端到端执行是否成功。 评测覆盖 22 个领域和 5 类设置,强调工具噪声、坏工具、不可解任务和拒答校准。 随着 Agent 进入生产环境,规划诊断会成为执行评测的重要前置环节。