跳到主要内容

2 篇博文 含有标签「Agentic RL」

查看所有标签

2026-06-07 AI 动态

· 阅读需 3 分钟
本期焦点
  1. 开源社区围绕 OpenEnv 推进 Agentic RL,强调可复现环境和工具调用训练。
  2. Holo3.1、hf CLI 和 GLM Coding Plan 等线索显示 Agent 训练与执行环境正在合流。
  3. Agentic RL 的核心不只是奖励函数,而是任务环境、工具接口和验证器能否稳定复现。
  4. 周末主线从单个模型发布转向 Agent 训练基础设施。

2026-05-29 AI 动态

· 阅读需 4 分钟
本期焦点
  1. ChatGPT Release Notes 更新 Codex:Windows Computer Use、远程控制和使用画像上线。
  2. GPT-5.5 Instant 更新响应风格,OpenAI o3 与 GPT-4.5 进入退役窗口。
  3. Hugging Face 发布 Agentic RL 文章,强调 tool-call 场景下 token-in / token-out 训练细节。
  4. 产品层面,AI 助手正在从模型切换走向主机、远程线程和长期使用统计。