跳到主要内容

2026-06-16 AI 动态

· 阅读需 3 分钟
本期焦点
  1. OpenAI 发布 Deployment Simulation,用真实对话上下文模拟模型部署前行为。
  2. Deployment Simulation 已覆盖 GPT-5 系列 Thinking 部署和 12 万条内部编码 Agent 轨迹。
  3. 智谱 GLM-5.2 上线,支持 1M 无损上下文,强调 Coding 与长程任务开源 SOTA。
  4. 前沿模型竞争从发布分数转向发布前风险预测和长程执行稳定性。

头条要闻

Deployment Simulation:OpenAI 用“拟真部署”补传统安全评测盲区

OpenAI 6 月 16 日发布 Deployment Simulation 方法,用隐私保护方式重放历史对话前缀,让候选新模型生成响应,从而在模型发布前估计真实部署中可能出现的不良行为频率。OpenAI 称,该方法已经用于多个 GPT-5 系列 Thinking 部署,分析约 130 万条去标识化对话,并在 GPT-5.4 Thinking 上预注册 20 类不良行为预测。

对 Agent 来说,更关键的是工具模拟。OpenAI 使用 12 万条内部员工 agentic trajectories,从 GPT-5.4 模拟 GPT-5.5 编码 Agent 内部部署;在工具调用仿真中,判别器区分真实与模拟的成功率接近随机水平。这说明模型安全评测正在从静态题集,转向生产流量、工具轨迹和部署前预测。

指标数据
方法Deployment Simulation
发布时间2026-06-16
对话样本约 130 万条去标识化对话
覆盖GPT-5 Thinking 至 GPT-5.4 部署
预注册GPT-5.4 Thinking 的 20 类不良行为
Agent 轨迹12 万条内部员工编码 Agent 轨迹
WildChat 外部审计10 万条 WildChat 对话前缀

OpenAI


模型发布与产品更新

GLM-5.2:1M 无损上下文和长程 Coding 继续成为国产模型主线

智谱 AI 6 月 16 日在新品发布页宣布 GLM-5.2 新一代旗舰模型上线。官方称 GLM-5.2 支持 1M 无损上下文,长程任务能力显著提升,可减少复杂任务中的上下文漂移与目标遗忘;Coding 与长程任务评测达到开源 SOTA,在复杂系统工程和深度调试中更稳定。

这延续了国内模型的近期路线:不只追求通用聊天,而是把项目级上下文、工程规范遵循、多端开发和长程 Agent 任务作为核心卖点。

智谱 AI


关键数据一览

指标数据
Deployment Simulation2026-06-16 发布
去标识化对话约 130 万条
Agentic trajectories12 万条
GLM-5.22026-06-16 上线
GLM-5.2 上下文1M 无损上下文
GLM-5.2 重点Coding、长程任务、项目级上下文

Sources


本 Newsletter 由 AI 行业公开信息整理,数据截至 2026 年 6 月 16 日。所有信息均来自公开来源,不构成投资建议。