2026-05-01 AI 动态

2026年5月1日 · 阅读需 14 分钟

本期焦点

AWS 将 OpenAI 模型、Codex 和 Managed Agents 接入 Bedrock。
DeepSeek 发布 Thinking with Visual Primitives 多模态技术报告。
Anthropic 开放 Claude Security 公测，用 Opus 4.7 扫描代码漏洞。
GS-Playground 开源，视觉中心机器人仿真进入高吞吐训练阶段。
OpenAI 称 Stargate 已提前超过美国 10GW 算力目标。

头条要闻

AWS × OpenAI：Bedrock 接入 OpenAI 模型、Codex 与 Managed Agents

AWS 4 月 28 日宣布，Amazon Bedrock 将以 limited preview 形式提供三项 OpenAI 能力：最新 OpenAI 模型、Codex on Amazon Bedrock，以及由 OpenAI 驱动的 Amazon Bedrock Managed Agents。量子位 4 月 29 日也跟进了这场 AWS “What’s Next” 发布会，把它称为“云计算一哥”版 Agent 发布。

这次合作的重点不只是“OpenAI 模型多了一个云入口”。AWS 官方说明称，OpenAI 模型在 Bedrock 上会继承 IAM、AWS PrivateLink、guardrails、加密和 CloudTrail 日志等企业级控制；Codex 可通过 AWS 凭证运行推理，并从 Codex CLI、桌面应用和 VS Code 扩展接入；Managed Agents 则把 OpenAI 前沿模型和 agent harness 放到 AWS 托管运行时中，每个 agent 都有独立身份、动作日志，并在客户环境中运行。

这说明企业 Agent 的竞争正在进入云平台控制面。模型是否聪明仍重要，但企业真正部署时，还要看身份、日志、合规、网络隔离、计费承诺、记忆、技能和计算环境能不能被统一管理。微软与 OpenAI 合作协议调整后，OpenAI 模型向多云分发，正把“模型公司 + 云平台 + Agent 运行时”推成新的企业 AI 交付结构。

AWS · Amazon · 量子位

模型发布与更新

DeepSeek Visual Primitives：让多模态模型“边推理边指向”

4 月 30 日，DeepSeek 在 GitHub 发布 Thinking with Visual Primitives 项目和技术报告，提出“基于视觉原语的思考”框架。该框架把点、边界框等空间标记作为模型推理过程中的最小思维单元，让模型在思考链中直接引用图像坐标，而不是只用自然语言描述“左边那个”“中间偏右的物体”。

DeepSeek 将当前多模态模型的这一瓶颈称为 Reference Gap：模型能看清图像细节，但语言指代在复杂空间布局中太模糊，导致计数、拓扑关系和空间推理任务中出现逻辑断裂。官方 README 称，该方法基于 DeepSeek-V4-Flash 架构，将每 4 个视觉 token 的 KV cache 压缩成 1 个条目，在较低图像 token 预算下，仍可在计数和空间推理 benchmark 上匹配 GPT-5.4、Claude-Sonnet-4.6、Gemini-3-Flash 等前沿模型。

指标	数据
项目	Thinking with Visual Primitives
发布时间	2026-04-30
核心问题	Reference Gap / 复杂空间指代困难
核心机制	将点、边界框等视觉原语插入推理轨迹
架构基础	DeepSeek-V4-Flash
开源状态	技术报告已发布；模型权重计划后续集成到基础模型发布

DeepSeek GitHub · IT之家 · 机器之心 / 新浪科技

Claude Security：Opus 4.7 进入企业漏洞扫描和修复工作流

Anthropic 4 月 30 日宣布，Claude Security 面向 Claude Enterprise 客户进入 public beta。该产品由 Claude Opus 4.7 驱动，可扫描代码仓库、推理组件交互和数据流，给出漏洞解释、置信度、严重性、复现路径，并生成定向修复建议。Claude Security 此前名为 Claude Code Security，已经在数百家组织的有限研究预览中测试。

它的产品形态很清楚：从 Claude.ai 侧边栏或 claude.ai/security 进入，选择仓库、目录或分支后发起扫描。Anthropic 强调它不是传统 pattern matching 扫描器，而是像安全研究员一样阅读源代码和跨文件追踪逻辑。合作生态也同步展开：CrowdStrike、Microsoft Security、Palo Alto Networks、SentinelOne、TrendAI、Wiz 等安全平台正在嵌入 Opus 4.7；Accenture、BCG、Deloitte、Infosys、PwC 等服务伙伴则帮助企业部署。

AI 安全产品正在从“模型能不能发现漏洞”走向“漏洞发现后能不能进入企业漏洞管理闭环”。真正有价值的不是产生更多告警，而是降低误报、提升置信度、把发现转为可合并补丁，并与审计和工单系统衔接。

Anthropic / Claude · CrowdStrike · Economic Times

GS-Playground：视觉中心机器人仿真框架开源

5 月 1 日，量子位报道清华 AIR DISCOVER Lab 联合谋先飞技术、原力灵机、求之科技和地瓜机器人提出 GS-Playground 通用多模态仿真框架。该框架面向视觉中心的机器人学习，目标是在高吞吐量并行物理仿真与高保真视觉渲染之间取得平衡，成果已被 RSS 2026 录用。

GS-Playground 原生支持 CPU / GPU 双后端，以及 Windows / Linux / macOS 多系统运行，适配四足机器人、全尺寸人形机器人、多自由度工业机械臂等形态，并兼容 MuJoCo MJCF 格式。报道提到，在 Franka Panda 动态抓取摇晃测试中，GS-Playground CPU 后端在 0.002s 和 0.01s 时间步下均实现 90/90 完整保持成功率；在 27 自由度人形机器人复杂多体交互基准中，单环境扩展到 50 个机器人时仍保持 1015 FPS 稳定吞吐，相比 MuJoCo 加速 32 倍。

这类仿真基础设施对具身智能很关键。视觉模型、VLA 和世界动作模型都需要大量可控环境来训练和验证，如果仿真平台同时做到物理可信、视觉真实和吞吐足够高，机器人从仿真迁移到真机的成本会明显下降。

量子位

MotuBrain：生数科技认领世界动作模型，跨 benchmark 登顶

4 月 30 日，量子位报道生数科技认领此前登顶多个具身智能 benchmark 的神秘模型 MotuBrain。MotuBrain 被描述为同时具备世界模型预测推演能力和动作指令输出能力的 World Action Model，继承了生数科技 2025 年 12 月开源的通用基座世界模型 Motus 的核心技术架构。

报道称，MotuBrain 在 WorldArena 上拿下运动质量、动作平滑度等关键维度第一；在 RoboTwin2.0 上，面对 50 个抓取、放置、推、拉、旋转等任务，在 Clean 和 Randomized 两类环境下分别达到 95.8 和 96.1，是榜单上唯一一个随机环境平均分超过 95 的模型。

这条线索把视频生成、世界模型和机器人执行连接起来。AI 视频公司进入具身智能，并不只是“跨界做机器人”，而是把对物理运动、时序和场景变化的建模能力，迁移到可执行动作上。未来视频模型与机器人策略之间的边界会继续变薄。

量子位

融资与交易

Microsoft × OpenAI 协议调整：OpenAI 多云分发获得正式空间

OpenAI 与 Microsoft 4 月 27 日联合宣布修订合作协议。根据双方公告，Microsoft 仍是 OpenAI 的主要云合作伙伴，OpenAI 产品会优先在 Azure 上发布，除非 Microsoft 无法或选择不支持所需能力；OpenAI 现在可以在任意云服务商上向客户提供其所有产品。Microsoft 对 OpenAI 模型和产品 IP 的许可延长至 2032 年，但从独占变成非独占；Microsoft 不再向 OpenAI 支付收入分成，OpenAI 向 Microsoft 的收入分成则持续到 2030 年，并设总上限。

这解释了为什么 OpenAI 模型能快速进入 Amazon Bedrock。企业客户正在要求模型多云、工具多端、Agent 多运行时，OpenAI 如果要做“AI 基础设施层”，就不能只绑定单一云。对 Microsoft 来说，非独占许可和股东身份仍保留长期收益；对 AWS 来说，Bedrock 获得 OpenAI 前沿模型和 Codex 后，企业 AI 控制台的竞争力显著增强。

日期	参与方	金额 / 条款	内容
2026-04-27	Microsoft / OpenAI	IP 许可至 2032；OpenAI 向 Microsoft 收入分成至 2030 并设上限	OpenAI 可跨云分发产品，Microsoft 仍为主要云合作伙伴
2026-04-28	AWS / OpenAI	limited preview	OpenAI 模型、Codex、Managed Agents 接入 Amazon Bedrock

OpenAI · Microsoft · AWS

全球产业动态

Stargate 提前超过 10GW 美国算力目标：GPT-5.5 来自 Abilene 站点

OpenAI 4 月 29 日发布算力基础设施文章，称 Stargate 是其长期构建 AGI 算力基础的项目。OpenAI 表示，2025 年 1 月宣布到 2029 年在美国 securing 10GW AI infrastructure 的目标后，当前已提前超过这一目标；过去 90 天新增超过 3GW。公司还表示，正在和云、数据中心、芯片、能源、施工、金融、公共部门和地方社区伙伴一起评估更多数据中心地点。

文章披露，GPT-5.5 训练于德州 Abilene 的 Stargate 旗舰站点，该站点运行在 Oracle Cloud Infrastructure 和 NVIDIA GB200 系统上。OpenAI 也特别强调数据中心的社区和水资源问题：Abilene 使用闭环冷却系统，初次注水后循环使用，而非传统蒸发式冷却塔。

这条动态把近期一系列事件串起来：AWS / OpenAI / Microsoft 协议调整、Oracle 数据中心、Meta 能源协议、Qualcomm 数据中心芯片、AI 评测成本，都说明 AI 竞争越来越像基础设施竞赛。模型能力背后，是电力、土地、许可、冷却、芯片、云承诺和社区关系的组合工程。

OpenAI

OpenAI 被曝准备手机版 Codex：移动端成为 Agent 控制面

IT之家 5 月 1 日援引 9to5Mac 报道称，OpenAI 内部计划将 Codex 从桌面扩展到移动端，推出 iPhone 配套应用，并把产品定位从 Agentic Coding 扩展到通用生产力工具。报道称，Mac 版 Codex 新版本出现“你从事什么类型的工作？”提示，选项覆盖工程、财务、营销等方向，界面会根据用户角色调整。

如果这一方向成真，移动端 Codex 不只是“手机上写代码”，而更像后台 Agent 的口袋控制台：开发者可以在手机上查看长任务、接收反馈、审批 diff、通过语音或触控处理自动化任务。企业 Agent 的下一步可能不是所有工作都在手机上完成，而是让手机成为授权、监控和确认的轻量入口。

IT之家

腾讯 Hy-MT1.5 端侧翻译：0.4GB 模型支持 33 种语言离线运行

4 月 29 日，腾讯混元推出并开源 Hy-MT1.5-1.8B-1.25bit-GGUF，将 1.8B 参数翻译模型量化压缩到约 440MB，支持 33 种语言和 1056 个翻译方向，可在手机本地离线运行。量子位报道称，原始 FP16 模型占用约 3.3GB 内存，腾讯提供 2-bit 和 1.25-bit 两种极致量化方案，并推出适配后台取词模式的“腾讯混元翻译 Demo 版”。

端侧翻译是一个很朴素但重要的场景：用户对隐私、延迟、离线可用和成本非常敏感。随着端侧芯片和量化技术成熟，小模型不一定要和云端大模型比“全能”，而是会在翻译、OCR、语音、个人知识库、车机和可穿戴设备里承担稳定、低成本、隐私友好的基础能力。

量子位

关键数据一览

指标	数据
AWS / OpenAI Bedrock 新能力	OpenAI 模型、Codex、Managed Agents，均为 limited preview
Bedrock 企业控制	IAM、PrivateLink、guardrails、加密、CloudTrail 日志
DeepSeek Visual Primitives 发布时间	2026-04-30
DeepSeek Visual Primitives 方法	点、边界框等视觉原语作为推理最小单元
DeepSeek 视觉 token 优化	每 4 个视觉 token 的 KV cache 压缩为 1 个条目
Claude Security 状态	2026-04-30 public beta，面向 Claude Enterprise
Claude Security 模型	Claude Opus 4.7
GS-Playground 会议	RSS 2026 录用
GS-Playground 人形机器人基准	50 个机器人单环境，CPU 后端 1015 FPS
MotuBrain RoboTwin2.0	Clean 95.8，Randomized 96.1
OpenAI Stargate	已超过 2029 年美国 10GW AI infrastructure 目标
Stargate 近期新增	过去 90 天新增超过 3GW
GPT-5.5 训练站点	Abilene Stargate，OCI + NVIDIA GB200
Hy-MT1.5 端侧翻译模型	约 440MB，支持 33 种语言、1056 个翻译方向

Sources

AWS - Amazon Bedrock now offers OpenAI models, Codex, and Managed Agents - 支撑 Bedrock 接入 OpenAI 模型、Codex、Managed Agents、企业控制和 limited preview 信息。
Amazon - AWS and OpenAI announce expanded partnership - 支撑 AWS / OpenAI 合作、Bedrock 企业交付和关键产品摘要。
量子位 - “云计算一哥”版龙虾发布 - 支撑 Amazon Quick、Bedrock、Connect 和中文报道语境。
DeepSeek GitHub - Thinking with Visual Primitives - 支撑 DeepSeek 多模态技术报告、视觉原语、Reference Gap 和 token 效率说明。
IT之家 - DeepSeek 公布多模态模型技术报告 - 支撑 DeepSeek 技术报告的中文报道与空间推理框架说明。
机器之心 / 新浪科技 - DeepSeek 多模态技术范式公布 - 支撑 DeepSeek 多模态项目、报告链接和研究背景。
Claude - Claude Security is now in public beta - 支撑 Claude Security 公测、功能、Opus 4.7、合作伙伴和访问方式。
CrowdStrike - Opus 4.7 across Falcon and Project QuiltWorks - 支撑 CrowdStrike 集成 Opus 4.7 与 Claude Security 背景。
量子位 - GS-Playground 具身智能仿真框架 - 支撑 GS-Playground 开源、RSS 2026、性能指标和适配范围。
量子位 - 生数科技 MotuBrain - 支撑 MotuBrain、WorldArena、RoboTwin2.0 和世界动作模型信息。
OpenAI - Building the compute infrastructure for the Intelligence Age - 支撑 Stargate、10GW 目标、3GW 新增、Abilene 站点和 GPT-5.5 训练信息。
OpenAI - The next phase of the Microsoft OpenAI partnership - 支撑 OpenAI 与 Microsoft 修订合作协议。
Microsoft - The next phase of the Microsoft-OpenAI partnership - 支撑 Microsoft 官方协议条款说明。
IT之家 - OpenAI 被曝将推出手机版 Codex - 支撑移动端 Codex 和通用生产力工具方向传闻。
量子位 - 腾讯开源手机端离线翻译模型 - 支撑 Hy-MT1.5-1.8B-1.25bit-GGUF、440MB、33 语言和离线运行信息。

本 Newsletter 基于公开信息整理，重点覆盖 2026 年 4 月 29 日至 2026 年 5 月 1 日期间新增、更新或集中发酵的 AI 动态；所有信息均来自公开来源，不构成投资建议。

头条要闻​

AWS × OpenAI：Bedrock 接入 OpenAI 模型、Codex 与 Managed Agents​

模型发布与更新​

DeepSeek Visual Primitives：让多模态模型“边推理边指向”​

Claude Security：Opus 4.7 进入企业漏洞扫描和修复工作流​

GS-Playground：视觉中心机器人仿真框架开源​

MotuBrain：生数科技认领世界动作模型，跨 benchmark 登顶​

融资与交易​

Microsoft × OpenAI 协议调整：OpenAI 多云分发获得正式空间​

全球产业动态​

Stargate 提前超过 10GW 美国算力目标：GPT-5.5 来自 Abilene 站点​

OpenAI 被曝准备手机版 Codex：移动端成为 Agent 控制面​

腾讯 Hy-MT1.5 端侧翻译：0.4GB 模型支持 33 种语言离线运行​

关键数据一览​

Sources​