2026-05-01 AI 动态
- AWS 将 OpenAI 模型、Codex 和 Managed Agents 接入 Bedrock。
- DeepSeek 发布 Thinking with Visual Primitives 多模态技术报告。
- Anthropic 开放 Claude Security 公测,用 Opus 4.7 扫描代码漏洞。
- GS-Playground 开源,视觉中心机器人仿真进入高吞吐训练阶段。
- OpenAI 称 Stargate 已提前超过美国 10GW 算力目标。
头条要闻
AWS × OpenAI:Bedrock 接入 OpenAI 模型、Codex 与 Managed Agents
AWS 4 月 28 日宣布,Amazon Bedrock 将以 limited preview 形式提供三项 OpenAI 能力:最新 OpenAI 模型、Codex on Amazon Bedrock,以及由 OpenAI 驱动的 Amazon Bedrock Managed Agents。量子位 4 月 29 日也跟进了这场 AWS “What’s Next” 发布会,把它称为“云计算一哥”版 Agent 发布。
这次合作的重点不只是“OpenAI 模型多了一个云入口”。AWS 官方说明称,OpenAI 模型在 Bedrock 上会继承 IAM、AWS PrivateLink、guardrails、加密和 CloudTrail 日志等企业级控制;Codex 可通过 AWS 凭证运行推理,并从 Codex CLI、桌面应用和 VS Code 扩展接入;Managed Agents 则把 OpenAI 前沿模型和 agent harness 放到 AWS 托管运行时中,每个 agent 都有独立身份、动作日志,并在客户环境中运行。
这说明企业 Agent 的竞争正在进入云平台控制面。模型是否聪明仍重要,但企业真正部署时,还要看身份、日志、合规、网络隔离、计费承诺、记忆、技能和计算环境能不能被统一管理。微软与 OpenAI 合作协议调整后,OpenAI 模型向多云分发,正把“模型公司 + 云平台 + Agent 运行时”推成新的企业 AI 交付结构。
模型发布与更新
DeepSeek Visual Primitives:让多模态模型“边推理边指向”
4 月 30 日,DeepSeek 在 GitHub 发布 Thinking with Visual Primitives 项目和技术报告,提出“基于视觉原语的思考”框架。该框架把点、边界框等空间标记作为模型推理过程中的最小思维单元,让模型在思考链中直接引用图像坐标,而不是只用自然语言描述“左边那个”“中间偏右的物体”。
DeepSeek 将当前多模态模型的这一瓶颈称为 Reference Gap:模型能看清图像细节,但语言指代在复杂空间布局中太模糊,导致计数、拓扑关系和空间推理任务中出现逻辑断裂。官方 README 称,该方法基于 DeepSeek-V4-Flash 架构,将每 4 个视觉 token 的 KV cache 压缩成 1 个条目,在较低图像 token 预算下,仍可在计数和空间推理 benchmark 上匹配 GPT-5.4、Claude-Sonnet-4.6、Gemini-3-Flash 等前沿模型。
| 指标 | 数据 |
|---|---|
| 项目 | Thinking with Visual Primitives |
| 发布时间 | 2026-04-30 |
| 核心问题 | Reference Gap / 复杂空间指代困难 |
| 核心机制 | 将点、边界框等视觉原语插入推理轨迹 |
| 架构基础 | DeepSeek-V4-Flash |
| 开源状态 | 技术报告已发布;模型权重计划后续集成到基础模型发布 |
DeepSeek GitHub · IT之家 · 机器之心 / 新浪科技
Claude Security:Opus 4.7 进入企业漏洞扫描和修复工作流
Anthropic 4 月 30 日宣布,Claude Security 面向 Claude Enterprise 客户进入 public beta。该产品由 Claude Opus 4.7 驱动,可扫描代码仓库、推理组件交互和数据流,给出漏洞解释、置信度、严重性、复现路径,并生成定向修复建议。Claude Security 此前名为 Claude Code Security,已经在数百家组织的有限研究预览中测试。
它的产品形态很清楚:从 Claude.ai 侧边栏或 claude.ai/security 进入,选择仓库、目录或分支后发起扫描。Anthropic 强调它不是传统 pattern matching 扫描器,而是像安全研究员一样阅读源代码和跨文件追踪逻辑。合作生态也同步展开:CrowdStrike、Microsoft Security、Palo Alto Networks、SentinelOne、TrendAI、Wiz 等安全平台正在嵌入 Opus 4.7;Accenture、BCG、Deloitte、Infosys、PwC 等服务伙伴则帮助企业部署。
AI 安全产品正在从“模型能不能发现漏洞”走向“漏洞发现后能不能进入企业漏洞管理闭环”。真正有价值的不是产生更多告警,而是降低误报、提升置信度、把发现转为可合并补丁,并与审计和工单系统衔接。
Anthropic / Claude · CrowdStrike · Economic Times
GS-Playground:视觉中心机器人仿真框架开源
5 月 1 日,量子位报道清华 AIR DISCOVER Lab 联合谋先飞技术、原力灵机、求之科技和地瓜机器人提出 GS-Playground 通用多模态仿真框架。该框架面向视觉中心的机器人学习,目标是在高吞吐量并行物理仿真与高保真视觉渲染之间取得平衡,成果已被 RSS 2026 录用。
GS-Playground 原生支持 CPU / GPU 双后端,以及 Windows / Linux / macOS 多系统运行,适配四足机器人、全尺寸人形机器人、多自由度工业机械臂等形态,并兼容 MuJoCo MJCF 格式。报道提到,在 Franka Panda 动态抓取摇晃测试中,GS-Playground CPU 后端在 0.002s 和 0.01s 时间步下均实现 90/90 完整保持成功率;在 27 自由度人形机器人复杂多体交互基准中,单环境扩展到 50 个机器人时仍保持 1015 FPS 稳定吞吐,相比 MuJoCo 加速 32 倍。
这类仿真基础设施对具身智能很关键。视觉模型、VLA 和世界动作模型都需要大量可控环境来训练和验证,如果仿真平台同时做到物理可信、视觉真实和吞吐足够高,机器人从仿真迁移到真机的成本会明显下降。
MotuBrain:生数科技认领世界动作模型,跨 benchmark 登顶
4 月 30 日,量子位报道生数科技认领此前登顶多个具身智能 benchmark 的神秘模型 MotuBrain。MotuBrain 被描述为同时具备世界模型预测推演能力和动作指令输出能力的 World Action Model,继承了生数科技 2025 年 12 月开源的通用基座世界模型 Motus 的核心技术架构。
报道称,MotuBrain 在 WorldArena 上拿下运动质量、动作平滑度等关键维度第一;在 RoboTwin2.0 上,面对 50 个抓取、放置、推、拉、旋转等任务,在 Clean 和 Randomized 两类环境下分别达到 95.8 和 96.1,是榜单上唯一一个随机环境平均分超过 95 的模型。
这条线索把视频生成、世界模型和机器人执行连接起来。AI 视频公司进入具身智能,并不只是“跨界做机器人”,而是把对物理运动、时序和场景变化的建模能力,迁移到可执行动作上。未来视频模型与机器人策略之间的边界会继续变薄。
融资与交易
Microsoft × OpenAI 协议调整:OpenAI 多云分发获得正式空间
OpenAI 与 Microsoft 4 月 27 日联合宣布修订合作协议。根据双方公告,Microsoft 仍是 OpenAI 的主要云合作伙伴,OpenAI 产品会优先在 Azure 上发布,除非 Microsoft 无法或选择不支持所需能力;OpenAI 现在可以在任意云服务商上向客户提供其所有产品。Microsoft 对 OpenAI 模型和产品 IP 的许可延长至 2032 年,但从独占变成非独占;Microsoft 不再向 OpenAI 支付收入分成,OpenAI 向 Microsoft 的收入分成则持续到 2030 年,并设总上限。
这解释了为什么 OpenAI 模型能快速进入 Amazon Bedrock。企业客户正在要求模型多云、工具多端、Agent 多运行时,OpenAI 如果要做“AI 基础设施层”,就不能只绑定单一云。对 Microsoft 来说,非独占许可和股东身份仍保留长期收益;对 AWS 来说,Bedrock 获得 OpenAI 前沿模型和 Codex 后,企业 AI 控制台的竞争力显著增强。
| 日期 | 参与方 | 金额 / 条款 | 内容 |
|---|---|---|---|
| 2026-04-27 | Microsoft / OpenAI | IP 许可至 2032;OpenAI 向 Microsoft 收入分成至 2030 并设上限 | OpenAI 可跨云分发产品,Microsoft 仍为主要云合作伙伴 |
| 2026-04-28 | AWS / OpenAI | limited preview | OpenAI 模型、Codex、Managed Agents 接入 Amazon Bedrock |
全球产业动态
Stargate 提前超过 10GW 美国算力目标:GPT-5.5 来自 Abilene 站点
OpenAI 4 月 29 日发布算力基础设施文章,称 Stargate 是其长期构建 AGI 算力基础的项目。OpenAI 表示,2025 年 1 月宣布到 2029 年在美国 securing 10GW AI infrastructure 的目标后,当前已提前超过这一目标;过去 90 天新增超过 3GW。公司还表示,正在和云、数据中心、芯片、能源、施工、金融、公共部门和地方社区伙伴一起评估更多数据中心地点。
文章披露,GPT-5.5 训练于德州 Abilene 的 Stargate 旗舰站点,该站点运行在 Oracle Cloud Infrastructure 和 NVIDIA GB200 系统上。OpenAI 也特别强调数据中心的社区和水资源问题:Abilene 使用闭环冷却系统,初次注水后循环使用,而非传统蒸发式冷却塔。
这条动态把近期一系列事件串起来:AWS / OpenAI / Microsoft 协议调整、Oracle 数据中心、Meta 能源协议、Qualcomm 数据中心芯片、AI 评测成本,都说明 AI 竞争越来越像基础设施竞赛。模型能力背后,是电力、土地、许可、冷却、芯片、云承诺和社区关系的组合工程。
OpenAI 被曝准备手机版 Codex:移动端成为 Agent 控制面
IT之家 5 月 1 日援引 9to5Mac 报道称,OpenAI 内部计划将 Codex 从桌面扩展到移动端,推出 iPhone 配套应用,并把产品定位从 Agentic Coding 扩展到通用生产力工具。报道称,Mac 版 Codex 新版本出现“你从事什么类型的工作?”提示,选项覆盖工程、财务、营销等方向,界面会根据用户角色调整。
如果这一方向成真,移动端 Codex 不只是“手机上写代码”,而更像后台 Agent 的口袋控制台:开发者可以在手机上查看长任务、接收反馈、审批 diff、通过语音或触控处理自动化任务。企业 Agent 的下一步可能不是所有工作都在手机上完成,而是让手机成为授权、监控和确认的轻量入口。
腾讯 Hy-MT1.5 端侧翻译:0.4GB 模型支持 33 种语言离线运行
4 月 29 日,腾讯混元推出并开源 Hy-MT1.5-1.8B-1.25bit-GGUF,将 1.8B 参数翻译模型量化压缩到约 440MB,支持 33 种语言和 1056 个翻译方向,可在手机本地离线运行。量子位报道称,原始 FP16 模型占用约 3.3GB 内存,腾讯提供 2-bit 和 1.25-bit 两种极致量化方案,并推出适配后台取词模式的“腾讯混元翻译 Demo 版”。
端侧翻译是一个很朴素但重要的场景:用户对隐私、延迟、离线可用和成本非常敏感。随着端侧芯片和量化技术成熟,小模型不一定要和云端大模型比“全能”,而是会在翻译、OCR、语音、个人知识库、车机和可穿戴设备里承担稳定、低成本、隐私友好的基础能力。
关键数据一览
| 指标 | 数据 |
|---|---|
| AWS / OpenAI Bedrock 新能力 | OpenAI 模型、Codex、Managed Agents,均为 limited preview |
| Bedrock 企业控制 | IAM、PrivateLink、guardrails、加密、CloudTrail 日志 |
| DeepSeek Visual Primitives 发布时间 | 2026-04-30 |
| DeepSeek Visual Primitives 方法 | 点、边界框等视觉原语作为推理最小单元 |
| DeepSeek 视觉 token 优化 | 每 4 个视觉 token 的 KV cache 压缩为 1 个条目 |
| Claude Security 状态 | 2026-04-30 public beta,面向 Claude Enterprise |
| Claude Security 模型 | Claude Opus 4.7 |
| GS-Playground 会议 | RSS 2026 录用 |
| GS-Playground 人形机器人基准 | 50 个机器人单环境,CPU 后端 1015 FPS |
| MotuBrain RoboTwin2.0 | Clean 95.8,Randomized 96.1 |
| OpenAI Stargate | 已超过 2029 年美国 10GW AI infrastructure 目标 |
| Stargate 近期新增 | 过去 90 天新增超过 3GW |
| GPT-5.5 训练站点 | Abilene Stargate,OCI + NVIDIA GB200 |
| Hy-MT1.5 端侧翻译模型 | 约 440MB,支持 33 种语言、1056 个翻译方向 |
Sources
- AWS - Amazon Bedrock now offers OpenAI models, Codex, and Managed Agents - 支撑 Bedrock 接入 OpenAI 模型、Codex、Managed Agents、企业控制和 limited preview 信息。
- Amazon - AWS and OpenAI announce expanded partnership - 支撑 AWS / OpenAI 合作、Bedrock 企业交付和关键产品摘要。
- 量子位 - “云计算一哥”版龙虾发布 - 支撑 Amazon Quick、Bedrock、Connect 和中文报道语境。
- DeepSeek GitHub - Thinking with Visual Primitives - 支撑 DeepSeek 多模态技术报告、视觉原语、Reference Gap 和 token 效率说明。
- IT之家 - DeepSeek 公布多模态模型技术报告 - 支撑 DeepSeek 技术报告的中文报道与空间推理框架说明。
- 机器之心 / 新浪科技 - DeepSeek 多模态技术范式公布 - 支撑 DeepSeek 多模态项目、报告链接和研究背景。
- Claude - Claude Security is now in public beta - 支撑 Claude Security 公测、功能、Opus 4.7、合作伙伴和访问方式。
- CrowdStrike - Opus 4.7 across Falcon and Project QuiltWorks - 支撑 CrowdStrike 集成 Opus 4.7 与 Claude Security 背景。
- 量子位 - GS-Playground 具身智能仿真框架 - 支撑 GS-Playground 开源、RSS 2026、性能指标和适配范围。
- 量子位 - 生数科技 MotuBrain - 支撑 MotuBrain、WorldArena、RoboTwin2.0 和世界动作模型信息。
- OpenAI - Building the compute infrastructure for the Intelligence Age - 支撑 Stargate、10GW 目标、3GW 新增、Abilene 站点和 GPT-5.5 训练信息。
- OpenAI - The next phase of the Microsoft OpenAI partnership - 支撑 OpenAI 与 Microsoft 修订合作协议。
- Microsoft - The next phase of the Microsoft-OpenAI partnership - 支撑 Microsoft 官方协议条款说明。
- IT之家 - OpenAI 被曝将推出手机版 Codex - 支撑移动端 Codex 和通用生产力工具方向传闻。
- 量子位 - 腾讯开源手机端离线翻译模型 - 支撑 Hy-MT1.5-1.8B-1.25bit-GGUF、440MB、33 语言和离线运行信息。
本 Newsletter 基于公开信息整理,重点覆盖 2026 年 4 月 29 日至 2026 年 5 月 1 日期间新增、更新或集中发酵的 AI 动态;所有信息均来自公开来源,不构成投资建议。