跳到主要内容

2026-05-01 AI 动态

· 阅读需 14 分钟
本期焦点
  1. AWS 将 OpenAI 模型、Codex 和 Managed Agents 接入 Bedrock。
  2. DeepSeek 发布 Thinking with Visual Primitives 多模态技术报告。
  3. Anthropic 开放 Claude Security 公测,用 Opus 4.7 扫描代码漏洞。
  4. GS-Playground 开源,视觉中心机器人仿真进入高吞吐训练阶段。
  5. OpenAI 称 Stargate 已提前超过美国 10GW 算力目标。

头条要闻

AWS × OpenAI:Bedrock 接入 OpenAI 模型、Codex 与 Managed Agents

AWS 4 月 28 日宣布,Amazon Bedrock 将以 limited preview 形式提供三项 OpenAI 能力:最新 OpenAI 模型、Codex on Amazon Bedrock,以及由 OpenAI 驱动的 Amazon Bedrock Managed Agents。量子位 4 月 29 日也跟进了这场 AWS “What’s Next” 发布会,把它称为“云计算一哥”版 Agent 发布。

这次合作的重点不只是“OpenAI 模型多了一个云入口”。AWS 官方说明称,OpenAI 模型在 Bedrock 上会继承 IAM、AWS PrivateLink、guardrails、加密和 CloudTrail 日志等企业级控制;Codex 可通过 AWS 凭证运行推理,并从 Codex CLI、桌面应用和 VS Code 扩展接入;Managed Agents 则把 OpenAI 前沿模型和 agent harness 放到 AWS 托管运行时中,每个 agent 都有独立身份、动作日志,并在客户环境中运行。

这说明企业 Agent 的竞争正在进入云平台控制面。模型是否聪明仍重要,但企业真正部署时,还要看身份、日志、合规、网络隔离、计费承诺、记忆、技能和计算环境能不能被统一管理。微软与 OpenAI 合作协议调整后,OpenAI 模型向多云分发,正把“模型公司 + 云平台 + Agent 运行时”推成新的企业 AI 交付结构。

AWS · Amazon · 量子位


模型发布与更新

DeepSeek Visual Primitives:让多模态模型“边推理边指向”

4 月 30 日,DeepSeek 在 GitHub 发布 Thinking with Visual Primitives 项目和技术报告,提出“基于视觉原语的思考”框架。该框架把点、边界框等空间标记作为模型推理过程中的最小思维单元,让模型在思考链中直接引用图像坐标,而不是只用自然语言描述“左边那个”“中间偏右的物体”。

DeepSeek 将当前多模态模型的这一瓶颈称为 Reference Gap:模型能看清图像细节,但语言指代在复杂空间布局中太模糊,导致计数、拓扑关系和空间推理任务中出现逻辑断裂。官方 README 称,该方法基于 DeepSeek-V4-Flash 架构,将每 4 个视觉 token 的 KV cache 压缩成 1 个条目,在较低图像 token 预算下,仍可在计数和空间推理 benchmark 上匹配 GPT-5.4、Claude-Sonnet-4.6、Gemini-3-Flash 等前沿模型。

指标数据
项目Thinking with Visual Primitives
发布时间2026-04-30
核心问题Reference Gap / 复杂空间指代困难
核心机制将点、边界框等视觉原语插入推理轨迹
架构基础DeepSeek-V4-Flash
开源状态技术报告已发布;模型权重计划后续集成到基础模型发布

DeepSeek GitHub · IT之家 · 机器之心 / 新浪科技


Claude Security:Opus 4.7 进入企业漏洞扫描和修复工作流

Anthropic 4 月 30 日宣布,Claude Security 面向 Claude Enterprise 客户进入 public beta。该产品由 Claude Opus 4.7 驱动,可扫描代码仓库、推理组件交互和数据流,给出漏洞解释、置信度、严重性、复现路径,并生成定向修复建议。Claude Security 此前名为 Claude Code Security,已经在数百家组织的有限研究预览中测试。

它的产品形态很清楚:从 Claude.ai 侧边栏或 claude.ai/security 进入,选择仓库、目录或分支后发起扫描。Anthropic 强调它不是传统 pattern matching 扫描器,而是像安全研究员一样阅读源代码和跨文件追踪逻辑。合作生态也同步展开:CrowdStrike、Microsoft Security、Palo Alto Networks、SentinelOne、TrendAI、Wiz 等安全平台正在嵌入 Opus 4.7;Accenture、BCG、Deloitte、Infosys、PwC 等服务伙伴则帮助企业部署。

AI 安全产品正在从“模型能不能发现漏洞”走向“漏洞发现后能不能进入企业漏洞管理闭环”。真正有价值的不是产生更多告警,而是降低误报、提升置信度、把发现转为可合并补丁,并与审计和工单系统衔接。

Anthropic / Claude · CrowdStrike · Economic Times


GS-Playground:视觉中心机器人仿真框架开源

5 月 1 日,量子位报道清华 AIR DISCOVER Lab 联合谋先飞技术、原力灵机、求之科技和地瓜机器人提出 GS-Playground 通用多模态仿真框架。该框架面向视觉中心的机器人学习,目标是在高吞吐量并行物理仿真与高保真视觉渲染之间取得平衡,成果已被 RSS 2026 录用。

GS-Playground 原生支持 CPU / GPU 双后端,以及 Windows / Linux / macOS 多系统运行,适配四足机器人、全尺寸人形机器人、多自由度工业机械臂等形态,并兼容 MuJoCo MJCF 格式。报道提到,在 Franka Panda 动态抓取摇晃测试中,GS-Playground CPU 后端在 0.002s 和 0.01s 时间步下均实现 90/90 完整保持成功率;在 27 自由度人形机器人复杂多体交互基准中,单环境扩展到 50 个机器人时仍保持 1015 FPS 稳定吞吐,相比 MuJoCo 加速 32 倍。

这类仿真基础设施对具身智能很关键。视觉模型、VLA 和世界动作模型都需要大量可控环境来训练和验证,如果仿真平台同时做到物理可信、视觉真实和吞吐足够高,机器人从仿真迁移到真机的成本会明显下降。

量子位


MotuBrain:生数科技认领世界动作模型,跨 benchmark 登顶

4 月 30 日,量子位报道生数科技认领此前登顶多个具身智能 benchmark 的神秘模型 MotuBrain。MotuBrain 被描述为同时具备世界模型预测推演能力和动作指令输出能力的 World Action Model,继承了生数科技 2025 年 12 月开源的通用基座世界模型 Motus 的核心技术架构。

报道称,MotuBrain 在 WorldArena 上拿下运动质量、动作平滑度等关键维度第一;在 RoboTwin2.0 上,面对 50 个抓取、放置、推、拉、旋转等任务,在 Clean 和 Randomized 两类环境下分别达到 95.8 和 96.1,是榜单上唯一一个随机环境平均分超过 95 的模型。

这条线索把视频生成、世界模型和机器人执行连接起来。AI 视频公司进入具身智能,并不只是“跨界做机器人”,而是把对物理运动、时序和场景变化的建模能力,迁移到可执行动作上。未来视频模型与机器人策略之间的边界会继续变薄。

量子位


融资与交易

Microsoft × OpenAI 协议调整:OpenAI 多云分发获得正式空间

OpenAI 与 Microsoft 4 月 27 日联合宣布修订合作协议。根据双方公告,Microsoft 仍是 OpenAI 的主要云合作伙伴,OpenAI 产品会优先在 Azure 上发布,除非 Microsoft 无法或选择不支持所需能力;OpenAI 现在可以在任意云服务商上向客户提供其所有产品。Microsoft 对 OpenAI 模型和产品 IP 的许可延长至 2032 年,但从独占变成非独占;Microsoft 不再向 OpenAI 支付收入分成,OpenAI 向 Microsoft 的收入分成则持续到 2030 年,并设总上限。

这解释了为什么 OpenAI 模型能快速进入 Amazon Bedrock。企业客户正在要求模型多云、工具多端、Agent 多运行时,OpenAI 如果要做“AI 基础设施层”,就不能只绑定单一云。对 Microsoft 来说,非独占许可和股东身份仍保留长期收益;对 AWS 来说,Bedrock 获得 OpenAI 前沿模型和 Codex 后,企业 AI 控制台的竞争力显著增强。

日期参与方金额 / 条款内容
2026-04-27Microsoft / OpenAIIP 许可至 2032;OpenAI 向 Microsoft 收入分成至 2030 并设上限OpenAI 可跨云分发产品,Microsoft 仍为主要云合作伙伴
2026-04-28AWS / OpenAIlimited previewOpenAI 模型、Codex、Managed Agents 接入 Amazon Bedrock

OpenAI · Microsoft · AWS


全球产业动态

Stargate 提前超过 10GW 美国算力目标:GPT-5.5 来自 Abilene 站点

OpenAI 4 月 29 日发布算力基础设施文章,称 Stargate 是其长期构建 AGI 算力基础的项目。OpenAI 表示,2025 年 1 月宣布到 2029 年在美国 securing 10GW AI infrastructure 的目标后,当前已提前超过这一目标;过去 90 天新增超过 3GW。公司还表示,正在和云、数据中心、芯片、能源、施工、金融、公共部门和地方社区伙伴一起评估更多数据中心地点。

文章披露,GPT-5.5 训练于德州 Abilene 的 Stargate 旗舰站点,该站点运行在 Oracle Cloud Infrastructure 和 NVIDIA GB200 系统上。OpenAI 也特别强调数据中心的社区和水资源问题:Abilene 使用闭环冷却系统,初次注水后循环使用,而非传统蒸发式冷却塔。

这条动态把近期一系列事件串起来:AWS / OpenAI / Microsoft 协议调整、Oracle 数据中心、Meta 能源协议、Qualcomm 数据中心芯片、AI 评测成本,都说明 AI 竞争越来越像基础设施竞赛。模型能力背后,是电力、土地、许可、冷却、芯片、云承诺和社区关系的组合工程。

OpenAI


OpenAI 被曝准备手机版 Codex:移动端成为 Agent 控制面

IT之家 5 月 1 日援引 9to5Mac 报道称,OpenAI 内部计划将 Codex 从桌面扩展到移动端,推出 iPhone 配套应用,并把产品定位从 Agentic Coding 扩展到通用生产力工具。报道称,Mac 版 Codex 新版本出现“你从事什么类型的工作?”提示,选项覆盖工程、财务、营销等方向,界面会根据用户角色调整。

如果这一方向成真,移动端 Codex 不只是“手机上写代码”,而更像后台 Agent 的口袋控制台:开发者可以在手机上查看长任务、接收反馈、审批 diff、通过语音或触控处理自动化任务。企业 Agent 的下一步可能不是所有工作都在手机上完成,而是让手机成为授权、监控和确认的轻量入口。

IT之家


腾讯 Hy-MT1.5 端侧翻译:0.4GB 模型支持 33 种语言离线运行

4 月 29 日,腾讯混元推出并开源 Hy-MT1.5-1.8B-1.25bit-GGUF,将 1.8B 参数翻译模型量化压缩到约 440MB,支持 33 种语言和 1056 个翻译方向,可在手机本地离线运行。量子位报道称,原始 FP16 模型占用约 3.3GB 内存,腾讯提供 2-bit 和 1.25-bit 两种极致量化方案,并推出适配后台取词模式的“腾讯混元翻译 Demo 版”。

端侧翻译是一个很朴素但重要的场景:用户对隐私、延迟、离线可用和成本非常敏感。随着端侧芯片和量化技术成熟,小模型不一定要和云端大模型比“全能”,而是会在翻译、OCR、语音、个人知识库、车机和可穿戴设备里承担稳定、低成本、隐私友好的基础能力。

量子位


关键数据一览

指标数据
AWS / OpenAI Bedrock 新能力OpenAI 模型、Codex、Managed Agents,均为 limited preview
Bedrock 企业控制IAM、PrivateLink、guardrails、加密、CloudTrail 日志
DeepSeek Visual Primitives 发布时间2026-04-30
DeepSeek Visual Primitives 方法点、边界框等视觉原语作为推理最小单元
DeepSeek 视觉 token 优化每 4 个视觉 token 的 KV cache 压缩为 1 个条目
Claude Security 状态2026-04-30 public beta,面向 Claude Enterprise
Claude Security 模型Claude Opus 4.7
GS-Playground 会议RSS 2026 录用
GS-Playground 人形机器人基准50 个机器人单环境,CPU 后端 1015 FPS
MotuBrain RoboTwin2.0Clean 95.8,Randomized 96.1
OpenAI Stargate已超过 2029 年美国 10GW AI infrastructure 目标
Stargate 近期新增过去 90 天新增超过 3GW
GPT-5.5 训练站点Abilene Stargate,OCI + NVIDIA GB200
Hy-MT1.5 端侧翻译模型约 440MB,支持 33 种语言、1056 个翻译方向

Sources


本 Newsletter 基于公开信息整理,重点覆盖 2026 年 4 月 29 日至 2026 年 5 月 1 日期间新增、更新或集中发酵的 AI 动态;所有信息均来自公开来源,不构成投资建议。