2026-04 AI 月报

2026年4月30日 · 阅读需 13 分钟

本月判断

Agent 从单点工具进入生产系统，可靠性、记忆和权限成为核心问题。
长上下文与低成本推理并行推进，模型竞争开始转向工程成本。
具身智能从演示走向数据、评测、供应链和真实场景验证。
多模态模型继续扩展到图像、语音、视频、3D 世界和医疗视频。
AI 治理从内容审核扩展到训练数据、开源模型、网络安全和应用备案。

月度趋势

趋势一：Agent 从“助手”变成“工作单元”

4 月最清晰的主线是 Agent 产品形态的变化。月初到月末，OpenAI Agents SDK、Codex、GitHub Copilot、Google Gemini Enterprise Agent Platform、飞书项目 MCP、JiuwenClaw Team Skills、Stripe Agentic Commerce、QoderWake 等事件连在一起，说明 Agent 不再只是聊天窗口里的增强功能，而是正在被塞进 IDE、项目管理、企业数据云、支付钱包、浏览器自动化、办公表格和岗位流程里。

这个阶段的关键词不是“更会说”，而是“能不能长期可靠地做事”。Claude Code 质量波动 postmortem、QoderWake 的 Anti-Rot Governance、Hugging Face 对 Agent 评测成本的分析，都指向同一个问题：Agent 的质量由模型、提示、缓存、工具、权限、记忆、验证、成本和失败恢复共同决定。企业需要的是可审计、可回滚、可授权、可复盘的工作单元。

OpenAI Agents SDK · Google Cloud Next · Anthropic Engineering · 量子位

趋势二：模型能力继续上探，但成本结构开始主导采用

DeepSeek-V4、GPT-5.5、Claude Opus 4.7、Kimi K2.6、GLM-5.1、Granite 4.1 等模型更新，让 4 月的能力上限继续抬高。DeepSeek-V4 把 1M tokens 上下文放进官方服务，并在月底通过输入缓存命中降价把长上下文成本压低；GPT-5.5 则把 agentic coding、电脑使用、知识工作和早期科研作为主战场；Granite 4.1 代表另一条路线：小到中等规模、许可清晰、训练过程透明、最长 512K 上下文。

本月更值得关注的是“成本结构”开始影响模型叙事。百万上下文如果没有缓存与低价输入，很难进入高频 Agent 工作流；推理 GPU 公司曦望把目标说成“百万 Token 一分钱”；天翼云披露中国日均 AI Token 调用量在 2026 年 3 月突破 140 万亿；Hugging Face 则提醒 Agent 评测本身已经可能花掉数万到数十万美元。模型竞争正在从 benchmark 表格转向 token、缓存、推理芯片、评测成本和真实工作流吞吐。

DeepSeek API Docs · OpenAI GPT-5.5 · Hugging Face / IBM Granite · Hugging Face EvalEval

趋势三：具身智能从“机器人很酷”走向“数据和闭环很硬”

4 月的具身智能不再只是发布机器人视频。灵初智能发布 Psi-R2 / Psi-W0 和近 10 万小时人类操作数据，Google DeepMind 推出 Gemini Robotics-ER 1.6，Physical Intelligence 发布 π0.7，苏度科技推出 Sudo R1，元戎启行用 40B VLA 做自动驾驶研发闭环，蚂蚁灵波把 LingBot-World-Fast 开源并推向移动端交互世界模型。

资本侧也在加码：它石智航完成 4.55 亿美元 Pre-A，智象未来完成超 5 亿元融资，地瓜机器人 B 轮累计融资 2.7 亿美元，无界动力完成数千万元天使+轮。更关键的是，行业讨论从“本体能动起来”转向“数据怎么来、评测怎么做、闭环怎么跑、供应链怎么量产”。具身智能的护城河正在从单个 demo，迁移到真实数据、仿真环境、VLA 模型、机器人本体、供应链和场景交付。

Google DeepMind Robotics · 量子位 - 它石智航 · 量子位 - LingBot · 36氪 - 无界动力

趋势四：多模态从“生成内容”走向“交付场景”

图像、语音、视频、3D 和医疗视频在 4 月集中推进。百度 ERNIE-Image、ChatGPT Images 2.0、UniWorld-V2.5、腾讯混元 Hy3 preview、NVIDIA Nemotron 3 Nano Omni、Google Gemini 3.1 Flash TTS、xAI Grok STT / TTS、联影智能 uAI Nexus MedVLM、DeepSeek Vision 灰度测试，覆盖了从创意素材到端侧语音、从 3D 世界到医疗视频理解的不同层面。

多模态的竞争点正在变得更具体：能否生成中文密集文字和信息图，能否把网页截图复原为 HTML，能否在端侧实时理解语音，能否把单图变成可交互 3D 世界，能否用标准测试集衡量医疗视频理解。也就是说，多模态不再只是“看起来像”，而是要能进工作流、进设备、进临床研究和进生产工具链。

量子位 - UniWorld-V2.5 · NVIDIA Nemotron Nano Omni · 量子位 - uAI Nexus MedVLM · IT之家 - Hy3 preview

趋势五：治理进入训练链路、模型开放和行业部署

本月治理不只是内容审核。中国侧，拟人化互动服务管理办法、哩布哩布 AI 内容安全整改、“清朗 · 整治 AI 应用乱象”专项行动，把生成标识、训练语料安全、AI 数据投毒、开源模型安全、未成年人保护和 AI 托管网络水军都纳入治理范围。产业侧，“模数共振”行动把 AI 与工业数据融合放入制造业 20 个重点行业，AI 治理和 AI 产业化开始同时下沉到行业场景。

海外侧，OpenAI 推出 Trusted Access for Cyber，并在 4 月继续推进 GPT-5.4-Cyber / GPT-5.5-Cyber 这类受限访问网络安全模型；Google 与五角大楼 AI 协议引发员工反对；Meta Llama 版权案继续暴露训练数据来源争议；OpenAI 还复盘了奖励信号导致模型语言风格漂移的问题。这些事件说明，模型越强，治理越不可能只放在输出端，训练数据、奖励函数、访问权限、采购合同和开源生态都会成为治理对象。

OpenAI Trusted Access for Cyber · IT之家 - 清朗专项行动 · The Verge - Google Pentagon AI · OpenAI - Reward Drift

月度时间线

日期	事件	分类	影响
04-11	灵初智能发布 Psi-R2 / Psi-W0 与近 10 万小时操作数据	具身智能	机器人基础模型竞争转向数据资产
04-14	千问上线表格 Agent	Agent / 办公	AI 助手开始交付可编辑工作产物
04-15	百度开源 ERNIE-Image	多模态	国产文生图模型继续降低部署门槛
04-16	OpenAI Agents SDK 升级	Agent 工程	Agent 开发进入沙箱、长任务和受控执行阶段
04-16	它石智航完成 4.55 亿美元 Pre-A	融资 / 具身	中国具身智能资本热度继续上升
04-17	Claude Opus 4.7 发布	模型	长程编码、高分辨率视觉和安全分层合并推进
04-18	Gemini Robotics-ER 1.6 与 π0.7 成为焦点	机器人模型	具身推理和跨本体泛化成为机器人模型关键词
04-20	Kimi ABot 发布	AI 科研	AutoML 与自动科研进入多 Agent 阶段
04-21	Anthropic × Amazon 合作升级至 5GW	算力 / 云	模型公司与云、芯片、采购承诺进一步绑定
04-22	Kimi K2.6 开源	模型 / Coding Agent	长程编码与 Agent 集群成为国产模型竞争点
04-23	Google Cloud Next 推出企业 Agent 平台与 TPU 8	企业 AI / 基础设施	企业 Agent、数据云、安全和芯片组成完整产品栈
04-24	DeepSeek-V4 预览版上线	模型 / 开源	1M 上下文成为中文模型生态核心事件
04-24	GPT-5.5 发布并进入 API / Copilot 链路	模型 / 开发者工具	Coding Agent 迎来新一轮模型切换
04-25	UniWorld-V2.5 发布	图像生成	中文密集文字、GUI 和信息图生成成为新考场
04-26	Cohere 接管 Aleph Alpha	资本 / 主权 AI	模型、云和数据主权被打包进跨国整合
04-27	LingBot-World-Fast 开源	世界模型	世界模型进入移动端交互和本地部署语境
04-28	OpenAI 获 FedRAMP Moderate	政府 AI	GPT-5.5 与 Codex Cloud 进入美国联邦采购路径
04-29	腾讯混元 Hy3 preview 首秀	3D 生成	从单物体生成转向完整 3D 世界生成
04-29	Meta 签下太阳能与地热能源协议	AI 基础设施	AI 数据中心竞争延伸到电力和并网
04-30	QoderWake 发布	生产级 Agent	数字员工形态开始强调记忆、治理和岗位流程
04-30	Qwen-Scope 开源	可解释性	稀疏自编码器进入模型分析、控制和评测优化

模型与产品

方向	代表事件	月度观察
基础模型	DeepSeek-V4、GPT-5.5、Claude Opus 4.7、Kimi K2.6、Granite 4.1	上下文、编码、工具调用和许可透明度成为核心卖点
Agent 产品	Codex、Gemini Enterprise Agent Platform、QoderWake、飞书 MCP、Stripe Agentic Commerce	从个人助手走向企业工作单元和交易基础设施
图像 / 视觉	ERNIE-Image、ChatGPT Images 2.0、UniWorld-V2.5、DeepSeek Vision	重点从好看转向文字、布局、OCR、网页和工作流交付
语音	VoxCPM2、Gemini Flash TTS、Grok STT/TTS、Nemotron Nano Omni	多语种、低延迟和端侧推理成为语音模型重点
3D / 世界模型	LingBot-World-Fast、Hy3 preview、WALL-B、ABot-PhysWorld	3D 场景、交互世界和机器人仿真开始汇合
医疗与科学	uAI Nexus MedVLM、Novo Nordisk × OpenAI、10x Science	AI 从文献和办公提效进入视频理解、药物研发和科研基础设施

资本与交易

4 月资本动作集中在三类资产：算力、具身智能、垂直 Agent。算力侧，CoreWeave、Anthropic、Amazon、Google、Broadcom、Cerebras、Meta 能源协议、Qualcomm 数据中心定制芯片等事件，说明 AI 基础设施竞争继续从 GPU 扩展到 TPU、Trainium、定制芯片、电力、云采购和长期能源协议。

具身智能侧，它石智航、智象未来、地瓜机器人、无界动力、曦望等融资或融资信号显示，中国资本仍在押注机器人本体、世界模型、推理芯片和数据闭环。垂直 Agent 侧，Microsoft 收购 Fintool、Nextie 连续融资、NeoCognition 种子轮、Stripe 的 Agentic Commerce Suite，则表明资金正在寻找“模型之上的工作流层”。

治理与风险

4 月治理风险可以分成四层：

数据层：Meta Llama 版权案、训练数据来源争议、AI 数据投毒进入监管重点。
模型层：OpenAI 奖励信号跑偏、Qwen-Scope 可解释性、Claude Code 产品层质量波动。
应用层：哩布哩布 AI 整改、清朗专项行动、生成内容标识、未成年人保护。
访问层：GPT-5.5-Cyber、Claude Mythos、Google 国防 AI 协议、FedRAMP 授权。

这说明“AI 安全”不再是一个单独栏目，而是贯穿训练、部署、开放、采购、运营和内容分发的系统工程。

下月观察

DeepSeek-V4 的 1M 上下文和降价后，Agent 框架是否会改变上下文管理策略。
GPT-5.5 在 Codex、Copilot 和企业 API 中的真实迁移速度。
QoderWake、飞书 MCP、Stripe Agentic Commerce 这类生产级 Agent 是否能跑出可量化案例。
具身智能融资之后，哪些团队能交付稳定数据闭环，而不只是演示视频。
中国“清朗”专项行动和“模数共振”行动对 AI 应用平台、开源模型托管和工业场景的实际影响。
AI 数据中心能源、推理芯片和评测成本是否会成为 5 月更强的基础设施主线。

Sources

OpenAI - New tools for building agents - OpenAI Agents SDK、受控执行环境和 Agent 开发工具。
OpenAI - Introducing GPT-5.5 - GPT-5.5 能力定位、API、价格和安全口径。
DeepSeek API Docs - 模型与价格 - DeepSeek-V4 上下文、输出长度、价格和缓存命中降价。
Anthropic Engineering - Claude Code quality reports - Claude Code 质量波动、reasoning effort、缓存和系统提示问题。
Google Blog - Cloud Next 2026 recap - Gemini Enterprise Agent Platform、TPU 8、Agentic Data Cloud 和安全 Agent。
Hugging Face / IBM Granite - Granite 4.1 LLMs - Granite 4.1 模型规模、训练流程、512K 上下文和开源许可。
Hugging Face Blog - AI evals are becoming the new compute bottleneck - Agent 评测成本、HAL、GAIA 和可靠性成本。
量子位 - QoderWake - QoderWake 数字员工、Harness-First、Anti-Rot Governance 和提效案例。
量子位 - LingBot-World-Fast - LingBot-World-Fast 世界模型、实时性能和开源信息。
量子位 - uAI Nexus MedVLM - 医疗视频理解模型、MedVidBench、数据规模和任务覆盖。
NVIDIA - Nemotron Nano Omni - 端侧多语种语音模型、任务和性能信息。
Stripe - Sessions 2026 - Agentic Commerce、Agent 钱包、Google 合作和 288 项更新。
Meta - Powering AI and strengthening the grid - AI 数据中心能源、太阳能和地热项目。
IT之家 - 清朗专项行动 - 中央网信办整治 AI 应用乱象专项行动。
OpenAI - Where the goblins came from - 奖励信号跑偏、模型风格漂移和训练治理复盘。

本月报基于 2026 年 4 月 AI 行业公开信息与本站 4 月日报整理，重点覆盖 2026 年 4 月 11 日至 2026 年 4 月 30 日期间已收录的公开动态；所有信息均来自公开来源，不构成投资建议。

月度趋势​

趋势一：Agent 从“助手”变成“工作单元”​

趋势二：模型能力继续上探，但成本结构开始主导采用​

趋势三：具身智能从“机器人很酷”走向“数据和闭环很硬”​

趋势四：多模态从“生成内容”走向“交付场景”​

趋势五：治理进入训练链路、模型开放和行业部署​

月度时间线​

模型与产品​

资本与交易​

治理与风险​

下月观察​

Sources​