2026-04-30 AI 动态
- 阿里发布 QoderWake,把 Agent 产品推进到“数字员工”形态。
- DeepSeek 识图模式灰度测试,多模态路线开始露出端倪。
- Qwen-Scope 开源,用稀疏自编码器分析和控制 Qwen 模型行为。
- OpenAI 将向受信任防御者推出 GPT-5.5-Cyber。
- Stripe 发布 288 项更新,Agentic Commerce 进入支付与钱包层。
头条要闻
QoderWake:阿里把 Agent 从个人工具推向生产级数字员工
4 月 30 日,阿里发布数字员工产品 QoderWake 和 Qoder 移动端。量子位报道称,QoderWake 定位为安全可控、持续进化的生产级数字员工产品,可承担软件工程师、运营、分析师等岗位角色;目前已开启邀测,个人和企业可申请“雇佣”一位或多位数字员工,也可按自身业务流程定制。
QoderWake 采用 Harness-First 架构,把每次执行后的经验沉淀到记忆、技能、策略、验证规则和工作流五个维度,并通过 Anti-Rot Governance 机制淘汰过时经验、合并冲突和撤回失效策略。已上线的“数字程序员”可在代码更新时整理变更简报、遇到错误时先做诊断、出现告警时分诊并判断是否升级给人。报道提到,在单条问题根因分析任务中,QoderWake 将耗时从约 30 分钟压缩到 2 分钟。
这条动态的意义在于,Agent 产品正在从“帮单个人临时完成任务”走向“在岗位中长期积累经验”。企业真正需要的不是一次回答,而是能接住上下文、遵守流程、复盘失败、沉淀组织记忆并接受人类确认的工作单元。QoderWake、百度 GenFlow 4.0、Anthropic 的 Agent 工程实践和 Stripe 的 Agentic Commerce,正在从不同方向把 Agent 拉进真实生产系统。
模型发布与更新
DeepSeek Vision:识图模式灰度,思考与非思考能力差异明显
4 月 30 日,量子位实测称,DeepSeek 识图模式已进入灰度测试,且从行为上看可能是独立于 DeepSeek-V4-Flash / V4-Pro 的视觉模型。该模式支持是否开启深度思考:非思考模式响应很快,适合 OCR、表格识别、网页截图复原 HTML 等实用任务;深度思考模式在空间推理题上能给出更正确的答案,但也可能明显增加耗时。
实测也显示,DeepSeek Vision 仍有不稳定之处:图片找不同、色盲测试等任务中仍会出现幻觉或误判。更有意思的是,识图模式在世界知识表现上与 V4 文本模型有所不同,这让外界猜测它可能并不是简单给 V4 增加视觉输入层。对 DeepSeek 来说,V4 发布后的下一条重要线索,就是多模态能力如何与 1M 上下文、思考模式和工具调用体系融合。
| 指标 | 数据 |
|---|---|
| 产品形态 | DeepSeek 识图模式灰度测试 |
| 模式 | 非思考 / 深度思考 |
| 强项 | OCR、表格识别、网页截图转 HTML、基础图文理解 |
| 风险 | 空间推理耗时、找不同幻觉、色盲测试偶发错误 |
| 状态 | 官方尚未完整发布技术细节 |
Qwen-Scope:阿里千问开源可解释性模块
4 月 30 日,阿里千问宣布推出 Qwen-Scope。IT之家报道,Qwen-Scope 是基于 Qwen3 与 Qwen3.5 系列模型训练得到的可解释性模块,方法是在 Qwen 隐藏层插入稀疏自编码器并加以训练,从而自动提取解耦、低冗余、可解释的隐藏空间特征。
本次开源权重覆盖 Qwen3 和 Qwen3.5 系列的稠密模型与混合专家模型,共 7 个大模型、14 组稀疏自编码器权重,训练数据从对应模型预训练数据中采样 0.5B tokens。Qwen-Scope 可用于四类场景:在推理侧通过控制特征激活改变语言、实体或风格;在数据侧用少量种子数据做分类与定向合成;在训练侧定位语言混用、重复生成等低频问题;在评估侧分析样本覆盖与冗余,从而降低评测成本。
这类可解释性工具会变得越来越实用。模型能力越强,单纯看最终答案越不够;团队还需要知道模型为什么偏向某种输出、哪个特征在起作用、哪些评测集重复覆盖同一类能力。Qwen-Scope 的价值不只是“看懂模型”,还在于把可解释性变成训练、数据合成和评测优化的工程手段。
| 指标 | 数据 |
|---|---|
| 工具 | Qwen-Scope |
| 方法 | 稀疏自编码器 SAE |
| 覆盖模型 | Qwen3 / Qwen3.5 系列稠密与 MoE 模型 |
| 开源权重 | 7 个大模型,14 组 SAE 权重 |
| 训练采样 | 0.5B tokens |
| 入口 | Hugging Face、ModelScope、技术报告 |
Granite 4.1:IBM 开源 3B / 8B / 30B 稠密模型,最长 512K 上下文
Hugging Face 4 月 29 日发布 IBM Granite 团队文章,介绍 Granite 4.1 LLMs 的训练方法。Granite 4.1 是一组稠密 decoder-only 模型,包含 3B、8B、30B 三个尺寸,采用约 15T tokens 的多阶段预训练管线,并通过长上下文扩展把 8B 和 30B 模型扩到 512K tokens。模型还使用约 410 万条高质量样本做监督微调,并通过 on-policy GRPO 与 DAPO loss 做多阶段强化学习。
一个值得注意的点是,8B instruct 模型在部分指标上可匹配或超过上一代 Granite 4.0-H-Small 32B-A9B MoE。IBM 这次强调的是高质量数据、分阶段训练和 Apache 2.0 开源许可。对于企业采用来说,Granite 4.1 的信号很明确:小到中等规模、许可清晰、长上下文、训练过程透明的模型,仍然有自己的位置。
融资与交易
Stripe Sessions 2026:288 项更新把 Agent 商业化接到支付、钱包和部署
Stripe 4 月 29 日在 Sessions 2026 发布 288 项产品和功能更新,官方称其目标是构建 AI 时代的经济基础设施。重点包括与 Google 合作,让企业可在 AI Mode 和 Gemini app 内销售商品;推出由 Link 驱动的 Agent 钱包;扩展 Agentic Commerce Suite;并让 Stripe Projects 面向所有人开放。
Stripe Projects 的方向尤其贴近开发者:让开发者或 Agent 可以在写代码、提示词或部署产品的地方,直接注册、购买和集成上线所需服务。Stripe 称 Projects 已新增 Render、Twilio、Sentry、WorkOS、Browserbase、GitLab、ElevenLabs 等伙伴,总供应商达到 32 个。Agentic Commerce 过去更像概念,现在正在进入支付授权、商品目录、钱包、风控、稳定币账户、部署供应商等具体基础设施层。
| 日期 | 参与方 | 金额 / 规模 | 内容 |
|---|---|---|---|
| 2026-04-29 | Stripe / Google / Link / 多个云与开发者工具伙伴 | 288 项产品与功能更新 | Agentic Commerce Suite 支持 Google,推出 Agent 钱包,Stripe Projects 全量开放 |
Qualcomm:AI Agent 重塑路线图,数据中心定制芯片年底出货
Qualcomm 4 月 29 日发布 2026 财年第二季度财报,季度营收 106 亿美元,Non-GAAP EPS 为 2.65 美元。公司 CEO Cristiano Amon 在公告中表示,AI Agent 的兴起正在重塑 Qualcomm 开发的每个平台路线图;同时,Qualcomm 进入数据中心市场的 leading hyperscaler 定制芯片合作进展顺利,计划在今年晚些时候开始初始出货。
这条信息说明,移动芯片公司也在更明确地切入数据中心 AI 推理。Qualcomm 过去已经发布 AI200 / AI250 等面向机架级推理的方案,而本次财报把“与大型云厂商的定制硅合作”放进了 2026 年节奏。AI 竞争不只是 GPU,推理负载、能效、内存带宽、网络和定制芯片都会继续分化。
全球产业动态
GPT-5.5-Cyber:前沿网络安全模型进入受信任访问路径
The Verge 4 月 30 日报道,OpenAI 正准备推出 GPT-5.5-Cyber。Sam Altman 表示,该模型不会向公众开放,而是将在未来几天优先给一批受信任的“critical cyber defenders”使用,OpenAI 也将与行业和政府一起设计网络安全场景下的可信访问机制。
OpenAI 目前尚未披露 GPT-5.5-Cyber 的详细能力和技术规格,但它显然延续了 Trusted Access for Cyber 的路线:把更强的网络安全能力交给经过验证的防御者,而不是直接公开给所有用户。这和 Anthropic 的 Claude Mythos 形成呼应。前沿模型在网络安全上的能力越强,部署方式就越像“分级授权系统”,而不是普通 SaaS 功能开关。
中央网信办启动“清朗 · 整治 AI 应用乱象”专项行动
4 月 30 日,IT之家援引“网信中国”消息称,中央网信办已在全国范围内部署开展为期 4 个月的“清朗 · 整治 AI 应用乱象”专项行动。行动分两个阶段:第一阶段聚焦 AI 应用服务典型违规问题,包括未按规定履行大模型备案登记、安全审核能力不足、训练语料安全、AI 数据投毒、生成合成内容标识落实不到位、滥用 AI 技术开展违法违规活动、开源模型安全管理不到位等;第二阶段聚焦 AI 信息内容乱象,包括 AI 魔改经典、虚假信息、假冒他人、暴力低俗内容、侵害未成年人权益、AI 托管网络水军和违规 AI 应用服务。
这次专项行动把模型、数据、内容、应用和开源社区都纳入监管视野。对 AI 平台来说,备案、安全审核、生成标识、数据来源、模型托管、智能体权限和内容治理会越来越难分开处理。尤其是“AI 数据投毒”和“开源模型安全管理”被明确列入重点,说明监管已经从结果内容治理,向训练链路和生态入口延伸。
OpenAI 复盘奖励信号跑偏:小词频也能暴露训练系统问题
OpenAI 4 月 29 日发布复盘文章,解释 GPT-5.1 以来模型在回答中异常偏好某些生物隐喻的原因。OpenAI 称,相关词在 GPT-5.1 上线后使用率明显上升,根因来自个性化功能中的“书呆子”人格训练:一个本来鼓励风格化表达的奖励信号,意外给某类隐喻更高分,并通过强化学习、生成样本复用和监督微调形成反馈循环。
这个案例看似轻巧,但它说明了模型训练中一个严肃问题:奖励函数不会只学到团队想要的抽象风格,也会吸收具体词汇、语气和表达习惯,并可能迁移到原本不该出现的场景。OpenAI 表示已经移除相关奖励信号、过滤训练数据,并用开发者提示在 GPT-5.5 Codex 中缓解。对模型治理而言,词频异常、风格漂移和微小语言习惯,也可能成为发现训练系统偏差的早期信号。
AI 评测成本成为新瓶颈:Agent 可靠性不是免费指标
Hugging Face 4 月 29 日发布 EvalEval Coalition 文章,系统梳理 AI 评测成本正在变成新的计算瓶颈。文章提到,Holistic Agent Leaderboard 运行 9 个模型、9 个 benchmark、21730 次 Agent rollout 花费约 4 万美元;单次 GAIA 前沿模型运行在未缓存前可达 2829 美元;如果对 HAL 做 8 次重复运行来评估可靠性,总成本会接近 32 万美元。
这和 Qwen-Scope 的评测冗余分析、Anthropic 的 Agent eval 工程实践形成同一条线:评测不再是模型训练之后的廉价附属品。Agent 任务多轮、随机、依赖脚手架和环境状态,同一模型换一个 scaffold、token budget 或工具策略,成本和结果都可能大幅变化。未来排行榜如果只报准确率而不报成本、方差和失败类型,会越来越难反映真实生产价值。
关键数据一览
| 指标 | 数据 |
|---|---|
| QoderWake 发布时间 | 2026-04-30 |
| QoderWake 经验沉淀维度 | 记忆、技能、策略、验证规则、工作流 |
| QoderWake 根因分析提效 | 报道称从约 30 分钟压缩到 2 分钟 |
| DeepSeek Vision 状态 | 识图模式灰度测试 |
| Qwen-Scope 覆盖 | 7 个 Qwen3 / Qwen3.5 模型,14 组 SAE 权重 |
| Qwen-Scope 训练采样 | 0.5B tokens |
| Granite 4.1 模型规模 | 3B / 8B / 30B dense |
| Granite 4.1 训练量 | 约 15T tokens |
| Granite 4.1 长上下文 | 最高 512K tokens |
| Stripe Sessions 2026 | 发布 288 项产品和功能 |
| Stripe Projects 伙伴 | 总计 32 个供应商 |
| Qualcomm Q2 FY2026 营收 | 106 亿美元 |
| Qualcomm 数据中心节奏 | 计划今年晚些时候向 leading hyperscaler 初始出货定制芯片 |
| 中央网信办专项行动 | 为期 4 个月,分两个阶段 |
| HAL Agent 评测成本 | 约 4 万美元 / 21730 次 rollout |
| GAIA 单次运行成本 | 最高约 2829 美元,未计缓存 |
Sources
- 量子位 - 阿里发布数字员工产品 QoderWake - 支撑 QoderWake 发布时间、产品定位、Harness-First 架构、数字程序员和提效数据。
- 量子位 - DeepSeek 识图模式实测 - 支撑 DeepSeek Vision 灰度测试、思考 / 非思考模式、OCR、网页截图复原和风险观察。
- IT之家 - 阿里千问开源可解释性模块 Qwen-Scope - 支撑 Qwen-Scope 方法、覆盖模型、SAE 权重、训练采样和应用场景。
- Hugging Face / IBM Granite - Granite 4.1 LLMs - 支撑 Granite 4.1 模型规模、训练数据、512K 上下文、SFT/RL 和 Apache 2.0 信息。
- Stripe Newsroom - Stripe builds out the economic infrastructure for AI - 支撑 Stripe Sessions 2026、288 项更新、Google 合作、Agent 钱包和 Projects 信息。
- Stripe Blog - Everything we announced at Sessions 2026 - 支撑 Agentic Commerce Suite、Link Agent Wallet、Checkout studio 和平台更新。
- Qualcomm - Fiscal Q2 2026 Results - 支撑 Qualcomm 营收、EPS、AI Agent 路线图和数据中心定制芯片初始出货计划。
- WSJ - Qualcomm Plots Entry in Data Center Market - 支撑 Qualcomm 与大型云厂商定制芯片合作、市场反应和财报背景。
- The Verge - OpenAI’s new security model is for critical cyber defenders only - 支撑 GPT-5.5-Cyber 的受限发布、受信任访问和行业背景。
- OpenAI - Introducing Trusted Access for Cyber - 支撑 OpenAI 网络安全可信访问框架。
- IT之家 - 中央网信办部署“清朗 · 整治 AI 应用乱象”专项行动 - 支撑专项行动阶段、重点治理类别和监管范围。
- OpenAI - Where the goblins came from - 支撑 OpenAI 对训练奖励信号异常和行为漂移的复盘。
- IT之家 - OpenAI 复盘 AI 训练奖励机制意外跑偏 - 支撑中文报道和关键统计数据。
- Hugging Face Blog - AI evals are becoming the new compute bottleneck - 支撑 Agent 评测成本、HAL、GAIA 和可靠性成本分析。
本 Newsletter 基于公开信息整理,重点覆盖 2026 年 4 月 28 日至 2026 年 4 月 30 日期间新增、更新或集中发酵的 AI 动态;所有信息均来自公开来源,不构成投资建议。