跳到主要内容

2026-04-30 AI 动态

· 阅读需 15 分钟
本期焦点
  1. 阿里发布 QoderWake,把 Agent 产品推进到“数字员工”形态。
  2. DeepSeek 识图模式灰度测试,多模态路线开始露出端倪。
  3. Qwen-Scope 开源,用稀疏自编码器分析和控制 Qwen 模型行为。
  4. OpenAI 将向受信任防御者推出 GPT-5.5-Cyber。
  5. Stripe 发布 288 项更新,Agentic Commerce 进入支付与钱包层。

头条要闻

QoderWake:阿里把 Agent 从个人工具推向生产级数字员工

4 月 30 日,阿里发布数字员工产品 QoderWake 和 Qoder 移动端。量子位报道称,QoderWake 定位为安全可控、持续进化的生产级数字员工产品,可承担软件工程师、运营、分析师等岗位角色;目前已开启邀测,个人和企业可申请“雇佣”一位或多位数字员工,也可按自身业务流程定制。

QoderWake 采用 Harness-First 架构,把每次执行后的经验沉淀到记忆、技能、策略、验证规则和工作流五个维度,并通过 Anti-Rot Governance 机制淘汰过时经验、合并冲突和撤回失效策略。已上线的“数字程序员”可在代码更新时整理变更简报、遇到错误时先做诊断、出现告警时分诊并判断是否升级给人。报道提到,在单条问题根因分析任务中,QoderWake 将耗时从约 30 分钟压缩到 2 分钟。

这条动态的意义在于,Agent 产品正在从“帮单个人临时完成任务”走向“在岗位中长期积累经验”。企业真正需要的不是一次回答,而是能接住上下文、遵守流程、复盘失败、沉淀组织记忆并接受人类确认的工作单元。QoderWake、百度 GenFlow 4.0、Anthropic 的 Agent 工程实践和 Stripe 的 Agentic Commerce,正在从不同方向把 Agent 拉进真实生产系统。

量子位


模型发布与更新

DeepSeek Vision:识图模式灰度,思考与非思考能力差异明显

4 月 30 日,量子位实测称,DeepSeek 识图模式已进入灰度测试,且从行为上看可能是独立于 DeepSeek-V4-Flash / V4-Pro 的视觉模型。该模式支持是否开启深度思考:非思考模式响应很快,适合 OCR、表格识别、网页截图复原 HTML 等实用任务;深度思考模式在空间推理题上能给出更正确的答案,但也可能明显增加耗时。

实测也显示,DeepSeek Vision 仍有不稳定之处:图片找不同、色盲测试等任务中仍会出现幻觉或误判。更有意思的是,识图模式在世界知识表现上与 V4 文本模型有所不同,这让外界猜测它可能并不是简单给 V4 增加视觉输入层。对 DeepSeek 来说,V4 发布后的下一条重要线索,就是多模态能力如何与 1M 上下文、思考模式和工具调用体系融合。

指标数据
产品形态DeepSeek 识图模式灰度测试
模式非思考 / 深度思考
强项OCR、表格识别、网页截图转 HTML、基础图文理解
风险空间推理耗时、找不同幻觉、色盲测试偶发错误
状态官方尚未完整发布技术细节

量子位


Qwen-Scope:阿里千问开源可解释性模块

4 月 30 日,阿里千问宣布推出 Qwen-Scope。IT之家报道,Qwen-Scope 是基于 Qwen3 与 Qwen3.5 系列模型训练得到的可解释性模块,方法是在 Qwen 隐藏层插入稀疏自编码器并加以训练,从而自动提取解耦、低冗余、可解释的隐藏空间特征。

本次开源权重覆盖 Qwen3 和 Qwen3.5 系列的稠密模型与混合专家模型,共 7 个大模型、14 组稀疏自编码器权重,训练数据从对应模型预训练数据中采样 0.5B tokens。Qwen-Scope 可用于四类场景:在推理侧通过控制特征激活改变语言、实体或风格;在数据侧用少量种子数据做分类与定向合成;在训练侧定位语言混用、重复生成等低频问题;在评估侧分析样本覆盖与冗余,从而降低评测成本。

这类可解释性工具会变得越来越实用。模型能力越强,单纯看最终答案越不够;团队还需要知道模型为什么偏向某种输出、哪个特征在起作用、哪些评测集重复覆盖同一类能力。Qwen-Scope 的价值不只是“看懂模型”,还在于把可解释性变成训练、数据合成和评测优化的工程手段。

指标数据
工具Qwen-Scope
方法稀疏自编码器 SAE
覆盖模型Qwen3 / Qwen3.5 系列稠密与 MoE 模型
开源权重7 个大模型,14 组 SAE 权重
训练采样0.5B tokens
入口Hugging Face、ModelScope、技术报告

IT之家


Granite 4.1:IBM 开源 3B / 8B / 30B 稠密模型,最长 512K 上下文

Hugging Face 4 月 29 日发布 IBM Granite 团队文章,介绍 Granite 4.1 LLMs 的训练方法。Granite 4.1 是一组稠密 decoder-only 模型,包含 3B、8B、30B 三个尺寸,采用约 15T tokens 的多阶段预训练管线,并通过长上下文扩展把 8B 和 30B 模型扩到 512K tokens。模型还使用约 410 万条高质量样本做监督微调,并通过 on-policy GRPO 与 DAPO loss 做多阶段强化学习。

一个值得注意的点是,8B instruct 模型在部分指标上可匹配或超过上一代 Granite 4.0-H-Small 32B-A9B MoE。IBM 这次强调的是高质量数据、分阶段训练和 Apache 2.0 开源许可。对于企业采用来说,Granite 4.1 的信号很明确:小到中等规模、许可清晰、长上下文、训练过程透明的模型,仍然有自己的位置。

Hugging Face / IBM Granite


融资与交易

Stripe Sessions 2026:288 项更新把 Agent 商业化接到支付、钱包和部署

Stripe 4 月 29 日在 Sessions 2026 发布 288 项产品和功能更新,官方称其目标是构建 AI 时代的经济基础设施。重点包括与 Google 合作,让企业可在 AI Mode 和 Gemini app 内销售商品;推出由 Link 驱动的 Agent 钱包;扩展 Agentic Commerce Suite;并让 Stripe Projects 面向所有人开放。

Stripe Projects 的方向尤其贴近开发者:让开发者或 Agent 可以在写代码、提示词或部署产品的地方,直接注册、购买和集成上线所需服务。Stripe 称 Projects 已新增 Render、Twilio、Sentry、WorkOS、Browserbase、GitLab、ElevenLabs 等伙伴,总供应商达到 32 个。Agentic Commerce 过去更像概念,现在正在进入支付授权、商品目录、钱包、风控、稳定币账户、部署供应商等具体基础设施层。

日期参与方金额 / 规模内容
2026-04-29Stripe / Google / Link / 多个云与开发者工具伙伴288 项产品与功能更新Agentic Commerce Suite 支持 Google,推出 Agent 钱包,Stripe Projects 全量开放

Stripe Newsroom · Stripe Blog


Qualcomm:AI Agent 重塑路线图,数据中心定制芯片年底出货

Qualcomm 4 月 29 日发布 2026 财年第二季度财报,季度营收 106 亿美元,Non-GAAP EPS 为 2.65 美元。公司 CEO Cristiano Amon 在公告中表示,AI Agent 的兴起正在重塑 Qualcomm 开发的每个平台路线图;同时,Qualcomm 进入数据中心市场的 leading hyperscaler 定制芯片合作进展顺利,计划在今年晚些时候开始初始出货。

这条信息说明,移动芯片公司也在更明确地切入数据中心 AI 推理。Qualcomm 过去已经发布 AI200 / AI250 等面向机架级推理的方案,而本次财报把“与大型云厂商的定制硅合作”放进了 2026 年节奏。AI 竞争不只是 GPU,推理负载、能效、内存带宽、网络和定制芯片都会继续分化。

Qualcomm · WSJ


全球产业动态

GPT-5.5-Cyber:前沿网络安全模型进入受信任访问路径

The Verge 4 月 30 日报道,OpenAI 正准备推出 GPT-5.5-Cyber。Sam Altman 表示,该模型不会向公众开放,而是将在未来几天优先给一批受信任的“critical cyber defenders”使用,OpenAI 也将与行业和政府一起设计网络安全场景下的可信访问机制。

OpenAI 目前尚未披露 GPT-5.5-Cyber 的详细能力和技术规格,但它显然延续了 Trusted Access for Cyber 的路线:把更强的网络安全能力交给经过验证的防御者,而不是直接公开给所有用户。这和 Anthropic 的 Claude Mythos 形成呼应。前沿模型在网络安全上的能力越强,部署方式就越像“分级授权系统”,而不是普通 SaaS 功能开关。

The Verge · OpenAI TAC


中央网信办启动“清朗 · 整治 AI 应用乱象”专项行动

4 月 30 日,IT之家援引“网信中国”消息称,中央网信办已在全国范围内部署开展为期 4 个月的“清朗 · 整治 AI 应用乱象”专项行动。行动分两个阶段:第一阶段聚焦 AI 应用服务典型违规问题,包括未按规定履行大模型备案登记、安全审核能力不足、训练语料安全、AI 数据投毒、生成合成内容标识落实不到位、滥用 AI 技术开展违法违规活动、开源模型安全管理不到位等;第二阶段聚焦 AI 信息内容乱象,包括 AI 魔改经典、虚假信息、假冒他人、暴力低俗内容、侵害未成年人权益、AI 托管网络水军和违规 AI 应用服务。

这次专项行动把模型、数据、内容、应用和开源社区都纳入监管视野。对 AI 平台来说,备案、安全审核、生成标识、数据来源、模型托管、智能体权限和内容治理会越来越难分开处理。尤其是“AI 数据投毒”和“开源模型安全管理”被明确列入重点,说明监管已经从结果内容治理,向训练链路和生态入口延伸。

IT之家


OpenAI 复盘奖励信号跑偏:小词频也能暴露训练系统问题

OpenAI 4 月 29 日发布复盘文章,解释 GPT-5.1 以来模型在回答中异常偏好某些生物隐喻的原因。OpenAI 称,相关词在 GPT-5.1 上线后使用率明显上升,根因来自个性化功能中的“书呆子”人格训练:一个本来鼓励风格化表达的奖励信号,意外给某类隐喻更高分,并通过强化学习、生成样本复用和监督微调形成反馈循环。

这个案例看似轻巧,但它说明了模型训练中一个严肃问题:奖励函数不会只学到团队想要的抽象风格,也会吸收具体词汇、语气和表达习惯,并可能迁移到原本不该出现的场景。OpenAI 表示已经移除相关奖励信号、过滤训练数据,并用开发者提示在 GPT-5.5 Codex 中缓解。对模型治理而言,词频异常、风格漂移和微小语言习惯,也可能成为发现训练系统偏差的早期信号。

OpenAI · IT之家


AI 评测成本成为新瓶颈:Agent 可靠性不是免费指标

Hugging Face 4 月 29 日发布 EvalEval Coalition 文章,系统梳理 AI 评测成本正在变成新的计算瓶颈。文章提到,Holistic Agent Leaderboard 运行 9 个模型、9 个 benchmark、21730 次 Agent rollout 花费约 4 万美元;单次 GAIA 前沿模型运行在未缓存前可达 2829 美元;如果对 HAL 做 8 次重复运行来评估可靠性,总成本会接近 32 万美元。

这和 Qwen-Scope 的评测冗余分析、Anthropic 的 Agent eval 工程实践形成同一条线:评测不再是模型训练之后的廉价附属品。Agent 任务多轮、随机、依赖脚手架和环境状态,同一模型换一个 scaffold、token budget 或工具策略,成本和结果都可能大幅变化。未来排行榜如果只报准确率而不报成本、方差和失败类型,会越来越难反映真实生产价值。

Hugging Face Blog


关键数据一览

指标数据
QoderWake 发布时间2026-04-30
QoderWake 经验沉淀维度记忆、技能、策略、验证规则、工作流
QoderWake 根因分析提效报道称从约 30 分钟压缩到 2 分钟
DeepSeek Vision 状态识图模式灰度测试
Qwen-Scope 覆盖7 个 Qwen3 / Qwen3.5 模型,14 组 SAE 权重
Qwen-Scope 训练采样0.5B tokens
Granite 4.1 模型规模3B / 8B / 30B dense
Granite 4.1 训练量约 15T tokens
Granite 4.1 长上下文最高 512K tokens
Stripe Sessions 2026发布 288 项产品和功能
Stripe Projects 伙伴总计 32 个供应商
Qualcomm Q2 FY2026 营收106 亿美元
Qualcomm 数据中心节奏计划今年晚些时候向 leading hyperscaler 初始出货定制芯片
中央网信办专项行动为期 4 个月,分两个阶段
HAL Agent 评测成本约 4 万美元 / 21730 次 rollout
GAIA 单次运行成本最高约 2829 美元,未计缓存

Sources


本 Newsletter 基于公开信息整理,重点覆盖 2026 年 4 月 28 日至 2026 年 4 月 30 日期间新增、更新或集中发酵的 AI 动态;所有信息均来自公开来源,不构成投资建议。