跳到主要内容

2026-05-03 AI 动态

· 阅读需 14 分钟
本期焦点
  1. Gemini 支持直接生成 PDF、Word、Excel、Docs 等文件。
  2. OpenAI 推出 Advanced Account Security,保护 ChatGPT 与 Codex 账户。
  3. Anthropic 披露约 6% Claude 对话涉及个人建议,并用于训练 Opus 4.7。
  4. Stripe 发布 AI 经济基础设施,Link 钱包开始支持智能体支付。
  5. 阿里 QoderWake 将数字员工推向生产级岗位工作流。

头条要闻

Gemini 文件生成:AI 助手开始直接交付办公文件

Google 近期更新 Gemini 应用,支持用户用一句提示词直接生成可下载、可分享的文件。官方页面显示,Gemini 现在可在对话中创建 Google Docs、Sheets、Slides,以及 PDF、Microsoft Word、Excel、CSV、LaTeX、TXT、RTF、Markdown 等格式,并面向全球 Gemini app 用户开放。

这类能力和前几周国内千问表格 Agent 的方向一致:AI 助手正在从“回答一段文字”升级为“交付一个可继续编辑的工作产物”。差异在于,Gemini 选择把文件生成做成通用出口,而不是只聚焦表格。对办公场景来说,这会让用户少走一段复制、粘贴、排版和格式转换的路,也会让模型能力更自然地接入 Docs、Drive、Office 和企业知识流。

它还说明一个更大的产品趋势:下一代 AI 助手的竞争点不只是模型本身,而是能不能把结果稳定落到文件、任务、工作流和系统权限里。生成文件只是第一步,后面还会继续走向“生成并投递”“生成并协作修改”“生成并触发审批”。

Google Blog · TechRadar


模型发布与更新

OpenAI Advanced Account Security:ChatGPT 与 Codex 账户进入高安全模式

OpenAI 4 月 30 日推出 Advanced Account Security,这是 ChatGPT 账户中的一项可选安全设置,面向记者、民选官员、政治异见者、研究人员、网络安全工作者,以及其他高风险或高安全需求用户。开启后,保护会同时覆盖通过同一登录使用的 ChatGPT 和 Codex。

这项设置把多项控制集中到一个入口:要求使用 passkey 或物理安全密钥,禁用密码登录;禁用邮箱和短信恢复,改用备份 passkey、安全密钥和恢复密钥;缩短登录会话,提供登录提醒和会话管理;同时默认排除模型训练。OpenAI 还与 Yubico 合作,提供定制安全密钥组合;从 6 月 1 日起,访问 Trusted Access for Cyber 中更强网络安全模型的个人成员也需要启用该设置。

账号安全正在成为 AI 产品的基础设施问题。一个 ChatGPT 账户可能连接代码、文件、企业数据、浏览器操作和自动化任务,账户被接管的风险已经不只是“聊天记录泄露”,而是工作流、代码仓库和敏感业务上下文被接管。

指标数据
产品Advanced Account Security
发布时间2026-04-30
覆盖范围ChatGPT 账户与同登录下的 Codex
登录方式passkey 或物理安全密钥,禁用密码登录
恢复方式备份 passkey、安全密钥、恢复密钥
训练设置自动排除对话用于模型训练
Trusted Access for Cyber 要求2026-06-01 起个人成员需启用,或组织证明 SSO 已具备抗钓鱼认证

OpenAI


Claude 个人建议研究:约 6% 对话在问“我该怎么办”

Anthropic 4 月 30 日发布研究,使用隐私保护分析工具抽样分析 100 万条 Claude.ai 对话,发现约 6% 属于个人建议请求。研究先按唯一用户过滤得到约 63.9 万条对话,再识别出约 3.8 万条个人指导类对话,并将其分为关系、职业、个人发展、财务、法律、健康、育儿、伦理、灵性等九类。其中健康与 wellness、职业、关系、财务四类占比超过 75%。

Anthropic 特别关注“过度认同 / 迎合”问题:当用户把个人选择交给模型时,模型如果只是顺着用户情绪走,可能会放大错误判断。Anthropic 称,这项研究结果被用于 Claude Opus 4.7 和 Claude Mythos Preview 的训练,目标是提升模型在个人建议中的中立性、边界感和用户福祉保护能力。

这类研究对行业很有提示意义。通用聊天产品已经不只是生产力工具,用户会自然把职业选择、关系冲突、健康担忧和财务压力带进对话。模型是否“善解人意”之外,还要能识别高风险边界、避免无原则附和,并在需要时把用户引向专业帮助。

指标数据
抽样规模100 万条 Claude.ai 对话
时间范围2026 年 3-4 月
唯一用户过滤后约 63.9 万条对话
个人建议对话约 3.8 万条,约 6%
覆盖主题健康、职业、关系、财务等四类超过 75%
影响模型Claude Opus 4.7、Claude Mythos Preview

Anthropic Research · Economic Times


DeepSeek Vision 灰测:多模态能力从技术报告走向用户侧

量子位 4 月 30 日实测 DeepSeek 识图模式,称该能力正在灰度扩大。报道显示,DeepSeek 识图模式支持思考与非思考两种路径:非思考模式响应很快,在 OCR、表格识别、网页截图转 HTML 等实用任务上表现突出;开启深度思考后,部分空间推理题可以给出正确答案,但耗时明显拉长,图片找不同等任务仍存在幻觉。

这条动态和 DeepSeek 此前发布的 Thinking with Visual Primitives 技术报告可以放在一起看。技术报告强调用点、框等视觉原语缩小视觉指代和语言推理之间的 Reference Gap;用户侧灰测则说明 DeepSeek 正在把多模态能力接入真实产品。当前能力还不稳定,但已经能看到两条路线:快模式负责 OCR、结构化、页面复原;思考模式负责空间推理和复杂图像任务。

量子位


融资与交易

Stripe Sessions 2026:288 项发布把智能体变成经济参与者

Stripe 4 月 29 日在 Sessions 2026 发布 288 项产品和功能,主题明确指向“AI 时代的经济基础设施”。官方公告和量子位授权转载均提到,Stripe 将 Agentic Commerce Suite 扩展到 Google,允许企业未来在 AI Mode 和 Gemini 应用内向消费者销售;同时推出由 Link 驱动的智能体钱包,让用户授权 AI agent 代为付款,并通过一次性虚拟卡和用户授权降低凭证泄露风险。

Stripe 还提出 Streaming Payments,用 Metronome 的精确计量和 Tempo 区块链上的稳定币微支付,为 token 消耗等 AI 原生业务模式提供实时结算。风控层面,Stripe 扩展 Radar,用于防范 AI 服务中的 token 盗用;量子位转载称,在 Stripe 上运行的 AI 服务中,每 6 次注册尝试中就有 1 次来自恶意行为,Radar 过去一个月为 8 家高增长 AI 企业拦截超过 330 万次高风险注册。

智能体真正进入商业系统,需要身份、授权、支付、额度、风控、退款、审计和微支付。Stripe 的这组发布说明,AI agent 不再只是“帮你找东西”的界面,而是开始被金融基础设施当成可授权、可计量、可结算的经济参与者。

日期参与方金额 / 数量内容
2026-04-29Stripe288 项发布Sessions 2026 发布 AI 经济基础设施能力
2026-04-29Stripe / Google未披露Agentic Commerce Suite 将支持 AI Mode 与 Gemini 应用内销售
2026-04-29Stripe Link超 2.5 亿用户钱包基础推出面向智能体授权支付的钱包能力
2026-04-29Stripe Radar超 330 万次过去一个月为 8 家 AI 企业拦截高风险注册

Stripe · Stripe Blog · 量子位 · TechCrunch


全球产业动态

阿里 QoderWake:数字员工开始瞄准岗位级持续执行

量子位 4 月 30 日报道,阿里发布数字员工产品 QoderWake 和 Qoder 移动端。QoderWake 面向企业和个人,定位为可承担软件工程师、运营、分析师等岗位角色的生产级数字员工,目前已开启邀测。它采用 Harness-First 架构,将每次执行后的经验沉淀到记忆、技能、策略、验证规则和工作流五个维度,并通过 Anti-Rot Governance 淘汰过时经验、合并冲突、撤回失效策略。

报道提到,QoderWake 已上线“数字程序员”,可在代码更新后整理变更简报,出错时做初步诊断,遇到告警时分诊严重程度,阿里内部场景中已经用于反馈分类、日志分析、根因定位和自动生成修复代码。以单条问题根因分析为例,使用 QoderWake 后,分析耗时从 30 分钟缩短到 2 分钟。

QoderWake 的看点在于“岗位化”。很多 Agent 产品擅长完成单次任务,但企业真正需要的是在岗位上下文中长期工作、积累经验、遵守流程、接受治理。数字员工如果要进入生产环境,关键不是一次任务是否惊艳,而是能否持续稳定、可追踪、可修正。

量子位


Musk v. Altman 庭审揭开模型蒸馏暗线

Musk 起诉 OpenAI 与 Sam Altman 的庭审进入第一周,多家英文媒体持续跟进。TechCrunch 报道称,Elon Musk 4 月 30 日在加州联邦法院接受交叉询问时,被问及 xAI 是否用 OpenAI 模型对 Grok 做过蒸馏训练。Musk 先表示这是 AI 公司之间的普遍做法,随后在被追问是否意味着 xAI 也这样做时回答“Partly”。Semafor 5 月 1 日也报道了这一庭审细节。

The Verge 则整理了目前庭审披露的证据,包括早期邮件、组织文件、合约、个人通信和日记等,显示 OpenAI 早期关于非营利使命、控制权、股权、AGI 治理、商业化路径和 Microsoft 合作的分歧。这个案件的行业意义不只在 OpenAI 内部治理,也在于它把模型训练、模型蒸馏、闭源 moat、非营利使命和商业资本之间的冲突集中摆到了台前。

模型蒸馏一直是行业公开秘密之一。它能降低追赶成本,也会冲击前沿模型公司用算力和数据建立的护城河。现在相关说法出现在宣誓证词里,后续可能会影响 API 条款、反爬策略、模型输出水印、企业采购尽调和监管讨论。

TechCrunch · Semafor · The Verge


Google COSMO 泄露:I/O 前的下一代移动 AI 助手信号

Times of India 5 月 3 日报道称,Google 5 月 1 日曾短暂将未发布应用 COSMO 放上 Play Store,随后下架。页面描述称其是 Android 设备上的 experimental AI assistant application,外界猜测它可能是 Google I/O 2026 前泄露的下一代 AI 助手试验入口。

这类泄露还不能证明最终产品形态,但和 Gemini 文件生成、Gemini 车载、AI Mode 商业化等近期动态放在一起看,Google 正在把 Gemini 从单一聊天入口扩展到移动端、车机、搜索、商务、文件和系统助手。移动端 AI 的下一步不只是“换一个聊天 App”,而是把权限、通知、屏幕、文件、购物和个人上下文组合起来。

Times of India


关键数据一览

指标数据
Gemini 文件生成支持格式Docs、Sheets、Slides、PDF、DOCX、XLSX、CSV、LaTeX、TXT、RTF、Markdown
Gemini 文件生成开放范围全球 Gemini app 用户
OpenAI Advanced Account Security 发布时间2026-04-30
OpenAI 高安全登录passkey 或物理安全密钥,禁用密码登录
OpenAI Trusted Access for Cyber 要求2026-06-01 起个人成员需启用 Advanced Account Security
Anthropic 抽样规模100 万条 Claude.ai 对话
Claude 个人建议占比约 6%
Claude 个人建议样本约 3.8 万条对话
Anthropic 影响模型Claude Opus 4.7、Claude Mythos Preview
Stripe Sessions 2026发布 288 项产品和功能
Stripe Link 钱包超 2.5 亿用户基础,新增智能体授权支付能力
Stripe Radar 风控过去一个月为 8 家 AI 企业拦截超 330 万次高风险注册
QoderWake 数字程序员单条问题根因分析从 30 分钟缩短到 2 分钟
DeepSeek 识图模式灰度测试中,支持思考 / 非思考模式
xAI / OpenAI 蒸馏证词Musk 在庭审中称 xAI “partly” 使用过 OpenAI 模型蒸馏

Sources


本 Newsletter 基于公开信息整理,重点覆盖 2026 年 5 月 1 日至 2026 年 5 月 3 日期间新增、更新或集中发酵的 AI 动态;所有信息均来自公开来源,不构成投资建议。