跳到主要内容

2026-05-08 AI 动态

· 阅读需 12 分钟
本期焦点
  1. OpenAI 发布三款实时语音模型,覆盖语音推理、翻译和转写。
  2. Doubao-Seed-2.0-lite 升级为豆包首款全模态理解模型。
  3. ChatGPT 推出 Trusted Contact,补强自伤风险响应。
  4. 软银被曝洽谈英伟达、富士康,推进日本国产 AI 服务器。
  5. 李飞飞联创 Astrocade 融资 5600 万美元,AI 游戏创作继续升温。

头条要闻

OpenAI 实时语音三模型:语音 Agent 从“能对话”走向“能执行”

OpenAI 5 月 7 日发布三款 Realtime API 新模型:GPT-Realtime-2GPT-Realtime-TranslateGPT-Realtime-Whisper。其中,GPT-Realtime-2 是面向实时语音交互的推理模型,支持工具调用、打断恢复、128K 上下文和可调 reasoning effort;GPT-Realtime-Translate 支持 70 多种输入语言到 13 种输出语言的实时语音翻译;GPT-Realtime-Whisper 则面向低延迟流式语音转写。

这次更新的重点是把语音产品从“低延迟问答”推进到“连续任务执行”。语音 Agent 要在通话过程中理解用户意图、保留上下文、调用多个工具、处理修正和中断,并把执行状态用自然语言反馈给用户。OpenAI 官方示例覆盖 Zillow、Priceline、Deutsche Telekom、Vimeo 等场景,说明语音正在从客服和字幕扩展到地产、旅行、跨语言沟通和企业工作流。

模型定位关键数据
GPT-Realtime-2实时语音推理与工具调用128K 上下文;音频输入 32 美元 / 百万 tokens,音频输出 64 美元 / 百万 tokens
GPT-Realtime-Translate实时语音翻译70+ 输入语言,13 种输出语言;0.034 美元 / 分钟
GPT-Realtime-Whisper低延迟流式转写0.017 美元 / 分钟

OpenAI · Reuters via Investing.com · OpenAI Pricing


Doubao-Seed-2.0-lite 升级:豆包把音频并入全模态统一理解

火山引擎开发者社区 5 月 7 日发布消息称,Doubao-Seed-2.0-lite 升级新版本,并已在火山方舟上线。新版是豆包大模型家族首款全模态理解模型,支持视频、图像、音频和文本原生统一理解,同时升级 Agent、Coding 与 GUI 能力。

这次更新的关键不是简单增加一个语音转写模块,而是把音频并入跨模态联合推理:模型可以结合画面与声音判断视听一致性、定位视频中特定事件发生时间,并根据自然语言指令追踪事件线索。对企业应用来说,这类能力会进入客服质检、教育课堂分析、直播电商、电竞复盘、内容审核和多媒体知识库。

指标数据
发布时间2026-05-06 / 2026-05-07 报道
模型Doubao-Seed-2.0-lite 新版本
模态视频、图像、音频、文本
访问方式火山方舟上线
同步升级Agent、Coding、GUI
场景全模态推理、音画一致性、视频事件定位、企业批量部署

火山引擎开发者社区 · 中关村在线 · 泰伯网 / 第一财经


模型发布与产品更新

ChatGPT Trusted Contact:从模型安全扩展到现实联系人

OpenAI 5 月 7 日开始推出 ChatGPT Trusted Contact。成年用户可以在设置中添加一名可信联系人,对方需在一周内接受邀请;如果自动系统和受过训练的审核人员判断用户可能在谈及自伤或自杀并达到严重安全风险,ChatGPT 可能通知该联系人。OpenAI 强调,通知不会包含聊天细节或完整记录,Trusted Contact 也不是紧急服务或心理健康诊疗替代品。

这类功能说明消费级 AI 安全正在从“模型拒答”扩展到“现实世界支持链路”。过去平台安全更多关注内容过滤、拒绝危险指令和热线提示;Trusted Contact 则把用户同意、隐私最小披露、人工审核、心理健康专家指导和实际联系人响应组合在一起。随着用户把 AI 用于个人情绪和长期陪伴,平台责任会越来越接近数字健康产品,而不只是聊天工具。

指标数据
发布时间2026-05-07
可用对象大多数国家和地区的 18 岁及以上个人 ChatGPT 用户
不适用ChatGPT Business、Enterprise、Edu 等共享工作区
联系人数每个符合条件账户可添加 1 名
隐私边界不分享聊天详情或 transcript

OpenAI · OpenAI Help Center · The Verge


Snyk × Claude:AI 原生 AppSec 进入开发链路

Snyk 5 月 7 日宣布,将 Anthropic Claude 模型嵌入 Snyk AI Security Platform,用于自动化漏洞发现、优先级排序和开发者可执行修复建议,覆盖代码、依赖、容器和 AI 生成产物。Snyk 把这次集成定位为面向 AI 驱动软件开发的安全能力升级。

这条产品线和 Anthropic 近期 Claude Security、Claude Code 的方向互相呼应:代码生成越自动化,安全扫描和修复也必须靠近开发者工作流,而不是上线前的独立审计。对企业来说,真正的价值不只是“发现漏洞”,而是把发现、解释、修复、工单和代码变更连接起来,让 AI 写代码带来的速度不绕过安全治理。

Snyk


融资与交易

Astrocade 融资 5600 万美元:自然语言生成游戏继续走向平台化

Astrocade 5 月 5 日宣布完成 5600 万美元新融资,包括由 Sequoia Capital 领投的 B 轮和由 Sea 领投的 A 轮,Google AI Futures Fund、NVIDIA、LG Technology Ventures、Dentsu Ventures 等参投。公司称,平台上线 8 个月后已有超过 2000 万用户。

中文媒体 5 月 7 日继续跟进了这条融资,重点放在李飞飞以首席科学官身份参与联创、以及“自然语言生成游戏”的消费端入口。Astrocade 的方向不是给专业游戏团队做单点素材工具,而是把游戏创作变成 UGC 平台:用户用提示词生成可玩的互动内容,再通过社区分发、试玩和迭代。

日期参与方金额内容
2026-05-05Astrocade / Sequoia Capital / Sea / Google AI Futures Fund / NVIDIA 等5600 万美元A 轮与 B 轮合并披露,用于扩团队和创作者社区

Astrocade · PocketGamer.biz · 新浪科技 / 快科技


全球产业动态

软银洽谈英伟达、富士康:主权 AI 推动服务器本土化

Reuters 5 月 8 日援引日经新闻报道,日本软银正在与英伟达、富士康讨论在日本本土开发和制造 AI 服务器。报道称,软银考虑在本年代末开始设计和组装部件,先从外部采购零部件组装,再逐步承担更完整制造流程;该项目可能纳入最快下周公布的中期经营计划。

这条消息放在“主权 AI”语境下更重要。各国和大型企业都希望减少数据、算力和供应链对外部地区的依赖,但 AI 服务器不是普通服务器,涉及高端 GPU、散热、互连、认证、代工和数据中心运维。软银若把英伟达认证体系、富士康制造能力和日本本土运营结合起来,本质上是在为日本 AI 基础设施补一块制造与集成能力。

Reuters via Economic Times · 富途牛牛 · CNA / Reuters


国产算力叙事继续强化:从“模型可用”到“全栈可控”

每经网 5 月 7 日转载新华社快讯称,DeepSeek-V4 与华为昇腾芯片适配,正在被放进国产算力突围和自主可控产业逻辑中讨论。文章把这类适配视为从“有模型无算力”的被动局面,转向模型、芯片、框架和推理部署协同优化的产业路径。

这条不是单一产品发布,而是国内 AI 基础设施叙事的延续。4 月以来,DeepSeek-V4、国产芯片适配、云上 MaaS、Token 调用量和企业模型部署不断出现在同一个语境里:模型能力要转化为产业能力,必须落到推理成本、国产硬件兼容、工具链成熟度和长期供应稳定性上。

每经网 / 新华社


关键数据一览

指标数据
GPT-Realtime-2 上下文128K
GPT-Realtime-2 音频输入 / 输出价格32 美元 / 64 美元每百万 audio tokens
GPT-Realtime-Translate70+ 输入语言,13 种输出语言,0.034 美元 / 分钟
GPT-Realtime-Whisper0.017 美元 / 分钟
Doubao-Seed-2.0-lite视频、图像、音频、文本原生统一理解
ChatGPT Trusted Contact成人个人账户可添加 1 名可信联系人
Astrocade 融资5600 万美元,Sequoia 领投 B 轮,Sea 领投 A 轮
Astrocade 用户规模公司称上线 8 个月超过 2000 万用户
软银 AI 服务器计划报道称考虑本年代末开始设计和组装部件

Sources


本 Newsletter 由 AI 行业公开信息整理,数据截至 2026 年 5 月 8 日。所有信息均来自公开来源,不构成投资建议。