跳到主要内容

2026-07-02 AI 动态

· 阅读需 8 分钟
本期焦点
  1. Hugging Face 与 Cerebras 展示基于 Gemma 4 的实时语音 AI 管线。
  2. Google 开放 Nano Banana 2 Lite 和 Gemini Omni Flash 给开发者。
  3. Gemini Spark 登陆 macOS,并扩展连接应用和实时主题追踪。
  4. AI 版支付宝“阿宝”开放公测,首批上线 72 项智能办事技能。
  5. VAST 完成超 10 亿元 A3 战略轮融资,继续押注 AI 3D 与世界模型。

头条要闻

实时语音 AI:Hugging Face 与 Cerebras 把 Gemma 4 接入开放语音栈

Hugging Face 7 月 1 日发布与 Cerebras 的实时语音 AI 演示,核心目标是降低语音助手的长尾延迟,让交互更接近真人对话。该管线采用开放、可替换的级联架构:语音输入先由 NVIDIA Parakeet 做识别,再由 Google DeepMind Gemma 4 31B 在 Cerebras 上推理,最后通过阿里 Qwen3TTS 输出语音。

这条新闻的重点不是单个模型,而是“开放模型 + 高速推理 + 语音/机器人产品”的组合。Hugging Face 称同类 speech-to-speech 管线已用于 Reachy Mini 机器人,现实交互场景里,P95 延迟和稳定性比平均响应速度更能决定用户感受。

指标数据
语言/视觉模型Gemma 4 31B
ASRNVIDIA Parakeet
TTSQwen3TTS
推理平台Cerebras
已落地场景Reachy Mini 机器人语音交互

Hugging Face


模型发布与更新

Nano Banana 2 Lite 与 Gemini Omni Flash:Google 把图像和视频生成推向开发者工作流

Google 6 月 30 日发布 Nano Banana 2 Lite 和 Gemini Omni Flash。Nano Banana 2 Lite 对应 gemini-3.1-flash-lite-image,定位为高吞吐、低延迟、低成本的 Gemini Image 模型,面向快速草图、原型和批量图像生成。Google 称其可在 4 秒内输出 text-to-image 结果,成本为每张 1K 图像 0.034 美元,并建议第一代 Nano Banana 用户迁移。

Gemini Omni Flash 对应 gemini-omni-flash-preview,面向视频生成和对话式视频编辑,已通过 Google AI Studio、Gemini API 和 Gemini Enterprise Agent Platform 开放。它支持文本、图像和视频输入组合,当前输出 10 秒视频,定价为每秒视频输出 0.10 美元。两者配合后,开发者可以先用 Nano Banana 2 Lite 生成参考图,再用 Gemini Omni Flash 动画化或继续编辑。

模型定位关键数据访问方式
Nano Banana 2 Lite高速图像生成4 秒 text-to-image;0.034 美元 / 1K 图像AI Studio、Gemini API、Gemini Enterprise Agent Platform
Gemini Omni Flash视频生成与对话式编辑10 秒视频;0.10 美元 / 秒输出AI Studio、Gemini API、Gemini app、Google Flow

Google

Gemini Spark:从聊天窗口进入桌面任务执行

Google 同日更新 Gemini Spark,新增 macOS Beta、连接应用和实时主题追踪。Spark 在 macOS 上可以处理桌面文件和应用,例如按自然语言整理下载目录 PDF、基于本地发票创建预算表,并将桌面文件与 Google Workspace 工作流连接。Google 表示,Spark for macOS 首先面向美国 18 岁以上 Google AI Ultra 订阅用户开放。

连接应用方面,Spark 新增 Google Tasks、Google Keep、Canva、Dropbox、Instacart、OpenTable 和 Zillow Rentals,并支持自定义 MCP。实时追踪方面,用户可以让 Spark 监控博客、新闻、社交、金融、购物、天气和体育信息,在事件触发后推送结果。Agent 产品正在从“帮我回答”走向“帮我盯着并执行”。

Google


中国产品与融资

AI 版支付宝“阿宝”开放公测,首批 72 项办事技能

36氪 7 月 2 日消息,AI 版支付宝“阿宝”完成新一轮产品迭代并开放公测,iOS 和 Android 用户可在应用商店或支付宝 App 内搜索“阿宝”或“蚂蚁阿宝”更新体验。本次升级围绕生活服务垂域模型能力、服务生态和用户陪伴体系展开,并从数千项生活办事服务中精选 72 项智能办事技能作为公测阶段首批清单。

这类产品的意义在于把 AI Agent 放进高频生活服务入口。相比通用聊天助手,支付宝的优势是有支付、政务、医疗、出行、本地生活等服务链路,难点则是如何把自然语言意图稳定映射到真实办事流程,并处理身份、授权、履约和异常回退。

36氪

VAST:AI 3D 大模型公司完成超 10 亿元 A3 战略轮融资

36氪 7 月 2 日消息,专注 AI 3D 大模型与通用世界模型研发的 VAST(三启万物)宣布完成超 10 亿元人民币 A3 战略轮融资,巨人网络参与本轮投资。这是 VAST 继 A+、A++ 轮融资后,一个月内完成的又一笔大额融资。

AI 3D 与世界模型正在从内容生成走向游戏、影视、仿真和具身智能基础设施。资本密集下注的原因,是 3D 资产生成、可交互场景、物理一致性和长时序世界建模可能成为下一代内容生产与机器人训练的底层能力。

36氪


全球产业动态

OpenAI 被曝提议向美国政府提供约 5% 股权

36氪与 Financial Times 报道称,OpenAI 已与美国政府展开初步讨论,提议向美国政府提供约 5% 股权,以争取政策支持并让公众分享 AI 发展的经济收益。报道提到,Sam Altman 还建议美国主要 AI 公司可将类似比例股权注入公共投资载体,思路接近阿拉斯加永久基金。

这仍处于早期讨论阶段,但它把 AI 治理从“模型发布审查”进一步推向“公共收益分配与政府持股”。在 GPT-5.6、Fable 5 等前沿模型发布受到安全审查影响之后,AI 公司与政府的关系正在同时覆盖监管、国家安全、基础设施和收益分配。

36氪 · Financial Times

OpenAI 工程复盘:用“流行病学”方法定位 18 年老 bug

OpenAI 6 月 30 日发布工程复盘,解释团队如何通过生产 core dump 的群体级分析,把原本看似单一的崩溃问题拆成两个不同根因:一个 Azure 物理主机上的静默硬件错误,以及 GNU libunwind 中存在超过 18 年的 race condition。OpenAI 最终切换到 libgcc unwinder,并向 GNU libunwind 上游提交复现与修复。

这篇文章对 AI 基础设施的启发很直接:当模型和 Agent 依赖实时检索、数据插件和长期工作区,可靠性问题不只来自模型本身,还来自底层 C++、信号、异常栈展开、云硬件和自动诊断数据质量。

OpenAI


关键数据一览

指标数据
Nano Banana 2 Lite4 秒 text-to-image;0.034 美元 / 1K 图像
Gemini Omni Flash10 秒视频输出;0.10 美元 / 秒
Gemini Spark macOSGoogle AI Ultra 美国 18+ 用户 Beta
阿宝首批公测技能72 项智能办事技能
VAST 融资超 10 亿元人民币 A3 战略轮
OpenAI 股权提议约 5% 美国政府股权,仍属初步讨论

Sources


本 Newsletter 由 AI 行业公开信息整理,数据截至 2026 年 7 月 2 日。所有信息均来自公开来源,不构成投资建议。