2026-06-29 AI 周报
覆盖周期:2026-06-29 至 2026-07-05;当前为截至 2026-07-02 的阶段稿。
- OpenAI 的欧洲 AI 就业框架和 ChatGPT 采用率研究,把 AI 影响从泛化叙事推进到职业、区域、语言和性别维度的数据分析。
- GeneBench-Pro、Every Eval Ever 和 ScarfBench 显示,评测基础设施正在向领域专家判断、可复现元数据和企业迁移任务延伸。
- GPT-5.6 受限预览与 Claude Fable 5 恢复访问说明,前沿模型的能力发布、访问控制和安全分类器仍是主线。
- Gemini Omni Flash、Nano Banana 2 Lite、Gemma 4 语音栈和 Gemini Spark 说明,多模态与 Agent 产品正在转向低延迟、可组合和可执行工作流。
- 阿宝、Memoket、Lunaverse Stories 和 VAST 代表中文 AI 应用侧的几条路径:生活办事、物理记忆、互动叙事和 3D 世界模型。
本周阶段主线
AI 劳动力影响开始进入细分地图
OpenAI 基于 ESCO 职业分类和 Eurostat 就业数据提出欧洲 AI 就业转型框架,将职业划分为“随 AI 增长”“更高自动化潜力”“重组”“短期变化较少”四类。报告估计欧盟约 12% 就业可能随 AI 增长,14% 具有较高近端自动化潜力,27% 更可能被重组,47% 短期变化较少。配合 ChatGPT 采用率研究,AI 普及的讨论正在从“是否会影响工作”转向“哪些地区、职业和语言群体正在更快变化”。
科学评测从通用题库转向研究级任务
OpenAI 发布 GeneBench-Pro,覆盖计算生物学 10 个领域、21 个子领域和 129 个研究级问题,其中多数经过外部专家审阅。模型需要在隔离工作区中使用生物信息学工具链完成任务,GPT-5.6 Sol 在最高推理设置下达到 28.7% 通过率,Pro 模式达到 31.5%。这类评测把“模型会不会答题”推进到“能否完成专家需要 20-40 小时的问题求解”。
评测数据开始强调元数据与可复现
Hugging Face 社区推出 Every Eval Ever 与 Community Evals 互操作方案,试图把不同来源的评测结果统一到可查询的数据结构中。EEE 数据库已汇聚约 22,000 多个模型、2,200 多个基准和 229,000 条评测结果,并记录运行器、模型访问方式、生成参数、指标含义和样本级 JSONL。IBM Research 的 ScarfBench 则把 Agent 评测带到企业 Java 框架迁移场景,说明评测正在从通用能力榜单扩展到真实工程任务。
前沿模型访问治理继续升温
GPT-5.6 系列仍处在受信任伙伴和分阶段开放阶段。Anthropic 则在恢复 Claude Fable 5 访问时强调新的安全分类器、越狱拦截和与云平台的协调。模型能力越强,发布节奏越不只是产品排期,也包括安全评估、平台分发、政府沟通和客户准入。
多模态生成和实时语音进入可组合阶段
Google 将 Nano Banana 2 Lite 和 Gemini Omni Flash 同时开放给开发者,形成“高速图像生成 + 视频生成/对话式编辑”的组合。Hugging Face 与 Cerebras 则把 Gemma 4 31B、Parakeet 和 Qwen3TTS 串成开放实时语音管线,用高速推理降低语音 Agent 的长尾延迟。多模态竞争不只是模型单点质量,也开始比较速度、成本、API 组合和跨模态工作流。
Agent 产品从对话走向桌面和服务执行
Gemini Spark 登陆 macOS,并扩展 Canva、Dropbox、Instacart、OpenTable、Zillow Rentals、自定义 MCP 和实时主题追踪;AI 版支付宝“阿宝”则在中文生活服务场景开放公测,首批上线 72 项智能办事技能。两者方向不同,但都把 Agent 从聊天窗口推进到可授权、可连接、可触发真实任务的产品形态。
AI 原生消费产品继续寻找新入口
36 氪报道的 Memoket 把 AI Memory 做成 11g 可穿戴硬件,强调长时间记录、跨时间上下文聚合和面向 Agent 的物理世界记忆。MobAI 获天使轮融资后,将 AI 互动叙事应用 Lunaverse Stories 推向邀请制测试。VAST 完成超 10 亿元 A3 战略轮融资,继续押注 AI 3D 大模型与通用世界模型。消费端和内容端 AI 正在同时尝试硬件入口、长期记忆、互动叙事和 3D 场景生成,而不是只停留在聊天框。
时间线
| 日期 | 事件 | 分类 | 影响 |
|---|---|---|---|
| 06-29 | OpenAI 发布欧洲 AI 就业转型框架 | AI 劳动力 | 将职业影响拆分为增长、自动化、重组和低变化四类 |
| 06-29 | Google 解释 full stack AI | AI 基础设施 | 从芯片、模型、产品到云平台展示一体化 AI 栈 |
| 06-29 | AllenAI 发布 DiScoFormer | 模型研究 | 关注长上下文和结构化推理方向的架构探索 |
| 06-30 | OpenAI 发布 GeneBench-Pro | 科学评测 | 129 个计算生物学研究级问题,强调专家审阅和工具链执行 |
| 06-30 | OpenAI 发布 ChatGPT 采用率研究 | AI 普及 | 追踪地区、语言和人群维度的全球增长差异 |
| 06-30 | Every Eval Ever 与 Community Evals 互操作 | 评测基础设施 | 统一评测结果元数据,支持跨模型和跨基准查询 |
| 06-30 | IBM Research 发布 ScarfBench | 企业 Agent 评测 | 将 Agent 能力评估带到 Java 框架迁移任务 |
| 07-01 | Claude Fable 5 恢复访问 | 模型治理 | 安全分类器、平台恢复和访问限制成为发布条件 |
| 07-01 | Memoket 开启海外预售 | AI 硬件 | AI Memory 设备探索物理世界记录与 Agent 上下文 |
| 07-01 | MobAI 完成天使轮融资 | AI 互动叙事 | Lunaverse Stories 进入邀请制测试 |
| 07-02 | Hugging Face + Cerebras 实时语音 AI | 语音 Agent | Gemma 4、Parakeet、Qwen3TTS 和 Cerebras 组成开放低延迟管线 |
| 07-02 | Nano Banana 2 Lite / Gemini Omni Flash | 生成媒体 | 图像生成、视频生成和对话式编辑进入开发者组合工作流 |
| 07-02 | Gemini Spark 更新 | Agent 产品 | macOS、连接应用、自定义 MCP 与实时主题追踪扩展执行边界 |
| 07-02 | AI 版支付宝“阿宝”公测 | 中文 AI 应用 | 首批 72 项智能办事技能进入生活服务入口 |
| 07-02 | VAST 完成超 10 亿元 A3 战略轮融资 | AI 3D / 世界模型 | 巨人网络参投,AI 3D 与通用世界模型继续升温 |
| 07-02 | OpenAI 被曝 5% 股权提议 | AI 政策与资本 | AI 公司与政府关系延伸到公共收益分配和潜在持股 |
Sources
- blog/2026-06-29-ai-news - 欧洲 AI 就业转型框架、Google full stack AI 和 DiScoFormer。
- blog/2026-06-30-ai-news - GeneBench-Pro、ChatGPT 采用率研究、Every Eval Ever 和 ScarfBench。
- blog/2026-07-01-ai-news - Claude Fable 5 恢复、Memoket AI Memory 与 MobAI/Lunaverse Stories。
- blog/2026-07-02-ai-news - Gemma 4 实时语音 AI、Nano Banana 2 Lite、Gemini Omni Flash、Gemini Spark、阿宝、VAST 和 OpenAI 股权提议。
本周报基于 2026 年 6 月 29 日至 7 月 5 日自然周内截至 2026 年 7 月 2 日已收录 AI 日报整理;所有信息均来自公开来源,不构成投资建议。