2026-04-18 AI 动态

2026年4月18日 · 阅读需 12 分钟

本期焦点

Google DeepMind 发布 Gemini Robotics-ER 1.6，机器人模型继续走向具身推理。
Physical Intelligence 推出 π0.7，强调跨机器人本体和多任务泛化。
Google Gemini 3.1 Flash TTS 上线，长音频、多语种和低延迟成为语音模型重点。
OpenAI Sora 相关负责人离职，生成式视频产品竞争进入组织调整期。
BNY 早期接入 OpenAI 网络防御模型，AI 安全开始进入大型金融机构试点。

📰 头条要闻

Google DeepMind Gemini Robotics-ER 1.6：把 Gemini 3 的推理能力接进机器人执行链

Google DeepMind 4 月 17 日发布 Gemini Robotics-ER 1.6，定位为面向机器人场景的具身推理模型。官方说明中，模型基于 Gemini 3 Pro，并面向视觉-语言理解、空间推理、计划和工具调用做了机器人化适配；它可以结合相机输入、自然语言指令和可用动作接口，帮助机器人理解环境、生成计划并调用底层控制策略。

这条新闻的重要性不只是“又一个机器人模型发布”。过去两年的具身智能经常卡在两层之间：大模型会理解任务，但不能稳定落到物理动作；控制策略能执行动作，但缺少开放世界理解和任务规划。Gemini Robotics-ER 1.6 的方向是把前沿多模态模型放在机器人高层决策位置，再通过工具调用和动作策略连接真实设备。量子位 4 月 18 日的中文报道也把它放在“第三代 Gemini 机器人模型”的框架下解读，说明中文产业媒体正在把具身智能视为大模型竞争的下一条主线。

Google DeepMind · 量子位

Physical Intelligence π0.7：机器人基础模型开始强调“跨本体泛化”

Physical Intelligence 近 48 小时发布 π0.7，这是其机器人基础模型的新版本。量子位首页在 4 月 18 日跟进称，π0.7 能在多种机器人本体上执行任务，并把“背靠背任务”和多场景泛化作为亮点。官方介绍也强调，π0.7 不是面向单一机械臂或单一环境的演示模型，而是希望用同一套策略覆盖不同机器人、不同场景和更长任务链。

这对行业的意义在于，具身智能的竞争正在从“某个 Demo 能不能完成”转向“模型能不能迁移”。如果一个策略只能在固定桌面、固定机械臂、固定物体集合上工作，它更像系统集成；如果能跨本体、跨任务、跨环境复用，才更接近机器人基础模型。π0.7 与 Gemini Robotics-ER 1.6 放在一起看，4 月 17-18 日的英文与中文资讯共同指向同一件事：机器人模型的核心战场正在变成数据规模、长期任务、泛化能力和真实执行闭环。

Physical Intelligence · 量子位

🚀 模型与产品更新

Gemini 3.1 Flash TTS：Google 把长音频、多语种和实时语音放到统一模型线上

Google 4 月 17 日发布 Gemini 3.1 Flash TTS，定位为高质量、低延迟、可控的文本转语音模型。官方介绍称，新模型支持更自然的语音表达、多语言输入、更长音频生成，以及对语气、风格和角色的更细粒度控制；开发者可通过 Gemini API 和 Google AI Studio 使用。

语音模型正在从“朗读文本”变成多模态交互入口。对 AI 助手、教育、客服、播客、游戏 NPC 和无障碍产品来说，TTS 的关键指标不只是音色好听，还包括长文本稳定性、多语种切换、延迟、风格可控性和调用成本。Google 把 TTS 放进 Gemini 3.1 Flash 线，说明语音生成会继续向通用多模态模型靠拢，而不是停留在独立音频工具层。

指标	数据
发布时间	2026-04-17
模型	Gemini 3.1 Flash TTS
主要能力	文本转语音、长音频、多语种、风格控制
访问方式	Gemini API、Google AI Studio
适用场景	语音助手、教育、客服、音频内容、无障碍交互

Google Blog

Runway 与 Seedance 2.0 信号：可控视频生成继续向角色、镜头和脚本推进

量子位 4 月 18 日首页同时出现了 Runway 角色控制和 Seedance 2.0 相关报道信号：前者强调一张图生成可控制的数字人角色，后者强调“视频版 vibe coding”，即通过脚本和提示词让视频生成更接近可编排的制作流程。

这类更新的共同方向是把视频生成从“抽卡式生成”推向“可导演、可复现、可编辑”。生成式视频真正进入广告、短剧、游戏资产和企业内容生产时，用户需要的是角色一致性、镜头连续性、场景控制、动作可编辑和脚本级工作流，而不是单段炫技视频。今天的中文资讯信号说明，视频模型竞争已经开始从单次效果转向生产管线。

量子位

arXiv 当前列表：Agent 记忆、工具使用和多智能体协同仍在高频出现

arXiv cs.AI 与 cs.CL 当前列表在 4 月中旬继续集中出现 Agent、长期记忆、工具使用、多智能体协同、LLM-as-judge、医疗与法律场景评测、多模态模型安全等论文。和产业侧的 Codex、Claude Code、Gemini Robotics、π0.7 放在一起看，研究问题已经明显从“单轮回答能力”转向“长任务中的可控性、可验证性和真实环境适配”。

对开发者和企业用户来说，论文信号的价值在于提前看到工程瓶颈：Agent 会失败在哪里，工具调用如何评测，长期记忆如何避免污染，多智能体系统如何分工，模型安全如何从静态提示词扩展到动态交互轨迹。这些主题会直接影响接下来一年的产品架构。

arXiv cs.AI · arXiv cs.CL

💰 融资与交易

BNY 早期接入 OpenAI 网络防御模型：金融机构开始试用专用安全模型

Axios 4 月 16 日报道，美国大型金融机构 BNY 正在早期接入 OpenAI 面向网络防御的 GPT-Cyber 系列能力，用于辅助安全团队处理威胁情报、代码分析和防御工作流。这条消息紧接着 OpenAI 4 月 14 日扩大 Trusted Access for Cyber 计划，说明专用安全模型正在从厂商公告进入受控行业试点。

金融机构采用这类模型的关键不只是模型能力，而是访问控制、日志、审计、数据边界和误用防范。网络安全是大模型能力最敏感的落地方向之一：同样的逆向分析、漏洞理解和自动化工具链，既能提升防御效率，也可能被滥用。因此 OpenAI 选择“可信访问 + 已验证防御者 + 小范围部署”的方式推进，代表前沿模型在高风险行业里的典型商业化路径。

日期	参与方	金额	内容
2026-04-16	BNY / OpenAI	未披露	BNY 早期接入 OpenAI 网络防御模型能力
2026-04-14	OpenAI	未披露	扩大 Trusted Access for Cyber 计划

Axios · OpenAI

六大行科技投入与 Agent 创业信号：AI 商业化不只看模型厂商

36氪 AI 栏目 4 月 18 日的资讯流继续把银行科技投入、Agent 创业公司和创投事件放在同一页跟踪。其中，六大国有银行科技投入突破千亿元级别的报道信号，说明 AI 基础设施和数字化预算仍在从金融等传统行业持续释放；同时，面向企业流程的 Agent 公司和工具创业仍然保持热度。

这类资讯不适合和一手融资公告混为一谈，但对日报有价值：AI 商业化的真实落点往往发生在银行、制造、零售、政企服务和开发者工具中。模型发布决定能力上限，行业预算和组织改造决定渗透速度。今天的中文资讯流显示，金融科技投入、企业 Agent、视频生成和机器人仍然是资本与产业同时关注的方向。

36氪 AI

🌍 全球产业动态

OpenAI Sora 负责人离职：视频生成从技术竞赛进入产品组织竞争

The Verge 4 月 17 日报道，OpenAI 的 Sora 负责人之一 Rohan Sahai 离职。报道把这一变化放在 Sora 团队组织调整、生成式视频竞争和 Meta 等公司的人才争夺背景下讨论。Sora 仍是 OpenAI 重要的视频产品线，但高层和核心团队变动显示，视频生成已经不只是研究能力竞赛，也进入了产品路线、版权治理、创作者生态和商业化节奏的组织竞争。

生成式视频在 2026 年的压力比图像生成更复杂：模型要处理一致性、可控性、音频、角色、镜头、编辑、版权、真人肖像和平台分发。Runway、字节 Seedance、Google Veo、OpenAI Sora 等产品路线正在快速靠近，但真正能规模化的公司必须同时解决模型、工具链、创作者工作流和风险治理。

The Verge

机器之心周报：中文技术社区仍围绕多模态、Agent 和开源模型整理信息

机器之心 4 月中旬首页继续以 AI 科技评论周报、模型更新和开源生态为主要内容，覆盖多模态、Agent、评测、论文和产业动态。相比快讯类媒体，机器之心更适合作为“技术背景层”信号：哪些论文和项目值得二次解读，哪些模型能力正在从研究走向工程化，哪些开源工具在中文开发者社区产生关注。

今天的中文资讯与英文官方发布之间有明显呼应：英文侧的 Gemini Robotics-ER 1.6、π0.7 和 Gemini TTS 给出一手产品信号；中文侧的量子位、36氪、机器之心则把这些信号放进机器人、视频生成、企业 Agent 和金融科技投入的产业语境里。对中文读者来说，这种交叉验证比单看单一来源更可靠。

机器之心

📊 关键数据一览

指标	数据
Gemini Robotics-ER 1.6 发布时间	2026-04-17
Gemini Robotics-ER 1.6 底座	Google 称基于 Gemini 3 Pro
π0.7 方向	跨机器人本体、多任务、长任务泛化
Gemini 3.1 Flash TTS 发布时间	2026-04-17
Gemini 3.1 Flash TTS 访问方式	Gemini API、Google AI Studio
BNY 试点方向	OpenAI 网络防御模型早期接入
OpenAI Trusted Access for Cyber 扩大时间	2026-04-14
今日中文资讯重点	机器人模型、视频生成、金融科技投入、Agent 创业
arXiv 当前研究高频主题	Agent 记忆、工具调用、多智能体协同、多模态安全

📎 Sources

Google DeepMind — Gemini Robotics-ER 1.6 — Gemini Robotics-ER 1.6 的发布时间、定位、机器人推理和执行链路。
Physical Intelligence — π0.7 — π0.7 机器人基础模型、跨本体泛化和长任务能力。
Google Blog — Gemini 3.1 Flash TTS — Gemini 3.1 Flash TTS 的模型能力、访问方式和语音生成方向。
Axios — BNY gets early access to OpenAI cybersecurity models — BNY 早期接入 OpenAI 网络防御模型的行业试点信息。
OpenAI — Trusted access for the next era of cyber defense — Trusted Access for Cyber 扩大和 GPT-Cyber 相关背景。
The Verge — OpenAI loses a leader on Sora — Sora 负责人离职和生成式视频组织竞争背景。
量子位 — 4 月 18 日中文资讯流中 Gemini 机器人模型、π0.7、Runway 和 Seedance 2.0 等报道信号。
36氪 AI — 4 月 18 日中文 AI 资讯流中金融科技投入、Agent 创业和产业动态信号。
机器之心 — 中文技术社区周报、论文、模型与开源生态信号。
arXiv cs.AI current — AI 方向当前论文列表和 Agent / 安全 / 多智能体研究主题。
arXiv cs.CL current — NLP / LLM 当前论文列表和评测、工具使用、语言模型研究主题。

本 Newsletter 由 AI 行业公开信息整理，数据截至 2026 年 4 月 18 日。所有信息均来自公开来源，不构成投资建议。

📰 头条要闻​

Google DeepMind Gemini Robotics-ER 1.6：把 Gemini 3 的推理能力接进机器人执行链​

Physical Intelligence π0.7：机器人基础模型开始强调“跨本体泛化”​

🚀 模型与产品更新​

Gemini 3.1 Flash TTS：Google 把长音频、多语种和实时语音放到统一模型线上​

Runway 与 Seedance 2.0 信号：可控视频生成继续向角色、镜头和脚本推进​

arXiv 当前列表：Agent 记忆、工具使用和多智能体协同仍在高频出现​

💰 融资与交易​

BNY 早期接入 OpenAI 网络防御模型：金融机构开始试用专用安全模型​

六大行科技投入与 Agent 创业信号：AI 商业化不只看模型厂商​

🌍 全球产业动态​

OpenAI Sora 负责人离职：视频生成从技术竞赛进入产品组织竞争​

机器之心周报：中文技术社区仍围绕多模态、Agent 和开源模型整理信息​

📊 关键数据一览​

📎 Sources​