跳到主要内容

2026-04-18 AI 动态

· 阅读需 12 分钟
本期焦点
  1. Google DeepMind 发布 Gemini Robotics-ER 1.6,机器人模型继续走向具身推理。
  2. Physical Intelligence 推出 π0.7,强调跨机器人本体和多任务泛化。
  3. Google Gemini 3.1 Flash TTS 上线,长音频、多语种和低延迟成为语音模型重点。
  4. OpenAI Sora 相关负责人离职,生成式视频产品竞争进入组织调整期。
  5. BNY 早期接入 OpenAI 网络防御模型,AI 安全开始进入大型金融机构试点。

📰 头条要闻

Google DeepMind Gemini Robotics-ER 1.6:把 Gemini 3 的推理能力接进机器人执行链

Google DeepMind 4 月 17 日发布 Gemini Robotics-ER 1.6,定位为面向机器人场景的具身推理模型。官方说明中,模型基于 Gemini 3 Pro,并面向视觉-语言理解、空间推理、计划和工具调用做了机器人化适配;它可以结合相机输入、自然语言指令和可用动作接口,帮助机器人理解环境、生成计划并调用底层控制策略。

这条新闻的重要性不只是“又一个机器人模型发布”。过去两年的具身智能经常卡在两层之间:大模型会理解任务,但不能稳定落到物理动作;控制策略能执行动作,但缺少开放世界理解和任务规划。Gemini Robotics-ER 1.6 的方向是把前沿多模态模型放在机器人高层决策位置,再通过工具调用和动作策略连接真实设备。量子位 4 月 18 日的中文报道也把它放在“第三代 Gemini 机器人模型”的框架下解读,说明中文产业媒体正在把具身智能视为大模型竞争的下一条主线。

Google DeepMind · 量子位


Physical Intelligence π0.7:机器人基础模型开始强调“跨本体泛化”

Physical Intelligence 近 48 小时发布 π0.7,这是其机器人基础模型的新版本。量子位首页在 4 月 18 日跟进称,π0.7 能在多种机器人本体上执行任务,并把“背靠背任务”和多场景泛化作为亮点。官方介绍也强调,π0.7 不是面向单一机械臂或单一环境的演示模型,而是希望用同一套策略覆盖不同机器人、不同场景和更长任务链。

这对行业的意义在于,具身智能的竞争正在从“某个 Demo 能不能完成”转向“模型能不能迁移”。如果一个策略只能在固定桌面、固定机械臂、固定物体集合上工作,它更像系统集成;如果能跨本体、跨任务、跨环境复用,才更接近机器人基础模型。π0.7 与 Gemini Robotics-ER 1.6 放在一起看,4 月 17-18 日的英文与中文资讯共同指向同一件事:机器人模型的核心战场正在变成数据规模、长期任务、泛化能力和真实执行闭环。

Physical Intelligence · 量子位


🚀 模型与产品更新

Gemini 3.1 Flash TTS:Google 把长音频、多语种和实时语音放到统一模型线上

Google 4 月 17 日发布 Gemini 3.1 Flash TTS,定位为高质量、低延迟、可控的文本转语音模型。官方介绍称,新模型支持更自然的语音表达、多语言输入、更长音频生成,以及对语气、风格和角色的更细粒度控制;开发者可通过 Gemini API 和 Google AI Studio 使用。

语音模型正在从“朗读文本”变成多模态交互入口。对 AI 助手、教育、客服、播客、游戏 NPC 和无障碍产品来说,TTS 的关键指标不只是音色好听,还包括长文本稳定性、多语种切换、延迟、风格可控性和调用成本。Google 把 TTS 放进 Gemini 3.1 Flash 线,说明语音生成会继续向通用多模态模型靠拢,而不是停留在独立音频工具层。

指标数据
发布时间2026-04-17
模型Gemini 3.1 Flash TTS
主要能力文本转语音、长音频、多语种、风格控制
访问方式Gemini API、Google AI Studio
适用场景语音助手、教育、客服、音频内容、无障碍交互

Google Blog


Runway 与 Seedance 2.0 信号:可控视频生成继续向角色、镜头和脚本推进

量子位 4 月 18 日首页同时出现了 Runway 角色控制和 Seedance 2.0 相关报道信号:前者强调一张图生成可控制的数字人角色,后者强调“视频版 vibe coding”,即通过脚本和提示词让视频生成更接近可编排的制作流程。

这类更新的共同方向是把视频生成从“抽卡式生成”推向“可导演、可复现、可编辑”。生成式视频真正进入广告、短剧、游戏资产和企业内容生产时,用户需要的是角色一致性、镜头连续性、场景控制、动作可编辑和脚本级工作流,而不是单段炫技视频。今天的中文资讯信号说明,视频模型竞争已经开始从单次效果转向生产管线。

量子位


arXiv 当前列表:Agent 记忆、工具使用和多智能体协同仍在高频出现

arXiv cs.AI 与 cs.CL 当前列表在 4 月中旬继续集中出现 Agent、长期记忆、工具使用、多智能体协同、LLM-as-judge、医疗与法律场景评测、多模态模型安全等论文。和产业侧的 Codex、Claude Code、Gemini Robotics、π0.7 放在一起看,研究问题已经明显从“单轮回答能力”转向“长任务中的可控性、可验证性和真实环境适配”。

对开发者和企业用户来说,论文信号的价值在于提前看到工程瓶颈:Agent 会失败在哪里,工具调用如何评测,长期记忆如何避免污染,多智能体系统如何分工,模型安全如何从静态提示词扩展到动态交互轨迹。这些主题会直接影响接下来一年的产品架构。

arXiv cs.AI · arXiv cs.CL


💰 融资与交易

BNY 早期接入 OpenAI 网络防御模型:金融机构开始试用专用安全模型

Axios 4 月 16 日报道,美国大型金融机构 BNY 正在早期接入 OpenAI 面向网络防御的 GPT-Cyber 系列能力,用于辅助安全团队处理威胁情报、代码分析和防御工作流。这条消息紧接着 OpenAI 4 月 14 日扩大 Trusted Access for Cyber 计划,说明专用安全模型正在从厂商公告进入受控行业试点。

金融机构采用这类模型的关键不只是模型能力,而是访问控制、日志、审计、数据边界和误用防范。网络安全是大模型能力最敏感的落地方向之一:同样的逆向分析、漏洞理解和自动化工具链,既能提升防御效率,也可能被滥用。因此 OpenAI 选择“可信访问 + 已验证防御者 + 小范围部署”的方式推进,代表前沿模型在高风险行业里的典型商业化路径。

日期参与方金额内容
2026-04-16BNY / OpenAI未披露BNY 早期接入 OpenAI 网络防御模型能力
2026-04-14OpenAI未披露扩大 Trusted Access for Cyber 计划

Axios · OpenAI


六大行科技投入与 Agent 创业信号:AI 商业化不只看模型厂商

36氪 AI 栏目 4 月 18 日的资讯流继续把银行科技投入、Agent 创业公司和创投事件放在同一页跟踪。其中,六大国有银行科技投入突破千亿元级别的报道信号,说明 AI 基础设施和数字化预算仍在从金融等传统行业持续释放;同时,面向企业流程的 Agent 公司和工具创业仍然保持热度。

这类资讯不适合和一手融资公告混为一谈,但对日报有价值:AI 商业化的真实落点往往发生在银行、制造、零售、政企服务和开发者工具中。模型发布决定能力上限,行业预算和组织改造决定渗透速度。今天的中文资讯流显示,金融科技投入、企业 Agent、视频生成和机器人仍然是资本与产业同时关注的方向。

36氪 AI


🌍 全球产业动态

OpenAI Sora 负责人离职:视频生成从技术竞赛进入产品组织竞争

The Verge 4 月 17 日报道,OpenAI 的 Sora 负责人之一 Rohan Sahai 离职。报道把这一变化放在 Sora 团队组织调整、生成式视频竞争和 Meta 等公司的人才争夺背景下讨论。Sora 仍是 OpenAI 重要的视频产品线,但高层和核心团队变动显示,视频生成已经不只是研究能力竞赛,也进入了产品路线、版权治理、创作者生态和商业化节奏的组织竞争。

生成式视频在 2026 年的压力比图像生成更复杂:模型要处理一致性、可控性、音频、角色、镜头、编辑、版权、真人肖像和平台分发。Runway、字节 Seedance、Google Veo、OpenAI Sora 等产品路线正在快速靠近,但真正能规模化的公司必须同时解决模型、工具链、创作者工作流和风险治理。

The Verge


机器之心周报:中文技术社区仍围绕多模态、Agent 和开源模型整理信息

机器之心 4 月中旬首页继续以 AI 科技评论周报、模型更新和开源生态为主要内容,覆盖多模态、Agent、评测、论文和产业动态。相比快讯类媒体,机器之心更适合作为“技术背景层”信号:哪些论文和项目值得二次解读,哪些模型能力正在从研究走向工程化,哪些开源工具在中文开发者社区产生关注。

今天的中文资讯与英文官方发布之间有明显呼应:英文侧的 Gemini Robotics-ER 1.6、π0.7 和 Gemini TTS 给出一手产品信号;中文侧的量子位、36氪、机器之心则把这些信号放进机器人、视频生成、企业 Agent 和金融科技投入的产业语境里。对中文读者来说,这种交叉验证比单看单一来源更可靠。

机器之心


📊 关键数据一览

指标数据
Gemini Robotics-ER 1.6 发布时间2026-04-17
Gemini Robotics-ER 1.6 底座Google 称基于 Gemini 3 Pro
π0.7 方向跨机器人本体、多任务、长任务泛化
Gemini 3.1 Flash TTS 发布时间2026-04-17
Gemini 3.1 Flash TTS 访问方式Gemini API、Google AI Studio
BNY 试点方向OpenAI 网络防御模型早期接入
OpenAI Trusted Access for Cyber 扩大时间2026-04-14
今日中文资讯重点机器人模型、视频生成、金融科技投入、Agent 创业
arXiv 当前研究高频主题Agent 记忆、工具调用、多智能体协同、多模态安全

📎 Sources


本 Newsletter 由 AI 行业公开信息整理,数据截至 2026 年 4 月 18 日。所有信息均来自公开来源,不构成投资建议。