跳到主要内容

2026-04-15 AI 动态

· 阅读需 11 分钟
本期焦点
  1. 百度文心开源 ERNIE-Image,8B 文生图模型可在 24GB 显卡运行。
  2. 阿里千问 AI 眼镜 S1 现货开售,南京全球首店同步开业。
  3. NVIDIA Ising 开源量子 AI 模型家族,中文社区热议“AI 操作系统”。
  4. 智谱 GLM-5.1 继续发酵,长程 Agent 与 Coding 能力成为焦点。
  5. OpenBMB VoxCPM2、Caveman 等开源项目体现社区侧 AI 工具热度。

📰 头条要闻

百度文心开源 ERNIE-Image:国产文生图模型继续卷向低门槛部署

4 月 15 日,百度文心大模型团队正式开源文生图模型 ERNIE-Image。该模型基于单流 Diffusion Transformer(DiT)架构,并配有轻量级 Prompt Enhancer,用于将简短输入扩展为更丰富、结构化的描述。模型参数量为 8B,官方介绍称 24GB 显存的消费级显卡即可运行。

这条消息的重点在于“开源 + 可部署”。ERNIE-Image 的权重和推理代码已在 Hugging Face 开放,遵循 Apache-2.0 协议,并支持 ComfyUI Workflow、联合 Unsloth 推出 GGUF 量化方案。对中文图像生成生态来说,它把高密度文字渲染、海报、漫画、多 panel 构图等场景继续推向本地化和工作流集成。

IT之家 · Hugging Face — baidu/ERNIE-Image


千问 AI 眼镜 S1 开售:阿里把 AI 硬件入口放到线下门店

4 月 15 日,千问 AI 眼镜 S1 正式现货开售,支持语音与视觉融合的多模态交互,叠加优惠和国家补贴后最低到手价 3499 元。同日,南京禄口国际机场 T2 航站楼内的阿里千问 AI 眼镜全球首店开业,该店也是千问 AI 硬件生态首个线下综合体验中心。

这说明 AI 硬件竞争不再停留在“发布一款设备”,而是进入渠道、体验、售后和供应链落地阶段。南京门店被定位为全国样板店,阿里计划自 2026 年下半年起向全国重点城市拓展。对 AI 助手来说,眼镜这类设备把语音、视觉、导航、翻译和实时问答放进了更贴近日常的入口。

IT之家 — 千问 AI 眼镜 S1 开售 · IT之家 — 千问 AI 眼镜全球首店


🚀 模型与产品更新

NVIDIA Ising:量子计算的开源 AI 模型家族

NVIDIA 4 月 14 日发布 NVIDIA Ising,4 月 15 日在中文 AI 社区形成集中传播。Ising 面向量子处理器校准和量子纠错解码,包含 Ising Calibration 与 Ising Decoding 两类模型。量子位报道中提到,Ising Calibration 是 350 亿参数 VLM,可用于量子处理器主动校准;Ising Decoding 则用 3D CNN 做实时纠错,速度最高可达传统方案的 2.5 倍,精度最高提升 3 倍。

这类模型不是通用聊天模型,而是面向科学计算基础设施的专用 AI。它的意义在于,AI 正从文本、代码、图像继续进入物理系统控制、量子计算实验和高性能工程流程。

指标数据
发布时间2026-04-14
模型家族NVIDIA Ising
主要方向量子处理器校准、量子纠错解码
开源资源模型、训练框架、数据集、工作流
许可官方称开放资源采用宽松许可,部分组件 Apache-2.0

量子位 · NVIDIA Developer Blog · NVIDIA Ising


智谱 GLM-5.1:长程 Agent 与 Coding 能力成为中文社区焦点

智谱官方文档显示,GLM-5.1 于 4 月 7 日上线,重点增强 Coding 和长程任务能力,支持一次任务中独立、持续工作长达 8 小时,实现从规划、执行到交付的闭环。中文社区近期持续讨论 GLM-5.1 在 CUDA Kernel 优化、长程工程任务和 SWE-bench Pro 等场景中的表现。

这条更新值得继续跟踪,因为中文开源模型竞争正在从“单轮回答质量”转向“能否连续工作数小时并交付项目”。如果长程任务稳定性确实成立,模型应用方式会从问答工具进一步转向工程执行者。

指标数据
上线时间2026-04-07
模型GLM-5.1
官方重点Coding 能力、Long Horizon Task、tool use 稳定性
上下文官方模型概览列为 200K
最大输出官方模型概览列为 128K

智谱官方文档 · 智谱模型概览 · 量子位


OpenBMB VoxCPM2:2B 开源 TTS 模型支持 30 种语言

OpenBMB / 面壁智能相关的 VoxCPM2 近期在中文社区继续传播。Hugging Face 模型卡显示,VoxCPM2 是一个 tokenizer-free、diffusion autoregressive 的文本转语音模型,参数量 2B,支持 30 种语言和多种中文方言,输出 48kHz 音频,并支持 Voice Design、可控声音克隆、流式生成等能力。

从社区传播看,VoxCPM2 被拿来测试贯口、方言、多语言和声音设计能力。它代表开源语音模型正在从“能读出来”转向“能设计声音、控制风格、保留表现力”。

指标数据
模型VoxCPM2
参数量2B
语言30 种语言,多种中文方言
输出音质48kHz
许可Apache-2.0

Hugging Face — openbmb/VoxCPM2 · OpenBMB VoxCPM2 Demo · 掘金社区


💰 融资与交易

Anthropic:中文媒体跟进 8000 亿美元估值意向

IT之家 4 月 15 日援引 Business Insider 报道称,Anthropic 近期收到多家风投机构投资意向,估值最高达 8000 亿美元,较当前估值翻倍以上。报道也提到,抢先报价未必会被公司接受,但这反映出市场对 Claude 生态、企业 AI 和模型能力的高预期。

日期参与方金额内容
2026-04-15Anthropic / 多家风投机构估值最高约 8000 亿美元中文媒体跟进潜在投资意向,公司未置评

IT之家


地瓜机器人:B 轮累计融资 2.7 亿美元,具身智能底座继续升温

地瓜机器人 4 月 8 日宣布完成 1.5 亿美元 B2 轮融资,B 轮累计融资额达到 2.7 亿美元。官方新闻稿称,本轮融资将用于加速商业和开发者生态的全球化布局,并以软硬协同、端云一体的具身智能原生技术底座支撑全球机器人产业创新。

这类融资说明,具身智能的资本关注点正在从单一机器人整机扩展到“机器人时代的基础设施”:芯片、模型、开发平台、工具链和生态。

日期参与方金额内容
2026-04-08地瓜机器人 / 战略与财务投资方B2 轮 1.5 亿美元,B 轮累计 2.7 亿美元加速机器人软硬件底座和全球开发者生态

地平线官方 · 深圳新闻网


🌍 全球产业动态

OpenAI GPT-5.4-Cyber:中文科技媒体跟进网络安全专用模型

IT之家 4 月 15 日报道,OpenAI 于 4 月 14 日发布 GPT-5.4-Cyber,并扩大网络防御可信访问计划(TAC),面向数千名网络安全专家及数百个团队开放。该模型基于 GPT-5.4,并针对网络安全防御场景微调。

这条动态和 NVIDIA Ising 有一个共同点:前沿模型厂商正在把能力从通用助手拆分到更专门、更高风险、更强访问控制的垂直场景。网络安全尤其需要在“能力开放”和“滥用防控”之间做分层。

IT之家 · OpenAI


AI Agent 工具社区继续升温:Caveman 用“少说话”节省 token

中文社区近期热议的 Caveman 是一个给 Claude Code、Codex 等 Agent 使用的技能/插件,核心是让 Agent 用更简洁的方式回答,从而减少可见输出 token。量子位转载到智源社区的报道提到,该项目 3 天获得约 4.1K GitHub stars,初步测试称输出 token 可减少约 75%,配套工具还可压缩记忆文件输入 token。

它不是大模型能力突破,但代表 AI 编程工具的真实痛点:上下文成本、输出冗余和可读性。未来 Agent 工具竞争不会只比模型,还会比提示词压缩、记忆管理、工作流组织和成本控制。

智源社区 / 量子位 · 知乎 / 量子位


📊 关键数据一览

指标数据
ERNIE-Image 参数量8B
ERNIE-Image 本地运行门槛报道称 24GB 显存消费级显卡可运行
ERNIE-Image 许可Apache-2.0
千问 AI 眼镜 S1 开售时间2026-04-15
千问 AI 眼镜 S1 最低到手价3499 元
NVIDIA Ising Calibration35B VLM,用于量子处理器校准
NVIDIA Ising Decoding3D CNN,用于量子纠错解码
GLM-5.1 长程任务官方称可持续工作长达 8 小时
VoxCPM2 参数量2B
VoxCPM2 语言支持30 种语言,多种中文方言
地瓜机器人 B2 轮融资1.5 亿美元
地瓜机器人 B 轮累计融资2.7 亿美元

📎 Sources


本 Newsletter 由 AI 行业公开信息整理,数据截至 2026 年 4 月 15 日。所有信息均来自公开来源,不构成投资建议。