跳到主要内容

2026-06-24 AI 动态

· 阅读需 4 分钟
本期焦点
  1. OpenAI 与 Broadcom 发布 Jalapeno 推理芯片,指向多代自研推理平台。
  2. Jalapeno 从设计到 tape-out 用 9 个月,计划按吉瓦级数据中心部署。
  3. NVIDIA NeMo AutoModel 在 MoE 微调上比 Transformers v5 提升 3.4-3.7 倍吞吐。
  4. Hugging Face 推出 FFASR Leaderboard,强调真实语音识别场景评测。

头条要闻

Jalapeno:OpenAI 把推理成本控制推进到芯片层

OpenAI 与 Broadcom 6 月 24 日发布 Jalapeno,这是 OpenAI 首款 Intelligence Processor,也是双方多代计算平台的第一代 AI 加速器。OpenAI 称,Jalapeno 面向 LLM 推理从零设计,目标是在交互式 LLM 产品中同时优化吞吐、延迟、网络和内存移动,而不是把通用 AI 加速器再适配到语言模型服务。

工程样片已在实验室以目标频率和功耗运行机器学习负载,包括 GPT-5.3-Codex-Spark。OpenAI 仍在测量最终性能,但表示早期测试显示其每瓦性能将显著优于当前最先进系统。Jalapeno 从初始设计到制造 tape-out 用时 9 个月,OpenAI 称模型也参与加速了部分设计与优化流程。

指标数据
芯片名称Jalapeno
合作方Broadcom、Celestica
定位LLM 推理加速器
研发周期9 个月完成 tape-out
部署方向2026 年底开始,多代平台,吉瓦级数据中心

OpenAI


模型训练与开源生态

NeMo AutoModel:MoE 微调的“换一行 import”路线

Hugging Face 与 NVIDIA 发布 NeMo AutoModel 文章,展示在 Transformers v5 的 MoE 支持之上加入 Expert Parallelism、DeepEP fused all-to-all dispatch 与 TransformerEngine kernels。文章称,在 Qwen3-30B-A3B 和 Nemotron 3 Nano 30B-A3B 微调上,NeMo AutoModel 相比最佳 Transformers v5 配置实现 3.4-3.7 倍训练吞吐提升,并降低 29-32% GPU 内存占用。

在更大规模的 Nemotron 3 Ultra 550B A55B 全量微调中,NeMo AutoModel 使用 16 个 H100 节点、128 块 GPU、EP=64 运行;对普通 Transformers v5 来说,该规模下会遇到内存不足。开源训练栈的竞争正在从“能不能加载模型”转向“能不能在 MoE 架构上高效并行”。

Hugging Face / NVIDIA

FFASR Leaderboard:语音识别评测转向真实世界条件

Hugging Face 6 月 24 日发布 FFASR Leaderboard,用于在更接近真实环境的条件下评估自动语音识别系统。相比只看干净语料上的 WER,真实应用更关心口音、噪声、长音频、说话人切换、领域词汇和部署成本。

这一方向与多模态 Agent 的落地相关:会议、客服、医疗、车载和可穿戴设备都需要可靠语音入口,ASR 质量会直接影响后续 RAG、总结、任务执行和审计结果。

Hugging Face


关键数据一览

指标数据
Jalapeno 研发周期9 个月 tape-out
Jalapeno 样片已在实验室运行 ML workload
NeMo AutoModel 吞吐提升3.4-3.7 倍
NeMo AutoModel 显存下降29-32%
Nemotron 3 Ultra 微调规模16 H100 节点 / 128 GPU

Sources


本 Newsletter 由 AI 行业公开信息整理,数据截至 2026 年 6 月 24 日。所有信息均来自公开来源,不构成投资建议。