跳到主要内容

2026-06-20 AI 动态

· 阅读需 4 分钟
本期焦点
  1. MaineCoon 用 22B 参数实现单卡 47.5 FPS 流式音视频生成。
  2. ENPIRE 让 8 个 Coding Agent 并行控制双臂机器人做自主研究。
  3. Pin Insertion 实验中,ENPIRE 在 3 小时内把成功率从 0 提升到 99%。
  4. ERP-DocIQ 证明小型开放模型也能处理单据、数据问答和浏览器自动化。

头条要闻

MaineCoon:流式音视频从“生成作品”转向“持续互动”

量子位 6 月 20 日报道,Catnip 团队发布流式音视频社交模型 MaineCoon。模型规模为 22B,在单张 H100 上达到 47.5 FPS,在 RTX Pro 6000 上也可保持 30 FPS 以上;首帧延迟低于 3 秒,并支持生成过程中追加提示词。满载推理时,每秒成本最低约 0.00025 美元。

MaineCoon 的重点不是一次性生成短片,而是持续生成、音画同步和实时响应。团队称模型可连续生成 10 分钟以上,并在 SocialVideo Bench 的密集演讲、双人互动、音乐、情绪表演等七类场景中取得 0.934 综合分。流式视频如果稳定进入实时交互,将直接影响数字人、直播、电商客服和陪伴产品的交互形态。

指标数据
模型MaineCoon
参数量22B
H100 推理速度47.5 FPS
RTX Pro 600030 FPS+
最低推理成本0.00025 美元 / 秒
SocialVideo Bench0.934

量子位


研究与 Agent

ENPIRE:把机器人实验室包装成 Agent 可迭代环境

英伟达、CMU 和 Berkeley 联合推出 ENPIRE。框架让 8 个 Coding Agent 分别控制双臂机器人,完成文献检索、算法修改、策略训练、真机部署、结果分析和下一轮实验。其核心是由环境、策略改进、Rollout 和 Evolution 组成的 Harness,把自动复位、自动评分与安全边界做成 Agent 可调用接口。

在 Pin Insertion 任务中,系统用 3 小时把 4 毫米孔洞插针成功率从 0 提升到 99%;四个灵巧操作任务最终都达到 99%。这类系统的价值不只在于“机器人会做任务”,而是把物理实验也变成可并行、可验证、可积累经验的 Agent 工作流。

量子位


开源生态

ERP-DocIQ:小模型也能承担后台业务闭环

Hugging Face 社区展示 Build Small 黑客松项目 ERP-DocIQ。项目结合 MiniCPM、Cohere 开放模型、Gradio 和本地数据处理组件,读取发票与合同、把自然语言问题转换为数据库查询,并执行浏览器操作。数字结果由数据库返回,模型只负责生成查询和解释,降低了财务数据幻觉风险。

这个案例说明,企业 AI 不一定要从最大模型开始。对单据识别、固定领域问答和内部自动化而言,本地小模型带来的数据驻留、低成本与可替换性,可能比通用能力更重要。

Hugging Face


关键数据一览

指标数据
MaineCoon22B,单 H100 47.5 FPS
MaineCoon 成本最低 0.00025 美元 / 秒
ENPIRE8 个 Agent、8 台机器人
ENPIRE Pin Insertion3 小时内从 0 到 99%
ERP-DocIQMiniCPM + Gradio + 本地数据闭环

Sources


本 Newsletter 由 AI 行业公开信息整理,数据截至 2026 年 6 月 20 日。所有信息均来自公开来源,不构成投资建议。