2026-06-20 AI 动态
- MaineCoon 用 22B 参数实现单卡 47.5 FPS 流式音视频生成。
- ENPIRE 让 8 个 Coding Agent 并行控制双臂机器人做自主研究。
- Pin Insertion 实验中,ENPIRE 在 3 小时内把成功率从 0 提升到 99%。
- ERP-DocIQ 证明小型开放模型也能处理单据、数据问答和浏览器自动化。
头条要闻
MaineCoon:流式音视频从“生成作品”转向“持续互动”
量子位 6 月 20 日报道,Catnip 团队发布流式音视频社交模型 MaineCoon。模型规模为 22B,在单张 H100 上达到 47.5 FPS,在 RTX Pro 6000 上也可保持 30 FPS 以上;首帧延迟低于 3 秒,并支持生成过程中追加提示词。满载推理时,每秒成本最低约 0.00025 美元。
MaineCoon 的重点不是一次性生成短片,而是持续生成、音画同步和实时响应。团队称模型可连续生成 10 分钟以上,并在 SocialVideo Bench 的密集演讲、双人互动、音乐、情绪表演等七类场景中取得 0.934 综合分。流式视频如果稳定进入实时交互,将直接影响数字人、直播、电商客服和陪伴产品的交互形态。
| 指标 | 数据 |
|---|---|
| 模型 | MaineCoon |
| 参数量 | 22B |
| H100 推理速度 | 47.5 FPS |
| RTX Pro 6000 | 30 FPS+ |
| 最低推理成本 | 0.00025 美元 / 秒 |
| SocialVideo Bench | 0.934 |
研究与 Agent
ENPIRE:把机器人实验室包装成 Agent 可迭代环境
英伟达、CMU 和 Berkeley 联合推出 ENPIRE。框架让 8 个 Coding Agent 分别控制双臂机器人,完成文献检索、算法修改、策略训练、真机部署、结果分析和下一轮实验。其核心是由环境、策略改进、Rollout 和 Evolution 组成的 Harness,把自动复位、自动评分与安全边界做成 Agent 可调用接口。
在 Pin Insertion 任务中,系统用 3 小时把 4 毫米孔洞插针成功率从 0 提升到 99%;四个灵巧操作任务最终都达到 99%。这类系统的价值不只在于“机器人会做任务”,而是把物理实验也变成可并行、可验证、可积累经验的 Agent 工作流。
开源生态
ERP-DocIQ:小模型也能承担后台业务闭环
Hugging Face 社区展示 Build Small 黑客松项目 ERP-DocIQ。项目结合 MiniCPM、Cohere 开放模型、Gradio 和本地数据处理组件,读取发票与合同、把自然语言问题转换为数据库查询,并执行浏览器操作。数字结果由数据库返回,模型只负责生成查询和解释,降低了财务数据幻觉风险。
这个案例说明,企业 AI 不一定要从最大模型开始。对单据识别、固定领域问答和内部自动化而言,本地小模型带来的数据驻留、低成本与可替换性,可能比通用能力更重要。
关键数据一览
| 指标 | 数据 |
|---|---|
| MaineCoon | 22B,单 H100 47.5 FPS |
| MaineCoon 成本 | 最低 0.00025 美元 / 秒 |
| ENPIRE | 8 个 Agent、8 台机器人 |
| ENPIRE Pin Insertion | 3 小时内从 0 到 99% |
| ERP-DocIQ | MiniCPM + Gradio + 本地数据闭环 |
Sources
- 量子位 — MaineCoon 流式音视频模型 — 模型参数、速度、成本、长时生成和 SocialVideo Bench 数据。
- 量子位 — ENPIRE 机器人自主研究框架 — 多 Agent 真机研究流程与任务成功率。
- Hugging Face — Teaching small AI models to run the back office — ERP-DocIQ 的模型组合、数据问答和本地部署思路。
- ERP-DocIQ Space — 项目演示与代码入口。
本 Newsletter 由 AI 行业公开信息整理,数据截至 2026 年 6 月 20 日。所有信息均来自公开来源,不构成投资建议。