2026-05-17 AI 动态
- OpenClaw 开发者晒出百万美元级 API 消耗,Agent 成本进入产品讨论。
- PRISM 指出 MLLM 先 SFT 再 RL 可能引入分布偏移。
- arXiv 拟对未核查 AI 生成论文实施一年投稿禁令。
- Scientific Agent Skills 把科研、工程、金融等技能打包给 Agent。
- Prediction Arena 显示 AI 交易代理离稳定盈利仍有距离。
头条要闻
OpenClaw Token 账单:长期运行 Agent 的真实成本浮出水面
5 月 17 日,量子位相关报道在投资界、澎湃等平台转载传播:Peter Steinberger 晒出 CodexBar 后台截图,过去 30 天调用 OpenAI API 费用达到 1,305,088 美元,约合人民币 940 万元;同时消耗约 6030 亿 token、发起 760 万次请求,最常用模型为 GPT-5.5。报道称,这些调用主要用于开发 OpenClaw,团队规模只有 3 人,并同时运行约 100 个 Codex 协作开发。
这组数字让 coding agent 的经济账从抽象讨论变成具体账单。过去开发者比较的是模型一次回答的价格;现在真正需要衡量的是长期运行、并行协作、反复验证、自动修复和持续部署产生的全链路 token 消耗。Agent 产品如果想进入生产环境,必须同时解决任务成功率、权限控制、缓存复用、上下文压缩和预算上限。
| 指标 | 数据 |
|---|---|
| 项目 | OpenClaw / CodexBar |
| 周期 | 过去 30 天 |
| API 费用 | 报道称 1,305,088 美元,约 940 万元人民币 |
| Token 消耗 | 约 6030 亿 token |
| 请求量 | 约 760 万次 |
| 最常用模型 | GPT-5.5 |
| 工作方式 | 约 100 个 Codex 并行协作开发 |
PRISM:多模态大模型 SFT 后直接接 RL 可能不是最优路径
香港科技大学(广州)、南洋理工大学、清华大学等团队的研究 PRISM 在 5 月 17 日被中文技术媒体集中解读。该工作指出,多模态大模型后训练中常见的“先 SFT 再 RL”范式可能在 SFT 阶段引入分布偏移,导致后续强化学习先花预算修复损伤,而不是直接提升能力。
报道以 Qwen3-VL 为例:SFT 后模型在 7 个多模态基准上的平均准确率从 63.3% 降到 58.1%,经过 GRPO 后回升至 63.3%,几乎只是回到原始基线。PRISM 的思路是在 SFT 与 RL 之间加入分布对齐阶段,用混合专家判别器分别纠正感知偏差和推理偏差。
| 指标 | 数据 |
|---|---|
| 方法 | PRISM |
| 研究问题 | MLLM 后训练中 SFT 到 RL 的分布偏移 |
| 示例模型 | Qwen3-VL |
| 报道数据 | SFT 后 7 个多模态基准平均准确率从 63.3% 降至 58.1% |
| 技术路径 | 在 SFT 与 RL 之间加入分布对齐阶段 |
| 目标 | 降低感知偏差和推理偏差,让 RL 真正用于能力提升 |
模型发布与产品更新
Scientific Agent Skills:专业技能从 Claude 生态扩展为通用 Agent 资产
AIToolly 5 月 17 日跟踪到,K-Dense-AI 发布 Scientific Agent Skills,一组面向科研、工程、分析、金融和写作等专业场景的即用型 Agent 技能。该项目此前名为 Claude Scientific Skills,改名后更强调跨模型、跨框架复用。
这类技能包的方向值得注意:Agent 不可能每次都从零理解行业流程。把工具调用、检查清单、文件模板、领域术语、计算脚本和输出格式封装成可复用技能,能让 Agent 从“会聊天的模型”变成“带工作方法的执行者”。这也是最近 Codex、Claude Code、Grok Build、Qoder 等产品都在强调 skills / memory / repo wiki 的原因。
全球产业动态
arXiv AI 论文新规:未核查 LLM 生成内容将触发一年禁投
5 月 17 日,WinBuzzer 与中文媒体跟进 arXiv 计算机科学板块主席 Thomas Dietterich 公开提到的新规:如果预印本出现作者未核查 LLM 生成文本或参考文献的明确证据,相关作者将面临一年投稿禁令;解封后的新投稿还需要先通过正规期刊同行评审。
这条政策的关键不是反对 AI 辅助科研,而是把责任重新压回作者。随着论文生成成本下降,学术平台需要区分“AI 辅助写作”和“作者没有完成核查义务”。陶哲轩也用自己此前关于 AI 与数学研究的建议框架回应,强调生成论文比消化论文容易,学术系统应当重视理解、核查和目标说明。
Prediction Arena:AI 代理进入预测市场,但收益稳定性仍不足
The Agent Times 5 月 17 日报道,Prediction Arena 等研究把多种前沿模型放入 Polymarket、Kalshi 等预测市场,用真实或准真实交易任务评估 AI 代理。相关研究显示,模型已经能完成信息检索、下注和组合调整,但整体回报并不稳定:有模型在 Polymarket 上取得较高胜率,也有模型在不同平台之间表现差异很大。
这说明“Agent 能不能赚钱”不是单一模型能力问题,而是平台设计、信息可得性、交易成本、风险控制和长期策略共同作用的结果。预测市场会成为评估 AI 代理长期决策能力的一类重要场景,因为它同时要求事实判断、概率校准、资金管理和持续行动。
The Agent Times · arXiv — Prediction Arena
关键数据一览
| 指标 | 数据 |
|---|---|
| OpenClaw / CodexBar API 费用 | 报道称 30 天 1,305,088 美元 |
| OpenClaw / CodexBar Token 消耗 | 约 6030 亿 token |
| OpenClaw / CodexBar 请求量 | 约 760 万次 |
| PRISM 示例数据 | Qwen3-VL SFT 后 7 个多模态基准平均准确率从 63.3% 降至 58.1% |
| arXiv AI 论文治理 | 未核查 LLM 生成内容可触发一年投稿禁令 |
| Scientific Agent Skills | 面向科研、工程、分析、金融、写作等专业场景 |
| Prediction Arena | 真实预测市场用于评估 AI 代理长期决策能力 |
Sources
- 投资界 — 龙虾之父月烧 940 万元的 token — OpenClaw / CodexBar 的 API 费用、token 消耗和并行 Codex 开发方式。
- 澎湃新闻 — 龙虾之父月烧 940 万元的 token — OpenClaw 成本与 GPT-5.5 使用信息补充。
- Firecat — SFT 别急着接 RL — PRISM 方法、Qwen3-VL 示例和 MLLM 后训练问题。
- 新浪财经 — SFT 别急着接 RL — PRISM 中文报道补充。
- AIToolly — May 17 AI News — Scientific Agent Skills 和 Agent 技能产品动态。
- WinBuzzer — AI Research — arXiv 对未核查 LLM 生成内容的新规跟进。
- 量子位 — AI 水论文封一年 — arXiv 新规和陶哲轩回应的中文解读。
- The Agent Times — AI Agents Enter Prediction Markets — Prediction Arena 与 AI 代理交易表现。
- arXiv — Prediction Arena — 预测市场 AI 代理 benchmark 的论文入口。
本 Newsletter 由 AI 行业公开信息整理,数据截至 2026 年 5 月 17 日。所有信息均来自公开来源,不构成投资建议。