2026-05-17 AI 动态

2026年5月17日 · 阅读需 7 分钟

本期焦点

OpenClaw 开发者晒出百万美元级 API 消耗，Agent 成本进入产品讨论。
PRISM 指出 MLLM 先 SFT 再 RL 可能引入分布偏移。
arXiv 拟对未核查 AI 生成论文实施一年投稿禁令。
Scientific Agent Skills 把科研、工程、金融等技能打包给 Agent。
Prediction Arena 显示 AI 交易代理离稳定盈利仍有距离。

头条要闻

OpenClaw Token 账单：长期运行 Agent 的真实成本浮出水面

5 月 17 日，量子位相关报道在投资界、澎湃等平台转载传播：Peter Steinberger 晒出 CodexBar 后台截图，过去 30 天调用 OpenAI API 费用达到 1,305,088 美元，约合人民币 940 万元；同时消耗约 6030 亿 token、发起 760 万次请求，最常用模型为 GPT-5.5。报道称，这些调用主要用于开发 OpenClaw，团队规模只有 3 人，并同时运行约 100 个 Codex 协作开发。

这组数字让 coding agent 的经济账从抽象讨论变成具体账单。过去开发者比较的是模型一次回答的价格；现在真正需要衡量的是长期运行、并行协作、反复验证、自动修复和持续部署产生的全链路 token 消耗。Agent 产品如果想进入生产环境，必须同时解决任务成功率、权限控制、缓存复用、上下文压缩和预算上限。

指标	数据
项目	OpenClaw / CodexBar
周期	过去 30 天
API 费用	报道称 1,305,088 美元，约 940 万元人民币
Token 消耗	约 6030 亿 token
请求量	约 760 万次
最常用模型	GPT-5.5
工作方式	约 100 个 Codex 并行协作开发

投资界 · 澎湃新闻

PRISM：多模态大模型 SFT 后直接接 RL 可能不是最优路径

香港科技大学（广州）、南洋理工大学、清华大学等团队的研究 PRISM 在 5 月 17 日被中文技术媒体集中解读。该工作指出，多模态大模型后训练中常见的“先 SFT 再 RL”范式可能在 SFT 阶段引入分布偏移，导致后续强化学习先花预算修复损伤，而不是直接提升能力。

报道以 Qwen3-VL 为例：SFT 后模型在 7 个多模态基准上的平均准确率从 63.3% 降到 58.1%，经过 GRPO 后回升至 63.3%，几乎只是回到原始基线。PRISM 的思路是在 SFT 与 RL 之间加入分布对齐阶段，用混合专家判别器分别纠正感知偏差和推理偏差。

指标	数据
方法	PRISM
研究问题	MLLM 后训练中 SFT 到 RL 的分布偏移
示例模型	Qwen3-VL
报道数据	SFT 后 7 个多模态基准平均准确率从 63.3% 降至 58.1%
技术路径	在 SFT 与 RL 之间加入分布对齐阶段
目标	降低感知偏差和推理偏差，让 RL 真正用于能力提升

Firecat 每日 AI 资讯 · 新浪财经

模型发布与产品更新

Scientific Agent Skills：专业技能从 Claude 生态扩展为通用 Agent 资产

AIToolly 5 月 17 日跟踪到，K-Dense-AI 发布 Scientific Agent Skills，一组面向科研、工程、分析、金融和写作等专业场景的即用型 Agent 技能。该项目此前名为 Claude Scientific Skills，改名后更强调跨模型、跨框架复用。

这类技能包的方向值得注意：Agent 不可能每次都从零理解行业流程。把工具调用、检查清单、文件模板、领域术语、计算脚本和输出格式封装成可复用技能，能让 Agent 从“会聊天的模型”变成“带工作方法的执行者”。这也是最近 Codex、Claude Code、Grok Build、Qoder 等产品都在强调 skills / memory / repo wiki 的原因。

AIToolly

全球产业动态

arXiv AI 论文新规：未核查 LLM 生成内容将触发一年禁投

5 月 17 日，WinBuzzer 与中文媒体跟进 arXiv 计算机科学板块主席 Thomas Dietterich 公开提到的新规：如果预印本出现作者未核查 LLM 生成文本或参考文献的明确证据，相关作者将面临一年投稿禁令；解封后的新投稿还需要先通过正规期刊同行评审。

这条政策的关键不是反对 AI 辅助科研，而是把责任重新压回作者。随着论文生成成本下降，学术平台需要区分“AI 辅助写作”和“作者没有完成核查义务”。陶哲轩也用自己此前关于 AI 与数学研究的建议框架回应，强调生成论文比消化论文容易，学术系统应当重视理解、核查和目标说明。

WinBuzzer · 量子位

Prediction Arena：AI 代理进入预测市场，但收益稳定性仍不足

The Agent Times 5 月 17 日报道，Prediction Arena 等研究把多种前沿模型放入 Polymarket、Kalshi 等预测市场，用真实或准真实交易任务评估 AI 代理。相关研究显示，模型已经能完成信息检索、下注和组合调整，但整体回报并不稳定：有模型在 Polymarket 上取得较高胜率，也有模型在不同平台之间表现差异很大。

这说明“Agent 能不能赚钱”不是单一模型能力问题，而是平台设计、信息可得性、交易成本、风险控制和长期策略共同作用的结果。预测市场会成为评估 AI 代理长期决策能力的一类重要场景，因为它同时要求事实判断、概率校准、资金管理和持续行动。

The Agent Times · arXiv — Prediction Arena

关键数据一览

指标	数据
OpenClaw / CodexBar API 费用	报道称 30 天 1,305,088 美元
OpenClaw / CodexBar Token 消耗	约 6030 亿 token
OpenClaw / CodexBar 请求量	约 760 万次
PRISM 示例数据	Qwen3-VL SFT 后 7 个多模态基准平均准确率从 63.3% 降至 58.1%
arXiv AI 论文治理	未核查 LLM 生成内容可触发一年投稿禁令
Scientific Agent Skills	面向科研、工程、分析、金融、写作等专业场景
Prediction Arena	真实预测市场用于评估 AI 代理长期决策能力

Sources

投资界 — 龙虾之父月烧 940 万元的 token — OpenClaw / CodexBar 的 API 费用、token 消耗和并行 Codex 开发方式。
澎湃新闻 — 龙虾之父月烧 940 万元的 token — OpenClaw 成本与 GPT-5.5 使用信息补充。
Firecat — SFT 别急着接 RL — PRISM 方法、Qwen3-VL 示例和 MLLM 后训练问题。
新浪财经 — SFT 别急着接 RL — PRISM 中文报道补充。
AIToolly — May 17 AI News — Scientific Agent Skills 和 Agent 技能产品动态。
WinBuzzer — AI Research — arXiv 对未核查 LLM 生成内容的新规跟进。
量子位 — AI 水论文封一年 — arXiv 新规和陶哲轩回应的中文解读。
The Agent Times — AI Agents Enter Prediction Markets — Prediction Arena 与 AI 代理交易表现。
arXiv — Prediction Arena — 预测市场 AI 代理 benchmark 的论文入口。

本 Newsletter 由 AI 行业公开信息整理，数据截至 2026 年 5 月 17 日。所有信息均来自公开来源，不构成投资建议。

头条要闻​

OpenClaw Token 账单：长期运行 Agent 的真实成本浮出水面​

PRISM：多模态大模型 SFT 后直接接 RL 可能不是最优路径​

模型发布与产品更新​

Scientific Agent Skills：专业技能从 Claude 生态扩展为通用 Agent 资产​

全球产业动态​

arXiv AI 论文新规：未核查 LLM 生成内容将触发一年禁投​

Prediction Arena：AI 代理进入预测市场，但收益稳定性仍不足​

关键数据一览​

Sources​