跳到主要内容

2026-05-17 AI 动态

· 阅读需 7 分钟
本期焦点
  1. OpenClaw 开发者晒出百万美元级 API 消耗,Agent 成本进入产品讨论。
  2. PRISM 指出 MLLM 先 SFT 再 RL 可能引入分布偏移。
  3. arXiv 拟对未核查 AI 生成论文实施一年投稿禁令。
  4. Scientific Agent Skills 把科研、工程、金融等技能打包给 Agent。
  5. Prediction Arena 显示 AI 交易代理离稳定盈利仍有距离。

头条要闻

OpenClaw Token 账单:长期运行 Agent 的真实成本浮出水面

5 月 17 日,量子位相关报道在投资界、澎湃等平台转载传播:Peter Steinberger 晒出 CodexBar 后台截图,过去 30 天调用 OpenAI API 费用达到 1,305,088 美元,约合人民币 940 万元;同时消耗约 6030 亿 token、发起 760 万次请求,最常用模型为 GPT-5.5。报道称,这些调用主要用于开发 OpenClaw,团队规模只有 3 人,并同时运行约 100 个 Codex 协作开发。

这组数字让 coding agent 的经济账从抽象讨论变成具体账单。过去开发者比较的是模型一次回答的价格;现在真正需要衡量的是长期运行、并行协作、反复验证、自动修复和持续部署产生的全链路 token 消耗。Agent 产品如果想进入生产环境,必须同时解决任务成功率、权限控制、缓存复用、上下文压缩和预算上限。

指标数据
项目OpenClaw / CodexBar
周期过去 30 天
API 费用报道称 1,305,088 美元,约 940 万元人民币
Token 消耗约 6030 亿 token
请求量约 760 万次
最常用模型GPT-5.5
工作方式约 100 个 Codex 并行协作开发

投资界 · 澎湃新闻


PRISM:多模态大模型 SFT 后直接接 RL 可能不是最优路径

香港科技大学(广州)、南洋理工大学、清华大学等团队的研究 PRISM 在 5 月 17 日被中文技术媒体集中解读。该工作指出,多模态大模型后训练中常见的“先 SFT 再 RL”范式可能在 SFT 阶段引入分布偏移,导致后续强化学习先花预算修复损伤,而不是直接提升能力。

报道以 Qwen3-VL 为例:SFT 后模型在 7 个多模态基准上的平均准确率从 63.3% 降到 58.1%,经过 GRPO 后回升至 63.3%,几乎只是回到原始基线。PRISM 的思路是在 SFT 与 RL 之间加入分布对齐阶段,用混合专家判别器分别纠正感知偏差和推理偏差。

指标数据
方法PRISM
研究问题MLLM 后训练中 SFT 到 RL 的分布偏移
示例模型Qwen3-VL
报道数据SFT 后 7 个多模态基准平均准确率从 63.3% 降至 58.1%
技术路径在 SFT 与 RL 之间加入分布对齐阶段
目标降低感知偏差和推理偏差,让 RL 真正用于能力提升

Firecat 每日 AI 资讯 · 新浪财经


模型发布与产品更新

Scientific Agent Skills:专业技能从 Claude 生态扩展为通用 Agent 资产

AIToolly 5 月 17 日跟踪到,K-Dense-AI 发布 Scientific Agent Skills,一组面向科研、工程、分析、金融和写作等专业场景的即用型 Agent 技能。该项目此前名为 Claude Scientific Skills,改名后更强调跨模型、跨框架复用。

这类技能包的方向值得注意:Agent 不可能每次都从零理解行业流程。把工具调用、检查清单、文件模板、领域术语、计算脚本和输出格式封装成可复用技能,能让 Agent 从“会聊天的模型”变成“带工作方法的执行者”。这也是最近 Codex、Claude Code、Grok Build、Qoder 等产品都在强调 skills / memory / repo wiki 的原因。

AIToolly


全球产业动态

arXiv AI 论文新规:未核查 LLM 生成内容将触发一年禁投

5 月 17 日,WinBuzzer 与中文媒体跟进 arXiv 计算机科学板块主席 Thomas Dietterich 公开提到的新规:如果预印本出现作者未核查 LLM 生成文本或参考文献的明确证据,相关作者将面临一年投稿禁令;解封后的新投稿还需要先通过正规期刊同行评审。

这条政策的关键不是反对 AI 辅助科研,而是把责任重新压回作者。随着论文生成成本下降,学术平台需要区分“AI 辅助写作”和“作者没有完成核查义务”。陶哲轩也用自己此前关于 AI 与数学研究的建议框架回应,强调生成论文比消化论文容易,学术系统应当重视理解、核查和目标说明。

WinBuzzer · 量子位


Prediction Arena:AI 代理进入预测市场,但收益稳定性仍不足

The Agent Times 5 月 17 日报道,Prediction Arena 等研究把多种前沿模型放入 Polymarket、Kalshi 等预测市场,用真实或准真实交易任务评估 AI 代理。相关研究显示,模型已经能完成信息检索、下注和组合调整,但整体回报并不稳定:有模型在 Polymarket 上取得较高胜率,也有模型在不同平台之间表现差异很大。

这说明“Agent 能不能赚钱”不是单一模型能力问题,而是平台设计、信息可得性、交易成本、风险控制和长期策略共同作用的结果。预测市场会成为评估 AI 代理长期决策能力的一类重要场景,因为它同时要求事实判断、概率校准、资金管理和持续行动。

The Agent Times · arXiv — Prediction Arena


关键数据一览

指标数据
OpenClaw / CodexBar API 费用报道称 30 天 1,305,088 美元
OpenClaw / CodexBar Token 消耗约 6030 亿 token
OpenClaw / CodexBar 请求量约 760 万次
PRISM 示例数据Qwen3-VL SFT 后 7 个多模态基准平均准确率从 63.3% 降至 58.1%
arXiv AI 论文治理未核查 LLM 生成内容可触发一年投稿禁令
Scientific Agent Skills面向科研、工程、分析、金融、写作等专业场景
Prediction Arena真实预测市场用于评估 AI 代理长期决策能力

Sources


本 Newsletter 由 AI 行业公开信息整理,数据截至 2026 年 5 月 17 日。所有信息均来自公开来源,不构成投资建议。