跳到主要内容

1 篇博文含有标签「Every Eval Ever」

查看所有标签

2026-06-30 AI 动态

2026年6月30日 · 阅读需 4 分钟

本期焦点

OpenAI 发布 GeneBench-Pro，用 129 个问题评估计算生物学研究判断能力。
GPT-5.6 Sol 在 GeneBench-Pro 最高推理档达到 28.7%，Pro 模式 31.5%。
OpenAI Signals 显示 ChatGPT 使用在非英语和低 HDI 国家快速增长。
Hugging Face 与 EvalEval 打通 EEE，汇聚约 22.9 万条评测结果。
IBM 发布 ScarfBench，评估企业 Java 框架迁移 Agent。