2026-06-30 AI 动态

2026年6月30日 · 阅读需 4 分钟

本期焦点

OpenAI 发布 GeneBench-Pro，用 129 个问题评估计算生物学研究判断能力。
GPT-5.6 Sol 在 GeneBench-Pro 最高推理档达到 28.7%，Pro 模式 31.5%。
OpenAI Signals 显示 ChatGPT 使用在非英语和低 HDI 国家快速增长。
Hugging Face 与 EvalEval 打通 EEE，汇聚约 22.9 万条评测结果。
IBM 发布 ScarfBench，评估企业 Java 框架迁移 Agent。

头条要闻

GeneBench-Pro：科学 Agent 评测从答案正确转向研究判断

OpenAI 6 月 30 日发布 GeneBench-Pro，这是面向计算生物学的研究级 benchmark，评估模型能否处理真实研究中的模糊性、迭代分析和关键判断。GeneBench-Pro 包含 129 个问题，覆盖 10 个领域和 21 个子领域，包括统计遗传学、群体遗传学、调控组学、临床诊断、癌症基因组和微生物基因组等。

每个问题给模型一个真实感强、但由研究者可控模拟生成的数据集、实验背景和目标 estimand。模型需要探索数据、选择分析路径、迭代修正假设并输出最终结果。OpenAI 开源 10 个代表性问题，并计划向 Artificial Analysis 提供 50 题子集进行第三方评测。

指标	数据
问题数量	129
领域	10 个领域、21 个子领域
外部专家评审	82 / 129 个问题
GPT-5.6 Sol	28.7% pass rate
GPT-5.6 Sol Pro	31.5% pass rate
人类专家估计耗时	每题约 20-40 小时

OpenAI

数据与评测

OpenAI Signals：ChatGPT 使用更全球化、更多语言化

OpenAI 6 月 30 日发布 ChatGPT adoption 数据更新。数据显示，自 2023 年 7 月以来，各大洲 ChatGPT 周活用户均显著增长，非洲和亚洲的相对增长最快；按人类发展指数分组看，较低 HDI 国家周活用户相对增长也最快。

OpenAI 还指出，非英语使用者已占活跃用户超过一半，西班牙语、葡萄牙语和阿拉伯语是领先的非英语语言；乌兹别克语、哈萨克语和缅甸语在活跃用户占比上增长最快。AI adoption 的重点正在从“欧美高收入国家的早期采用”变成全球基础能力扩散。

OpenAI

Every Eval Ever 接入 Hugging Face 模型页

Hugging Face 6 月 30 日宣布 Every Eval Ever 与 Hugging Face Community Evals 互通，支持跨发布、解释评测结果，并链接开放模型、榜单和统一元数据。EEE datastore 已包含约 22.9 万条评测结果，覆盖 2.2 万多个模型和 2200 个 benchmark，并从 31 种报告格式汇总。

这解决的是评测基础设施问题：同一模型同一 benchmark 在不同论文、榜单和 harness 中常有不同分数，缺少统一 schema 会削弱可比性和治理价值。

Hugging Face

ScarfBench：企业 Java 迁移成为 Agent benchmark

IBM Research 在 Hugging Face 发布 ScarfBench，用于评估 AI Agent 在企业 Java 框架迁移中的能力。与通用编码题不同，框架迁移更接近企业真实工程：依赖升级、API 替换、测试修复、配置变更和跨模块理解都需要稳定执行。

这类 benchmark 会推动 Coding Agent 从“解决短题”进入“维护老系统”的评测区间。企业软件里真正昂贵的工作往往不是写新 demo，而是把复杂历史系统迁到新框架并保持行为不变。

Hugging Face / IBM Research

关键数据一览

指标	数据
GeneBench-Pro	129 题，10 个领域
GPT-5.6 Sol Pro	31.5%
ChatGPT 非英语活跃用户	超过一半
EEE datastore	约 22.9 万条评测结果
EEE 覆盖	2.2 万+ 模型、2200+ benchmark

Sources

OpenAI — Introducing GeneBench-Pro — GeneBench-Pro 任务设计、领域范围、专家评审和模型结果。
OpenAI — How ChatGPT adoption has expanded — ChatGPT adoption 的地区、HDI、语言和用户结构数据。
Hugging Face — Featuring Every Eval Ever Results on Hugging Face Model Pages — EEE 与 Community Evals 的互通、数据规模和 schema 目标。
Hugging Face / IBM Research — ScarfBench — 企业 Java 框架迁移 Agent benchmark。

本 Newsletter 由 AI 行业公开信息整理，数据截至 2026 年 6 月 30 日。所有信息均来自公开来源，不构成投资建议。

头条要闻​

GeneBench-Pro：科学 Agent 评测从答案正确转向研究判断​

数据与评测​

OpenAI Signals：ChatGPT 使用更全球化、更多语言化​

Every Eval Ever 接入 Hugging Face 模型页​

ScarfBench：企业 Java 迁移成为 Agent benchmark​

关键数据一览​

Sources​