跳到主要内容

2026-06-30 AI 动态

· 阅读需 4 分钟
本期焦点
  1. OpenAI 发布 GeneBench-Pro,用 129 个问题评估计算生物学研究判断能力。
  2. GPT-5.6 Sol 在 GeneBench-Pro 最高推理档达到 28.7%,Pro 模式 31.5%。
  3. OpenAI Signals 显示 ChatGPT 使用在非英语和低 HDI 国家快速增长。
  4. Hugging Face 与 EvalEval 打通 EEE,汇聚约 22.9 万条评测结果。
  5. IBM 发布 ScarfBench,评估企业 Java 框架迁移 Agent。

头条要闻

GeneBench-Pro:科学 Agent 评测从答案正确转向研究判断

OpenAI 6 月 30 日发布 GeneBench-Pro,这是面向计算生物学的研究级 benchmark,评估模型能否处理真实研究中的模糊性、迭代分析和关键判断。GeneBench-Pro 包含 129 个问题,覆盖 10 个领域和 21 个子领域,包括统计遗传学、群体遗传学、调控组学、临床诊断、癌症基因组和微生物基因组等。

每个问题给模型一个真实感强、但由研究者可控模拟生成的数据集、实验背景和目标 estimand。模型需要探索数据、选择分析路径、迭代修正假设并输出最终结果。OpenAI 开源 10 个代表性问题,并计划向 Artificial Analysis 提供 50 题子集进行第三方评测。

指标数据
问题数量129
领域10 个领域、21 个子领域
外部专家评审82 / 129 个问题
GPT-5.6 Sol28.7% pass rate
GPT-5.6 Sol Pro31.5% pass rate
人类专家估计耗时每题约 20-40 小时

OpenAI


数据与评测

OpenAI Signals:ChatGPT 使用更全球化、更多语言化

OpenAI 6 月 30 日发布 ChatGPT adoption 数据更新。数据显示,自 2023 年 7 月以来,各大洲 ChatGPT 周活用户均显著增长,非洲和亚洲的相对增长最快;按人类发展指数分组看,较低 HDI 国家周活用户相对增长也最快。

OpenAI 还指出,非英语使用者已占活跃用户超过一半,西班牙语、葡萄牙语和阿拉伯语是领先的非英语语言;乌兹别克语、哈萨克语和缅甸语在活跃用户占比上增长最快。AI adoption 的重点正在从“欧美高收入国家的早期采用”变成全球基础能力扩散。

OpenAI

Every Eval Ever 接入 Hugging Face 模型页

Hugging Face 6 月 30 日宣布 Every Eval Ever 与 Hugging Face Community Evals 互通,支持跨发布、解释评测结果,并链接开放模型、榜单和统一元数据。EEE datastore 已包含约 22.9 万条评测结果,覆盖 2.2 万多个模型和 2200 个 benchmark,并从 31 种报告格式汇总。

这解决的是评测基础设施问题:同一模型同一 benchmark 在不同论文、榜单和 harness 中常有不同分数,缺少统一 schema 会削弱可比性和治理价值。

Hugging Face

ScarfBench:企业 Java 迁移成为 Agent benchmark

IBM Research 在 Hugging Face 发布 ScarfBench,用于评估 AI Agent 在企业 Java 框架迁移中的能力。与通用编码题不同,框架迁移更接近企业真实工程:依赖升级、API 替换、测试修复、配置变更和跨模块理解都需要稳定执行。

这类 benchmark 会推动 Coding Agent 从“解决短题”进入“维护老系统”的评测区间。企业软件里真正昂贵的工作往往不是写新 demo,而是把复杂历史系统迁到新框架并保持行为不变。

Hugging Face / IBM Research


关键数据一览

指标数据
GeneBench-Pro129 题,10 个领域
GPT-5.6 Sol Pro31.5%
ChatGPT 非英语活跃用户超过一半
EEE datastore约 22.9 万条评测结果
EEE 覆盖2.2 万+ 模型、2200+ benchmark

Sources


本 Newsletter 由 AI 行业公开信息整理,数据截至 2026 年 6 月 30 日。所有信息均来自公开来源,不构成投资建议。