2026-06-30 AI 动态
- OpenAI 发布 GeneBench-Pro,用 129 个问题评估计算生物学研究判断能力。
- GPT-5.6 Sol 在 GeneBench-Pro 最高推理档达到 28.7%,Pro 模式 31.5%。
- OpenAI Signals 显示 ChatGPT 使用在非英语和低 HDI 国家快速增长。
- Hugging Face 与 EvalEval 打通 EEE,汇聚约 22.9 万条评测结果。
- IBM 发布 ScarfBench,评估企业 Java 框架迁移 Agent。
头条要闻
GeneBench-Pro:科学 Agent 评测从答案正确转向研究判断
OpenAI 6 月 30 日发布 GeneBench-Pro,这是面向计算生物学的研究级 benchmark,评估模型能否处理真实研究中的模糊性、迭代分析和关键判断。GeneBench-Pro 包含 129 个问题,覆盖 10 个领域和 21 个子领域,包括统计遗传学、群体遗传学、调控组学、临床诊断、癌症基因组和微生物基因组等。
每个问题给模型一个真实感强、但由研究者可控模拟生成的数据集、实验背景和目标 estimand。模型需要探索数据、选择分析路径、迭代修正假设并输出最终结果。OpenAI 开源 10 个代表性问题,并计划向 Artificial Analysis 提供 50 题子集进行第三方评测。
| 指标 | 数据 |
|---|---|
| 问题数量 | 129 |
| 领域 | 10 个领域、21 个子领域 |
| 外部专家评审 | 82 / 129 个问题 |
| GPT-5.6 Sol | 28.7% pass rate |
| GPT-5.6 Sol Pro | 31.5% pass rate |
| 人类专家估计耗时 | 每题约 20-40 小时 |
数据与评测
OpenAI Signals:ChatGPT 使用更全球化、更多语言化
OpenAI 6 月 30 日发布 ChatGPT adoption 数据更新。数据显示,自 2023 年 7 月以来,各大洲 ChatGPT 周活用户均显著增长,非洲和亚洲的相对增长最快;按人类发展指数分组看,较低 HDI 国家周活用户相对增长也最快。
OpenAI 还指出,非英语使用者已占活跃用户超过一半,西班牙语、葡萄牙语和阿拉伯语是领先的非英语语言;乌兹别克语、哈萨克语和缅甸语在活跃用户占比上增长最快。AI adoption 的重点正在从“欧美高收入国家的早期采用”变成全球基础能力扩散。
Every Eval Ever 接入 Hugging Face 模型页
Hugging Face 6 月 30 日宣布 Every Eval Ever 与 Hugging Face Community Evals 互通,支持跨发布、解释评测结果,并链接开放模型、榜单和统一元数据。EEE datastore 已包含约 22.9 万条评测结果,覆盖 2.2 万多个模型和 2200 个 benchmark,并从 31 种报告格式汇总。
这解决的是评测基础设施问题:同一模型同一 benchmark 在不同论文、榜单和 harness 中常有不同分数,缺少统一 schema 会削弱可比性和治理价值。
ScarfBench:企业 Java 迁移成为 Agent benchmark
IBM Research 在 Hugging Face 发布 ScarfBench,用于评估 AI Agent 在企业 Java 框架迁移中的能力。与通用编码题不同,框架迁移更接近企业真实工程:依赖升级、API 替换、测试修复、配置变更和跨模块理解都需要稳定执行。
这类 benchmark 会推动 Coding Agent 从“解决短题”进入“维护老系统”的评测区间。企业软件里真正昂贵的工作往往不是写新 demo,而是把复杂历史系统迁到新框架并保持行为不变。
关键数据一览
| 指标 | 数据 |
|---|---|
| GeneBench-Pro | 129 题,10 个领域 |
| GPT-5.6 Sol Pro | 31.5% |
| ChatGPT 非英语活跃用户 | 超过一半 |
| EEE datastore | 约 22.9 万条评测结果 |
| EEE 覆盖 | 2.2 万+ 模型、2200+ benchmark |
Sources
- OpenAI — Introducing GeneBench-Pro — GeneBench-Pro 任务设计、领域范围、专家评审和模型结果。
- OpenAI — How ChatGPT adoption has expanded — ChatGPT adoption 的地区、HDI、语言和用户结构数据。
- Hugging Face — Featuring Every Eval Ever Results on Hugging Face Model Pages — EEE 与 Community Evals 的互通、数据规模和 schema 目标。
- Hugging Face / IBM Research — ScarfBench — 企业 Java 框架迁移 Agent benchmark。
本 Newsletter 由 AI 行业公开信息整理,数据截至 2026 年 6 月 30 日。所有信息均来自公开来源,不构成投资建议。