2026-06-30 AI 动态
· 阅读需 4 分钟
本期焦点
- OpenAI 发布 GeneBench-Pro,用 129 个问题评估计算生物学研究判断能力。
- GPT-5.6 Sol 在 GeneBench-Pro 最高推理档达到 28.7%,Pro 模式 31.5%。
- OpenAI Signals 显示 ChatGPT 使用在非英语和低 HDI 国家快速增长。
- Hugging Face 与 EvalEval 打通 EEE,汇聚约 22.9 万条评测结果。
- IBM 发布 ScarfBench,评估企业 Java 框架迁移 Agent。