跳到主要内容

1 篇博文 含有标签「Every Eval Ever」

查看所有标签

2026-06-30 AI 动态

· 阅读需 4 分钟
本期焦点
  1. OpenAI 发布 GeneBench-Pro,用 129 个问题评估计算生物学研究判断能力。
  2. GPT-5.6 Sol 在 GeneBench-Pro 最高推理档达到 28.7%,Pro 模式 31.5%。
  3. OpenAI Signals 显示 ChatGPT 使用在非英语和低 HDI 国家快速增长。
  4. Hugging Face 与 EvalEval 打通 EEE,汇聚约 22.9 万条评测结果。
  5. IBM 发布 ScarfBench,评估企业 Java 框架迁移 Agent。