记者获悉，全球权威评测机构 Artificial Analysis 发布全新 Coding Agent 基准 Artificial Analysis Coding Agent Index，用于衡量 Agent harnesses 与模型的组合在 SWE-Bench-Pro-Hard-AA、Terminal-Benchv2 和 SWE-Atlas-QnA 主流基准上的表现

记者获悉，全球权威评测机构 Artificial Analysis 发布全新 Coding Agent 基准 Artificial Analysis Coding Agent Index，用于衡量 Agent harnesses 与模型的组合在 SWE-Bench-Pro-Hard-AA、Terminal-Benchv2 和 SWE-Atlas-QnA 主流基准上的表现。其中，闭源模型 Opus4.7（在 CursorCLI 中运行）全球第一，GLM-5.1（在 ClaudeCode 运行）取得开源第一。从评测结果上来看，GLM-5.1 代表了国产大模型在实际编程 Agent 场景下的 SOTA 级别能力。（澎湃）