在内部 Claude Code 评估集合中,GLM-5 在前端、后端、长程任务等编程开发任务上显著超越上一代的 GLM-4.7(平均增幅超过 20%),能够以极少的人工干预自主完成 Agentic 长程规划与执行、后端重构和深度调试等系统工程任务,使用体感逼近 Opus 4.5。GLM-5 在 Agent 能力上实现开源 SOTA,在多个评测基准中取得开源第一。在 BrowseComp(联网检索与信息理解)MCP-Atlas(大规模端到端工具调用)和 τ2-Bench(复杂场景下自动代理的工具规划和执行)均取得最高表现。(硬 AI)