Coding 能力:对齐 Claude Opus 4.5
GLM-5 在编程能力上实现了对 Claude Opus 4.5 的对齐,
在业内公认的主流基准测试中取得开源模型最高分数。在 SWE-bench-Verified 和 Terminal Bench 2.0 中分别获得 77.8 和 56.2 的开源模型最高 分数,性能表现超过 Gemini 3.0 Pro。
在内部 Claude Code 评估集合中,GLM-5 在前端、后端、长程任务等编程开发任务上显著超越 GLM-4.7,能够以极少的人工干预自主完成 Agentic 长程规划与执行、后端重构和深度调试等系统工程任务,使用体验逼近 Opus 4.5。