什么是 GLM-5:架构、参数与核心特性详解

2026/02/12

GLM-5 是智谱 AI 开发的第五代大语言模型,于 2026 年 2 月 12 日发布。GLM-5 拥有 7440 亿总参数和每 token 400 亿激活参数,代表了开源 AI 模型能力的重大飞跃。本文将详细拆解 GLM-5 是什么、如何运作、以及为什么它对评估前沿模型的开发者和工程团队至关重要。

GLM-5 一览

GLM-5 是一个 Mixture-of-Experts 模型,拥有 256 个专家和每 token 8 个激活,激活率为 5.9%。GLM-5 模型从前代 GLM-4.5 扩展而来,后者拥有 3550 亿总参数和 320 亿激活参数。预训练数据集也大幅增长,从 23 万亿 token 到 28.5 万亿 token,赋予 GLM-5 更广的知识库和更强的推理能力。

GLM-5 模型支持 200K token 上下文窗口,最高 128K 输出 token,适用于长文档分析、跨文件代码审查和复杂的多步规划任务。官方文档当前重点列出 GLM-5 旗舰模型,官方定价页另外列出了面向编码场景的 GLM-5-Code。

GLM-5 官方总览图

GLM-5 架构细节

GLM-5 架构引入了数个将其与前代区分开来的创新。核心上,GLM-5 使用统一的模型底座来支持混合推理模式切换。这意味着同一个 GLM-5 模型可以在 "think" 和 "non-think" 模式下运行,差异在后训练阶段引入,而非需要独立的模型部署。

GLM-5 的一个关键架构特征是集成了 DeepSeek Sparse Attention,它在保持长上下文能力的同时降低推理成本。这对于 GLM-5 需要处理大输入序列而不成比例增加计算成本的生产部署尤为重要。

GLM-5 的训练过程还受益于名为 slime 的新型异步强化学习基建。由 THUDM 团队开发的 slime 实现了更高的训练吞吐量和更快的迭代周期,这对 GLM-5 这个规模的模型训练至关重要。

GLM-5 Benchmark 表现

GLM-5 在编码、推理和 Agent 任务类别中交出了有竞争力的 benchmark 成绩。在 SWE-bench Verified 上,GLM-5 得分 77.8,超过 Gemini 3.0 Pro 的 76.2,接近 Claude Opus 4.5 的 80.9。在多语言软件工程任务上,GLM-5 在 SWE-bench Multilingual 上达到 73.3。

在 Agent 和长周期评测中,GLM-5 在 Vending Bench 2 上以 $4,432 的最终余额排名所有开源模型第一。GLM-5 模型还在 Terminal-Bench 2.0 上取得 56.2 分,在 MCP-Atlas 多步工具编排任务上得到 67.8 分。

最值得注意的是,GLM-5 在 Artificial Analysis Intelligence Index v4.0 上达到创纪录的低幻觉率,AA-Omniscience Index 得分为 -1。这比前代提高了 35 分,使 GLM-5 在知识可靠性方面处于行业前列。

GLM-5 Agent benchmark 图表

GLM-5 API 接入与定价

团队可以通过多个平台接入 GLM-5。根据 api.z.ai 官方定价页(美元计价),GLM-5 当前价格为每百万输入 token $1.00、缓存输入 token $0.20、输出 token $3.20;GLM-5-Code 为每百万输入 $1.20、输出 $5.00。

通过 OpenRouter,z-ai/glm-5 当前价格为每百万输入 token $1.00、每百万输出 token $3.20,模型 API 返回的上下文长度为 202,752 tokens。

GLM-5 API 兼容 OpenAI,团队可以使用现有的 OpenAI SDK 集成,只需最少的代码修改。GLM-5 支持 Function Calling 和并行工具调用,支撑多步编排的复杂 Agent 工作流。

GLM-5 开源可用性

根据官方发布博客,GLM-5 权重以 MIT 许可证开源在 Hugging Face 和 ModelScope 上。官方指引中提到的本地部署推理框架包括 vLLM 和 SGLang。

对于关注供应商锁定或数据主权的组织,GLM-5 的开放权重提供了一条自托管前沿级 AI 能力的路径。团队可以针对特定用例对 GLM-5 进行微调,在自有基础设施上部署,并保持对 AI 技术栈的完全控制。

谁应该评估 GLM-5

GLM-5 对从事复杂系统工程、长周期 Agent 任务和生产编码工作流的团队尤为相关。强劲的 benchmark 表现、竞争力定价和开放权重可用性的组合,使 GLM-5 成为需要前沿级能力但不想承受私有方案成本结构的组织的有力选择。

评估 GLM-5 的工程团队应聚焦三个领域:使用 SWE-bench 风格任务的编码修复和执行质量、Function Calling 和并行工具使用的工具编排稳定性、以及 Terminal-Bench 和 MCP 风格工作流中的长周期执行行为。用真实提示词和工具栈运行受控试点,将为 GLM-5 的采纳提供最具决策价值的信号。

GLM5 Online

GLM5 Online

什么是 GLM-5:架构、参数与核心特性详解 | GLM5 博客