智谱 AI 最新旗舰大模型,编程能力比肩 Claude Sonnet 4.5
权重可下载、自由使用、本地部署,完全商用友好
一次性处理整个代码库或长文档,无需分片处理
先思考再行动,多步任务更稳定,推理更连贯
在 SWE-bench、LiveCodeBench 等指标上超越多数开源模型
多种方式体验 GLM-4.7 的强大能力
如果下方演示无法加载或提示登录,请使用上方推荐方式访问
了解这个引起开发者社区轰动的开源大模型
GLM-4.7 是中国公司 智谱 AI(Zhipu AI)/ Z.ai 发布的最新一代大型语言模型(Large Language Model, LLM)。它是 GLM(General Language Model)系列的最新旗舰版本,定位为高性能、开源的大模型。
作为一个基础通用 AI 模型(Foundation Model),该模型可用于理解和生成自然语言、编写代码、处理复杂推理任务和支持多步智能体(Agent)风格的执行。
GLM-4.7 定位于真正可用于开发者生产环境的模型,与以往"实验性"的开源模型不同,它强调实用与稳定性。
采用 MIT 许可,开发者可以免费下载、修改和本地部署,无需绑定昂贵的闭源 API。
在代码生成、复杂推理、Agent 工具调用等指标上显著提升,某些基准甚至超过了 GPT-5.2、Claude Sonnet 4.5。
在多个主流编程基准测试中表现领先,能理解更大代码块,帮助写完整功能。支持多语言编码与跨工具环境应用。
针对智能体和工具调用任务进行优化,能更好处理多步思考、复杂逻辑推理任务,提升了"先思考再行动"的能力。
权重可下载、自由使用/改进(MIT 许可),可通过各种平台部署或调用,可在本地/服务器上运行,可免费或低成本使用。
总参数约 355B,每次推理只激活约 32B 参数(稀疏激活),在保持大模型能力的前提下,提高推理效率、降低计算成本。
代表开源社区在高性能 AI 模型上的大步推进
普通用户或初创团队可以更低成本接入高性能 AI
提高了国内开源模型在全球的竞争力
为开发者打造的强大 AI 能力
在 SWE-bench、LiveCodeBench 等编码基准上表现领先,能理解更大代码块,帮助写完整功能。支持多语言编码与跨工具环境应用。
引入 Interleaved Thinking、Preserved Thinking、Turn-level Thinking 等多种思考模式,在执行复杂任务前先"思考"一遍再行动。
采用 MIT 开源许可,权重可下载,自由使用/改进,支持本地部署,可免费或低成本使用,无需绑定昂贵的闭源 API。
原生支持 Function Call 与结构化输出,与 Claude Code、Kilo Code、Cline、Roo Code 等主流工具链深度集成。
| 思考模式 | 作用 |
|---|---|
| Interleaved Thinking(交错思考) | 在每次生成/工具调用前进行内部推理,提升任务执行质量 |
| Preserved Thinking(保留思考) | 多轮对话间保留思考历史,提升长流程逻辑一致性 |
| Turn-level Thinking(轮级思考) | 允许按"轮"控制思考,在长任务中更合理分配推理开销 |
为什么选择本模型?六大核心优势一览
适用于各类用户群体的强大 AI 模型
模型权重和代码可以被自由使用、修改、商用。 降低了"只能在大公司使用"的门槛,使得普通开发者、创业团队、学生研究者都能上手。
根据你的需求选择最适合的使用方式
通过 API 集成到你的应用
在 IDE 中直接使用
在本地服务器运行
强大的架构支撑卓越性能
| 参数 | 说明 |
|---|---|
| 提供者 | 智谱 AI(Zhipu AI)/ Z.ai |
| 模型家族 | GLM 系列(General Language Model) |
| 架构 | Mixture-of-Experts(MoE)混合专家架构 |
| 总参数量 | 约 355B 参数 |
| 激活参数 | 每次推理激活约 32B 参数(稀疏激活) |
| 上下文窗口 | 200K tokens |
| 最大输出 | 128K tokens |
| 开源许可 | MIT 开源协议 |
| 优化技术 | 作用 |
|---|---|
| Grouped-Query Attention | 增强多 Token 推理与注意力表示能力 |
| QK-Norm | 稳定注意力机制,减少因注意力分布波动带来的不一致输出 |
| Muon Optimizer | 更高效的优化器,有助于大规模训练收敛更快、模型更稳定 |
| MTP(多 Tokens 预测) | 提升推理速度和质量 |
本模型的底层架构采用 Mixture-of-Experts(MoE)设计,这是一种"稀疏激活"的神经网络架构。总共有约 355B 参数,但每次推理只激活约 32B 参数。
MoE 的优势是:在保持大模型能力的前提下,减少每次推理实际运行的参数量,让推理速度更快、成本更低。比起传统"密集激活"模型,MoE 架构更擅长在不显著提升成本的情况下扩展模型规模与推理能力。
核心技术架构一览
355B 参数池,但每次激活 32B,兼顾能力与效率
200K token 上下文窗口与 128K 输出能力
多层推理/思考模式,提升复杂任务稳定性
支持 Function Call 与 JSON 等集成形式
注意力机制、优化器等提升模型性能
底层的关键优化技术
除了 MoE 和思考机制,本模型的底层还有一些关键优化结构,这些不是简单生成技巧,而是真正提升逻辑与推理能力的技术。
让注意力机制更稳定,减少因注意力分布波动带来的不一致输出
一种更高效的优化器,有助于大规模训练收敛更快、模型更稳定
增强多 Token 推理与注意力表示能力
提升推理速度和质量,优化多 token 生成能力
💡 这些优化都属于在大模型工程中提高表现和稳定性的"底层细节"
它们共同作用,让该模型在推理、逻辑判断和工具协作中表现更加稳定可靠
核心设计价值
| 方面 | 本模型特点 | 价值 |
|---|---|---|
| 模型架构 | MoE + 超大上下文 | 更大规模、更高效率、更强逻辑保持能力 |
| 推理控制 | 多种"思考模式" | 任务级别更能保持连贯性和准确性 |
| 工具调用 | 原生支持 Function Call | 无缝集成外部工具/系统 |
| Agent 集成 | 支持主流 Agent 工作流工具 | 在复杂工作流中自动执行命令 |
| 工作流编排 | AI Skills / 智能工作流 | 用户用自然语言完成复杂流程 |
将大语言模型从"文本生成器"进化为"任务执行引擎":
• MoE 架构和优化机制提升了模型的基础逻辑能力
• 超长上下文与思考模式确保模型在复杂、跨步任务里保持连贯
• 工具调用与智能体机制让它能调度外部系统、执行真实操作
能力边界一览
✓ 支持 200K tokens 上下文窗口,可处理长文档和大型代码库
✓ 支持 但集成细节需要调优,支持主流 Agent 工具
⚠ 部分支持 不统一支持,有待平台明确,可能需要手动封装
✓ 支持 Function Call 强集成,无缝调用外部工具和系统
✗ 不支持 目前版本不支持,建议使用 4.6V 等视觉模型
💡 注意: 功能支持情况可能随版本更新而变化。建议查看官方文档或联系技术支持获取最新信息。 对于图像处理需求,可使用 GLM-4.6V 等支持视觉输入的模型版本。
适用于各种开发与工作流场景
选择适合你的方式开始使用
如果你只是想立刻体验本模型,不写代码,也不安装:
这是最简单的上手方式,不需要 API 或开发环境。
许多平台对接 OpenAI API 协议,你直接把 API Key 和 API URL 配置进去就能调用本模型:
from openai import OpenAI
client = OpenAI(
api_key="YOUR_API_KEY",
base_url="https://api.z.ai/api/paas/v4"
)
response = client.chat.completions.create(
model="glm-4.7",
messages=[
{"role": "user", "content": "Hello!"}
]
)
print(response.choices[0].message.content)
1. 安装 Claude Code(需 Node.js 18+):
npm install -g @anthropic-ai/claude-code
2. 配置 Z.AI API Key 和 Base URL:
curl -O "https://cdn.bigmodel.cn/install/claude_code_zai_env.sh" && bash ./claude_code_zai_env.sh
3. 启动 Claude Code:
claude
此时该模型会被映射为默认代码模型(如 Opus / Sonnet 对应)。
# 安装
docker pull vllm/vllm-openai:nightly
pip install -U vllm --pre --index-url https://pypi.org/simple --extra-index-url https://wheels.vllm.ai/nightly
# 启动服务器
vllm serve zai-org/GLM-4.7-FP8 --tensor-parallel-size 8 --tool-call-parser glm47 --served-model-name glm-4.7
python3 -m sglang.launch_server --model-path zai-org/GLM-4.7-FP8 ...
注意: 显存要求较高,完整模型需要强大的 GPU 和大内存;也可以使用量化版本(如 GGUF)降低资源需求。
许多平台允许你开启"思考模式"(thinking),让模型在复杂任务上推理更深入:
"thinking": {"type": "enabled"}
该功能对复杂推理、逻辑步骤拆解、agent 任务尤为有效。
来自开发者的真实反馈
| 评价方向 | 说明 |
|---|---|
| 明显比上代提升 | 很多技术评测和用户讨论都认为 GLM-4.7 在编码、推理与代理任务上有显著提升,比 GLM-4.6 更加可靠和实用 |
| 编程任务更靠谱 | 在生成代码的质量与逻辑连贯性上,比之前版本"靠谱得多",可以在真实开发场景中当作生产力工具来用 |
| 开源社区欢迎 | Reddit 等社区里有人赞赏它"更稳定""错误更少""工具调用更可靠",欢迎它成为开源编码模型每日使用的底层引擎 |
| Benchmark 表现亮眼 | 在代码测试、数学推理等任务上达到了接近或超过某些闭源大模型的水平,这对开源阵营是一种鼓舞 |
| 评价方向 | 主流观点 |
|---|---|
| 性能提升 vs 前代 | 多数认为有明显进步 |
| 生产力工具价值 | 大部分评测者认为更适合真实开发任务 |
| 与商业大模型对比 | 有人觉得达到或接近,有人觉得还有差距 |
| 集成生态 & 可用性 | 反馈不完全一致,部分工具集成存在延迟或限制 |
| 社区期待值 | 整体较高,尤其是在开源阵营被看作重要进展 |
关于 GLM-4.7 的常见疑问解答
"thinking": { "type": "enabled" }通过视频了解 GLM-4.7 的强大能力
评测 + Demo,包含多项能力展示
快速入门与操作演示(12分钟)
总体能力演示与简介(免费!)
超级 Agent 演示
GLM-4.7 与其他模型的对比测试
对标 Claude Sonnet 4.5 的 GLM-4.7 实测
编程测试表现与对比
编程实战演示
Agent 编程演示