GLM-4.7 与其他开源模型有什么区别？

GLM-4.7 采用 Mixture-of-Experts 架构，拥有 200K 超长上下文窗口，编程能力比肩 Claude Sonnet 4.5，且采用 MIT 开源许可，完全商用友好。

GLM-4.7 是否支持本地部署？

是的，GLM-4.7 采用 MIT 许可，权重可下载，支持本地部署，开发者可以自由使用和商用。

如何开始使用 GLM-4.7？

可以通过 API 调用、本地部署或 IDE 集成三种方式使用。访问智谱 AI 官网获取 API 密钥，或下载模型权重进行本地部署。

GLM-4.7 - 开源代码新王者 | 智谱 AI 最新旗舰大模型

在线体验 GLM-4.7

多种方式体验 GLM-4.7 的强大能力

⭐

智谱 AI 官方平台

推荐使用

最稳定、最快速的体验方式，无需额外验证

立即体验 →

🤗

Hugging Face

需要登录

需要在 Hugging Face 登录并同意使用条款

⚠️ 可能遇到连接问题，建议使用官方平台

在 Hugging Face 打开 →

💻

本地部署

开发者选项

下载模型权重，在本地运行

查看部署指南 →

嵌入式演示（可能需要登录）

如果下方演示无法加载或提示登录，请使用上方推荐方式访问

什么是 GLM-4.7

了解这个引起开发者社区轰动的开源大模型

GLM-4.7 是中国公司 智谱 AI（Zhipu AI）/ Z.ai 发布的最新一代大型语言模型（Large Language Model, LLM）。它是 GLM（General Language Model）系列的最新旗舰版本，定位为高性能、开源的大模型。

作为一个基础通用 AI 模型（Foundation Model），该模型可用于理解和生成自然语言、编写代码、处理复杂推理任务和支持多步智能体（Agent）风格的执行。

为什么会火起来？

刚发布且表现惊艳

GLM-4.7 定位于真正可用于开发者生产环境的模型，与以往"实验性"的开源模型不同，它强调实用与稳定性。

开源且可本地运行

采用 MIT 许可，开发者可以免费下载、修改和本地部署，无需绑定昂贵的闭源 API。

优于前代 & 竞争力强

在代码生成、复杂推理、Agent 工具调用等指标上显著提升，某些基准甚至超过了 GPT-5.2、Claude Sonnet 4.5。

核心能力概览

专注编程与工程任务

在多个主流编程基准测试中表现领先，能理解更大代码块，帮助写完整功能。支持多语言编码与跨工具环境应用。

增强推理与智能体执行

针对智能体和工具调用任务进行优化，能更好处理多步思考、复杂逻辑推理任务，提升了"先思考再行动"的能力。

开源与可访问性

权重可下载、自由使用/改进（MIT 许可），可通过各种平台部署或调用，可在本地/服务器上运行，可免费或低成本使用。

Mixture-of-Experts 架构

总参数约 355B，每次推理只激活约 32B 参数（稀疏激活），在保持大模型能力的前提下，提高推理效率、降低计算成本。

为什么该模型很重要？

✅

开源大模型的重要成果

代表开源社区在高性能 AI 模型上的大步推进

✅

对开发者友好

普通用户或初创团队可以更低成本接入高性能 AI

✅

行业竞争格局变化

提高了国内开源模型在全球的竞争力

核心特性

为开发者打造的强大 AI 能力

编程与工程能力

在 SWE-bench、LiveCodeBench 等编码基准上表现领先，能理解更大代码块，帮助写完整功能。支持多语言编码与跨工具环境应用。

增强推理与思考机制

引入 Interleaved Thinking、Preserved Thinking、Turn-level Thinking 等多种思考模式，在执行复杂任务前先"思考"一遍再行动。

开源与可访问性

采用 MIT 开源许可，权重可下载，自由使用/改进，支持本地部署，可免费或低成本使用，无需绑定昂贵的闭源 API。

Agent 与工具调用

原生支持 Function Call 与结构化输出，与 Claude Code、Kilo Code、Cline、Roo Code 等主流工具链深度集成。

思考模式详解

思考模式	作用
Interleaved Thinking（交错思考）	在每次生成/工具调用前进行内部推理，提升任务执行质量
Preserved Thinking（保留思考）	多轮对话间保留思考历史，提升长流程逻辑一致性
Turn-level Thinking（轮级思考）	允许按"轮"控制思考，在长任务中更合理分配推理开销

核心优势

为什么选择本模型？六大核心优势一览

开源 & 免费部署

无需付费 API，支持本地运行，增强自主控制。MIT 开源许可，权重可下载、自由使用和修改。

更强编码与推理能力

在多项基准中显著优于前代甚至部分闭源竞品。在 SWE-bench、LiveCodeBench 等编码基准上表现领先。

适合生产环境

稳定性和工具调用能力提升，适合复杂工程。从"通用生成模型"转向"能在工程环境中完成复杂任务的产品级模型"。

大上下文支持

能处理大段输入和长任务。支持 200K 超大上下文窗口，可一次性处理整个代码库或长文档，无需分片。

更高性价比

开发者反馈成本远低于传统商业 API。可以免费或低成本使用，无需绑定昂贵的闭源 API。

完善社区生态

融入多个开发工具和平台，如 Claude Code、Kilo Code、Cline、Roo Code 等，开箱即用。

谁可以使用本模型

适用于各类用户群体的强大 AI 模型

开发者 & 企业工程团队

✓ API 调用：通过 Z.ai、BigModel.cn、OpenRouter 等平台
✓ 集成工具：Claude Code、Kilo Code、Cline、Roo Code
✓ 在熟悉的 IDE 环境中直接使用

AI Agent & 自动化工作流用户

✓ 自动化流程控制
✓ 多步骤任务分解
✓ 智能体（Agent）模型场景

本地部署与研究者

✓ 下载模型权重（HuggingFace / ModelScope）
✓ 本地系统部署（vLLM / SGLang）
✓ MIT 许可，可商用和修改

产品经理 & 非技术用户

✓ Z.ai 在线对话界面
✓ 集成在智能助手的简单 UI
✓ 文本生成、创意写作、任务规划

MIT 开源许可

模型权重和代码可以被自由使用、修改、商用。降低了"只能在大公司使用"的门槛，使得普通开发者、创业团队、学生研究者都能上手。

快速上手路径推荐

根据你的需求选择最适合的使用方式

立刻体验

零安装，直接在线使用

Z.ai 在线对话界面 → 最简单快速的方式

在项目中调用

通过 API 集成到你的应用

OpenAI 风格 API + API Key 简单集成，兼容现有工具

使用代码 AI 助手

在 IDE 中直接使用

集成到 Claude Code 等工具 IDE 内直接使用，提升编码效率

离线部署

在本地服务器运行

vLLM / SGLang / Ollama 等完全自主控制，数据隐私安全

技术规格

强大的架构支撑卓越性能

基本参数

参数	说明
提供者	智谱 AI（Zhipu AI）/ Z.ai
模型家族	GLM 系列（General Language Model）
架构	Mixture-of-Experts（MoE）混合专家架构
总参数量	约 355B 参数
激活参数	每次推理激活约 32B 参数（稀疏激活）
上下文窗口	200K tokens
最大输出	128K tokens
开源许可	MIT 开源协议

技术优化组件

优化技术	作用
Grouped-Query Attention	增强多 Token 推理与注意力表示能力
QK-Norm	稳定注意力机制，减少因注意力分布波动带来的不一致输出
Muon Optimizer	更高效的优化器，有助于大规模训练收敛更快、模型更稳定
MTP（多 Tokens 预测）	提升推理速度和质量

Mixture-of-Experts 架构

本模型的底层架构采用 Mixture-of-Experts（MoE）设计，这是一种"稀疏激活"的神经网络架构。总共有约 355B 参数，但每次推理只激活约 32B 参数。

MoE 的优势是：在保持大模型能力的前提下，减少每次推理实际运行的参数量，让推理速度更快、成本更低。比起传统"密集激活"模型，MoE 架构更擅长在不显著提升成本的情况下扩展模型规模与推理能力。

技术特点总结

核心技术架构一览

混合专家架构（MoE）

355B 参数池，但每次激活 32B，兼顾能力与效率

超大上下文

200K token 上下文窗口与 128K 输出能力

思考机制

多层推理/思考模式，提升复杂任务稳定性

工具与结构化支持

支持 Function Call 与 JSON 等集成形式

优化组件

注意力机制、优化器等提升模型性能

稳定性优化机制

底层的关键优化技术

除了 MoE 和思考机制，本模型的底层还有一些关键优化结构，这些不是简单生成技巧，而是真正提升逻辑与推理能力的技术。

QK-Norm Attention

让注意力机制更稳定，减少因注意力分布波动带来的不一致输出

Muon Optimizer

一种更高效的优化器，有助于大规模训练收敛更快、模型更稳定

Grouped-Query Attention

增强多 Token 推理与注意力表示能力

MTP（多 Token 预测）

提升推理速度和质量，优化多 token 生成能力

💡 这些优化都属于在大模型工程中提高表现和稳定性的"底层细节"
它们共同作用，让该模型在推理、逻辑判断和工具协作中表现更加稳定可靠

核心总结对比

核心设计价值

方面	本模型特点	价值
模型架构	MoE + 超大上下文	更大规模、更高效率、更强逻辑保持能力
推理控制	多种"思考模式"	任务级别更能保持连贯性和准确性
工具调用	原生支持 Function Call	无缝集成外部工具/系统
Agent 集成	支持主流 Agent 工作流工具	在复杂工作流中自动执行命令
工作流编排	AI Skills / 智能工作流	用户用自然语言完成复杂流程

🧠 核心设计理念

将大语言模型从"文本生成器"进化为"任务执行引擎"：

• MoE 架构和优化机制提升了模型的基础逻辑能力
• 超长上下文与思考模式确保模型在复杂、跨步任务里保持连贯
• 工具调用与智能体机制让它能调度外部系统、执行真实操作

功能支持矩阵

能力边界一览

超大上下文

✓ 支持 200K tokens 上下文窗口，可处理长文档和大型代码库

多步 Agent

✓ 支持 但集成细节需要调优，支持主流 Agent 工具

批量 API

⚠ 部分支持 不统一支持，有待平台明确，可能需要手动封装

工具调用

✓ 支持 Function Call 强集成，无缝调用外部工具和系统

图像输入

✗ 不支持 目前版本不支持，建议使用 4.6V 等视觉模型

💡 注意： 功能支持情况可能随版本更新而变化。建议查看官方文档或联系技术支持获取最新信息。对于图像处理需求，可使用 GLM-4.6V 等支持视觉输入的模型版本。

使用场景

适用于各种开发与工作流场景

开发者 & 编程

生成/修复代码 - 在真实开发场景中当作生产力工具来用
多语言编程 - 支持跨语言项目协调
框架和工程任务自动化 - 从辅助助手变成可以实际推进项目的伙伴
与 IDE/工具链集成 - 在 Claude Code、Kilo Code、Cline、Roo Code 等工具中直接使用

AI Agent & 工具执行

多步骤任务自动化 - 在多步骤、长期、迭代性强的任务中保持逻辑连续性
过程规划与逻辑执行 - 模型可以在执行外部工具前"思考"
调用外部工具 - 与 API、终端、文件操作等外部系统协同工作

推理与分析

文本理解 - 超大上下文窗口支持理解长文档和复杂内容
复杂问答 - 多步推理能力让复杂问题的回答更准确
多轮逻辑推理 - 思考模式确保多轮对话中逻辑连贯

对话 & 生成

更自然的聊天互动 - 相比更纯粹的代码模型，对话体验更流畅
创意写作 - 文本生成能力强，适合内容创作
任务规划 - 长上下文和推理能力使其适合复杂任务规划

快速上手

选择适合你的方式开始使用

方式一：在线体验（零安装）

如果你只是想立刻体验本模型，不写代码，也不安装：

打开本页面在线体验区域
注册／登录账号
在模型选择里选 GLM-4.7
输入你想让模型做的事情（如代码、提问等）

这是最简单的上手方式，不需要 API 或开发环境。

方式二：API 调用

2.1 注册并获取 API Key

在 Z.AI 开放平台注册账号并登录
订阅符合你需求的套餐（例如 GLM Coding Plan）
在控制台生成 API Key（要妥善保管）

2.2 使用标准 OpenAI 风格调用

许多平台对接 OpenAI API 协议，你直接把 API Key 和 API URL 配置进去就能调用本模型：

Python

from openai import OpenAI

client = OpenAI(
    api_key="YOUR_API_KEY",
    base_url="https://api.z.ai/api/paas/v4"
)

response = client.chat.completions.create(
    model="glm-4.7",
    messages=[
        {"role": "user", "content": "Hello!"}
    ]
)
print(response.choices[0].message.content)

方式三：编码工具集成

Claude Code 集成

1. 安装 Claude Code（需 Node.js 18+）：

Bash

npm install -g @anthropic-ai/claude-code

2. 配置 Z.AI API Key 和 Base URL：

Bash

curl -O "https://cdn.bigmodel.cn/install/claude_code_zai_env.sh" && bash ./claude_code_zai_env.sh

3. 启动 Claude Code：

Bash

claude

此时该模型会被映射为默认代码模型（如 Opus / Sonnet 对应）。

方式四：本地部署

使用 vLLM 推理引擎

Bash

# 安装
docker pull vllm/vllm-openai:nightly
pip install -U vllm --pre --index-url https://pypi.org/simple --extra-index-url https://wheels.vllm.ai/nightly

# 启动服务器
vllm serve zai-org/GLM-4.7-FP8 --tensor-parallel-size 8 --tool-call-parser glm47 --served-model-name glm-4.7

使用 SGLang

Bash

python3 -m sglang.launch_server --model-path zai-org/GLM-4.7-FP8 ...

注意： 显存要求较高，完整模型需要强大的 GPU 和大内存；也可以使用量化版本（如 GGUF）降低资源需求。

启用思考模式

许多平台允许你开启"思考模式"（thinking），让模型在复杂任务上推理更深入：

JSON

"thinking": {"type": "enabled"}

该功能对复杂推理、逻辑步骤拆解、agent 任务尤为有效。

用户评价

来自开发者的真实反馈

正面反馈

评价方向	说明
明显比上代提升	很多技术评测和用户讨论都认为 GLM-4.7 在编码、推理与代理任务上有显著提升，比 GLM-4.6 更加可靠和实用
编程任务更靠谱	在生成代码的质量与逻辑连贯性上，比之前版本"靠谱得多"，可以在真实开发场景中当作生产力工具来用
开源社区欢迎	Reddit 等社区里有人赞赏它"更稳定""错误更少""工具调用更可靠"，欢迎它成为开源编码模型每日使用的底层引擎
Benchmark 表现亮眼	在代码测试、数学推理等任务上达到了接近或超过某些闭源大模型的水平，这对开源阵营是一种鼓舞

综合评价趋势

评价方向	主流观点
性能提升 vs 前代	多数认为有明显进步
生产力工具价值	大部分评测者认为更适合真实开发任务
与商业大模型对比	有人觉得达到或接近，有人觉得还有差距
集成生态 & 可用性	反馈不完全一致，部分工具集成存在延迟或限制
社区期待值	整体较高，尤其是在开源阵营被看作重要进展

常见问题

关于 GLM-4.7 的常见疑问解答

官方说明里，GLM-4.7 支持如下关键能力：

多步推理与"思考模式"（Thinking Mode），提升复杂任务稳定性
Function Call（函数/工具调用），助力与外部系统接入
超大上下文窗口（最高约 200K tokens）
结构化输出（如 JSON）、流式输出增强互动体验

最大上下文窗口：约 200K tokens（非常适合处理大文档/长代码库一次性输入）
最大输出生成长度：约 128K tokens

这意味着它能一次性理解和生成非常长的内容。

官方和社区资料提到，GLM-4.7 引入了如 Interleaved Thinking（交错思考）、Preserved Thinking（保留思考）、Turn-level Thinking（轮级思考）等机制，核心目标是让模型在执行复杂任务前先"思考"一遍再行动，提升多步流程稳定性。

在 API 调用里通常会看到如下结构来开启这种模式：
"thinking": { "type": "enabled" }

该功能对复杂推理、逻辑步骤拆解、agent 任务尤为有效。

很多开发者反馈 GLM-4.7 在工程式任务、终端命令流程、错误修复、以及多语言项目协调上较以前版本表现更稳，可以看作是"能干活"的编码辅助伙伴，而不仅是简单补全。

不一定。有用户在 Reddit 社区反映类似 Kilo Code UI 下拉菜单中暂时看不到 GLM-4.7，需要手动输入模型 ID 或等待工具更新列表。

社区反馈中，有用户指出当前某些配置下 GLM-4.7 不支持图像上传与分析功能（例如利用截图优化 UI 的场景），需要使用支持视觉输入的其他模型版本（如 4.6V）。

官方和第三方资料普遍认为，GLM-4.7 相比 4.6/4.5 的主要提升不只是精度，而是在工程化实用性、复杂推理稳定性、工具调用联动等方面做了系统能力增强。它更像是从"通用生成模型"转向"能在工程环境中完成复杂任务的产品级模型"。

开发者建议包括：

提供明确、逐步的 prompt 指令，避免一次性大乱输入以减少歧义
利用大型上下文窗口优势，把相关任务历史一起传入
在多步 Agent 任务中注意任务状态管理和执行顺序
注意不同集成环境（IDE/agent 工具）对模型支持差异

视频演示

通过视频了解 GLM-4.7 的强大能力

GLM-4.7 - 开源代码新王者

MIT 开源许可

200K 超大上下文

思考模式 + Agent 执行

多基准测试领先

在线体验 GLM-4.7

智谱 AI 官方平台

Hugging Face

本地部署

嵌入式演示（可能需要登录）

什么是 GLM-4.7

为什么会火起来？

刚发布且表现惊艳

开源且可本地运行

优于前代 & 竞争力强

核心能力概览

专注编程与工程任务

增强推理与智能体执行

开源与可访问性

Mixture-of-Experts 架构

为什么该模型很重要？

开源大模型的重要成果

对开发者友好

行业竞争格局变化

核心特性

编程与工程能力

增强推理与思考机制

开源与可访问性

Agent 与工具调用

思考模式详解

核心优势

开源 & 免费部署

更强编码与推理能力

适合生产环境

大上下文支持

更高性价比

完善社区生态

谁可以使用本模型

开发者 & 企业工程团队

AI Agent & 自动化工作流用户

本地部署与研究者

产品经理 & 非技术用户

MIT 开源许可

快速上手路径推荐

立刻体验

在项目中调用

使用代码 AI 助手

离线部署

技术规格

基本参数

技术优化组件

Mixture-of-Experts 架构

技术特点总结

混合专家架构（MoE）

超大上下文

思考机制

工具与结构化支持

优化组件

稳定性优化机制

QK-Norm Attention

Muon Optimizer

Grouped-Query Attention

MTP（多 Token 预测）

核心总结对比

🧠 核心设计理念

功能支持矩阵

超大上下文

多步 Agent

批量 API

工具调用

图像输入

使用场景

开发者 & 编程

AI Agent & 工具执行

推理与分析

对话 & 生成

快速上手

方式一：在线体验（零安装）

方式二：API 调用

2.1 注册并获取 API Key