本地 AI 编程新范式：在 Claude Code 中通过 Ollama 驱动 GLM-4.7-Flash

现在的开发者越来越看重隐私和对工具的掌控力，尤其是在涉及核心源码的场景下。Anthropic 推出的终端编程助手 Claude Code 确实惊艳，但默认连的是云端。好消息是，配合 Ollama，我们完全可以把这套“编程特种兵”搬到本地运行。

GLM-4.7-Flash 因为其优秀的推理速度和对长上下文的支持，正成为本地 Agent 编程的热门选择。今天我们就来聊聊如何快速搞定这套纯本地、不设限的 AI 编程环境。

硬件与软件准备

在开始动手前，先确认下你的设备能不能跑得动。GLM-4.7-Flash 虽然是 Flash 版本，但对显存还是有一定要求的：

硬件建议：首选 NVIDIA GPU，显存 16GB 起步。如果想跑得更顺滑，或者需要更大的上下文，建议直接上 24GB 显存（比如 RTX 3090/4090）。
内存：16GB-32GB 内存是基础。
操作系统：Linux 或 macOS 最省心。Windows 用户建议通过 WSL2 配合 GPU 穿透来搞定。
驱动环境：确保安装了最新的 NVIDIA 驱动和 CUDA Toolkit。

你可以通过执行 nvidia-smi 来快速检查显卡状态。看到你的 GPU 型号和显存占用没报错，基本就稳了。

Ollama 是目前本地运行大模型最方便的工具。它不仅能管理模型，还能提供标准的 API 接口。

如果你是 Linux 用户，一条命令搞定：

curl -fsSL https://ollama.com/install.sh | sh

macOS 和 Windows 用户直接去官网下载安装包即可。安装完后，在终端执行 ollama -v。如果提示版本号，说明服务已经上线。

如果提示连接失败，手动起一下服务：

ollama serve

Ollama 的模型库已经收录了 GLM-4.7-Flash。我们直接拉取：

ollama pull glm-4.7-flash

下载完成后，先别急着集，做个简单的“压力测试”。运行 ollama run glm-4.7-flash 进入交互模式，随便问点代码问题。在 GPU 加持下，你会发现它的响应几乎是瞬间的。

这是很多人容易踩坑的地方。Claude Code 这种 Agent 工具需要处理大量的项目上下文。虽然 GLM-4.7-Flash 理论上支持很长，但在本地跑，上下文设得太大（比如 64k 或 128k），推理速度会呈断崖式下跌。

经过实测，20,000 (20k) 是一个非常理想的平衡点：既能吞下中大型项目的代码段，又能保持每秒几十个 token 的流畅输出。

先关掉当前的 Ollama 服务，然后通过环境变量指定上下文长度重新启动：

OLLAMA_CONTEXT_LENGTH=20000 ollama serve

你可以通过 ollama ps 确认下模型是否带着 20k 的上下文正确加载到了 GPU 上。

Claude Code 是 Anthropic 为终端开发者准备的“大杀器”。安装很简单：

curl -fsSL https://claude.ai/install.sh | bash

安装好后，核心问题来了：怎么让 Claude Code 放弃云端，转而调戏我们本地的 Ollama？

最简单的方法是利用 Ollama 内置的启动命令，它会自动帮你配好环境变量：

ollama launch claude --model glm-4.7-flash

进入 Claude Code 界面后，输入 /model 确认一下。如果显示的确实是 glm-4.7-flash，那恭喜你，本地 AI 编程基地已经建成了。

光说不练假把式。我们试着让它写个命令行版的贪吃蛇。

在 Claude Code 中，我建议先开启 Planning Mode（规划模式）。你可以连按两次 Shift + Tab 切换。告诉它：“帮我用 Python 写一个可以在终端运行的贪吃蛇游戏。”

GLM-4.7-Flash 会先给出逻辑构思，等你确认后再开始写代码、创文件。你会发现整个过程非常丝滑：

在另一个终端执行 python3 snake_game.py，一个经典的贪吃蛇就出现在你面前了。这种“即想即所得”的快感，在本地运行环境下由于没有网络延迟，体验会更好。

如果你手里已经有现成的 GGUF 格式模型文件，不想重复下载，可以通过 Modelfile 来快速注册模型。

创建一个名为 Modelfile 的文件：

FROM ./glm-4.7-flash.gguf
PARAMETER temperature 0.8
PARAMETER top_p 0.95
PARAMETER repeat_penalty 1.0

然后执行 ollama create my-glm-local -f Modelfile，你就有了一个专属的本地模型实例。

这种“Claude Code + Ollama”的组合，真正打破了开发者对云端 AI 的依赖。在没有网络或者内网开发的环境下，你依然拥有一个能读代码、能写方案、能改 Bug 的资深“助教”。

更重要的是，通过合理配置上下文长度，我们把 GLM-4.7-Flash 的性能压榨到了极致。这种掌控感，是任何云服务都给不了的。如果你追求极致的响应速度和隐私保护，这套方案绝对值得你花五分钟配置一下。

📢 公众号

💬 个人号