本地 AI 编程新范式:在 Claude Code 中通过 Ollama 驱动 GLM-4.7-Flash

本文将手把手教你如何在本地环境中配置 Claude Code,并利用 Ollama 调用 GLM-4.7-Flash 模型。通过优化上下文配置与环境搭建,你可以在保证隐私的前提下,获得极速的本地 AI 辅助编程体验。

阅读时长: 4 分钟
共 1601字
作者: eimoon.com

现在的开发者越来越看重隐私和对工具的掌控力,尤其是在涉及核心源码的场景下。Anthropic 推出的终端编程助手 Claude Code 确实惊艳,但默认连的是云端。好消息是,配合 Ollama,我们完全可以把这套“编程特种兵”搬到本地运行。

GLM-4.7-Flash 因为其优秀的推理速度和对长上下文的支持,正成为本地 Agent 编程的热门选择。今天我们就来聊聊如何快速搞定这套纯本地、不设限的 AI 编程环境。

硬件与软件准备

在开始动手前,先确认下你的设备能不能跑得动。GLM-4.7-Flash 虽然是 Flash 版本,但对显存还是有一定要求的:

  • 硬件建议:首选 NVIDIA GPU,显存 16GB 起步。如果想跑得更顺滑,或者需要更大的上下文,建议直接上 24GB 显存(比如 RTX 3090/4090)。
  • 内存:16GB-32GB 内存是基础。
  • 操作系统:Linux 或 macOS 最省心。Windows 用户建议通过 WSL2 配合 GPU 穿透来搞定。
  • 驱动环境:确保安装了最新的 NVIDIA 驱动和 CUDA Toolkit。

你可以通过执行 nvidia-smi 来快速检查显卡状态。看到你的 GPU 型号和显存占用没报错,基本就稳了。

第一步:让 Ollama 在本地跑起来

Ollama 是目前本地运行大模型最方便的工具。它不仅能管理模型,还能提供标准的 API 接口。

如果你是 Linux 用户,一条命令搞定:

curl -fsSL https://ollama.com/install.sh | sh

macOS 和 Windows 用户直接去官网下载安装包即可。安装完后,在终端执行 ollama -v。如果提示版本号,说明服务已经上线。

如果提示连接失败,手动起一下服务:

ollama serve

第二步:拉取 GLM-4.7-Flash 模型

Ollama 的模型库已经收录了 GLM-4.7-Flash。我们直接拉取:

ollama pull glm-4.7-flash

下载完成后,先别急着集,做个简单的“压力测试”。运行 ollama run glm-4.7-flash 进入交互模式,随便问点代码问题。在 GPU 加持下,你会发现它的响应几乎是瞬间的。

第三步:上下文长度的取舍

这是很多人容易踩坑的地方。Claude Code 这种 Agent 工具需要处理大量的项目上下文。虽然 GLM-4.7-Flash 理论上支持很长,但在本地跑,上下文设得太大(比如 64k 或 128k),推理速度会呈断崖式下跌。

经过实测,20,000 (20k) 是一个非常理想的平衡点:既能吞下中大型项目的代码段,又能保持每秒几十个 token 的流畅输出。

先关掉当前的 Ollama 服务,然后通过环境变量指定上下文长度重新启动:

OLLAMA_CONTEXT_LENGTH=20000 ollama serve

你可以通过 ollama ps 确认下模型是否带着 20k 的上下文正确加载到了 GPU 上。

第四步:安装并桥接 Claude Code

Claude Code 是 Anthropic 为终端开发者准备的“大杀器”。安装很简单:

curl -fsSL https://claude.ai/install.sh | bash

安装好后,核心问题来了:怎么让 Claude Code 放弃云端,转而调戏我们本地的 Ollama?

最简单的方法是利用 Ollama 内置的启动命令,它会自动帮你配好环境变量:

ollama launch claude --model glm-4.7-flash

进入 Claude Code 界面后,输入 /model 确认一下。如果显示的确实是 glm-4.7-flash,那恭喜你,本地 AI 编程基地已经建成了。

实战演练:写个小游戏试试

光说不练假把式。我们试着让它写个命令行版的贪吃蛇。

在 Claude Code 中,我建议先开启 Planning Mode(规划模式)。你可以连按两次 Shift + Tab 切换。告诉它:“帮我用 Python 写一个可以在终端运行的贪吃蛇游戏。”

GLM-4.7-Flash 会先给出逻辑构思,等你确认后再开始写代码、创文件。你会发现整个过程非常丝滑:

  1. 它会自动生成 snake_game.py
  2. 给出运行依赖(通常是标准库)。
  3. 告诉你怎么启动。

在另一个终端执行 python3 snake_game.py,一个经典的贪吃蛇就出现在你面前了。这种“即想即所得”的快感,在本地运行环境下由于没有网络延迟,体验会更好。

关于进阶定制

如果你手里已经有现成的 GGUF 格式模型文件,不想重复下载,可以通过 Modelfile 来快速注册模型。

创建一个名为 Modelfile 的文件:

FROM ./glm-4.7-flash.gguf
PARAMETER temperature 0.8
PARAMETER top_p 0.95
PARAMETER repeat_penalty 1.0

然后执行 ollama create my-glm-local -f Modelfile,你就有了一个专属的本地模型实例。

聊聊感受

这种“Claude Code + Ollama”的组合,真正打破了开发者对云端 AI 的依赖。在没有网络或者内网开发的环境下,你依然拥有一个能读代码、能写方案、能改 Bug 的资深“助教”。

更重要的是,通过合理配置上下文长度,我们把 GLM-4.7-Flash 的性能压榨到了极致。这种掌控感,是任何云服务都给不了的。如果你追求极致的响应速度和隐私保护,这套方案绝对值得你花五分钟配置一下。

关于

关注我获取更多资讯

公众号
📢 公众号
个人号
💬 个人号
使用 Hugo 构建
主题 StackJimmy 设计