Deepseek本地部署指南:五大工具详解与Ollama实践|AI模型本地运行最佳实践

最全面的AI大模型本地部署指南!本文针对当前主流的四大部署工具进行深度技术解析,涵盖硬件选择、性能优化、场景适配等关键维度,助您掌握AI私有化部署的核心技术,手把手教你使用Ollama部署Deepseek模型。揭秘CPU/GPU部署技巧,提供工具选型决策树,助开发者快速实现大语言模型私有化部署,打造企业级AI解决方案。

阅读时长: 4 分钟
共 1939字
作者: eimoon.com

一、常用工具

本地部署大模型常用的有下面的工具:

1. llama.cpp

轻量级、纯 CPU 也能运行的 LLM 推理引擎

  • 特点

    • 由 Georgi Gerganov 开发的一个用 C++ 实现的 LLaMA 模型推理引擎。
    • 主要用于本地推理,可以在 CPU 或 GPU 上运行 LLaMA 及其变体以及其他开源大模型。
    • 支持 多种硬件平台,包括 Windows、Linux、macOS、Android,甚至树莓派。
    • 采用 4-bit、GGUF 量化,大幅减少显存占用,使得在消费级 GPU(如 8GB VRAM)上也能运行大型模型。
  • 适用场景

    • 适合开发者在本地 轻量级运行 LLM(如 LLaMA)。
    • 适用于 边缘设备,如手机或嵌入式设备。
    • 适合离线使用,不依赖云端。
  • 缺点

    • 仅支持 推理,不支持训练模型。
    • 不如 vLLM 在 GPU 上的推理速度快(vLLM 使用 PagedAttention)。
    • 接口较底层,对新手来说使用门槛较高。

2. Ollama

用户友好的 LLM 本地运行工具,基于 llama.cpp
  • 特点

    • 封装了 llama.cpp,提供更简洁的 CLI 和 API 接口,让用户更容易在本地运行 LLM。
    • 支持模型管理:可以拉取、存储、运行各种 GGUF 格式模型(如 LLaMA 2、Mistral、Gemma)。
    • 采用 容器化思路,类似于 Docker,可以使用 Modelfile 进行模型打包和分发。
    • 支持 GPU 加速,如果设备支持,Ollama 会自动利用 GPU 运行。
  • 适用场景

    • 希望本地运行 AI,但不想手动编译 llama.cpp 的用户。
    • 开发者和研究人员,用于快速测试和部署 LLM。
    • CLI 和 API 友好,适合需要与其他应用集成的场景。
  • 缺点

    • 仍然依赖 llama.cpp,不如 vLLM 在高性能 GPU 上推理效率高。
    • 只支持推理,不支持训练。
    • 不支持 LoRA 微调(但可以加载量化后的 LoRA 适配器)。

3. vLLM

高性能 LLM 推理库,专为 GPU 设计
  • 特点

    • 由 UC Berkeley 研究团队 开发,专注于 超高效的 LLM 推理。
    • 核心技术:PagedAttention,能更高效地利用 GPU 显存,支持多用户并发,适合部署大规模 LLM API。
    • 兼容 Hugging Face Transformers,可以直接加载 PyTorch 格式的 LLM。
    • 支持 分布式推理,可扩展到 多 GPU / 多节点集群。
  • 适用场景

    • 需要高吞吐量的 AI API 服务(如 Chatbot 或 AI 代理)。
    • 云端部署 LLM,尤其是多 GPU 服务器环境。
    • 需要 Hugging Face Transformers 兼容性 的场景。
  • 缺点

    • 不支持 CPU 运行,必须有 GPU。
    • 对本地用户不友好,更适合 大规模云端部署。
    • 依赖 PyTorch,环境配置可能比 llama.cpp 和 Ollama 更复杂。

4. LM Studio

本地 LLM GUI 应用,适合非技术用户
  • 特点

    • 基于 llama.cpp,但提供了图形界面(GUI),让用户可以在本地运行 LLM 而无需命令行操作。
    • 类似 Ollama,但更偏向桌面端用户(Ollama 偏向 CLI 和 API)。
    • 可以下载、管理和运行 GGUF 量化格式的 LLM(如 LLaMA 2、Mistral)。
    • 适用于 Windows 和 macOS,并内置 GPU 加速支持。
  • 适用场景

    • 非技术用户,希望在本地使用 LLM(如写作、问答)。
    • 希望使用 GUI 而不是 CLI 的用户。
    • 轻量级离线 AI 助手(适合本地 AI 交互)。
  • 缺点

    • 不适合大规模部署,主要是桌面端应用。
    • 相比 vLLM,推理性能较低(仍然基于 llama.cpp)。
    • 自定义能力有限,不像 Ollama 那样可以通过 Modelfile 进行扩展。

5.总结对比

工具 主要用途 是否支持 GPU 主要技术 适用人群 主要优势 主要缺点
llama.cpp 轻量级本地推理 支持(但优化一般) C++(GGUF 量化) 开发者 可在 CPU 运行,轻量高效 API 复杂,需手动编译
Ollama 方便的本地 LLM 运行工具 支持 Go + llama.cpp 开发者、普通用户 易用,CLI & API 友好,自动管理模型 不如 vLLM 快,仅支持 GGUF 格式
vLLM 高性能 LLM 推理 强制需要 GPU PagedAttention + PyTorch AI API 提供商 极快的 GPU 推理,适合大规模服务 不能在 CPU 运行,不支持 GGUF
LM Studio 桌面端 LLM GUI 支持 llama.cpp 普通用户 GUI 友好,适合离线使用 不能大规模部署,性能一般

二、使用ollama 部署deepseek

1.下载ollama

ollam 提供了多平台的安装程序,直接按照官网的说明安装即可 Deepseek本地部署指南:五大工具详解与Ollama实践|AI模型本地运行最佳实践 配图 image

如果你的macos 系统,也可以使用homebrew来安装

brew install ollama

2.下载deepseek模型

ollama 提供了多个模型,可以直接下载,也可以自己训练模型,这里我们直接下载deepseek模型,这里是下载默认的7b,如果你需要下载其他的,可以在后面 添加标签ollama run deepseek-r1 :1.5b,或者 7b,8b,14b,32b,70b等

ollama run deepseek-r1 

如果你不想直接运行,也可以先下载模型,然后再run

ollama pull deepseek-r1 
ollama run deepseek-r1 

当终端显示如下,就说明运行成功了,你可以直接和他对话了。 Deepseek本地部署指南:五大工具详解与Ollama实践|AI模型本地运行最佳实践 配图 image-1

如果想推出对话,直接输入 /bye即可。

3.添加ui界面

如果你还想添加ui界面,有很多的插件和程序可以使用,具体可以到ollam的github 上面来查询,常用的可能有Open WebUI,chatbox等,或者使用浏览器插件 Page Assist (Chrome Extension) 等。 下面是使用 Page Assist 管理ollama 的界面。 Deepseek本地部署指南:五大工具详解与Ollama实践|AI模型本地运行最佳实践 配图 image-2

4.管理运行的大模型

ollama 的管理命令有点像docker,可以通过ollama help ,查询都有哪些命令。 例如查看模型(deepseek-r1)的信息

ollama show deepseek-r1

停止已经运行的大模型。

ollam stop deepseek-r1

列出已经下载的大模型

ollam list

4.删除模型

如果我们不用了,我们可以删除已经下载的大模型,来清理空间。

ollam rm deepseek-r1

请注意:这样下次运行需要重新下载模型。

使用 Hugo 构建
主题 StackJimmy 设计