本地大模型部署方案探究：Ollama 与 Docker Model Runner 的实践对比与选择

随着大语言模型（LLMs）在软件开发中变得越来越普遍，将这些模型部署在本地运行，已成为许多开发者追求高性能、保护隐私和控制成本的优先选择。在这个日益兴盛的领域，Ollama——一个成熟的本地 LLM 管理框架，以及 Docker Model Runner——Docker 新近推出的、旨在简化本地 AI 开发的工具，正吸引着我的目光。这篇文章将从我的技术视角出发，深入对比这两款解决方案，希望能帮助大家在实际项目中做出明智的抉择。

本地 LLM 运行时的兴起：为什么现在才火？

在深入探讨具体工具之前，我想先聊聊本地 LLM 运行时为何会受到如此广泛的关注。过去，我们大多依赖云端的 LLM 服务，虽然便捷，但在隐私、成本和延迟方面却总有些不如人意。本地部署的出现，正是为了应对这些挑战，尽管它也带来了一些新的问题，比如设置复杂度和硬件要求等。

本地 LLM 方案的必要性

我个人认为，本地 LLM 部署的优势非常明显：

数据隐私与安全：数据留在本地，安全更有保障，尤其对企业级应用来说至关重要。
降低推理成本：相比按 token 计费的云服务，本地运行能显著节省开支。
低延迟：实时应用对响应速度要求高，本地部署能大大缩短延迟。
离线能力：在网络受限或无网络的极端环境下，本地模型也能照常工作。
更强的控制力：我们可以更自由地选择和配置模型，满足定制化需求。

Ollama 概览：简洁高效的本地模型管家

Ollama 自问世以来，凭借其在本地计算资源上运行和管理 LLM 的直观方式，迅速在社区中积累了大量人气。

架构与核心功能

Ollama 是一个专为本地 LLM 运行和管理而设计的框架。它的主要工作是加载和部署选定的语言模型，并通过一个统一的 API 提供访问。与传统的容器化方案不同，Ollama 更侧重于简单性和易用性，这让那些想快速上手、不愿在繁琐配置上花费太多时间的开发者觉得很舒服。

安装与设置

在 Linux 系统上安装 Ollama 异常简单，一条命令就搞定：

curl -fsSL https://ollama.com/install.sh | sh

如果你有 NVIDIA GPU，我建议加上 Environment="OLLAMA_FLASH_ATTENTION=1" 这条环境变量，它能显著提升 token 的生成速度。安装完成后，Ollama 通常会监听在 http://127.0.0.1:11434 或者服务器的 IP 地址上。

支持的模型与性能表现

Ollama 支持多种模型，其中 Llama2 和 Llama3 是目前最受欢迎的。它们各有侧重：

Llama2：基于 Transformer 架构，参数量较少，主打效率和速度。如果你需要快速响应的场景，比如聊天机器人或实时数据处理，Llama2 会是个不错的选择。
Llama3：采用了更复杂的架构，层数和参数更多，这意味着它在理解和生成细致文本方面表现更出色。对于内容生成、文本摘要或高级对话代理等复杂应用，Llama3 的能力更能体现出来。

系统要求

Ollama 的系统要求算是比较亲民的：

Linux：Ubuntu 22.04 或更高版本。
RAM：运行 7B 参数模型至少需要 16 GB 内存。
磁盘空间：安装和基础模型需要 12 GB，具体模型还需要额外空间。
处理器：建议最低 4 核，运行 13B 模型则建议 8 核或以上。
GPU：非必需，但强烈推荐，能大幅提升性能。

Docker Model Runner：Docker 生态的新力量

Docker Model Runner 作为 Docker Desktop 4.40 for macOS (Apple silicon) 的 Beta 功能发布，标志着 Docker 正式进军 AI 工具领域，它将本地 LLM 推理能力带入了我们熟悉的 Docker 生态。

架构与核心理念

Docker Model Runner 有一个很特别的地方：它不像传统 Docker 容器那样，将 AI 模型完全容器化运行。相反，它直接在宿主机上运行 AI 模型。它使用 llama.cpp 作为推理服务器，这样设计是为了绕开容器化的额外开销，最大化性能。这种方法通过直接将推理引擎作为宿主进程执行，从而实现了 GPU 加速。

与 Docker 生态的深度融合

Docker Model Runner 的亮点在于其与 Docker 生态的无缝集成，这为 Docker 用户提供了非常熟悉的使用体验：

模型管理：你可以用我们惯用的 Docker CLI 命令来管理模型，比如 docker model pull、docker model run 等。
模型打包：模型被打包成 OCI artifacts，这意味着你可以用与分发容器镜像相同的方式来分发和共享模型。
生态集成：它已经与 Docker Hub、Docker Desktop 集成，未来还会与更多 Docker 工具融合。

安装与设置

目前，Docker Model Runner 是 Docker Desktop 4.40+ (macOS on Apple silicon) 的一部分。你可以通过一个简单的 CLI 命令来启用它：

docker desktop enable model-runner

如果你希望宿主进程能够通过 TCP 访问，可以指定一个端口：

docker desktop enable model-runner --tcp 12434

这样你的应用程序就能直接与 Model Runner 的 API 进行交互了。

API 与集成能力

Docker Model Runner 提供了一个兼容 OpenAI 的 API。这意味着它可以轻松与现有的 AI 应用程序和框架（比如 Spring AI）集成。这种兼容性让开发者在云服务和本地推理之间切换时，几乎不需要修改代码。

实战对比：Ollama vs Docker Model Runner

现在，我们来把这两款工具放在一起，看看它们在不同维度上的表现。

性能指标

根据我个人测试的的情况来看，Ollama 和 Docker Model Runner 在性能上表现得非常接近，虽然 Docker Model Runner 在某些指标上略有优势。

Metric	Ollama	Docker Model Runner
Mean Time (ms)	11,982.18	12,872.06
Mean Tokens/sec	23.65	24.53
Median Tokens/sec	24.31	24.68
Min Tokens/sec	18.52	16.28
Max Tokens/sec	27.82	28.47

具体到不同的提示词，Docker Model Runner 相对于 Ollama 有 1.00 到 1.12 倍的加速，这说明在多数场景下，它有着微弱但可察觉的性能优势。

开发者体验

两者在开发者体验上有着显著差异：

Ollama：

简单快捷：它专注于快速设置和简单易用。
开箱即用：提供内置 API 和用户界面。
独立运行：非常适合作为独立解决方案。
低耦合：与其他工具的集成度要求不高。

Docker Model Runner：

Docker 原生：为 Docker 用户提供了熟悉的操作体验。
融入工作流：与现有 Docker 工作流无缝衔接。
命令统一：使用我们熟悉的 Docker 命令和模式。
OCI 标准：模型打包为标准的 OCI artifacts，便于分发。
模型隔离：支持模型级别的隔离。

平台支持

平台支持是这两款方案目前最大的不同点：

Ollama：

广泛支持：支持包括 Linux 在内的多种平台。
NVIDIA GPU：与 NVIDIA GPU 兼容，用于加速。
HPC 环境：可通过 Apptainer 在高性能计算环境中运行。

Docker Model Runner：

当前限制：目前仅限于 macOS 上的 Apple silicon 硬件。
未来展望：预计在 2025 年 4 月支持带 NVIDIA GPU 的 Windows 系统。
Apple Metal：利用 Apple Metal API 进行 GPU 加速。

模型管理

两款工具都提供了模型管理能力，但方式不同：

Ollama：

简单 CLI：通过简单的命令行界面拉取和管理模型。
内置模型库：可通过 Ollama 命令访问内置模型库。
打包不标准：模型打包和分发标准化程度较低。

Docker Model Runner：

OCI Artifacts：模型打包为 OCI artifacts。
标准分发：通过标准容器注册表进行分发。
Docker Hub 集成：与 Docker Hub 集成，方便模型发现。
熟悉命令：使用熟悉的 Docker 命令管理模型（list, pull, rm）。

使用场景：我该如何选择？

所以，什么时候该选谁？我个人是这样看的：

何时选择 Ollama

Ollama 在以下场景中可能更具优势：

快速原型开发：当你追求快速设置和极致简洁时。
独立 LLM 部署：项目不要求与其他服务进行深度集成。
Linux 环境：尤其是在有 NVIDIA GPU 的 Linux 系统上。
HPC 环境：通过 Apptainer 集成。
资源有限：在硬件配置不高的系统上运行较小的模型。

何时选择 Docker Model Runner

在这些情况下，Docker Model Runner 可能是更好的选择：

Docker 深度用户：如果你已经习惯了 Docker 工作流，那么它几乎是自然而然的选择。
模型分发与版本控制：当你需要标准化的模型打包和分发机制时。
Apple Silicon 硬件：要充分利用 Apple M 系列芯片的 GPU 加速能力。
复杂系统集成：需要集成到更大、可组合的系统架构中。
OpenAI API 兼容性：在云端和本地推理之间切换。

未来展望

本地 LLM 运行时领域发展迅猛，Ollama 和 Docker Model Runner 未来都有可能进一步拓展其能力。

Ollama 的潜在演进

Ollama 已经证明了自己作为本地 LLM 部署的直观解决方案的地位。其未来发展可能会集中在：

扩大模型支持：兼容更多更先进的模型。
性能优化：持续提升推理速度和效率。
增强集成能力：更好地与其他工具和框架协同工作。
更复杂的管理功能：提供更强大的模型生命周期管理。

Docker Model Runner 的发展蓝图

作为新入局者，Docker Model Runner 有着雄心勃勃的路线图，可能包括：

Windows 支持：与 NVIDIA GPU 结合，覆盖更广泛的用户。
Docker Compose 集成：简化多服务 LLM 应用的部署。
Testcontainers 支持：提升 LLM 应用的测试体验。
自定义模型推送：允许用户推送和管理自己的定制模型。
更多云提供商与模型库集成。

结语

Ollama 和 Docker Model Runner 都为本地 LLM 部署提供了引人注目的解决方案，它们各自有着独特的优势和局限。

Ollama 以其简单性和广泛的平台支持脱颖而出，对于那些追求快速上手和最少配置的开发者来说，它无疑是个极好的选择。它在生态系统中的成熟地位以及对多种硬件平台的兼容性，使其在不同环境中都显得非常灵活。

Docker Model Runner 虽然目前在平台支持上有所限制，但它与 Docker 生态的紧密集成和标准化的模型打包方式，却是其核心竞争力。对于 Docker 重度用户和那些致力于构建复杂、可组合系统的开发者而言，它所提供的 Docker 化的工作流程和 OCI artifact 模型分发方式，的的确确是令人期待的。

最终，这个选择，的的确确是取决于你具体的项目需求、现有的技术栈以及可用的硬件。如果你和我一样，已经深耕 Docker 生态，并恰好使用 Apple Silicon 设备，那么 Docker Model Runner 无疑是一个令人兴奋的新选择。反之，Ollama 凭借其成熟度和易用性，依然是快速启动本地 LLM 项目的坚实基石。

可以预见，随着本地 LLM 部署变得越来越重要，这两款工具都将不断进化，或许它们会在功能上有所趋同，但各自解决本地 AI 开发挑战的独特路径，肯定还会继续保持下去。

参考资料

关于

关注我获取更多资讯

📢 公众号

💬 个人号