vLLM 推理：如何选对GPU并高效配置

在部署大型语言模型（LLM）进行推理时，选择和配置合适的GPU至关重要。尤其是使用vLLM这样的高性能推理引擎，我们必须清楚地理解LLM处理的两个核心阶段——预填充（Prefill） 和 解码（Decode），以及它们对硬件的不同需求。

这篇指南将深入剖析vLLM的运行时行为，阐明像显存需求、量化、张量并行等关键概念，并提供实用的策略，帮助大家根据实际工作负载来选择GPU。通过理解这些因素如何相互作用，你就能更好地预判性能瓶颈，并在GPU基础设施上部署大模型时做出明智且经济高效的决策。

核心要点

在深入细节之前，我们先来看看几个核心结论：

预填充与解码阶段决定硬件需求： 预填充阶段（处理输入提示）受内存带宽限制，它直接影响首个token的生成时间（Time-To-First-Token, TTFT）；而解码阶段（生成输出）则受计算能力限制，决定了token的生成速度。
显存容量设定了绝对上限： 模型权重和KV缓存必须完全载入可用的GPU显存。举个例子，一个FP16精度的70B模型，仅仅权重就需要140GB显存，这使得量化在单GPU部署中几乎成了必选项。
KV缓存动态增长： 与静态的模型权重不同，KV缓存会根据上下文长度和并发量动态膨胀。一个32k上下文、10个并发用户的70B模型，FP16缓存大约需要112GB，而FP8缓存则需要56GB左右。
量化是主要的优化杠干： 将精度从FP16降低到INT4，显存占用能减少75%，这使得大型模型得以在更小的GPU上运行。现代硬件上，FP8量化能在速度和质量间取得最佳平衡。
张量并行（Tensor Parallelism）支持更大的模型： 当模型大小超出单GPU容量时，张量并行能将权重分片到多个GPU上，汇集显存。不过，这也会带来通信开销。如果模型能单GPU运行，通常单GPU会更快。

vLLM 运行时行为解析：预填充与解码

我个人认为，理解vLLM如何处理请求，是选择GPU的起点。LLM的推理过程，通常可以分成两个截然不同的节段：预填充和解码。

预填充阶段 (“读取”)

这是每个请求的最初一步。vLLM会一次性处理整个输入提示（用户查询、系统提示以及任何RAG上下文），并以高度并行的方式进行处理。

发生什么： 模型“读取”上下文，并用其数学表示填充Key-Value (KV) 缓存。
瓶颈所在： 因为它需要并行处理数千个token，这个阶段几乎总是内存带宽受限。其速度上限取决于GPU将庞大的权重矩阵从显存传输到计算核心的速度。
实际影响： 这决定了首个token的生成时间（TTFT）。如果你要总结一份长达10万token的文档，预填充阶段就是用户等待第一个字出现的时间。

解码阶段 (“写入”)

一旦预填充完成，vLLM便会进入自回归循环来生成输出。

发生什么： 模型生成一个token，将其追加到序列中，然后再次运行整个模型来生成下一个token。这对于单个请求来说，是本质上的顺序操作。
挑战： 仅仅为了为一个用户计算一个单个token，就从显存加载庞大的模型权重，效率极其低下。GPU会花费更多时间在数据传输上，而非计算。
解决方案 (持续批处理)： 为了解决这个问题，像vLLM这样的现代引擎不会逐个处理请求。它们采用持续批处理（continuous batching）。请求会动态地进入和离开批次。vLLM会在同一个GPU周期内，将新请求的预填充操作与正在进行请求的解码步骤交错进行。
瓶颈所在： 在有效批处理的情况下，这个阶段会转变为计算受限（受原始TFLOPS限制），因为我们的目标是尽可能多地并行计算token，以最大化总吞吐量。

Prefill vs. Decode

了解更多： 关于静态批处理与持续批处理权衡的深入分析，可以参考Hugging Face的这篇文章。

阶段与工作负载及硬件的关联

对我而言，了解哪个阶段主导你的工作负载，是选择合适硬件的关键。

运行时阶段	主要动作	主要硬件瓶颈	主要用例
预填充	并行处理长输入。	内存带宽 (TB/s) (对TTFT至关重要)	• RAG (检索增强生成) • 长文档摘要 • 大规模少样本提示
解码	顺序生成输出。	计算能力 (TFLOPS) (对token生成速度至关重要)	• 交互式聊天 & 客户服务 • 实时代码生成 • 多轮Agent工作流

KV Cache 在运行时的作用

在推理过程中，vLLM非常依赖KV缓存来避免重复计算已完成的工作。

工作原理： 在Transformer模型中，每个token在注意力层内会被转换为键（Key, K）和值（Value, V）向量。如果没有缓存，模型每次生成token t+1时，都得重新处理整个历史（token 0…t）。
解决方案： KV缓存通过一次存储K和V向量并重复使用来解决这个问题。
- 预填充： vLLM会为所有提示token计算K/V并立即存储。
- 解码： 对于每个新token，它会从缓存中检索历史信息，然后只计算新token的K/V。
好处： 这将注意力计算从近似二次复杂度（每次写一个词都重读整本书）转变为线性复杂度（只需写下一个词）。

权衡：动态内存储长： 这种速度提升的代价是内存。每个新生成的token都会在缓存中追加更多条目。在运行时，KV缓存的使用会根据以下因素动态增长：

提示长度与输出长度： 更长的对话会消耗更多显存。
并发量： 每个活跃的请求都需要自己独立的缓存。
模型大小： 更深（更多层）和更宽（更多头）的模型需要每个token的缓存更大。

扩展影响： 这种行为解释了为什么使用相同模型的两个工作负载，可能会有截然不同的硬件需求。一个70B的模型可能能放进GPU，但如果KV缓存在长时间对话中变得太大，服务器就会耗尽显存并崩溃。理解内存管理对于生产部署至关重要，这在我们的LLM微调指南中有提及。

KV Cache at Runtime

基础尺寸确定：模型、精度与硬件如何匹配

一旦我们理解了vLLM的运行时行为，下一步就是确定模型是否能在特定GPU上运行，以及它能支持多大的并发或上下文长度。

这一节提供了计算静态内存需求、估算KV缓存增长以及系统性地解决适配问题的数学公式和决策树。

GPU 硬件特性与限制

在计算模型大小之前，我们得先了解我们要往哪个“容器”里装东西。不同的GPU对可行性和性能都有硬性限制。

常见数据中心GPU显存容量 — 这些是最常见的推理GPU的硬性内存限制。

GPU 型号	显存容量	峰值稠密 TFLOPS (FP16 / FP8)	主要应用与优势
NVIDIA L40S	48 GB	362 / 733	高性价比推理：适用于中小规模量化模型 (7B–70B)。
NVIDIA A100	40 GB / 80 GB	312 / N/A	前代标准： 80GB版本非常适合高内存带宽需求任务。
NVIDIA H100	80 GB	989 / 1,979	当前高端标准：拥有巨大带宽，长上下文应用理想选择。
NVIDIA H200	141 GB	989 / 1,979	显著性能提升：支持更大批次或以更少GPU运行70B+模型。
NVIDIA B300	288 GB	~2,250 / 4,500	极致密度：几乎无需GPU并行即可运行超大型模型（如 Llama 405B）。
AMD MI300X	192 GB	1,307 / 2,614	海量容量：完美适用于超大型、未量化模型或处理巨型批次。
AMD MI325X	256 GB	1,307 / 2,614	容量优化：服务70B+模型，特别是长上下文需求的绝佳选择。
AMD MI350X	288 GB	2,300 / 4,600	高性能旗舰： B300的直接竞争对手，专为大规模工作负载设计。

即使模型能装进显存，特定的GPU架构也会显著影响vLLM的性能。需要考虑的关键指标有：

指标	衡量单位	对 vLLM 的影响
显存容量	GB	能否运行？这是模型大小和上下文窗口的绝对最大限制。
内存带宽	TB/s	预填充速度。对RAG和长上下文摘要至关重要。高带宽确保快速的TTFT。
计算能力 (TFLOPS)	TFLOPS	解码速度。对聊天应用至关重要。高TFLOPS带来更快的tokens/秒生成速度。
互连带宽	GB/s	并行成本。任何互连都会增加延迟。即使使用NVLink（DigitalOcean的标准），张量并行（TP）也会引入同步开销，导致性能低于单GPU执行。

模型权重占用 (静态内存)

每个模型在vLLM开始提供服务之前，都必须将其权重加载到GPU显存中。权重的大小完全取决于参数数量和所选的精度。

静态权重计算公式

模型所需的显存（以GB为单位）可以通过以下公式计算：

**显存 (GB) ≈ 参数数量 (十亿) × 每个参数的字节数**

下表展示了Llama 3.1 70亿参数模型在不同量化精度下的显存计算：

精度	每个参数字节数	示例：Llama 3.1 70B 显存 (GB)
FP16 / BF16	2 字节	70 x 2 = 140GB
FP8 / INT8	1 字节	70 x 1 = 70GB
INT4	0.5 字节	70 x 0.5 = 35GB

在我看来，精度选择是影响模型能否运行的最大杠杆。将一个70B模型从FP16量化到INT4，其静态占用空间减少了75%，直接将其从“单节点不可能”变为“单个A100可装下”。这使得量化在DigitalOcean GPU Droplets上的经济高效部署变得至关重要。

KV Cache 需求 (动态内存)

模型权重决定了模型能否启动，而KV缓存则决定了它能否扩展。低估KV缓存很容易导致在负载下出现内存溢出（OOM）。

要准确规划部署，你需要根据预期的上下文长度和并发量来估算缓存将消耗多少内存。

经验法则 (快速估算)

对于大多数实际对话场景，精确的公式计算起来太复杂了。我们通常使用一个**“每token”内存乘数**。这个方法足以满足初步的尺寸决策。

简化版 KV Cache 公式：

总 KV Cache (MB) = 总 Token 数 × 乘数

（其中总 Token 数 = 上下文长度 × 并发量）

标准乘数：

模型大小	标准乘数 (FP16 Cache)	量化乘数 (FP8 Cache)
小模型 (7B - 14B)	0.15 MB / token	0.075 MB / token
大模型 (70B - 80B)	0.35 MB / token	0.175 MB / token

示例计算：

一位客户想运行Llama 3 70B，上下文长度为32k，同时有10个并发用户。

计算总 Token 数： 32,000 x 10 = 320,000 tokens
应用标准乘数 (0.35)： 320,000 x 0.35 MB = 112,000 MB ≈ 112 GB
检查 FP8 选项： 如果启用FP8缓存，内存需求会减半：~56 GB。

我的判断：

FP16 Cache： 112 GB 缓存 + 140 GB 权重 = 252 GB 总显存 (需要 4 块 H100)。
FP8 Cache： 56 GB 缓存 + 140 GB 权重 = 196 GB 总显存 (勉强可以在 3 块 H100 上运行，如果权重也经过量化，可能可以在 2 块 H100 上运行，但会非常紧张)。

精确计算工具

对于详细验证或特殊情况，可以使用更正式的公式或在线计算器。

在线工具： LMCache KV 计算器
正式公式：

总 KV Cache (GB) = (2 × n_layers × d_model × n_seq_len × n_batch × precision_bytes) / 1024^3

何时需要张量并行

张量并行（Tensor Parallelism, TP）是一种将模型的单个权重矩阵分片到多个GPU上的技术。实际上，它允许vLLM将多个GPU视为一个具有共享显存的、巨大的单一设备。

为什么用它？ 张量并行主要用于解决可行性问题，而非性能优化。通常在以下情况启用它：

权重无法装下： 模型对单个GPU来说实在太大了（例如，一个24GB显存的GPU无法容纳Llama 3 70B）。
KV缓存限制： 模型本身能装下，但留给KV缓存的空间不足，导致无法支持长上下文或高并发。

并行的“代价” (性能影响) 虽然TP提供了巨大的内存扩展能力，但它也引入了通信开销。在每一层计算之后，所有GPU都必须同步它们的局部结果。

如果模型能单GPU运行： 在单个GPU上运行几乎总是比在两个GPU上运行快。因为单GPU没有通信开销。
互连依赖： TP严重依赖快速的GPU间带宽。如果你在没有NVLink（例如，通过标准PCIe）的卡上使用TP，推理速度可能会因同步延迟而显著下降。部署多GPU设置时，可以考虑使用DigitalOcean Kubernetes来编排vLLM部署。

了解更多： 关于张量并行如何分片模型并影响延迟的深入探讨，可以参考这篇概念指南。

实战演练：不同尺寸场景分析

在进入高级配置之前，让我们将前几节的计算方法应用到实际场景中。这有助于验证我们对“适配性”的理解，并引入纯数学中常被忽略的实际限制。

“隐藏”的显存开销

仅仅计算权重 + 缓存 = 总显存，然后假设100%利用率是可能发生的，这是一种常见常犯的错误。这是不可能的。

CUDA 上下文与运行时： GPU驱动、PyTorch和vLLM运行时都会保留一部分内存用于初始化（通常是 2–4 GB）。
激活缓冲区： 用于前向传播过程中间计算的临时存储。
安全尺寸规则： 总是预留约 4-5 GB 的显存作为“不可用”开销。如果你的计算结果只剩下0.5 GB空闲，服务器很可能会崩溃。

场景A：轻松适配 (标准聊天)

硬件： 1x NVIDIA L40S (48 GB)
模型： Llama 3 8B (FP16)
计算：
- 权重： 8B 参数 x 2 字节 = 16 GB
- 开销： -4 GB
- 剩余缓存空间： 48 - 16 - 4 = 28 GB
缓存容量：
- 28,000 MB / 0.15 MB 每 token = 186,000 tokens。
结论： 非常适合。
- 这个设置可以处理巨大的负载（例如，60个并发用户，每个3k上下文）。
- 结果： 高吞吐量，低成本。

The Easy Fit

场景B：权重超限 (大模型，单GPU)

硬件： 1x NVIDIA H100 (80 GB)
模型： Llama 3 70B (FP16)
计算：
- 权重： 70B 参数 x 2 字节 = 140 GB
结论： 硬性失败。
- 权重（140 GB）物理上超过了GPU容量（80 GB）。
- 解决方案： 你必须使用张量并行（2个GPU）或量化（见量化部分）。

The “Weight Failure”

场景C：“缓存陷阱” (能载入，但无法运行)

硬件： 1x NVIDIA H100 (80 GB)
模型： Llama 3 70B (FP8 量化)
计算：
- 权重： 70B 参数 x 1 字节 = 70 GB
- 开销： -4 GB
- 剩余缓存空间： 80 - 70 - 4 = 6 GB
缓存容量：
- 6,000 / 0.175 MB 每 token (FP8) = 34,000 tokens 总数。
结论： 有风险 / 不适合。
- 模型能加载，但几乎没有可用空间。
- 影响： 如果有10个并发用户，每人只能获得3.4k 上下文。如果用户粘贴一个长文档（4k token），系统将内存溢出。
- 教训： 仅仅因为权重能装下，不代表工作负载也能装下。这种情况通常需要第二个GPU或更小的模型。

The “Cache Trap”

场景D：解决方案 (张量并行)

让我们通过增加第二个GPU来解决场景C中的“缓存陷阱”。这展示了张量并行（TP）如何汇集内存资源。

硬件： 2x NVIDIA H100 (每块80 GB = 总计160 GB 可用)
模型： Llama 3 70B (FP8 量化)
计算：
- 总显存： 160 GB
- 权重： -70 GB (分摊到两个GPU上)
- 开销： -8 GB (每个GPU约4 GB)
- 剩余缓存空间： 160 - 70 - 8 = 82 GB
缓存容量：
- 82,000 / 0.175 MB 每 token (FP8) = 468,000 tokens 总数。
结论： 生产就绪。
- 通过增加第二个GPU，我们将缓存空间从“有风险”的6 GB增加到了82 GB。
- 影响： 现在10个并发用户，每人可以获得约46k 上下文。内存溢出风险消除，部署可以轻松处理RAG或长文档。

The Solution

量化：模型“瘦身”的艺术

正如前面尺寸场景演示的那样，显存是LLM推理的主要瓶颈。量化是一种降低数据表示所用数字精度的方法，它能有效牺牲微小的准确性，换取内存效率和速度的巨大提升。

理解vLLM中使用的两种量化类型至关重要，因为它们解决的是不同的约束问题。

类型1：模型权重量化 (“静态”修复)

这涉及在预训练模型加载之前，对其庞大、静态的权重矩阵进行压缩。

目标： 使模型适配到显存容量不足以容纳其全精度权重的GPU上。
vLLM 实现： 尽管vLLM可以在启动时动态量化权重，但通常更高效的做法是加载已经使用高性能核（如AWQ（Activation-aware Weight Quantization）或GPTQ）量化好的模型。这些专用格式比通用的即时转换提供更好的精度保持和更快的解码速度。
影响： 静态显存使用减少50%（FP8/INT8）至75%（INT4/AWQ），显著增加KV缓存的可用显存。

类型2：KV Cache 量化 (“动态”修复)

这涉及压缩在序列生成过程中存储在内存中的中间键和值状态。

目标： 使模型扩展以支持更高的并发批次或更长的上下文窗口。
vLLM 实现： 这通过运行时标志（--kv-cache-dtype）控制。
推荐： 在支持FP8张量核心的现代硬件（如NVIDIA H100、L40S、AMD MI300X）上，启用FP8 KV Cache（fp8）强烈推荐。它能将可用上下文容量翻倍，同时对模型质量影响微乎其微。
影响： 将本指南中讨论的每token内存需求减半（例如，将70B模型的乘数从约0.35 MB/token降至约0.175 MB/token）。

vLLM GPU 精度格式

并非所有量化格式都生而平等。选择哪种格式取决于可用的硬件架构以及模型大小和准确性之间的理想平衡。

精度 / 格式	每个参数字节数	精度影响	最佳硬件支持	推荐用例
FP16 / BF16 (基准)	2	无（参考）	所有现代 GPU	黄金标准。只要显存容量允许就使用。
FP8 (浮点8)	1	可忽略	H100, H200, L40S, MI300X	现代默认。在新硬件上速度和质量的最佳平衡。KV缓存的理想选择。
AWQ / GPTQ (INT4 变体)	~0.5	低/中	A100, L40S, 消费级	“瘦身”选项。对在老旧或小型GPU上适配大型模型至关重要。解码速度优秀。
通用 INT8	1	中等	老旧 GPU (V100, T4)	遗留。通常已被新硬件上的FP8或极致压缩的AWQ所取代。

The Quantization Effect

战略应用与权衡

决定何时应用量化需要平衡实际约束与工作负载的敏感度。量化虽然强大，但也涉及一些基本的权衡，这些必须在部署规划中加以考虑。

关键考量：精度与硬件

在确定场景之前，先考虑这两个基本约束：

精度 vs. 压缩： 激进的量化（如INT4）可能会降低在涉及复杂推理或代码生成等敏感任务上的性能。FP8通常被认为对大多数聊天和RAG用例来说是安全的。
硬件兼容性： 所选的格式必须与硬件能力匹配。例如，FP8量化需要带有FP8张量核心的GPU（NVIDIA Ada/Hopper或AMD CDNA3架构）才能实现性能增益。

何时推荐量化

基于上述权衡，量化适用于各种实际场景，并且在我看来，它常常是企业环境中的默认选择：

FP16无法装下的大模型： INT4/INT8通常是在单个48GB或80GB GPU上服务70B级模型的唯一方法。
高并发工作负载： 减少显存使用为KV缓存释放了大量空间，允许更多的活跃序列和更长的提示。
RAG 和企业聊天： 这些工作负载通常能很好地容忍微小的精度偏差，而不会影响最终用户体验。
成本优化工作： 量化允许工作负载在更小、更便宜的GPU SKU上运行，同时保持可接受的性能。这在DigitalOcean GPU Droplets上部署时尤其有价值，你可以根据具体需求平衡性能和成本。

何时应避免量化

量化并非普遍适用。某些工作负载对精度损失高度敏感，应尽可能保持FP16/BF16：

代码生成和调试： 较低的精度可能会降低结构化推理能力，导致细微的语法错误或逻辑缺陷。
数学、金融和科学查询： 需要精确计算的任务显著受益于更高精度格式，以避免舍入误差。
评估、基准测试或回归测试： 微小的精度漂移可能会使模型版本或设置之间的比较失效。
多步推理的Agent工作流： 多步中的复合错误可能会降低系统的整体可靠性和任务完成率。

整合方案：从需求到部署计划

至此，我们已经涵盖了vLLM的运行时行为、内存基础知识和量化策略。

本节将这些概念串联起来，形成一个可重复的决策框架。它从理论走向实践，提供了一个结构化的工作流程来评估可行性、选择硬件并构建部署计划。

第一步：尺寸规划问卷

为了准确规划vLLM部署的规模，你必须从工作负载描述中提取具体的技木细节。像“快速推理”这样的抽象目标是不够的。请使用以下五个问题来收集必要的数据：

“您需要支持的最大上下文长度是多少？”
- 为什么： 决定KV缓存大小（进而决定内存溢出风险）。
“您的目标并发量（同时用户数）是多少？”
- 为什么： 会成倍增加KV缓存需求。
“可接受的延迟（TTFT 和 Tokens/秒）是多少？”
- 为什么： 决定您是需要高带宽（H100）还是仅需不错的容量（L40S）。
“模型精度是否关键（数学/代码），还是‘足够好’即可接受（聊天）？”
- 为什么： 决定您是否可以使用量化（INT4/FP8）来节省成本。
“您是否有严格的预算限制？”
- 为什么： 有助于决定是优化最大速度（H100）还是性价比（L40S）。

第二步：选择模型尺寸与精度

一旦需求明确，请确定能满足质量标准的最小模型和最高精度。

精度是杠杆： 较低的精度（INT4/FP8）能让大型模型在更便宜的硬件上运行。
“70B 规则”： FP16下的70B模型需要非主流硬件（多GPU）。相同模型如果用INT4量化，则可适配商用硬件（单GPU）。
我的建议：
- 聊天/助手： 使用 INT4 或 FP8。
- 代码/推理： 使用 FP16 或 FP8（避免使用INT4）。

第三步：硬件可行性检查

使用尺寸计算的数学方法来验证适配性。

静态适配 (权重)： 参数数量 × 精度 是否能装进显存？
- 如果不能： 进行量化（第二步）或增加GPU（张量并行）。
动态适配 (缓存)： 是否有足够的空间容纳 上下文 × 并发量 × 乘数？
- 如果不能： 降低并发量，缩短上下文，或启用 FP8 KV Cache。
工作负载适配 (带宽)：
- 长RAG/摘要： 需要高带宽（H100/A100）。
- 标准聊天： 需要高计算能力（L40S）。

第四步：推荐 GPU 策略

在确认可行性后，选择具体的GPU SKU。以下是常见场景的“速查表”。

常见配置结果

工作负载场景	推荐配置	理由
标准聊天 (8B–14B)	NVIDIA L40S (48GB)	最佳价值。巨大的解码计算能力；48GB轻松容纳小模型 + 大缓存。
大型聊天 (70B, 成本敏感)	L40S (INT4) 或 A100 (INT4)	“瘦身方案”。量化允许70B模型在单卡上运行，避免多GPU设置的复杂性。
高性能聊天 (70B)	NVIDIA H100 (FP8) AMD MI300X (FP16/FP8)	现代标准。 H100使用FP8适配并加速推理。AMD优势： MI300X的192GB显存允许在单卡上运行70B模型并支持大批次。
海量上下文 / RAG	NVIDIA H200 AMD MI300X / MI325X	带宽与容量之王。 AMD：拥有192GB (MI300X) 或 256GB (MI325X)，这些是无需4-8个GPU即可实现极致上下文（128k+）的最佳选择。
不妥协的质量 (70B FP16)	2x H100 (张量并行) 1x AMD MI300X	“单卡英雄”。 NVIDIA：需要2张卡才能容纳140GB权重。AMD：可在单GPU上容纳完整的70B FP16模型，消除了张量并行带来的延迟开销。
超大规模 / 下一代 (405B+)	NVIDIA B300 AMD MI350X	前沿。专为海量模型密度设计。MI350X (288GB) 在高效适配400B+ MoE模型方面与NVIDIA的Blackwell一代产品相媲美。

第五步：通过指标验证

没有完美的纸面尺寸规划。

检查 TTFT： 如果很高，你的预填充阶段可能存在瓶颈（带宽饱和）。
检查 Token 间延迟： 如果很高，你的批处理大小可能过于激进（计算饱和）。
检查 KV Cache 使用率： 如果持续超过90%，你就有内存溢出的风险，应该启用**分块预填充（Chunked Prefill）**或减少并发量。

常见问题

1. 我进行LLM推理需要多少GPU内存？

GPU内存需求取决于模型大小、精度、上下文长度和并发量。作为一个经验法则，FP16模型仅权重就需要每十亿参数约2GB。一个70B模型在FP16下需要140GB的权重内存，但通过INT4量化只需35GB。此外，你还必须考虑KV缓存内存，它会随着上下文长度和并发用户数而增长。对于一个32k上下文、10个用户的70B模型，预计FP16缓存约需112GB，FP8缓存约需56GB。

2. vLLM 中的张量并行和流水线并行有什么区别？

张量并行（TP）是将模型权重矩阵在每一层内部跨多个GPU分片，允许多个GPU同时处理同一计算。这汇集了显存，但在每层之后需要同步，增加了通信开销。流水线并行（PP）则将模型层顺序分布到不同GPU上，每个GPU处理不同的层。TP通常在模型对单个GPU来说过大时使用，而PP在训练场景中更常见。对于推理，当模型超出单GPU容量时，TP是标准方法。

3. 我应该何时在 vLLM 部署中使用量化？

当模型不适合可用显存、需要支持更高的并发或更长的上下文窗口、或优先考虑成本优化时，建议使用量化。FP8量化是现代硬件（H100、L40S、MI300X）的理想选择，且精度损失极小。INT4量化对于在较小GPU上适配大型模型是必要的，但应避免用于精度至关重要的代码生成、数学和科学任务。对于聊天和RAG工作负载，量化通常是默认选择。

4. 如何计算 KV 缓存内存需求？

使用每token乘数法进行快速估算：将总token数（上下文长度 × 并发量）乘以模型特定的乘数。对于小型模型（7B-14B），FP16缓存使用0.15 MB/token，FP8缓存使用0.075 MB/token。对于大型模型（70B-80B），FP16缓存使用0.35 MB/token，FP8缓存使用0.175 MB/token。进行精确计算时，可以使用公式：总KV缓存（GB）= (2 × n_layers × d_model × n_seq_len × n_batch × precision_bytes) / 1024³，或使用LMCache KV计算器等在线工具。

5. 我可以在 DigitalOcean GPU Droplets 上运行 vLLM 吗？

是的，vLLM 可以在 DigitalOcean GPU Droplets 上部署。DigitalOcean 提供带有NVIDIA GPU的Droplets，支持vLLM的需求。部署时，请确保所选GPU具有足够的VRAM来满足您的模型大小和工作负载。为了实现经济高效的部署，可以考虑使用量化模型（INT4或FP8）以便在较小的GPU实例上运行更大的模型。DigitalOcean的GPU Droplets提供NVLink连接，这对于使用多个GPU进行高效张量并行至关重要。

vLLM GPU 推理的实际应用场景

在接下来的教程中，我们将基于对模型大小、精度、GPU架构、KV缓存和批处理等因素如何影响性能的理解，把这些概念应用到实际的 vLLM 工作负载中。

对于每个用例，我们将回答三个关键问题，以确定最佳设置：

工作负载定义： 它的主要特征是什么？（例如，提示与输出长度、并发量、延迟敏感度）。
尺寸规划优先级： 哪些因素是瓶颈？（例如，权重与KV缓存、带宽与计算能力）。
配置模式： 哪些特定的标志和硬件选择能可靠地表现良好？

用例1：交互式聊天与助手

侧重： 低延迟（解码受限）。
目标： 为用户提供流畅的流式输出和快速的“打字速度”。
关键约束： 计算能力（TFLOPS）和 Token 间延迟。

用例2：大容量批处理

侧重： 最大吞吐量（计算受限）。
目标： 每小时处理数百万token的离线作业（例如，摘要）。
关键约束： 总系统吞吐量（Tokens/秒）。

用例3：RAG 与长上下文推理

侧重： 上下文容量（内存受限）。
目标： 在不崩溃的情况下，将大量文档或历史记录载入内存。
关键约束： 显存容量和内存带宽（预填充速度）。

结语

在我看来，为vLLM正确选择和配置GPU，是理解模型大小、精度、上下文长度和并发量之间基本权衡的关键。预填充和解码阶段对硬件有不同的要求，其中预填充需要高内存带宽，而解码则需要高计算吞吐量。量化是让大模型适应现有硬件的主要杠杆，而张量并行则能突破单GPU的限制。

成功的部署秘诀在于将你的工作负载特性与正确的硬件配置相匹配。交互式聊天应用优先考虑计算能力以实现快速token生成，而RAG和长上下文工作负载则需要巨大的显存容量和高内存带宽。遵循本指南中概述的尺寸规划框架，你可以系统地评估可行性，选择合适的硬件，并优化你的vLLM部署以应对生产工作负载。

下一步行动

准备好在GPU基础设施上部署vLLM了吗？探索以下资源以开始：

在 DigitalOcean GPU Droplets 上部署： 通过在 DigitalOcean 的 GPU Droplets 上部署vLLM，获得实际操作经验。在我们的 GPU Droplets 文档中了解如何设置环境并配置vLLM以获得最佳性能。
相关教程： 深入了解LLM部署和优化：
- 在 AMD GPU Droplet 上运行 GPT-OSS vLLM
- 了解如何使用 DigitalOcean GPU Droplets 经济高效地微调LLM
- 探索深度学习工作负载的 GPU 性能优化技术
- 了解如何通过容器编排扩展LLM部署
- 使用 GPU Droplets 构建 RAG 应用程序
试用 DigitalOcean 产品：
- GPU Droplets：适用于AI和机器学习工作负载的高性能GPU实例
- DigitalOcean Kubernetes：跨多个节点编排和扩展你的vLLM部署
- DigitalOcean App Platform：轻松部署和管理你的LLM应用程序

如需更多技术指南和最佳实践，请访问 DigitalOcean 社区教程或探索我们的 AI 和机器学习资源。

关于

关注我获取更多资讯

📢 公众号

💬 个人号