速率限制用于规范您在给定时间范围内可以向 Gemini API 发出的请求数量。这些限制旨在维护公平使用、防止滥用,并帮助所有用户维持系统性能。
速率限制的工作方式
速率限制通常通过以下三个维度进行衡量:
- 每分钟请求数 (RPM)
- 每分钟令牌数(输入)(TPM)
- 每天请求数 (RPD)
系统会根据以上各项限制评估您的使用情况,超过其中任何一项都会触发速率限制错误。例如,如果您的 RPM 限制是 20,那么在一分钟内发出 21 个请求就会导致错误,即使您尚未超出 TPM 或其他限制。
限制说明和特殊模型限制:
- 速率限制是针对每个项目应用,而不是针对每个 API 密钥应用。
- 每天请求数 (RPD) 配额在太平洋时间 (Pacific time) 午夜重置。
- 限制因所使用的具体模型而异,有些限制仅适用于特定模型。
- 例如,每分钟图像数 (Images per minute, IPM) 仅针对能够生成图像的模型(如 Imagen 3)计算,但在概念上类似于 TPM。其他模型可能具有每日令牌数限制 (TPD)。
- 实验性和预览模型的速率限制更为严格。
使用层级 (Usage Tiers)
速率限制与项目的使用层级 (usage tier) 相关联。随着您的 API 使用量和支出增加,您可以选择升级到具有更高速率限制的层级。
层级资格要求
Tier 2 和 Tier 3 的资格基于与您的项目关联的结算账户在 Google Cloud 服务(包括但不限于 Gemini API)上的总累计支出。
| 层级 (Tier) | 资格要求 (Qualifications) |
|---|---|
| 免费层级 (Free) | 符合条件的国家/地区的用户 |
| Tier 1 | 项目已关联结算账户 |
| Tier 2 | 总支出:> $250 且成功付款至少 30 天 |
| Tier 3 | 总支出:> $1,000 且成功付款至少 30 天 |
当您请求升级时,自动滥用保护系统会执行额外的检查。虽然满足所述的资格标准通常足以获得批准,但在极少数情况下,升级请求可能会因审查过程中确定的其他因素而被拒绝。此系统有助于维护 Gemini API 平台的安全性和完整性。
如何升级到更高层级
Gemini API 使用 Cloud Billing 进行所有结算服务。要从免费层级过渡到付费层级,您必须首先为您的 Google Cloud 项目启用 Cloud Billing。
一旦您的项目满足指定的标准,它就有资格升级到下一层级。请求升级的步骤如下:
- 导航到 AI Studio 中的 API 密钥页面。
- 找到您想要升级的项目,然后单击 “升级 (Upgrade)"。
- “升级"选项仅会显示给符合下一层级资格的项目。
经过快速验证后,项目将被升级到下一层级。
标准 API 速率限制
下表列出了所有标准 Gemini API 调用的速率限制。请注意:表格中显示 * 的值表示没有已公布的速率限制。请注意,指定的速率限制不作保证,实际容量可能会有所不同。
免费层级 (Free Tier)
| 模型 (Model) | RPM (每分钟请求数) | TPM (每分钟令牌数) | RPD (每天请求数) |
|---|---|---|---|
| 文本输出模型 (Text-out models) | |||
| Gemini 2.5 Pro | 5 | 125,000 | 100 |
| Gemini 2.5 Flash | 10 | 250,000 | 250 |
| Gemini 2.5 Flash Preview | 10 | 250,000 | 250 |
| Gemini 2.5 Flash-Lite | 15 | 250,000 | 1,000 |
| Gemini 2.5 Flash-Lite Preview | 15 | 250,000 | 1,000 |
| Gemini 2.0 Flash | 15 | 1,000,000 | 200 |
| Gemini 2.0 Flash-Lite | 30 | 1,000,000 | 200 |
| Live API | |||
| Gemini 2.5 Flash Live | 3 sessions | 1,000,000 | * |
| Gemini 2.5 Flash Preview Native Audio | 1 session | 25,000 | 5 |
| Gemini 2.5 Flash Experimental Native Audio Thinking | 1 session | 10,000 | 5 |
| Gemini 2.0 Flash Live | 3 sessions | 1,000,000 | * |
| 多模态生成模型 (Multi-modal generation models) | |||
| Gemini 2.5 Flash Preview TTS | 3 | 10,000 | 15 |
| Gemini 2.0 Flash Preview Image Generation | 10 | 200,000 | 100 |
| 其他模型 (Other models) | |||
| Gemma 3 & 3n | 30 | 15,000 | 14,400 |
| Gemini Embedding | 100 | 30,000 | 1,000 |
| Gemini Robotics-ER 1.5 Preview | 10 | 250,000 | 250 |
| 已弃用模型 (Deprecated models) | |||
| Gemini 1.5 Flash (Deprecated) | 15 | 250,000 | 50 |
| Gemini 1.5 Flash-8B (Deprecated) | 15 | 250,000 | 50 |
Tier 1
| 模型 (Model) | RPM | TPM | RPD | 批量排队令牌数 (Batch Enqueued Tokens) |
|---|---|---|---|---|
| 文本输出模型 | ||||
| Gemini 2.5 Pro | 150 | 2,000,000 | 10,000 | 5,000,000 |
| Gemini 2.5 Flash | 1,000 | 1,000,000 | 10,000 | 3,000,000 |
| Gemini 2.5 Flash Preview | 1,000 | 1,000,000 | 10,000 | 3,000,000 |
| Gemini 2.5 Flash-Lite | 4,000 | 4,000,000 | * | 10,000,000 |
| Gemini 2.5 Flash-Lite Preview | 4,000 | 4,000,000 | * | 10,000,000 |
| Gemini 2.0 Flash | 2,000 | 4,000,000 | * | 10,000,000 |
| Gemini 2.0 Flash-Lite | 4,000 | 4,000,000 | * | 10,000,000 |
| Live API | ||||
| Gemini 2.5 Flash Live | 50 sessions | 4,000,000 | * | * |
| Gemini 2.5 Flash Preview Native Audio | 3 sessions | 50,000 | 50 | * |
| Gemini 2.5 Flash Experimental Native Audio Thinking | 1 session | 25,000 | 50 | * |
| Gemini 2.0 Flash Live | 50 sessions | 4,000,000 | * | * |
| 多模态生成模型 | ||||
| Gemini 2.5 Flash Preview TTS | 10 | 10,000 | 100 | * |
| Gemini 2.5 Pro Preview TTS | 10 | 10,000 | 50 | * |
| Gemini 2.5 Flash Image | 500 | 500,000 | 2,000 | * |
| Gemini 2.0 Flash Preview Image Generation | 1,000 | 1,000,000 | 10,000 | * |
| Imagen 4 Standard/Fast | 10 | * | 70 | * |
| Imagen 4 Ultra | 5 | * | 30 | * |
| Imagen 3 | 20 | * | * | * |
| Veo 3 | 2 | * | 10 | * |
| Veo 3 Fast | 2 | * | 10 | * |
| Veo 2 | 2 | * | 50 | * |
| 其他模型 | ||||
| Gemma 3 & 3n | 30 | 15,000 | 14,400 | * |
| Gemini Embedding | 3,000 | 1,000,000 | * | * |
| Gemini Robotics-ER 1.5 Preview | 300 | 1,000,000 | 10,000 | * |
| Gemini 2.5 Computer Use Preview | 150 | 2,000,000 | 10,000 | * |
| 已弃用模型 | ||||
| Gemini 1.5 Flash (Deprecated) | 2,000 | 4,000,000 | * | * |
| Gemini 1.5 Flash-8B (Deprecated) | 4,000 | 4,000,000 | * | * |
| Gemini 1.5 Pro (Deprecated) | 1,000 | 4,000,000 | * | * |
Tier 2
| 模型 (Model) | RPM | TPM | RPD | 批量排队令牌数 (Batch Enqueued Tokens) |
|---|---|---|---|---|
| 文本输出模型 | ||||
| Gemini 2.5 Pro | 1,000 | 5,000,000 | 50,000 | 500,000,000 |
| Gemini 2.5 Flash | 2,000 | 3,000,000 | 100,000 | 400,000,000 |
| Gemini 2.5 Flash Preview | 2,000 | 3,000,000 | 100,000 | 400,000,000 |
| Gemini 2.5 Flash-Lite | 10,000 | 10,000,000 | * | 500,000,000 |
| Gemini 2.5 Flash-Lite Preview | 10,000 | 10,000,000 | * | 500,000,000 |
| Gemini 2.0 Flash | 10,000 | 10,000,000 | * | 1,000,000,000 |
| Gemini 2.0 Flash-Lite | 20,000 | 10,000,000 | * | 1,000,000,000 |
| Live API | ||||
| Gemini 2.5 Flash Live | 1,000 sessions | 10,000,000 | * | * |
| Gemini 2.5 Flash Preview Native Audio | 100 sessions | 1,000,000 | * | * |
| Gemini 2.5 Flash Experimental Native Audio Thinking | 1 session | 25,000 | 50 | * |
| Gemini 2.0 Flash Live | 1,000 sessions | 10,000,000 | * | * |
| 多模态生成模型 | ||||
| Gemini 2.5 Flash Preview TTS | 1,000 | 100,000 | 10,000 | * |
| Gemini 2.5 Pro Preview TTS | 100 | 25,000 | 1,000 | * |
| Gemini 2.5 Flash Image | 2,000 | 1,500,000 | 50,000 | * |
| Gemini 2.0 Flash Preview Image Generation | 2,000 | 3,000,000 | 100,000 | * |
| Imagen 4 Standard/Fast | 15 | * | 1000 | * |
| Imagen 4 Ultra | 10 | * | 400 | * |
| Imagen 3 | 20 | * | * | * |
| Veo 3 | 4 | * | 50 | * |
| Veo 3 Fast | 4 | * | 50 | * |
| Veo 2 | 2 | * | 50 | * |
| 其他模型 | ||||
| Gemma 3 & 3n | 30 | 15,000 | 14,400 | * |
| Gemini Embedding | 5,000 | 5,000,000 | * | * |
| Gemini Robotics-ER 1.5 Preview | 400 | 3,000,000 | 100,000 | * |
| Gemini 2.5 Computer Use Preview | 1,000 | 5,000,000 | 50,000 | * |
| 已弃用模型 | ||||
| Gemini 1.5 Flash (Deprecated) | 2,000 | 4,000,000 | * | * |
| Gemini 1.5 Flash-8B (Deprecated) | 4,000 | 4,000,000 | * | * |
| Gemini 1.5 Pro (Deprecated) | 1,000 | 4,000,000 | * | * |
Tier 3
| 模型 (Model) | RPM | TPM | RPD | 批量排队令牌数 (Batch Enqueued Tokens) |
|---|---|---|---|---|
| 文本输出模型 | ||||
| Gemini 2.5 Pro | 2,000 | 8,000,000 | * | 1,000,000,000 |
| Gemini 2.5 Flash | 10,000 | 8,000,000 | * | 1,000,000,000 |
| Gemini 2.5 Flash Preview | 10,000 | 8,000,000 | * | 1,000,000,000 |
| Gemini 2.5 Flash-Lite | 30,000 | 30,000,000 | * | 1,000,000,000 |
| Gemini 2.5 Flash-Lite Preview | 30,000 | 30,000,000 | * | 1,000,000,000 |
| Gemini 2.0 Flash | 30,000 | 30,000,000 | * | 5,000,000,000 |
| Gemini 2.0 Flash-Lite | 30,000 | 30,000,000 | * | 5,000,000,000 |
| Live API | ||||
| Gemini 2.5 Flash Live | 1,000 sessions | 10,000,000 | * | * |
| Gemini 2.5 Flash Preview Native Audio | 100 sessions | 1,000,000 | * | * |
| Gemini 2.5 Flash Experimental Native Audio Thinking | 1 session | 25,000 | 50 | * |
| Gemini 2.0 Flash Live | 1,000 sessions | 10,000,000 | * | * |
| 多模态生成模型 | ||||
| Gemini 2.5 Flash Preview TTS | 1,000 | 1,000,000 | * | * |
| Gemini 2.5 Pro Preview TTS | 100 | 1,000,000 | * | * |
| Gemini 2.5 Flash Image | 5,000 | 5,000,000 | * | * |
| Gemini 2.0 Flash Preview Image Generation | 5,000 | 5,000,000 | * | * |
| Imagen 4 Standard/Fast | 20 | * | 15,000 | * |
| Imagen 4 Ultra | 15 | * | 5,000 | * |
| Imagen 3 | 20 | * | * | * |
| Veo 3 | 10 | * | 500 | * |
| Veo 3 Fast | 10 | * | 500 | * |
| Veo 2 | 2 | * | 50 | * |
| 其他模型 | ||||
| Gemma 3 & 3n | 30 | 15,000 | 14,400 | * |
| Gemini Embedding | 10,000 | 10,000,000 | * | * |
| Gemini Robotics-ER 1.5 Preview | 600 | 8,000,000 | * | 1,000,000,000 |
| Gemini 2.5 Computer Use Preview | 2,000 | 8,000,000 | * | * |
| 已弃用模型 | ||||
| Gemini 1.5 Flash (Deprecated) | 2,000 | 4,000,000 | * | * |
| Gemini 1.5 Flash-8B (Deprecated) | 4,000 | 4,000,000 | * | * |
| Gemini 1.5 Pro (Deprecated) | 1,000 | 4,000,000 | * | * |
批量 API 速率限制 (Batch API Rate limits)
批量 API 请求有其自己的速率限制,这些限制与非批量 API 调用是分开的。批量 API 的限制包括:
- 并发批量请求 (Concurrent batch requests): 100
- 输入文件大小限制 (Input file size limit): 2GB
- 文件存储限制 (File storage limit): 20GB
- 每模型排队令牌数 (Enqueued tokens per model): 速率限制表中的 “批量排队令牌数” (Batch Enqueued Tokens) 列列出了在给定模型的所有活跃批量作业中可以排队的最大令牌数。
增加速率限制的请求 (Request a rate limit increase)
每个模型变体都有一个关联的速率限制(每分钟请求数,RPM)。
付费层级速率限制增加请求:
Google 不保证一定会增加您的速率限制,但会尽力审核您的请求。
本文内容基于 Gemini API 文档,最后更新日期为 2025 年 10 月 7 日 UTC。
📬 关注我获取更多资讯