Tags
2 个页面
推理优化
LLM 推理提速 22%:用异步 Continuous Batching 让 GPU 不再空等
Google TurboQuant:把大模型内存占用最高降 6 倍,质量几乎不掉
☰隐藏