Tags

2 个页面

推理优化

LLM 推理提速 22%：用异步 Continuous Batching 让 GPU 不再空等

LLM 推理提速 22%：用异步 Continuous Batching 让 GPU 不再空等的封面图

Google TurboQuant：把大模型内存占用最高降 6 倍，质量几乎不掉

Google TurboQuant：把大模型内存占用最高降 6 倍，质量几乎不掉的封面图

🔥

探索无限,从月球基地开始🐶