标签

vLLM

vLLM 是高吞吐、内存高效的大语言模型推理与服务框架,常用于模型部署、OpenAI-compatible API 服务、推理加速和大规模生成式 AI 应用。

vLLM