使用 LLM-D 安装
本指南提供了将 vLLM Semantic Router (vsr) 与 LLM-D 结合部署的分步说明。这也将说明一个关键设计模式,即使用 vsr 作为 model selector,结合使用 LLM-D 作为 endpoint selector。
Model selector 提供将 LLM 查询路由到多个完全不同的 LLM 模型之一的能力,而 endpoint selector 则选择多个 endpoint 之一,每个 endpoint 服务一个等效模型(通常是完全相同的基础模型)。因此,此部署展示了 vLLM Semantic Router 作为 model selector 如何与 LLM-D 等 endpoint selector 解决方案完美互补。
由于 LLM-D 有多种部署配置,其中一些需要更大的硬件设置,我们将演示 LLM-D 与 vsr 配合工作的基线版本,以介绍核心概念。当使用更复杂的 LLM-D 配置和生产级良好路径时,这些核心概念同样适用,如 LLM-D 仓库中此链接所述。
此外,我们将使用 LLM-D 与 Istio 作为 Inference Gateway,以构建在本仓库中记录的 Istio 部署示例的步骤和硬件设置之上。无论是否使用 vsr,Istio 也常用作 LLM-D 的默认网关。
架构概览
部署包含以下组件:
- vLLM Semantic Router:为基于 Envoy 的 Gateway 提供智能请求路由和处理决策
- LLM-D:用于大规模 LLM 推理的分布式推理平台,具有 SOTA 性能。
- Istio Gateway:Istio 的 Kubernetes Gateway API 实现,底层使用 Envoy 代理
- Gateway API Inference Extension:通过 ExtProc 服务器扩展 Gateway API 用于推理的附加 API