版本：最新版

安装

本指南将帮助您安装和运行 vLLM Semantic Router。Router 完全在 CPU 上运行，推理不需要 GPU。

系统要求

注意

无需 GPU - Router 使用优化的 BERT 模型在 CPU 上高效运行。

要求：

Python: 3.10 或更高版本
容器运行时: Docker 或 Podman（运行 Router 容器所需）

快速开始

1. 安装 vLLM Semantic Router

# 创建虚拟环境（推荐）
python -m venv vsr
source vsr/bin/activate  # Windows 上: vsr\Scripts\activate

# 从 PyPI 安装
pip install vllm-sr

验证安装：

vllm-sr --version

2. 启动 `vllm-sr`

vllm-sr serve

如果当前目录还没有 config.yaml，vllm-sr serve 会自动 bootstrap 一个最小工作区，并以 setup mode 启动 dashboard。

Router 将：

自动下载所需的 ML 模型（约 1.5GB，一次性）
在端口 8700 上启动 dashboard
激活后在端口 8888 上启动 Envoy Proxy
激活后启动 Semantic Router 服务
在端口 9190 上启用 metrics

3. 打开 Dashboard

在浏览器中打开 http://localhost:8700。

首次使用时：

先配置一个或多个模型。
选择 routing preset，或保留 single-model baseline。
激活生成的配置。

激活后，config.yaml 会写入当前目录，Router 会退出 setup mode。

4. 测试 Router

curl http://localhost:8888/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "MoM",
    "messages": [{"role": "user", "content": "Hello!"}]
  }'

5. 可选：通过 CLI 打开 Dashboard

vllm-sr dashboard

常用命令

# 查看日志
vllm-sr logs router        # Router 日志
vllm-sr logs envoy         # Envoy 日志
vllm-sr logs router -f     # 跟踪日志

# 检查状态
vllm-sr status

# 停止 Router
vllm-sr stop

高级配置

YAML-first 工作流

如果您更倾向于直接编辑 YAML，而不是使用 dashboard setup flow：

# 在当前目录生成一个精简的高级样板
vllm-sr init

# 启动前校验它
vllm-sr validate config.yaml

vllm-sr init 是可选的。它会为 YAML-first 用户生成 advanced sample 和 .vllm-sr/router-defaults.yaml。router-defaults.yaml 保存的是高级 runtime defaults，不是首次进入 dashboard 时必须编辑的文件。

HuggingFace 设置

启动前设置环境变量：

export HF_ENDPOINT=https://huggingface.co  # 或镜像：https://hf-mirror.com
export HF_TOKEN=your_token_here            # 仅针对 gated models
export HF_HOME=/path/to/cache              # 自定义缓存目录

vllm-sr serve

自定义选项

# 使用自定义配置文件
vllm-sr serve --config my-config.yaml

# 使用自定义 Docker 镜像
vllm-sr serve --image ghcr.io/vllm-project/semantic-router/vllm-sr:latest

# 控制镜像拉取策略
vllm-sr serve --image-pull-policy always

Kubernetes 部署

在 Kubernetes 或 OpenShift 上进行生产部署时，请使用 Kubernetes Operator：

使用 Operator 快速开始

# 克隆仓库
git clone https://github.com/vllm-project/semantic-router
cd semantic-router/deploy/operator

# 安装 CRDs 和 operator
make install
make deploy IMG=ghcr.io/vllm-project/semantic-router-operator:latest

# 部署一个 semantic router 实例
kubectl apply -f config/samples/vllm_v1alpha1_semanticrouter.yaml

优势：

✅ 使用 Kubernetes CRDs 进行声明式配置
✅ 自动检测平台（OpenShift/Kubernetes）
✅ 内置高可用性和扩展能力
✅ 集成监控和可观测性
✅ 生命周期管理和升级

详情请参阅 Kubernetes Operator 指南。

其他 Kubernetes 部署选项

Istio 集成 - 服务网格部署
AI Gateway - Gateway API 集成
生产环境堆栈 - 完整的生产环境设置
Dynamo - 动态配置管理

Docker Compose

用于本地开发和测试：

Docker Compose - 快速本地部署

下一步

配置指南 - 高级路由和信号配置
API 文档 - 完整 API 参考
教程 - 通过示例学习

获取帮助

Issues: GitHub Issues
社区: 加入 vLLM Slack 中的 #semantic-router 频道
文档: vllm-semantic-router.com

系统要求​

快速开始​

1. 安装 vLLM Semantic Router​

2. 启动 vllm-sr​

3. 打开 Dashboard​

4. 测试 Router​

5. 可选：通过 CLI 打开 Dashboard​

常用命令​

高级配置​

YAML-first 工作流​

HuggingFace 设置​

自定义选项​

Kubernetes 部署​

使用 Operator 快速开始​

其他 Kubernetes 部署选项​

Docker Compose​

下一步​

获取帮助​