概述
vLLM 是目前性能最强的开源大模型推理框架之一,基于 PagedAttention 技术大幅提升 GPU 显存利用率和吞吐量,特别适合在本地服务器或工作站上部署 Llama、Qwen、Mistral 等开源模型。OpenClaw 通过 OpenAI 兼容接口与 vLLM 对接,配置简洁,支持自动发现本地运行的模型。
快速开始
第一步:启动 vLLM 服务
安装 vLLM 后,选择一个模型启动推理服务(以 Qwen3-8B 为例):
python -m vllm.entrypoints.openai.api_server \
--model Qwen/Qwen3-8B \
--port 8000
服务启动后默认监听 http://127.0.0.1:8000。
第二步:配置 OpenClaw 环境变量
设置 VLLM_API_KEY 环境变量以启用 OpenClaw 的自动发现机制(本地无鉴权时填任意值即可):
export VLLM_API_KEY="local"
OpenClaw 检测到此变量后,会自动查询 http://127.0.0.1:8000/v1/models 获取可用模型列表,无需手动配置。
验证服务是否正常运行:
curl http://127.0.0.1:8000/v1/models
配置参数
最简配置(依赖自动发现):
{
agents: {
defaults: {
model: { primary: "vllm/Qwen/Qwen3-8B" },
},
},
}
如需精确控制模型参数,或连接非默认端口的 vLLM 实例,使用完整配置:
{
models: {
providers: {
vllm: {
baseUrl: "http://127.0.0.1:8000/v1",
apiKey: "${VLLM_API_KEY}",
api: "openai-completions",
models: [
{
id: "Qwen/Qwen3-8B",
name: "Qwen3 8B (本地)",
reasoning: false,
input: ["text"],
cost: { input: 0, output: 0, cacheRead: 0, cacheWrite: 0 },
contextWindow: 128000,
maxTokens: 8192,
},
],
},
},
},
}
支持的模型
vLLM 支持 HuggingFace Hub 上所有兼容 Transformers 的主流开源模型,常见选择包括:
- Qwen3 系列:
Qwen/Qwen3-8B、Qwen/Qwen3-32B等,中英双语能力突出 - Llama 3 系列:
meta-llama/Meta-Llama-3.1-8B-Instruct,通用能力强 - DeepSeek 系列:
deepseek-ai/DeepSeek-R1-Distill-Qwen-7B,推理能力优秀 - Mistral 系列:
mistralai/Mistral-7B-Instruct-v0.3,轻量高效
实际可用模型取决于你下载并加载的权重文件。
注意事项
GPU 显存要求:7B 模型通常需要约 14GB 显存(FP16),量化版(GPTQ/AWQ)可降至 8GB 以内。运行前请确认显卡规格。
多实例部署:可以同时运行多个 vLLM 实例,监听不同端口,在 OpenClaw 中定义多个 vllm 类型的提供者条目来分别引用。
本地调用零费用:配置中将 cost 所有字段设为 0,OpenClaw 的用量统计不会计入费用。
上下文窗口设置:contextWindow 和 maxTokens 需与 vLLM 启动时的参数保持一致,如启动时设置了 --max-model-len,配置文件中也需同步调整。