vLLM 本地模型部署配置

概述

vLLM 是目前性能最强的开源大模型推理框架之一，基于 PagedAttention 技术大幅提升 GPU 显存利用率和吞吐量，特别适合在本地服务器或工作站上部署 Llama、Qwen、Mistral 等开源模型。OpenClaw 通过 OpenAI 兼容接口与 vLLM 对接，配置简洁，支持自动发现本地运行的模型。

快速开始

第一步：启动 vLLM 服务

安装 vLLM 后，选择一个模型启动推理服务（以 Qwen3-8B 为例）：

python -m vllm.entrypoints.openai.api_server \
  --model Qwen/Qwen3-8B \
  --port 8000

服务启动后默认监听 http://127.0.0.1:8000。

第二步：配置 OpenClaw 环境变量

设置 VLLM_API_KEY 环境变量以启用 OpenClaw 的自动发现机制（本地无鉴权时填任意值即可）：

export VLLM_API_KEY="local"

OpenClaw 检测到此变量后，会自动查询 http://127.0.0.1:8000/v1/models 获取可用模型列表，无需手动配置。

验证服务是否正常运行：

curl http://127.0.0.1:8000/v1/models

配置参数

最简配置（依赖自动发现）：

{
  agents: {
    defaults: {
      model: { primary: "vllm/Qwen/Qwen3-8B" },
    },
  },
}

如需精确控制模型参数，或连接非默认端口的 vLLM 实例，使用完整配置：

{
  models: {
    providers: {
      vllm: {
        baseUrl: "http://127.0.0.1:8000/v1",
        apiKey: "${VLLM_API_KEY}",
        api: "openai-completions",
        models: [
          {
            id: "Qwen/Qwen3-8B",
            name: "Qwen3 8B (本地)",
            reasoning: false,
            input: ["text"],
            cost: { input: 0, output: 0, cacheRead: 0, cacheWrite: 0 },
            contextWindow: 128000,
            maxTokens: 8192,
          },
        ],
      },
    },
  },
}

支持的模型

vLLM 支持 HuggingFace Hub 上所有兼容 Transformers 的主流开源模型，常见选择包括：

Qwen3 系列：Qwen/Qwen3-8B、Qwen/Qwen3-32B 等，中英双语能力突出
Llama 3 系列：meta-llama/Meta-Llama-3.1-8B-Instruct，通用能力强
DeepSeek 系列：deepseek-ai/DeepSeek-R1-Distill-Qwen-7B，推理能力优秀
Mistral 系列：mistralai/Mistral-7B-Instruct-v0.3，轻量高效

实际可用模型取决于你下载并加载的权重文件。

注意事项

GPU 显存要求：7B 模型通常需要约 14GB 显存（FP16），量化版（GPTQ/AWQ）可降至 8GB 以内。运行前请确认显卡规格。

多实例部署：可以同时运行多个 vLLM 实例，监听不同端口，在 OpenClaw 中定义多个 vllm 类型的提供者条目来分别引用。

本地调用零费用：配置中将 cost 所有字段设为 0，OpenClaw 的用量统计不会计入费用。

上下文窗口设置：contextWindow 和 maxTokens 需与 vLLM 启动时的参数保持一致，如启动时设置了 --max-model-len，配置文件中也需同步调整。