首页 资讯 下载 教程 Skills 社群

vLLM 本地模型部署配置

概述

vLLM 是目前性能最强的开源大模型推理框架之一,基于 PagedAttention 技术大幅提升 GPU 显存利用率和吞吐量,特别适合在本地服务器或工作站上部署 Llama、Qwen、Mistral 等开源模型。OpenClaw 通过 OpenAI 兼容接口与 vLLM 对接,配置简洁,支持自动发现本地运行的模型。

快速开始

第一步:启动 vLLM 服务

安装 vLLM 后,选择一个模型启动推理服务(以 Qwen3-8B 为例):

python -m vllm.entrypoints.openai.api_server \
  --model Qwen/Qwen3-8B \
  --port 8000

服务启动后默认监听 http://127.0.0.1:8000

第二步:配置 OpenClaw 环境变量

设置 VLLM_API_KEY 环境变量以启用 OpenClaw 的自动发现机制(本地无鉴权时填任意值即可):

export VLLM_API_KEY="local"

OpenClaw 检测到此变量后,会自动查询 http://127.0.0.1:8000/v1/models 获取可用模型列表,无需手动配置。

验证服务是否正常运行:

curl http://127.0.0.1:8000/v1/models

配置参数

最简配置(依赖自动发现):

{
  agents: {
    defaults: {
      model: { primary: "vllm/Qwen/Qwen3-8B" },
    },
  },
}

如需精确控制模型参数,或连接非默认端口的 vLLM 实例,使用完整配置:

{
  models: {
    providers: {
      vllm: {
        baseUrl: "http://127.0.0.1:8000/v1",
        apiKey: "${VLLM_API_KEY}",
        api: "openai-completions",
        models: [
          {
            id: "Qwen/Qwen3-8B",
            name: "Qwen3 8B (本地)",
            reasoning: false,
            input: ["text"],
            cost: { input: 0, output: 0, cacheRead: 0, cacheWrite: 0 },
            contextWindow: 128000,
            maxTokens: 8192,
          },
        ],
      },
    },
  },
}

支持的模型

vLLM 支持 HuggingFace Hub 上所有兼容 Transformers 的主流开源模型,常见选择包括:

  • Qwen3 系列Qwen/Qwen3-8BQwen/Qwen3-32B 等,中英双语能力突出
  • Llama 3 系列meta-llama/Meta-Llama-3.1-8B-Instruct,通用能力强
  • DeepSeek 系列deepseek-ai/DeepSeek-R1-Distill-Qwen-7B,推理能力优秀
  • Mistral 系列mistralai/Mistral-7B-Instruct-v0.3,轻量高效

实际可用模型取决于你下载并加载的权重文件。

注意事项

GPU 显存要求:7B 模型通常需要约 14GB 显存(FP16),量化版(GPTQ/AWQ)可降至 8GB 以内。运行前请确认显卡规格。

多实例部署:可以同时运行多个 vLLM 实例,监听不同端口,在 OpenClaw 中定义多个 vllm 类型的提供者条目来分别引用。

本地调用零费用:配置中将 cost 所有字段设为 0,OpenClaw 的用量统计不会计入费用。

上下文窗口设置contextWindowmaxTokens 需与 vLLM 启动时的参数保持一致,如启动时设置了 --max-model-len,配置文件中也需同步调整。