SGLang 本地推理引擎配置

概述

SGLang（Structured Generation Language）是由学术界与工业界联合开发的高性能大模型推理框架，以激进的批处理调度策略和 RadixAttention KV 缓存复用技术著称，在高并发场景下吞吐量往往优于 vLLM。OpenClaw 通过 SGLang 暴露的 OpenAI 兼容 HTTP API 与之对接，配置方式与 vLLM 类似。

快速开始

第一步：启动 SGLang 服务

安装 SGLang 后，加载目标模型启动服务（以 Llama 3.1 8B 为例）：

python -m sglang.launch_server \
  --model-path meta-llama/Meta-Llama-3.1-8B-Instruct \
  --host 127.0.0.1 \
  --port 30000

SGLang 默认监听 http://127.0.0.1:30000。

第二步：设置环境变量

export SGLANG_API_KEY="local"

OpenClaw 检测到 SGLANG_API_KEY 后，会自动向 http://127.0.0.1:30000/v1/models 发起请求获取可用模型，无需手动注册模型信息。

验证服务连通性：

curl http://127.0.0.1:30000/v1/models

配置参数

自动发现模式下的最简配置：

{
  agents: {
    defaults: {
      model: { primary: "sglang/meta-llama/Meta-Llama-3.1-8B-Instruct" },
    },
  },
}

如需显式配置模型详情（例如部署到远程服务器，或自定义上下文窗口大小）：

{
  models: {
    providers: {
      sglang: {
        baseUrl: "http://127.0.0.1:30000/v1",
        apiKey: "${SGLANG_API_KEY}",
        api: "openai-completions",
        models: [
          {
            id: "meta-llama/Meta-Llama-3.1-8B-Instruct",
            name: "Llama 3.1 8B (SGLang)",
            reasoning: false,
            input: ["text"],
            cost: { input: 0, output: 0, cacheRead: 0, cacheWrite: 0 },
            contextWindow: 128000,
            maxTokens: 8192,
          },
        ],
      },
    },
  },
}

支持的模型

SGLang 兼容 HuggingFace Hub 上的主流架构，推荐部署选项：

Llama 3 系列：meta-llama/Meta-Llama-3.1-8B-Instruct / 70B-Instruct，综合能力强
Qwen2.5 系列：Qwen/Qwen2.5-7B-Instruct，中文支持佳
DeepSeek-R1 蒸馏版：deepseek-ai/DeepSeek-R1-Distill-Llama-8B，推理特化
Mistral/Mixtral：mistralai/Mixtral-8x7B-Instruct-v0.1，高性价比混合专家模型

注意事项

端口与 vLLM 的区别：SGLang 默认端口是 30000，而 vLLM 默认为 8000，同时运行两者时注意配置文件中 baseUrl 的区分。

认证配置：如果 SGLang 服务器启用了鉴权（通过 --api-key 参数启动），SGLANG_API_KEY 需与服务器设置的值保持一致；若服务器未启用鉴权，填写任意非空字符串即可触发 OpenClaw 的自动发现逻辑。

RadixAttention 调优：SGLang 的 KV 缓存复用在处理具有公共前缀的批量请求时效果最为显著，若在 OpenClaw 中并发运行多个 Agent 调用相同模型，SGLang 的吞吐量优势会更加突出。

远程部署：将 baseUrl 中的 127.0.0.1 替换为服务器 IP，即可接入远程 SGLang 实例，适合在局域网内共享推理资源的团队场景。