首页 资讯 下载 教程 Skills 社群

SGLang 本地推理引擎配置

概述

SGLang(Structured Generation Language)是由学术界与工业界联合开发的高性能大模型推理框架,以激进的批处理调度策略和 RadixAttention KV 缓存复用技术著称,在高并发场景下吞吐量往往优于 vLLM。OpenClaw 通过 SGLang 暴露的 OpenAI 兼容 HTTP API 与之对接,配置方式与 vLLM 类似。

快速开始

第一步:启动 SGLang 服务

安装 SGLang 后,加载目标模型启动服务(以 Llama 3.1 8B 为例):

python -m sglang.launch_server \
  --model-path meta-llama/Meta-Llama-3.1-8B-Instruct \
  --host 127.0.0.1 \
  --port 30000

SGLang 默认监听 http://127.0.0.1:30000

第二步:设置环境变量

export SGLANG_API_KEY="local"

OpenClaw 检测到 SGLANG_API_KEY 后,会自动向 http://127.0.0.1:30000/v1/models 发起请求获取可用模型,无需手动注册模型信息。

验证服务连通性:

curl http://127.0.0.1:30000/v1/models

配置参数

自动发现模式下的最简配置:

{
  agents: {
    defaults: {
      model: { primary: "sglang/meta-llama/Meta-Llama-3.1-8B-Instruct" },
    },
  },
}

如需显式配置模型详情(例如部署到远程服务器,或自定义上下文窗口大小):

{
  models: {
    providers: {
      sglang: {
        baseUrl: "http://127.0.0.1:30000/v1",
        apiKey: "${SGLANG_API_KEY}",
        api: "openai-completions",
        models: [
          {
            id: "meta-llama/Meta-Llama-3.1-8B-Instruct",
            name: "Llama 3.1 8B (SGLang)",
            reasoning: false,
            input: ["text"],
            cost: { input: 0, output: 0, cacheRead: 0, cacheWrite: 0 },
            contextWindow: 128000,
            maxTokens: 8192,
          },
        ],
      },
    },
  },
}

支持的模型

SGLang 兼容 HuggingFace Hub 上的主流架构,推荐部署选项:

  • Llama 3 系列meta-llama/Meta-Llama-3.1-8B-Instruct / 70B-Instruct,综合能力强
  • Qwen2.5 系列Qwen/Qwen2.5-7B-Instruct,中文支持佳
  • DeepSeek-R1 蒸馏版deepseek-ai/DeepSeek-R1-Distill-Llama-8B,推理特化
  • Mistral/Mixtralmistralai/Mixtral-8x7B-Instruct-v0.1,高性价比混合专家模型

注意事项

端口与 vLLM 的区别:SGLang 默认端口是 30000,而 vLLM 默认为 8000,同时运行两者时注意配置文件中 baseUrl 的区分。

认证配置:如果 SGLang 服务器启用了鉴权(通过 --api-key 参数启动),SGLANG_API_KEY 需与服务器设置的值保持一致;若服务器未启用鉴权,填写任意非空字符串即可触发 OpenClaw 的自动发现逻辑。

RadixAttention 调优:SGLang 的 KV 缓存复用在处理具有公共前缀的批量请求时效果最为显著,若在 OpenClaw 中并发运行多个 Agent 调用相同模型,SGLang 的吞吐量优势会更加突出。

远程部署:将 baseUrl 中的 127.0.0.1 替换为服务器 IP,即可接入远程 SGLang 实例,适合在局域网内共享推理资源的团队场景。