概述
SGLang(Structured Generation Language)是由学术界与工业界联合开发的高性能大模型推理框架,以激进的批处理调度策略和 RadixAttention KV 缓存复用技术著称,在高并发场景下吞吐量往往优于 vLLM。OpenClaw 通过 SGLang 暴露的 OpenAI 兼容 HTTP API 与之对接,配置方式与 vLLM 类似。
快速开始
第一步:启动 SGLang 服务
安装 SGLang 后,加载目标模型启动服务(以 Llama 3.1 8B 为例):
python -m sglang.launch_server \
--model-path meta-llama/Meta-Llama-3.1-8B-Instruct \
--host 127.0.0.1 \
--port 30000
SGLang 默认监听 http://127.0.0.1:30000。
第二步:设置环境变量
export SGLANG_API_KEY="local"
OpenClaw 检测到 SGLANG_API_KEY 后,会自动向 http://127.0.0.1:30000/v1/models 发起请求获取可用模型,无需手动注册模型信息。
验证服务连通性:
curl http://127.0.0.1:30000/v1/models
配置参数
自动发现模式下的最简配置:
{
agents: {
defaults: {
model: { primary: "sglang/meta-llama/Meta-Llama-3.1-8B-Instruct" },
},
},
}
如需显式配置模型详情(例如部署到远程服务器,或自定义上下文窗口大小):
{
models: {
providers: {
sglang: {
baseUrl: "http://127.0.0.1:30000/v1",
apiKey: "${SGLANG_API_KEY}",
api: "openai-completions",
models: [
{
id: "meta-llama/Meta-Llama-3.1-8B-Instruct",
name: "Llama 3.1 8B (SGLang)",
reasoning: false,
input: ["text"],
cost: { input: 0, output: 0, cacheRead: 0, cacheWrite: 0 },
contextWindow: 128000,
maxTokens: 8192,
},
],
},
},
},
}
支持的模型
SGLang 兼容 HuggingFace Hub 上的主流架构,推荐部署选项:
- Llama 3 系列:
meta-llama/Meta-Llama-3.1-8B-Instruct/70B-Instruct,综合能力强 - Qwen2.5 系列:
Qwen/Qwen2.5-7B-Instruct,中文支持佳 - DeepSeek-R1 蒸馏版:
deepseek-ai/DeepSeek-R1-Distill-Llama-8B,推理特化 - Mistral/Mixtral:
mistralai/Mixtral-8x7B-Instruct-v0.1,高性价比混合专家模型
注意事项
端口与 vLLM 的区别:SGLang 默认端口是 30000,而 vLLM 默认为 8000,同时运行两者时注意配置文件中 baseUrl 的区分。
认证配置:如果 SGLang 服务器启用了鉴权(通过 --api-key 参数启动),SGLANG_API_KEY 需与服务器设置的值保持一致;若服务器未启用鉴权,填写任意非空字符串即可触发 OpenClaw 的自动发现逻辑。
RadixAttention 调优:SGLang 的 KV 缓存复用在处理具有公共前缀的批量请求时效果最为显著,若在 OpenClaw 中并发运行多个 Agent 调用相同模型,SGLang 的吞吐量优势会更加突出。
远程部署:将 baseUrl 中的 127.0.0.1 替换为服务器 IP,即可接入远程 SGLang 实例,适合在局域网内共享推理资源的团队场景。