为什么选 LM Studio
LM Studio 是一款桌面应用,让你可以一键运行 Hugging Face 上的开源大模型,无需 Python 环境或复杂命令行。
优势:
- 图形化界面:模型下载和切换都是点击操作
- 本地运行:数据不离开设备
- OpenAI 兼容 API:暴露 OpenAI 格式接口
- 跨平台:Windows、macOS、Linux 都支持
- 硬件加速:自动利用 GPU/Metal
第一步:安装 LM Studio
前往 lmstudio.ai 下载对应平台的安装包。
系统要求:
- macOS:M1+(Intel 也支持但性能一般)
- Windows:64 位 Windows 10+
- Linux:Ubuntu 20.04+ 或等价
硬件建议:
- RAM:16GB+(大模型建议 32GB+)
- GPU:NVIDIA GPU(可选但推荐)
- 存储:模型文件较大,预留 100GB+
第二步:下载模型
在 LM Studio 中搜索并下载模型。推荐几款:
中文优秀模型
- Qwen3-30B-A3B:通义千问最新开源,编程能力强
- GLM-5-9B:智谱开源,中文理解好
- DeepSeek-R1-Distill:推理能力强
国际模型
- Llama 4 8B:Meta 通用模型
- Gemma 4 9B:Google 最新开源
- Mistral Small:平衡性能和速度
编程专用
- Codestral:Mistral 的编程模型
- Qwen2.5-Coder-7B:阿里编程专用
- DeepSeek-Coder-V2:DeepSeek 编程
第三步:启动 LM Studio 服务器
- 加载一个模型(点击左侧模型列表中的模型)
- 切换到 "Local Server" 选项卡
- 点击 "Start Server"
默认地址:http://localhost:1234
第四步:配置 OpenClaw
基础配置
# config.yaml
providers:
lm-studio:
enabled: true
host: "http://localhost:1234"
使用引导式 Onboarding
v2026.4.12 的引导流程:
openclaw onboard --provider lm-studio
OpenClaw 会:
- 自动检测 LM Studio 是否在本地运行
- 查询可用模型列表
- 让你选择默认模型
- 验证连接和响应
指定 Agent 使用 LM Studio
agents:
local:
provider: "lm-studio"
model: "qwen3-30b-a3b" # 模型名从 LM Studio 查询
systemPrompt: "你是本地运行的 AI 助手"
运行时模型发现
v2026.4.12 新增了运行时模型发现:
# 列出 LM Studio 中可用的所有模型
openclaw providers models lm-studio
OpenClaw 会查询 LM Studio 的 /v1/models 端点,返回当前加载的所有模型。
流式预加载
v2026.4.12 支持流式预加载:
- 减少首 Token 延迟
- 对话开始时立即流式响应
在 LM Studio 中启用:
- Settings → Server → Enable Streaming
OpenClaw 会自动使用流式传输。
记忆搜索嵌入
本地 LM Studio 可以作为记忆嵌入 Provider:
memory:
embeddings:
provider: "lm-studio"
model: "nomic-embed-text-v1.5" # 专用嵌入模型
优势:
- 嵌入生成不消耗云端 API
- 敏感记忆数据不外传
- 离线也能检索记忆
性能优化
GPU 利用
在 LM Studio Settings 中:
- n_gpu_layers:设为
-1表示全部放 GPU - context_length:根据模型支持的最大值设置
量化模型选择
LM Studio 支持多种量化:
| 量化 | 精度损失 | 速度 | 显存需求 |
|---|---|---|---|
| FP16 | 无 | 慢 | 最大 |
| Q8_0 | 极小 | 中 | 1/2 |
| Q5_K_M | 小 | 快 | 1/3 |
| Q4_K_M | 中 | 快 | 1/4 |
| Q3_K_S | 大 | 最快 | 1/5 |
推荐 Q5_K_M 作为质量-性能平衡。
上下文长度调整
providers:
lm-studio:
defaultContextLength: 32768 # 32K 上下文
注意:上下文越长,显存占用越多。
实际使用场景
1. 完全离线的 AI 助手
# 全链路本地
providers:
lm-studio:
enabled: true
memory:
embeddings:
provider: "lm-studio"
agents:
default:
provider: "lm-studio"
model: "qwen3-30b-a3b"
# 禁用所有云端 Provider
适合:隐私敏感场景、无网络环境、想避免 API 费用
2. 混合云 + 本地
agents:
# 敏感内容用本地
private:
provider: "lm-studio"
# 需要顶级能力时用云端
complex:
provider: "anthropic"
model: "claude-opus-4-6"
3. 本地开发测试
开发阶段用 LM Studio 避免 API 费用,上线前切到云端 Provider。
常见问题
连接失败
# 诊断
openclaw doctor providers lm-studio
常见原因:
- LM Studio 服务器未启动
- 端口被占用(可改为其他端口)
- 防火墙阻止
响应慢
- 选用更小的量化版本
- 关闭其他占用 GPU 的程序
- 增加
n_gpu_layers
模型输出质量不佳
- 调整 temperature(0.3-0.7 通常合适)
- 使用 Q5 或 FP16 量化
- 选择更大的模型
注意事项
- LM Studio Provider 需要 OpenClaw v2026.4.12 或更高版本
- 本地模型能力不如顶级闭源模型,复杂任务可能效果差
- 大模型加载和推理较慢,实时性要求高的场景需评估
- LM Studio 的服务器默认只接受本地连接,远程访问需额外配置
- 中文模型建议选择专门优化过的(如 Qwen 系列)