概述
NVIDIA NIM(NVIDIA Inference Microservices)是 NVIDIA 推出的企业级 AI 推理服务,通过 NGC(NVIDIA GPU Cloud)平台提供经 GPU 深度优化的开源模型托管推理。相较于通用云推理服务,NIM 在 NVIDIA 硬件上具备更低的推理延迟和更高的吞吐量。OpenClaw 通过 OpenAI 兼容接口与 NVIDIA 集成,API 端点为 https://integrate.api.nvidia.com/v1。
快速开始
第一步:获取 NVIDIA API Key
前往 build.nvidia.com 注册 NGC 账号,在 API Keys 页面生成密钥,格式以 nvapi- 开头。
第二步:设置环境变量
export NVIDIA_API_KEY="nvapi-xxxxxxxxxxxxxxxxxxxx"
注意:不要通过命令行参数传递 API Key(如
--api-key nvapi-...),以防止密钥被记录到 shell 历史中。
第三步:配置模型
openclaw onboard --auth-choice skip
openclaw models set nvidia/nvidia/llama-3.1-nemotron-70b-instruct
OpenClaw 检测到 NVIDIA_API_KEY 环境变量后会自动启用该提供者。
配置参数
{
env: {
NVIDIA_API_KEY: "nvapi-xxxxxxxxxxxxxxxxxxxx"
},
models: {
providers: {
nvidia: {
baseUrl: "https://integrate.api.nvidia.com/v1",
api: "openai-completions",
contextWindow: 131072, // 静态默认值,128K tokens
maxTokens: 4096
}
}
},
agents: {
defaults: {
model: {
primary: "nvidia/nvidia/llama-3.1-nemotron-70b-instruct"
}
}
}
}
支持的模型
| 模型 ID | 参数量 | 特点 |
|---|---|---|
nvidia/nvidia/llama-3.1-nemotron-70b-instruct |
70B | NVIDIA 微调旗舰,推理能力强 |
nvidia/meta/llama-3.3-70b-instruct |
70B | Meta 原版 Llama 3.3 |
nvidia/nvidia/mistral-nemo-minitron-8b-8k-instruct |
8B | 轻量高效,适合快速响应 |
所有模型均部署在 NVIDIA GPU 集群上,具备统一的 131,072 tokens 上下文窗口和 4,096 tokens 最大输出限制。
注意事项
模型 ID 双重前缀:NVIDIA 提供者的模型路径格式为 nvidia/<组织>/<模型名>,其中第一个 nvidia 是 OpenClaw 的提供者 ID,第二段才是 NGC 上的命名空间。例如 nvidia/nvidia/llama-3.1-nemotron-70b-instruct 中,第二个 nvidia 是 NGC 上的发布者名称。
安全存储密钥:nvapi- 开头的密钥权限较大,建议存储在 ~/.openclaw/.env 文件中,而非直接写入配置文件或环境启动脚本。
免费额度限制:NGC 提供一定的免费推理额度,超额后需要升级付费套餐。可在 build.nvidia.com 的账户页面查看剩余用量。
企业私有部署:若你的团队在本地部署了 NIM 容器,只需修改 baseUrl 为内网地址,其余配置保持不变,即可将流量路由到私有 GPU 集群。