NVIDIA NIM 模型配置指南

概述

NVIDIA NIM（NVIDIA Inference Microservices）是 NVIDIA 推出的企业级 AI 推理服务，通过 NGC（NVIDIA GPU Cloud）平台提供经 GPU 深度优化的开源模型托管推理。相较于通用云推理服务，NIM 在 NVIDIA 硬件上具备更低的推理延迟和更高的吞吐量。OpenClaw 通过 OpenAI 兼容接口与 NVIDIA 集成，API 端点为 https://integrate.api.nvidia.com/v1。

快速开始

第一步：获取 NVIDIA API Key

前往 build.nvidia.com 注册 NGC 账号，在 API Keys 页面生成密钥，格式以 nvapi- 开头。

第二步：设置环境变量

export NVIDIA_API_KEY="nvapi-xxxxxxxxxxxxxxxxxxxx"

注意：不要通过命令行参数传递 API Key（如 --api-key nvapi-...），以防止密钥被记录到 shell 历史中。

第三步：配置模型

openclaw onboard --auth-choice skip
openclaw models set nvidia/nvidia/llama-3.1-nemotron-70b-instruct

OpenClaw 检测到 NVIDIA_API_KEY 环境变量后会自动启用该提供者。

配置参数

{
  env: {
    NVIDIA_API_KEY: "nvapi-xxxxxxxxxxxxxxxxxxxx"
  },
  models: {
    providers: {
      nvidia: {
        baseUrl: "https://integrate.api.nvidia.com/v1",
        api: "openai-completions",
        contextWindow: 131072,   // 静态默认值，128K tokens
        maxTokens: 4096
      }
    }
  },
  agents: {
    defaults: {
      model: {
        primary: "nvidia/nvidia/llama-3.1-nemotron-70b-instruct"
      }
    }
  }
}

支持的模型

模型 ID	参数量	特点
`nvidia/nvidia/llama-3.1-nemotron-70b-instruct`	70B	NVIDIA 微调旗舰，推理能力强
`nvidia/meta/llama-3.3-70b-instruct`	70B	Meta 原版 Llama 3.3
`nvidia/nvidia/mistral-nemo-minitron-8b-8k-instruct`	8B	轻量高效，适合快速响应

所有模型均部署在 NVIDIA GPU 集群上，具备统一的 131,072 tokens 上下文窗口和 4,096 tokens 最大输出限制。

注意事项

模型 ID 双重前缀：NVIDIA 提供者的模型路径格式为 nvidia/<组织>/<模型名>，其中第一个 nvidia 是 OpenClaw 的提供者 ID，第二段才是 NGC 上的命名空间。例如 nvidia/nvidia/llama-3.1-nemotron-70b-instruct 中，第二个 nvidia 是 NGC 上的发布者名称。

安全存储密钥：nvapi- 开头的密钥权限较大，建议存储在 ~/.openclaw/.env 文件中，而非直接写入配置文件或环境启动脚本。

免费额度限制：NGC 提供一定的免费推理额度，超额后需要升级付费套餐。可在 build.nvidia.com 的账户页面查看剩余用量。

企业私有部署：若你的团队在本地部署了 NIM 容器，只需修改 baseUrl 为内网地址，其余配置保持不变，即可将流量路由到私有 GPU 集群。