使用 Ollama 在本地运行 AI 模型

2026-03-05 · 5 分钟模型接入

为什么选择本地模型

使用 OpenClaw 连接云端 AI（如 Claude、GPT-4）需要付费的 API 密钥。而通过 Ollama 运行本地模型，你可以：

零成本使用 AI 助手，无需 API 费用
完全离线运行，数据不离开你的设备
无限制调用，没有速率限制和配额
自由选择开源模型，如 Llama 3.3、Qwen 2.5、DeepSeek 等

当然，本地模型的能力与硬件配置直接相关。推荐至少 16GB 内存用于运行 7B 参数模型，32GB 以上用于 32B+ 模型。

安装 Ollama

前往 ollama.ai 下载安装 Ollama。安装完成后，拉取你想使用的模型：

# 拉取通用对话模型
ollama pull llama3.3

# 拉取编程专用模型
ollama pull qwen2.5-coder:32b

# 拉取轻量级模型（适合低配设备）
ollama pull phi4-mini

验证 Ollama 是否正常运行：

# 查看已安装的模型
ollama list

# 测试 API 是否可用
curl http://localhost:11434/api/tags

配置 OpenClaw 连接 Ollama

自动发现模式

最简单的方式是设置 OLLAMA_API_KEY 环境变量，OpenClaw 会自动发现本地 Ollama 实例中的可用模型：

在 ~/.openclaw/.env 中添加：

OLLAMA_API_KEY=ollama-local

然后在 ~/.openclaw/openclaw.json 中指定主模型：

{
  agents: {
    defaults: {
      model: {
        primary: "ollama/llama3.3"
      }
    }
  }
}

OpenClaw 会自动执行以下操作：

扫描本地 Ollama 中已安装的模型
筛选支持工具调用（Function Calling）的模型
标记支持推理模式的模型
读取每个模型的上下文窗口大小
将所有费用设为 $0

查看 OpenClaw 发现了哪些模型：

openclaw models list

显式配置模式

如果 Ollama 运行在其他机器上，或你需要自定义参数，可以使用显式配置：

{
  models: {
    providers: {
      ollama: {
        baseUrl: "http://192.168.1.100:11434/v1",
        apiKey: "ollama-local",
        contextWindow: 8192,
        maxTokens: 81920
      }
    }
  }
}

推荐模型搭配

根据不同使用场景，推荐以下模型组合：

日常对话 + 编程辅助

{
  agents: {
    defaults: {
      model: {
        primary: "ollama/llama3.3"
      },
      models: [
        { alias: "coder", model: "ollama/qwen2.5-coder:32b" }
      ]
    }
  }
}

混合模式（本地 + 云端）

日常任务用免费的本地模型，重要任务切换到云端模型：

{
  agents: {
    defaults: {
      model: {
        primary: "ollama/llama3.3"
      },
      models: [
        { alias: "smart", model: "anthropic/claude-opus-4-5" },
        { alias: "fast", model: "ollama/phi4-mini" }
      ]
    }
  }
}

在对话中可以随时切换模型，让简单任务用本地模型节省成本，复杂任务用云端模型保证质量。

性能优化建议

GPU 加速

如果你有 NVIDIA 显卡，Ollama 会自动使用 GPU 加速。确认 GPU 是否被使用：

ollama ps

上下文窗口调整

本地模型的上下文窗口越大，占用的显存越多。根据你的硬件调整：

{
  models: {
    providers: {
      ollama: {
        contextWindow: 4096  // 显存不足时减小此值
      }
    }
  }
}

并发控制

在资源有限的设备上，限制并发请求数以避免卡顿：

{
  agents: {
    defaults: {
      maxConcurrentRequests: 1
    }
  }
}

常见问题

模型没有被 OpenClaw 发现？

确认已设置 OLLAMA_API_KEY 环境变量
OpenClaw 只会展示支持工具调用的模型
尝试拉取较新的模型版本：ollama pull llama3.3

回复速度慢？

使用更小的模型（如 phi4-mini）
减小上下文窗口大小
确保 GPU 加速已启用

显存不足导致崩溃？

选择更小参数的模型（7B 或以下）
降低 contextWindow 配置
关闭其他占用显存的应用