首页 资讯 下载 教程 Skills 社群

使用 Ollama 在本地运行 AI 模型

为什么选择本地模型

使用 OpenClaw 连接云端 AI(如 Claude、GPT-4)需要付费的 API 密钥。而通过 Ollama 运行本地模型,你可以:

  • 零成本使用 AI 助手,无需 API 费用
  • 完全离线运行,数据不离开你的设备
  • 无限制调用,没有速率限制和配额
  • 自由选择开源模型,如 Llama 3.3、Qwen 2.5、DeepSeek 等

当然,本地模型的能力与硬件配置直接相关。推荐至少 16GB 内存用于运行 7B 参数模型,32GB 以上用于 32B+ 模型。

安装 Ollama

前往 ollama.ai 下载安装 Ollama。安装完成后,拉取你想使用的模型:

# 拉取通用对话模型
ollama pull llama3.3

# 拉取编程专用模型
ollama pull qwen2.5-coder:32b

# 拉取轻量级模型(适合低配设备)
ollama pull phi4-mini

验证 Ollama 是否正常运行:

# 查看已安装的模型
ollama list

# 测试 API 是否可用
curl http://localhost:11434/api/tags

配置 OpenClaw 连接 Ollama

自动发现模式

最简单的方式是设置 OLLAMA_API_KEY 环境变量,OpenClaw 会自动发现本地 Ollama 实例中的可用模型:

~/.openclaw/.env 中添加:

OLLAMA_API_KEY=ollama-local

然后在 ~/.openclaw/openclaw.json 中指定主模型:

{
  agents: {
    defaults: {
      model: {
        primary: "ollama/llama3.3"
      }
    }
  }
}

OpenClaw 会自动执行以下操作:

  • 扫描本地 Ollama 中已安装的模型
  • 筛选支持工具调用(Function Calling)的模型
  • 标记支持推理模式的模型
  • 读取每个模型的上下文窗口大小
  • 将所有费用设为 $0

查看 OpenClaw 发现了哪些模型:

openclaw models list

显式配置模式

如果 Ollama 运行在其他机器上,或你需要自定义参数,可以使用显式配置:

{
  models: {
    providers: {
      ollama: {
        baseUrl: "http://192.168.1.100:11434/v1",
        apiKey: "ollama-local",
        contextWindow: 8192,
        maxTokens: 81920
      }
    }
  }
}

推荐模型搭配

根据不同使用场景,推荐以下模型组合:

日常对话 + 编程辅助

{
  agents: {
    defaults: {
      model: {
        primary: "ollama/llama3.3"
      },
      models: [
        { alias: "coder", model: "ollama/qwen2.5-coder:32b" }
      ]
    }
  }
}

混合模式(本地 + 云端)

日常任务用免费的本地模型,重要任务切换到云端模型:

{
  agents: {
    defaults: {
      model: {
        primary: "ollama/llama3.3"
      },
      models: [
        { alias: "smart", model: "anthropic/claude-opus-4-5" },
        { alias: "fast", model: "ollama/phi4-mini" }
      ]
    }
  }
}

在对话中可以随时切换模型,让简单任务用本地模型节省成本,复杂任务用云端模型保证质量。

性能优化建议

GPU 加速

如果你有 NVIDIA 显卡,Ollama 会自动使用 GPU 加速。确认 GPU 是否被使用:

ollama ps

上下文窗口调整

本地模型的上下文窗口越大,占用的显存越多。根据你的硬件调整:

{
  models: {
    providers: {
      ollama: {
        contextWindow: 4096  // 显存不足时减小此值
      }
    }
  }
}

并发控制

在资源有限的设备上,限制并发请求数以避免卡顿:

{
  agents: {
    defaults: {
      maxConcurrentRequests: 1
    }
  }
}

常见问题

模型没有被 OpenClaw 发现?

  • 确认已设置 OLLAMA_API_KEY 环境变量
  • OpenClaw 只会展示支持工具调用的模型
  • 尝试拉取较新的模型版本:ollama pull llama3.3

回复速度慢?

  • 使用更小的模型(如 phi4-mini
  • 减小上下文窗口大小
  • 确保 GPU 加速已启用

显存不足导致崩溃?

  • 选择更小参数的模型(7B 或以下)
  • 降低 contextWindow 配置
  • 关闭其他占用显存的应用