概述
OpenClaw 内置了基于 Chromium 的浏览器自动化能力。AI 助手可以像真人一样操作浏览器——打开网页、点击按钮、填写表单、截图和提取内容。
与普通的网页爬虫不同,OpenClaw 的浏览器工具拥有独立的浏览器配置文件,完全隔离于你的日常浏览数据,确保安全性。
启用浏览器工具
在 ~/.openclaw/openclaw.json 中开启:
{
browser: {
enabled: true,
defaultProfile: "openclaw", // 使用隔离的浏览器配置
headless: false // 设为 true 则不显示浏览器窗口
}
}
三种浏览器模式
OpenClaw 托管模式
OpenClaw 启动并管理一个独立的 Chromium 实例,与你的个人浏览器完全隔离:
{
browser: {
defaultProfile: "openclaw",
profiles: {
openclaw: {
// 自动管理,使用独立的用户数据目录
}
}
}
}
这是推荐的模式,最安全。
远程 CDP 模式
连接到远程运行的浏览器实例:
{
browser: {
profiles: {
remote: {
cdpUrl: "ws://remote-host:9222"
}
}
}
}
适用于浏览器运行在其他服务器上的场景。
扩展中继模式
通过 Chrome 扩展控制你已打开的浏览器标签页:
{
browser: {
defaultProfile: "chrome" // 默认模式
}
}
注意:此模式下 AI 可以访问你的浏览器会话(包括已登录的账号),请谨慎使用。
CLI 操作
# 查看浏览器状态
openclaw browser status
# 打开网页
openclaw browser open https://example.com
# 获取页面快照(AI 可读的结构化视图)
openclaw browser snapshot
# 点击页面元素(通过快照中的数字引用)
openclaw browser click 12
# 截图
openclaw browser screenshot
快照引用系统
OpenClaw 使用独特的快照引用系统来操作网页元素。执行 snapshot 后,页面上每个可交互元素都会被分配一个数字编号:
[1] 搜索框 (input)
[2] 搜索按钮 (button)
[3] 导航 - 首页 (link)
[4] 导航 - 产品 (link)
...
AI 助手可以直接通过编号操作元素(如 click 2 点击搜索按钮)。引用在同一次导航会话中保持稳定,页面切换后需要重新获取快照。
实用场景
网页数据提取
让 AI 自动访问网页并提取结构化数据:
"打开 xxx 网站,提取首页上所有产品的名称和价格,整理成表格"
表单自动填写
AI 可以理解表单结构并自动填写:
"打开这个报名页面,帮我填写姓名、邮箱和公司信息,然后提交"
网页截图与分析
定期对网页截图并分析变化:
"截取这个竞品官网的首页,对比上次截图看有什么变化"
PDF 生成
将网页内容导出为 PDF 文档:
"打开这篇文章,生成 PDF 保存到我的文档目录"
安全注意事项
浏览器控制是一项非常强大的能力,需要注意:
- 优先使用 openclaw 托管模式,避免暴露你的个人浏览数据
- 不要将浏览器工具开放给不信任的代理
- 远程 CDP 地址和令牌应当作敏感信息,使用环境变量存储
- 如果不需要 JavaScript 执行能力,可以通过
browser.evaluateEnabled: false关闭 - 浏览器控制服务仅绑定到本地回环地址,受网关认证保护
{
// 限制浏览器工具的使用范围
tools: {
elevated: {
browser: {
channels: ["discord"] // 仅允许通过 Discord 使用浏览器工具
}
}
}
}