Firecrawl
网页爬取 搜索与效率工具安装命令
npx clawhub@latest install firecrawl
安装说明
1
确认环境
确保已安装 Node.js 22+ 和 OpenClaw。在终端运行 openclaw --version 确认 OpenClaw 正常工作。
2
执行安装
在终端中运行上方安装命令,ClawHub 会自动下载并安装 Firecrawl 到 ~/.openclaw/skills/ 目录。
3
验证安装
运行 openclaw skills list 查看已安装技能列表,确认 Firecrawl 已出现在列表中。
4
配置参数(可选)
根据下方介绍中的配置说明,在 ~/.config/openclaw/openclaw.json5 中添加技能的配置项。
手动安装方式:将 Skill 文件夹复制到
~/.openclaw/skills/ 或项目目录下的 skills/ 文件夹,确保文件夹中包含 SKILL.md 文件。
Markdown 输出
JS 渲染
反反爬虫
批量爬取
Sitemap 抓取
详细介绍
Firecrawl 是 AI 时代的网页爬取服务,专为 LLM 输入优化。让 OpenClaw Agent 可以将任意网站转换为干净的结构化数据。
核心功能
- Markdown 输出:网页转换为 LLM 友好的 Markdown
- JS 渲染:支持现代 SPA 网站
- 反反爬虫:自动处理常见反爬
- 批量爬取:整站爬取
- Sitemap 抓取:基于 sitemap 抓取
- 截图:可选生成网页截图
安装命令
clawhub install firecrawl
配置示例
skills:
firecrawl:
apiKey: "$FIRECRAWL_API_KEY"
defaultFormat: "markdown"
使用场景
单页爬取
用户:把这篇文章内容给我
https://example.com/article
Agent:[调用 firecrawl scrape]
[转换为 Markdown]
文章内容如下:...
批量爬取
用户:爬取整个文档站点
https://docs.example.com
Agent:[调用 firecrawl crawl]
[基于 sitemap]
[并发爬取]
[转 Markdown]
共爬取 234 页
实时数据
用户:监控这个产品页面价格
https://shop.com/product/xyz
Agent:[每小时 firecrawl scrape]
[对比价格]
[价格变动通知]
与其他工具对比
| 工具 | Firecrawl | Beautiful Soup | Playwright |
|---|---|---|---|
| 易用 | 高 | 中 | 中 |
| LLM 友好 | 是 | 否 | 否 |
| JS 渲染 | 是 | 否 | 是 |
| 反爬虫 | 强 | 弱 | 中 |
| 适合 | LLM 输入 | 简单解析 | 自动化测试 |
注意事项
- 需要 Firecrawl API Key
- 大量爬取消耗较多 API 配额
- 商业使用注意目标网站 ToS
- 配合 Playwright 处理特殊场景
- 大型站点先小规模测试