首页 资讯 下载 教程 Skills 社群

Firecrawl

网页爬取 搜索与效率工具

安装命令

npx clawhub@latest install firecrawl

安装说明

1
确认环境

确保已安装 Node.js 22+ 和 OpenClaw。在终端运行 openclaw --version 确认 OpenClaw 正常工作。

2
执行安装

在终端中运行上方安装命令,ClawHub 会自动下载并安装 Firecrawl 到 ~/.openclaw/skills/ 目录。

3
验证安装

运行 openclaw skills list 查看已安装技能列表,确认 Firecrawl 已出现在列表中。

4
配置参数(可选)

根据下方介绍中的配置说明,在 ~/.config/openclaw/openclaw.json5 中添加技能的配置项。

手动安装方式:将 Skill 文件夹复制到 ~/.openclaw/skills/ 或项目目录下的 skills/ 文件夹,确保文件夹中包含 SKILL.md 文件。
Markdown 输出 JS 渲染 反反爬虫 批量爬取 Sitemap 抓取

详细介绍

Firecrawl 是 AI 时代的网页爬取服务,专为 LLM 输入优化。让 OpenClaw Agent 可以将任意网站转换为干净的结构化数据。

核心功能

  • Markdown 输出:网页转换为 LLM 友好的 Markdown
  • JS 渲染:支持现代 SPA 网站
  • 反反爬虫:自动处理常见反爬
  • 批量爬取:整站爬取
  • Sitemap 抓取:基于 sitemap 抓取
  • 截图:可选生成网页截图

安装命令

clawhub install firecrawl

配置示例

skills:
  firecrawl:
    apiKey: "$FIRECRAWL_API_KEY"
    defaultFormat: "markdown"

使用场景

单页爬取

用户:把这篇文章内容给我
      https://example.com/article

Agent:[调用 firecrawl scrape]
      [转换为 Markdown]
      文章内容如下:...

批量爬取

用户:爬取整个文档站点
      https://docs.example.com

Agent:[调用 firecrawl crawl]
      [基于 sitemap]
      [并发爬取]
      [转 Markdown]
      共爬取 234 页

实时数据

用户:监控这个产品页面价格
      https://shop.com/product/xyz

Agent:[每小时 firecrawl scrape]
      [对比价格]
      [价格变动通知]

与其他工具对比

工具 Firecrawl Beautiful Soup Playwright
易用
LLM 友好
JS 渲染
反爬虫
适合 LLM 输入 简单解析 自动化测试

注意事项

  • 需要 Firecrawl API Key
  • 大量爬取消耗较多 API 配额
  • 商业使用注意目标网站 ToS
  • 配合 Playwright 处理特殊场景
  • 大型站点先小规模测试