← 工具

Firecrawl

专为 AI 设计的网页数据采集 API,支持整站抓取、markdown 转换,Stars 113K+

#6
推荐排名
113,798
GitHub Stars
710,099.5
推荐得分
AI 数据采集 / 内容抓取
适用场景
AI工具数据采集RAG

为什么需要

出海做 AI 产品需要大量训练数据或知识库内容。传统爬虫要处理 JS 渲染、解析 HTML、清洗数据,一套流程下来很重。Firecrawl 一个 API 调用就把网页转成干净的 Markdown,直接喂给 LLM。

怎么用

bash
pip install firecrawl-py
python
from firecrawl import FirecrawlApp

app = FirecrawlApp(api_key="your-key")

# 单页抓取
result = app.scrape_url("https://example.com", formats=["markdown"])
print(result["markdown"])

# 整站抓取
crawl = app.crawl_url("https://docs.example.com", limit=50)
for page in crawl["data"]:
    print(page["markdown"][:200])

使用案例

独立开发者用 Firecrawl 抓取竞品的文档站(50 页),转成 Markdown 后导入 Dify 知识库,搭建了 AI 客服机器人。整个过程 30 分钟,手动复制粘贴要两天。

注意事项

  • 定价:免费额度 500 页/月,付费 $100/月起
  • 局限:免费额度有限;对反爬严格的网站效果差