为什么需要
出海做 AI 产品需要大量训练数据或知识库内容。传统爬虫要处理 JS 渲染、解析 HTML、清洗数据,一套流程下来很重。Firecrawl 一个 API 调用就把网页转成干净的 Markdown,直接喂给 LLM。
怎么用
bash
pip install firecrawl-py
python
from firecrawl import FirecrawlApp
app = FirecrawlApp(api_key="your-key")
# 单页抓取
result = app.scrape_url("https://example.com", formats=["markdown"])
print(result["markdown"])
# 整站抓取
crawl = app.crawl_url("https://docs.example.com", limit=50)
for page in crawl["data"]:
print(page["markdown"][:200])
使用案例
独立开发者用 Firecrawl 抓取竞品的文档站(50 页),转成 Markdown 后导入 Dify 知识库,搭建了 AI 客服机器人。整个过程 30 分钟,手动复制粘贴要两天。
注意事项
- 定价:免费额度 500 页/月,付费 $100/月起
- 局限:免费额度有限;对反爬严格的网站效果差