Firecrawl
Overview
Firecrawl の機能・入出力・制約を参照するためのリファレンス。
主要機能
- 単一ページ取得
- サイト巡回(クローリング)
- コンテンツ抽出
- 構造化データ化
入力で決める項目
| 項目 | 説明 |
|---|---|
| URL | 取得対象の起点 URL |
| 深さ | どこまでリンクを辿るか |
| 除外条件 | 対象外にするパスやパターン |
| 出力形式 | 取得データの形式(例: JSON) |
出力で見る項目
| 項目 | 用途 |
|---|---|
| URL | 集計キー |
| title | 表示と集計 |
| content | 検索・分析 |
| metadata | 補助情報 |
| fetched_at | 時系列分析 |
制約と注意点
- サイト側の利用規約と robots.txt を優先する
- JavaScript 依存ページは取得結果が変動しやすい
- レート制限を超えると取得失敗が増える
- 収集仕様変更時は既存データとの整合を確認する
よくある失敗パターン
- 対象範囲を広げすぎてノイズが増える
- URL 正規化をせずに重複集計する
- 取得時刻を持たずに時系列分析できなくなる
- スキーマ変更を無計画に行い BI クエリを壊す