Firecrawl
Overview
Firecrawl は、Web コンテンツを AI / データ処理向けに収集・整形するためのサービス。
単なる HTML 取得ではなく、クローリング・抽出・構造化を一連で扱える点が特徴。
どんな課題を解くか
- ページ単位ではなくサイト単位で情報を収集したい
- JavaScript レンダリング後の内容を取得したい
- LLM や検索用に扱いやすい形式へ変換したい
- 手作りスクレイパーの保守コストを下げたい
従来スクレイピングとの違い
| 観点 | 従来のスクレイピング | Firecrawl |
|---|---|---|
| 収集対象 | 個別ページ中心 | サイト全体の巡回を前提にしやすい |
| 出力整形 | 自前実装が必要 | 構造化済みの出力を作りやすい |
| 運用負荷 | セレクタ変更に弱い | 取得処理を統合して管理しやすい |
| 活用先 | 画面表示や一時利用 | RAG / 検索 / BI への連携に向く |
BI 接続を前提にした責務分離
BI 連携を見据える場合、次の4段階で責務を分けると運用しやすい。
- 収集: Firecrawl でページ情報を取得
- 整形: 分析単位に合わせてイベント・エンティティを整える
- 蓄積: S3 などに時系列で保存する
- 可視化: Athena / QuickSight で集計・ダッシュボード化する
この分離をしておくと、収集ロジックを変えても BI 側の集計定義を壊しにくい。
設計時の注意点
b- robots.txt と利用規約を事前に確認する
- 再取得頻度を決め、差分収集を優先する
- スキーマを先に決めてから取り込みを開始する
- 失敗時の再実行ルールを決める