メインコンテンツまでスキップ

Firecrawl

Overview

Firecrawl は、Web コンテンツを AI / データ処理向けに収集・整形するためのサービス。
単なる HTML 取得ではなく、クローリング・抽出・構造化を一連で扱える点が特徴。

どんな課題を解くか

  • ページ単位ではなくサイト単位で情報を収集したい
  • JavaScript レンダリング後の内容を取得したい
  • LLM や検索用に扱いやすい形式へ変換したい
  • 手作りスクレイパーの保守コストを下げたい

従来スクレイピングとの違い

観点従来のスクレイピングFirecrawl
収集対象個別ページ中心サイト全体の巡回を前提にしやすい
出力整形自前実装が必要構造化済みの出力を作りやすい
運用負荷セレクタ変更に弱い取得処理を統合して管理しやすい
活用先画面表示や一時利用RAG / 検索 / BI への連携に向く

BI 接続を前提にした責務分離

BI 連携を見据える場合、次の4段階で責務を分けると運用しやすい。

  1. 収集: Firecrawl でページ情報を取得
  2. 整形: 分析単位に合わせてイベント・エンティティを整える
  3. 蓄積: S3 などに時系列で保存する
  4. 可視化: Athena / QuickSight で集計・ダッシュボード化する

この分離をしておくと、収集ロジックを変えても BI 側の集計定義を壊しにくい。

設計時の注意点

b- robots.txt と利用規約を事前に確認する

  • 再取得頻度を決め、差分収集を優先する
  • スキーマを先に決めてから取り込みを開始する
  • 失敗時の再実行ルールを決める