メインコンテンツまでスキップ

Firecrawl

Overview

Firecrawl は、Web コンテンツを AI / データ処理向けに収集・整形するためのサービス。
単なる HTML 取得ではなく、クローリング・抽出・構造化を一連で扱える点が特徴。

どんな課題を解くか

ページ単位ではなくサイト単位で情報を収集したい
JavaScript レンダリング後の内容を取得したい
LLM や検索用に扱いやすい形式へ変換したい
手作りスクレイパーの保守コストを下げたい

従来スクレイピングとの違い

観点	従来のスクレイピング	Firecrawl
収集対象	個別ページ中心	サイト全体の巡回を前提にしやすい
出力整形	自前実装が必要	構造化済みの出力を作りやすい
運用負荷	セレクタ変更に弱い	取得処理を統合して管理しやすい
活用先	画面表示や一時利用	RAG / 検索 / BI への連携に向く

BI 接続を前提にした責務分離

BI 連携を見据える場合、次の4段階で責務を分けると運用しやすい。

収集: Firecrawl でページ情報を取得
整形: 分析単位に合わせてイベント・エンティティを整える
蓄積: S3 などに時系列で保存する
可視化: Athena / QuickSight で集計・ダッシュボード化する

この分離をしておくと、収集ロジックを変えても BI 側の集計定義を壊しにくい。

設計時の注意点

b- robots.txt と利用規約を事前に確認する

再取得頻度を決め、差分収集を優先する
スキーマを先に決めてから取り込みを開始する
失敗時の再実行ルールを決める

Overview
どんな課題を解くか
従来スクレイピングとの違い
BI 接続を前提にした責務分離
設計時の注意点
Related