メインコンテンツまでスキップ

Firecrawl

Overview

Firecrawl の機能・入出力・制約を参照するためのリファレンス。

主要機能

  • 単一ページ取得
  • サイト巡回(クローリング)
  • コンテンツ抽出
  • 構造化データ化

入力で決める項目

項目説明
URL取得対象の起点 URL
深さどこまでリンクを辿るか
除外条件対象外にするパスやパターン
出力形式取得データの形式(例: JSON)

出力で見る項目

項目用途
URL集計キー
title表示と集計
content検索・分析
metadata補助情報
fetched_at時系列分析

制約と注意点

  • サイト側の利用規約と robots.txt を優先する
  • JavaScript 依存ページは取得結果が変動しやすい
  • レート制限を超えると取得失敗が増える
  • 収集仕様変更時は既存データとの整合を確認する

よくある失敗パターン

  1. 対象範囲を広げすぎてノイズが増える
  2. URL 正規化をせずに重複集計する
  3. 取得時刻を持たずに時系列分析できなくなる
  4. スキーマ変更を無計画に行い BI クエリを壊す