サブページの自動スクレイピング
サブページ自動収集とは?

リストページに新しい投稿や商品が投稿されると、そのサブページのURLが自動的にグループに追加され、抽出が実行される機能です。サブページ自動収集機能を使用すると、アドレスを1つずつ収集したり更新したりする必要なく、変更されたリストを自動的に検出して新しいデータを収集できます。
この機能は、投稿・商品ページのように継続的に更新されるページを抽出する際に特に便利です。 たとえば、毎日新しい商品が登録されるショッピングモールのリストページを接続しておくと、新しい商品の詳細ページが自動的に収集され、最新のデータ状態を維持できます。
サブページ(Subpage)とは?
ウェブサイトのメインページ(ホームページ)を除くすべての下位ページを意味します。
使い方
下位作業(子作業)を作成して上位作業と接続
詳細ページで、グループ抽出の基準となる領域を選択してデータを抽出します。 (このプロセスは通常のグループ抽出と同じです。)

結果ページで選択したデータが配置されている「タブ」を確認した後、**[+グループ]**ボタンをクリックします。

グループ抽出設定ウィンドウ下部のURL入力欄で**[Choose URL from existing task]**を選択し、以前に作成した上位作業(I-3ステップ)のURLを貼り付けます。

**[Preview]ボタンをクリックし、詳細ページのURLが含まれている列を選択します。下部のプレビューウィンドウに5つのURLが表示されれば正常です。確認後、[完了]**ボタンをクリックします。


この方法でグループを登録すると、上位作業(ハイパーリンク収集タスク)の下に下位作業(詳細ページグループ抽出タスク)が接続されます。上位作業が新しいリンクを発見するたびに、下位作業にそのURLが自動的に追加され、収集が実行されます。したがって、スケジュールは上位作業に設定してください。

目的の周期と時間帯に合わせてスケジュールを設定します。

設定されたスケジュールに従って上位作業が実行されると、リストページに新しいアイテムが登録されている場合、そのURLが下位グループに自動的に更新されます。


注意事項
サブページ自動抽出機能は、新しい投稿を検出する機能ではなく、スケジュールに従って実行される自動抽出方式を基に動作します。ユーザーが登録したスケジュールに従って上位作業が実行されると、リストページで新しいコンテンツが発見された場合、そのリンクが自動的に下位作業に追加され、収集が実行されます。
最終更新
役に立ちましたか?


