サブページの自動スクレイピング

サブページ自動収集とは?

image

リストページに新しい投稿や商品が投稿されると、そのサブページのURLが自動的にグループに追加され、抽出が実行される機能です。サブページ自動収集機能を使用すると、アドレスを1つずつ収集したり更新したりする必要なく、変更されたリストを自動的に検出して新しいデータを収集できます。

この機能は、投稿・商品ページのように継続的に更新されるページを抽出する際に特に便利です。 たとえば、毎日新しい商品が登録されるショッピングモールのリストページを接続しておくと、新しい商品の詳細ページが自動的に収集され、最新のデータ状態を維持できます。


使い方

1

上位作業(親作業)を作成

1

リストページでListlyを実行し、**[部分+]**ボタンをクリックします。

image
2

抽出領域を選択した後、抽出オプションで**「Hyperlink」**を選択して、各詳細ページのリンクのみを収集します。

image
3

詳細ページのハイパーリンクのみが収集されたこのタスクは、「サブページ自動収集」に必要な上位作業です。 このタスクのURLは、後で下位作業に接続する際に使用されるため、事前にコピーしておくと便利です。

image
2

下位作業(子作業)を作成して上位作業と接続

1

詳細ページで、グループ抽出の基準となる領域を選択してデータを抽出します。 (このプロセスは通常のグループ抽出と同じです。)

image
2

結果ページで選択したデータが配置されている「タブ」を確認した後、**[+グループ]**ボタンをクリックします。

image
3

グループ抽出設定ウィンドウ下部のURL入力欄で**[Choose URL from existing task]**を選択し、以前に作成した上位作業(I-3ステップ)のURLを貼り付けます。

image
4

**[Preview]ボタンをクリックし、詳細ページのURLが含まれている列を選択します。下部のプレビューウィンドウに5つのURLが表示されれば正常です。確認後、[完了]**ボタンをクリックします。

image
5

この方法でグループを登録すると、上位作業(ハイパーリンク収集タスク)の下に下位作業(詳細ページグループ抽出タスク)が接続されます。上位作業が新しいリンクを発見するたびに、下位作業にそのURLが自動的に追加され、収集が実行されます。したがって、スケジュールは上位作業に設定してください。

image
6

目的の周期と時間帯に合わせてスケジュールを設定します。

image
7

設定されたスケジュールに従って上位作業が実行されると、リストページに新しいアイテムが登録されている場合、そのURLが下位グループに自動的に更新されます。

image
image

最終更新

役に立ちましたか?