# サブページの自動スクレイピング

## サブページ自動収集とは？

![image](https://content.gitbook.com/content/I8js41AfLS5QdXKB7e8A/blobs/HUUUTmsHuR30OY0dpGkV/enterprise%20subpage%201.png)

リストページに新しい投稿や商品が投稿されると、そのサブページのURLが自動的にグループに追加され、抽出が実行される機能です。サブページ自動収集機能を使用すると、アドレスを1つずつ収集したり更新したりする必要なく、**変更されたリストを自動的に検出して新しいデータを収集**できます。

この機能は、**投稿・商品ページのように継続的に更新されるページ**を抽出する際に特に便利です。\
たとえば、毎日新しい商品が登録されるショッピングモールのリストページを接続しておくと、新しい商品の詳細ページが自動的に収集され、**最新のデータ状態を維持できます。**

{% hint style="success" %}
**サブページ（Subpage）とは？**

ウェブサイトのメインページ（ホームページ）を除くすべての下位ページを意味します。
{% endhint %}

***

## 使い方

{% stepper %}
{% step %}

#### 上位作業（親作業）を作成

{% stepper %}
{% step %}
リストページでListlyを実行し、\*\*\[部分+]\*\*ボタンをクリックします。

![image](https://content.gitbook.com/content/I8js41AfLS5QdXKB7e8A/blobs/3cOmR7imnbhawBYBNA1W/enterprise%20subpage%202.png)
{% endstep %}

{% step %}
抽出領域を選択した後、抽出オプションで\*\*「Hyperlink」\*\*を選択して、各詳細ページのリンクのみを収集します。

![image](https://content.gitbook.com/content/I8js41AfLS5QdXKB7e8A/blobs/lbvVpwlGBxHSQZBxcsxc/enterprise%20subpage%203.png)
{% endstep %}

{% step %}
**詳細ページのハイパーリンクのみが収集されたこのタスクは、「サブページ自動収集」に必要な上位作業です。** このタスクのURLは、後で下位作業に接続する際に使用されるため、事前にコピーしておくと便利です。

![image](https://content.gitbook.com/content/I8js41AfLS5QdXKB7e8A/blobs/uX44XuF6vxxayXMMcEXa/enterprise%20subpage%204.png)
{% endstep %}
{% endstepper %}
{% endstep %}

{% step %}

#### 下位作業（子作業）を作成して上位作業と接続

{% stepper %}
{% step %}
詳細ページで、グループ抽出の基準となる領域を選択してデータを抽出します。\
（このプロセスは通常の[グループ抽出](https://help.listly.io/docs/ja/~/revisions/BRSLbUB6NrSu5yrQZiRv/getting-started/result-page-features/group-extraction)と同じです。）

![image](https://content.gitbook.com/content/I8js41AfLS5QdXKB7e8A/blobs/icEqApLfXgvfQpKYdVPv/enterprise%20subpage%205.png)
{% endstep %}

{% step %}
結果ページで選択したデータが配置されている「タブ」を確認した後、\*\*\[+グループ]\*\*ボタンをクリックします。

![image](https://content.gitbook.com/content/I8js41AfLS5QdXKB7e8A/blobs/J5JHuzxW26rd5czBv9Sx/enterprise%20subpage%206.png)
{% endstep %}

{% step %}
グループ抽出設定ウィンドウ下部のURL入力欄で\*\*\[Choose URL from existing task]\*\*を選択し、以前に作成した上位作業（I-3ステップ）のURLを貼り付けます。

![image](https://content.gitbook.com/content/I8js41AfLS5QdXKB7e8A/blobs/oFIeEE9uR1oV1Q50Dhtk/enterprise%20subpage%207.png)
{% endstep %}

{% step %}
\*\*\[Preview]**ボタンをクリックし、詳細ページのURLが含まれている列を選択します。下部のプレビューウィンドウに5つのURLが表示されれば正常です。確認後、**\[完了]\*\*ボタンをクリックします。

![image](https://content.gitbook.com/content/I8js41AfLS5QdXKB7e8A/blobs/FAp0HUs7mVhnvkk2R3WQ/enterprise%20subpage%208.png)

![](https://content.gitbook.com/content/I8js41AfLS5QdXKB7e8A/blobs/mNIzGltJDDweeukh1Xfb/unknown.png)
{% endstep %}

{% step %}
この方法でグループを登録すると、上位作業（ハイパーリンク収集タスク）の下に下位作業（詳細ページグループ抽出タスク）が接続されます。上位作業が新しいリンクを発見するたびに、下位作業にそのURLが自動的に追加され、収集が実行されます。したがって、**スケジュールは上位作業に設定してください。**

![image](https://content.gitbook.com/content/I8js41AfLS5QdXKB7e8A/blobs/B5N4ZKck4mHtbvNUZvgj/enterprise%20subpage%209.png)
{% endstep %}

{% step %}
目的の周期と時間帯に合わせてスケジュールを設定します。

![image](https://content.gitbook.com/content/I8js41AfLS5QdXKB7e8A/blobs/d9jwnoYT9IBH8bVqZFPz/enterprise%20subpage%2010.png)
{% endstep %}

{% step %}
設定されたスケジュールに従って上位作業が実行されると、リストページに新しいアイテムが登録されている場合、そのURLが下位グループに自動的に更新されます。

![image](https://content.gitbook.com/content/I8js41AfLS5QdXKB7e8A/blobs/qoNt8vH7cHI7yw30fk9I/enterprise%20subpage%2011.png)

![image](https://content.gitbook.com/content/I8js41AfLS5QdXKB7e8A/blobs/NsjSPlo9myfVvWaN08Do/enterprise%20subpage%2012.png)
{% endstep %}
{% endstepper %}
{% endstep %}
{% endstepper %}

{% hint style="warning" %}
**注意事項**

サブページ自動抽出機能は、新しい投稿を検出する機能ではなく、**スケジュールに従って実行される自動抽出方式**を基に動作します。ユーザーが登録したスケジュールに従って上位作業が実行されると、リストページで新しいコンテンツが発見された場合、そのリンクが自動的に下位作業に追加され、収集が実行されます。
{% endhint %}


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://help.listly.io/docs/ja/getting-started/enterprise-solutions/auto-scrape-sub-pages.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
