企业版 - 自动抓取子页面

什么是自动子页面采集?

当列表页面出现新的帖子或产品时,子页面 URL 会自动添加到批量中并进行提取。通过自动子页面采集,您无需手动逐个收集或更新地址——您可以自动检测更新的列表并采集新数据

此功能在提取帖子或产品页面等持续更新的页面时特别有用。例如,如果您连接一个每天注册新产品的购物网站列表页面,新的产品详情页将被自动采集,保持最新数据状态


使用方法

1

创建父任务

  • 在列表页面上运行 Listly 并点击 [Parts] 按钮。

  • 选择提取区域后,在提取选项中选择 'Hyperlink' 以仅收集每个详情页的链接。

  • 这个仅收集详情页超链接的任务就是"自动子页面采集"所需的父任务。 此任务的 URL 稍后在连接子任务时会用到,提前复制会更方便。

2

创建子任务并连接到父任务

  • 在详情页上,选择将作为批量提取参考的区域并提取数据。 (此过程与常规批量提取相同。)

  • 在结果页面上,检查所选数据所在的标签页,然后点击 [+Group] 按钮。

  • 在批量提取设置窗口底部的 URL 输入字段中,选择 [Choose URL from existing task] 并粘贴您之前创建的父任务的 URL。

  • 点击 [Preview] 按钮并选择包含详情页 URL 的列。如果底部预览窗口中出现 5 个 URL,则表示正常工作。确认后,点击 [Done] 按钮。

  • 当您这样注册批量时,子任务(详情页批量提取任务)会连接到父任务(超链接采集任务)下面。每当父任务发现新链接时,这些 URL 会自动添加到子任务并进行采集。因此,请在父任务上设置调度。

  • 根据您期望的频率和时间段设置调度。

  • 当父任务按设定的调度运行时,如果列表页面上注册了新项目,这些 URL 将自动更新到子批量中。

最后更新于

这有帮助吗?