企业版 - 自动抓取子页面
什么是自动子页面采集?

当列表页面出现新的帖子或产品时,子页面 URL 会自动添加到批量中并进行提取。通过自动子页面采集,您无需手动逐个收集或更新地址——您可以自动检测更新的列表并采集新数据。
此功能在提取帖子或产品页面等持续更新的页面时特别有用。例如,如果您连接一个每天注册新产品的购物网站列表页面,新的产品详情页将被自动采集,保持最新数据状态。
什么是子页面?
子页面是指除网站主页(首页)之外的所有下级页面。
使用方法
1
2
创建子任务并连接到父任务
在详情页上,选择将作为批量提取参考的区域并提取数据。 (此过程与常规批量提取相同。)

在结果页面上,检查所选数据所在的标签页,然后点击 [+Group] 按钮。

在批量提取设置窗口底部的 URL 输入字段中,选择 [Choose URL from existing task] 并粘贴您之前创建的父任务的 URL。

点击 [Preview] 按钮并选择包含详情页 URL 的列。如果底部预览窗口中出现 5 个 URL,则表示正常工作。确认后,点击 [Done] 按钮。


当您这样注册批量时,子任务(详情页批量提取任务)会连接到父任务(超链接采集任务)下面。每当父任务发现新链接时,这些 URL 会自动添加到子任务并进行采集。因此,请在父任务上设置调度。

根据您期望的频率和时间段设置调度。

当父任务按设定的调度运行时,如果列表页面上注册了新项目,这些 URL 将自动更新到子批量中。


重要提示
自动子页面提取功能不是新帖子检测功能,而是基于按调度运行的自动提取方法运行。当父任务按用户注册的调度运行时,如果在列表页面上发现新内容,这些链接会自动添加到子任务并进行采集。
最后更新于
这有帮助吗?


