设置 - 日志批量提取 - 空白单元格

群组提取空单元格是什么?

记录群组提取时哪些页面的哪些字段为空的日志。帮助识别数据质量问题。


查看方法

1

访问数据面板

登录后访问数据面板。

2

选择任务

选择要查看日志的群组提取任务。

3

打开日志

点击 [日志] 标签查看详细信息。

4

查看空单元格统计

在日志中可以看到:

  • 每个字段的空值数量

  • 空值百分比

  • 具体哪些 URL 为空


如何使用?

识别数据质量问题

  • 某些字段空值过多 → 可能需要调整选择器

  • 特定 URL 全部为空 → 该页面可能结构不同

  • 随机分散的空值 → 可能是网站数据本身缺失

改进提取

1

查看空值多的字段

确定哪些字段的空值比例较高。

2

检查页面是否有该数据

打开示例 URL,确认页面是否实际包含该数据。

3

调整 Parts 选择或 CSS 选择器

根据页面结构调整提取配置,涵盖不同格式或变体。

4

重新测试

运行提取并再次查看日志,确认空值问题是否得到改善。


示例场景

场景 1:价格字段 50% 为空

  • 原因:某些商品可能正在折扣中,价格格式不同

  • 解决:调整选择器包含折扣价格格式

场景 2:图片字段 10% 为空

  • 原因:某些商品确实没有图片

  • 解决:这可能是正常情况,不一定是错误

场景 3:特定 URL 完全为空

  • 原因:该页面结构与其他页面不同

  • 解决:从列表中排除该 URL 或单独处理


相关功能

这有帮助吗?