表格数据

什么是表格数据?

这是一个在提取"看起来像表格"的数据时非常有用的功能。

快速入门

➡️ 在 TABLE DATA 关闭时提取 ➡️ 如果"看起来像表格"但数据提取不正确,打开 TABLE DATA 切换开关重新提取


左边是关闭状态,右边是开启状态。使用默认的关闭状态,当您觉得"看起来像表格但数据提取不好"时,尝试开启后再提取。

对于像这个网站一样看起来像表格(tables)的网页数据提取很有用:

https://www.kpc.or.kr/education/CourseYear.asp?UMEduType=49049012\&UMEduTheme=49050037

在下方的使用方法部分查看选项关闭和开启时的提取差异。


使用方法

1

TABLE DATA - 关闭

提取数据时,红色下划线区域显示 TABLE-LIKE 是否已应用。

当此选项关闭(OFF)时,下载 Excel 文件看起来像这样:

原始页面与提取数据对比

让我们将原始页面与部分提取数据进行对比。

但这些值看起来有点不对。一些字符串在提取时被部分重复(31, 31Cheonan, 21, 21Cheongju 等),列之间的空白数量也不同。将原始页面的浅绿色空白区域与 Excel 文件对比,可以看到提取数据的对齐方式与原始页面一眼就能看出不同

2

TABLE DATA - 开启

让我们在开启 TABLE-LIKE 选项的情况下从同一网站提取。

红色下划线区域显示 TABLE-LIKE 已应用。

原始页面与提取数据对比

让我们将原始页面与第 1 节相同区域的提取数据进行对比。

启用 TABLE-LIKE 选项提取数据时,原始页面上用浅绿色标记的空白区域与提取数据的空白区域完全匹配,且没有重复的文本

观察 Listly 用户,只有约 10% 的用户处理表格数据。所以在大多数情况下,您不需要 TABLE-LIKE 选项。使用默认的关闭状态,只有当您判断"看起来像表格但提取不好"时才将其开启。

这有帮助吗?