표 데이터 (Table Data)

표 데이터 기능이란?

'표처럼 생긴 데이터'를 추출할 때 유용하게 사용할 수 있는 기능입니다.

초간단 따라하기

➡️ TABLE DATA 꺼진 상태로 추출 ➡️ '표 처럼 생겼는데' 데이터가 제대로 추출되지 않은 경우, TABLE DATA 토글 버튼이 켜진 상태로 재추출


왼쪽이 OFF (꺼짐), 오른쪽이 ON (켜짐) 상태입니다. 기본값인 OFF (꺼짐) 상태로 사용하시다가, '표처럼 생겼는데 데이터가 잘 추출되지 않는 것 같다'고 생각되는 경우에는 ON (켜짐) 상태로 데이터를 추출해보세요.

다음 사이트와 같이 웹 페이지가 표(테이블)처럼 생긴 데이터를 추출할 때 유용하게 사용할 수 있습니다.

https://www.kpc.or.kr/education/CourseYear.asp?UMEduType=49049012&UMEduTheme=49050037

아래 사용 방법란에서 옵션을 껐을 때와 켰을 때의 추출 차이를 확인해보세요.


사용방법

1. TABLE DATA - OFF (꺼짐)

데이터를 추출하면 빨간 밑줄로 표시한 영역에 TABLE-LIKE 가 적용되었는지 나타납니다.

해당 옵션이 꺼져 있을 경우 (OFF), 엑셀 파일을 다운 받아보면 아래와 같습니다.

원본 페이지 vs. 추출된 데이터 비교

원본 페이지와 추출된 데이터 일부를 비교해볼까요?

그런데 값이 좀 이상하네요. 어떤 문자열은 일부 중복 추출 되었거나 (31, 31천안, 21, 21청주 등) 열 사이 사이 빈 칸의 수도 다릅니다. 원본 페이지의 옅은 녹색 으로 표시한 빈 칸 영역들을 기준으로 엑셀 파일과 비교해 보면 추출된 데이터 정렬이 원본과 다르다는 한 눈에 알 수 있습니다.

2. TABLE DATA - ON (켜짐)

동일한 웹사이트에서 TABLE-LIKE 옵션은 켜고 추출해보겠습니다.

빨간 밑줄로 표시한 영역에 TABLE-LIKE 가 적용되었다고 나오네요.

원본 페이지 vs. 추출된 데이터 비교

1번에서 비교했던 것과 동일한 영역의 원본 페이지와 추출된 데이터를 비교해보겠습니다.

TABLE-LIKE 옵션을 활성화한 상태로 데이터 추출 시, 원본 페이지의 옅은 녹색으로 표시한 빈 칸 영역들과 추출된 데이터의 빈 칸 영역이 정확하게 일치하고 중복으로 추출된 텍스트도 없습니다.

리스틀리 사용자들을 관찰한 결과, 표로 된 데이터를 다루는 비율은 약 10% 정도였습니다. 즉, 대부분의 경우에는 TABLE-LIKE 옵션을 사용하실 필요가 없어요. 그러니 기본값인 OFF (꺼짐) 상태로 사용하시다가, '표처럼 생겼는데 잘 안 나오는 것 같다' 라고 판단되는 경우에 ON (켜짐) 하시고 추출해보시는 것을 추천드립니다.

Last updated

Was this helpful?