로그 그룹 추출 - 엑셀에 빈칸이 나타날 때
로그 그룹 추출이란?
매 시간, 매일 수집했던 정보들을 한 번에 다운로드할 때 사용하는 기능입니다. 로그는 같은 페이지를 여러 번 (2회 이상) 추출 했을 경우 생성되며, 이 기능을 이용해 과거 데이터를 한 번에 모아 엑셀 시트 한 장으로 정리할 수 있습니다.
로그 그룹 추출 시 엑셀이 빈칸에 나타난다면, 소스를 바꿔 추출해보세요.
사용방법
<로그 그룹 추출 사례>
https://search.naver.com/search.naver?where=realtime&sm=tab_jum&query=코로나

위 페이지를 약 7개월 동안 수집하고 있습니다.
수집기간: 2020.08.19 ~ 2021.03.08
매일 오후 4시마다 자동 수집
이렇게 쌓인 로그 데이터는 총 204개 (처음 수집을 시작한 이후부터 7개월이 지난 지금까지 모두 성공적으로 추출되었습니다.)
수집 기간 중 웹 페이지 디자인이 2020.11.01 에 갑자기 변했습니다. 이걸 꼭 기억해주세요. 아래에서 로그 데이터를 추출하는데 이 날짜가 하나의 기준점이 됩니다.
2021년 3월 8일. 지금 시점에서 과거 데이터들을 한꺼번에 정리해보려 합니다. 엑셀 시트 한 장에 정리하는거죠. 이 때도 그룹 추출하는 방식과 똑같습니다. 소스가 되는 데이터를 무엇으로 선택하느냐에 따라 엑셀에 정리되는 결과가 달라집니다.
204 개 중에 소스로 삼고 싶은 데이터 결과를 선택 → 로그 엑셀 다운로드 하세요.



1. 가장 최신 (204번째) 데이터를 소스로 선택
최근 수집한 204번째 데이터를 소스로 삼고 추출해 보겠습니다. 그러면 아래 그림처럼 204번째 데이터가 엑셀 맨 위에 나타나고, 나머지는 수집시간의 오름차순으로 나타납니다. 204번째 데이터가 맨 위에 나타나는 것은, 내가 선택한 204번째 데이터를 기준으로 삼고 이와 동일한 패턴의 데이터들을 찾아 정리했다는 뜻입니다.
아래 1번째 그림은 한 눈에 보기에도 많은 빈 칸으로 보여주고 있습니다. 빈 칸으로 나타난 날짜와 데이터가 나타난 날짜를 정리하면 다음과 같습니다.
빈 칸으로 나타나는 수집 날짜 범위: 2020.08.19 ~ 2020.10.31
데이터가 나타나는 수집 날짜 범위: 2020.11.01 ~ 2020.03.07
눈치채셨나요? 웹 페이지가 디자인이 변한 2020.11.01 을 기준으로 이전 날짜는 빈 칸으로 나타나고, 이후 날짜는 데이터가 나타나고 있습니다. 왜 그럴까요?
로그 그룹 추출의 소스로써, 저는 2021.03.08 데이터 결과를 선택했습니다. 이 데이터가 2020.11.01 ~ 2020.03.07 까지 수집된 데이터들과 모두 같은 형태를 가지고 있기 때문입니다. 쉽게 말하면, 위 기간 동안의 웹 페이지 디자인은 항상 똑같았기 때문에 데이터들의 형태도 동일한 것이죠.


2. 가장 오래된 (1 번째) 데이터를 소스로 선택
그럼 빈 칸으로 나타난 (2020.08.19 ~ 2020.10.31 동안의) 데이터는 어떻게 받을 수 있을까요? 간단합니다. 빈 칸으로 나타난 데이터를 소스로 선택 → 로그 엑셀 다운로드 하시면 됩니다. 이번에는 1번째 데이터 (2020.08.19 수집) 를 새로운 소스로 삼아보겠습니다. 이번 결과에서는 위와 정반대의 결과가 나타납니다.
데이터가 나타나는 수집 날짜 범위: 2020.08.19 ~ 2020.10.31
빈 칸으로 나타나는 수집 날짜 범위: 2020.11.01 ~ 2020.03.07


Was this helpful?