로그 그룹 추출 - 엑셀에 빈칸이 나타날 때

초간단 따라하기

➡️ DATABOARD에서 결과 로그 선택 ➡️ 최신 데이터 소스로 선택 후 추출 ➡️ 엑셀에 빈칸이 나타난다면 가장 오래된 데이터 소스로 선택 후 추출


사용방법

<로그 그룹 추출 사례>

https://search.naver.com/search.naver?where=realtime&sm=tab_jum&query=코로나

위 페이지를 약 7개월 동안 수집하고 있습니다.

  • 수집기간: 2020.08.19 ~ 2021.03.08

  • 매일 오후 4시마다 자동 수집

  • 이렇게 쌓인 로그 데이터는 총 204개 (처음 수집을 시작한 이후부터 7개월이 지난 지금까지 모두 성공적으로 추출되었습니다.)

수집 기간 중 웹 페이지 디자인이 2020.11.01 에 갑자기 변했습니다. 이걸 꼭 기억해주세요. 아래에서 로그 데이터를 추출하는데 이 날짜가 하나의 기준점이 됩니다.

2021년 3월 8일. 지금 시점에서 과거 데이터들을 한꺼번에 정리해보려 합니다. 엑셀 시트 한 장에 정리하는거죠. 이 때도 그룹 추출하는 방식과 똑같습니다. 소스가 되는 데이터를 무엇으로 선택하느냐에 따라 엑셀에 정리되는 결과가 달라집니다.

204 개 중에 소스로 삼고 싶은 데이터 결과를 선택 → 로그 엑셀 다운로드 하세요.

1. 가장 최신 (204번째) 데이터를 소스로 선택

최근 수집한 204번째 데이터를 소스로 삼고 추출해 보겠습니다. 그러면 아래 그림처럼 204번째 데이터가 엑셀 맨 위에 나타나고, 나머지는 수집시간의 오름차순으로 나타납니다. 204번째 데이터가 맨 위에 나타나는 것은, 내가 선택한 204번째 데이터를 기준으로 삼고 이와 동일한 패턴의 데이터들을 찾아 정리했다는 뜻입니다.

아래 1번째 그림은 한 눈에 보기에도 많은 빈 칸으로 보여주고 있습니다. 빈 칸으로 나타난 날짜와 데이터가 나타난 날짜를 정리하면 다음과 같습니다.

  • 빈 칸으로 나타나는 수집 날짜 범위: 2020.08.19 ~ 2020.10.31

  • 데이터가 나타나는 수집 날짜 범위: 2020.11.01 ~ 2020.03.07

눈치채셨나요? 웹 페이지가 디자인이 변한 2020.11.01 을 기준으로 이전 날짜는 빈 칸으로 나타나고, 이후 날짜는 데이터가 나타나고 있습니다. 왜 그럴까요?

로그 그룹 추출의 소스로써, 저는 2021.03.08 데이터 결과를 선택했습니다. 이 데이터가 2020.11.01 ~ 2020.03.07 까지 수집된 데이터들과 모두 같은 형태를 가지고 있기 때문입니다. 쉽게 말하면, 위 기간 동안의 웹 페이지 디자인은 항상 똑같았기 때문에 데이터들의 형태도 동일한 것이죠.

2. 가장 오래된 (1 번째) 데이터를 소스로 선택

그럼 빈 칸으로 나타난 (2020.08.19 ~ 2020.10.31 동안의) 데이터는 어떻게 받을 수 있을까요? 간단합니다. 빈 칸으로 나타난 데이터를 소스로 선택 → 로그 엑셀 다운로드 하시면 됩니다. 이번에는 1번째 데이터 (2020.08.19 수집) 를 새로운 소스로 삼아보겠습니다. 이번 결과에서는 위와 정반대의 결과가 나타납니다.

  • 데이터가 나타나는 수집 날짜 범위: 2020.08.19 ~ 2020.10.31

  • 빈 칸으로 나타나는 수집 날짜 범위: 2020.11.01 ~ 2020.03.07

Was this helpful?