[Enterprise] 서브페이지 자동 수집

서브페이지 자동 수집이란?

목록 페이지에 새 글이나 상품이 올라오면, 해당 서브페이지의 URL이 자동으로 그룹에 추가되어 추출이 진행되는 기능입니다. 서브페이지 자동 수집 기능 사용 시, 직접 주소를 하나씩 모으거나 업데이트할 필요 없이 변경된 목록을 자동으로 감지해 새 데이터를 수집할 수 있습니다.

이 기능은 게시글·상품 페이지처럼 지속적으로 업데이트되는 페이지를 추출할 때 특히 유용하게 사용할 수 있습니다. 예를 들어, 매일 새로운 상품이 등록되는 쇼핑몰 목록 페이지를 연결해두면, 새로운 상품의 상세 페이지가 자동으로 수집되어 최신 데이터 상태를 유지할 수 있습니다.


사용방법

1

상위 작업(부모 작업) 만들기

  1. 목록 페이지에서 리스틀리를 실행하고 [부분+] 버튼을 클릭합니다.

  1. 추출영역을 선택한 후, 추출옵션에서 ‘Hyperlink’를 선택하여 각 상세페이지의 링크만 수집합니다.

  1. 상세 페이지의 하이퍼링크만 수집된 이 태스크는 ‘서브페이지 자동 수집’에 필요한 상위 작업입니다. 이 태스크의 URL은 이후 하위 작업에 연결할 때 사용되므로, 미리 복사해두면 편리합니다.

2

하위 작업(자식 작업) 생성 후 상위 작업과 연결하기

  1. 상세 페이지에서 그룹추출의 기준이 되어줄 영역을 선택하여 데이터를 추출합니다. (이 과정은 일반 그룹추출과 동일합니다.)

  1. 결과 페이지에서 선택한 데이터가 위치한 ‘탭’을 확인한 후, [+그룹] 버튼을 클릭합니다.

  1. 그룹추출 설정창 하단의 URL 입력란에서 [Choose URL from existing task]를 선택하고, 이전에 생성한 상위 작업(I-3 단계)의 URL을 붙여넣습니다.

  1. [Preview] 버튼을 클릭하고, 상세페이지 URL이 들어있는 열을 선택합니다. 하단 미리보기 창에 5개의 URL이 표시되면 정상입니다. 확인 후 [완료] 버튼을 클릭합니다.

  1. 이 방식으로 그룹을 등록하면, 상위 작업(하이퍼링크 수집 태스크) 아래에 하위 작업(상세 페이지 그룹추출 태스크)이 연결됩니다. 상위 작업이 새 링크를 발견할 때마다, 하위 작업에 해당 URL이 자동으로 추가되고 수집이 진행됩니다. 그러므로 스케줄은 상위작업에 설정해주세요.

  1. 원하는 주기와 시간대에 맞춰 스케줄을 설정합니다.

  1. 설정된 스케줄에 따라 상위 작업이 실행될 때, 목록 페이지에 새 아이템이 등록되어 있으면 해당 URL이 하위 그룹에 자동으로 업데이트됩니다.

주의사항

Last updated

Was this helpful?