[Enterprise] 서브페이지 자동 수집
서브페이지 자동 수집이란?

목록 페이지에 새 글이나 상품이 올라오면, 해당 서브페이지의 URL이 자동으로 그룹에 추가되어 추출이 진행되는 기능입니다. 서브페이지 자동 수집 기능 사용 시, 직접 주소를 하나씩 모으거나 업데이트할 필요 없이 변경된 목록을 자동으로 감지해 새 데이터를 수집할 수 있습니다.
이 기능은 게시글·상품 페이지처럼 지속적으로 업데이트되는 페이지를 추출할 때 특히 유용하게 사용할 수 있습니다. 예를 들어, 매일 새로운 상품이 등록되는 쇼핑몰 목록 페이지를 연결해두면, 새로운 상품의 상세 페이지가 자동으로 수집되어 최신 데이터 상태를 유지할 수 있습니다.
서브페이지(Subpage)란?
웹사이트의 메인 페이지(홈페이지)를 제외한 모든 하위 페이지를 의미합니다.
사용방법
하위 작업(자식 작업) 생성 후 상위 작업과 연결하기
상세 페이지에서 그룹추출의 기준이 되어줄 영역을 선택하여 데이터를 추출합니다. (이 과정은 일반 그룹추출과 동일합니다.)

결과 페이지에서 선택한 데이터가 위치한 ‘탭’을 확인한 후, [+그룹] 버튼을 클릭합니다.

그룹추출 설정창 하단의 URL 입력란에서 [Choose URL from existing task]를 선택하고, 이전에 생성한 상위 작업(I-3 단계)의 URL을 붙여넣습니다.

[Preview] 버튼을 클릭하고, 상세페이지 URL이 들어있는 열을 선택합니다. 하단 미리보기 창에 5개의 URL이 표시되면 정상입니다. 확인 후 [완료] 버튼을 클릭합니다.


이 방식으로 그룹을 등록하면, 상위 작업(하이퍼링크 수집 태스크) 아래에 하위 작업(상세 페이지 그룹추출 태스크)이 연결됩니다. 상위 작업이 새 링크를 발견할 때마다, 하위 작업에 해당 URL이 자동으로 추가되고 수집이 진행됩니다. 그러므로 스케줄은 상위작업에 설정해주세요.

원하는 주기와 시간대에 맞춰 스케줄을 설정합니다.

설정된 스케줄에 따라 상위 작업이 실행될 때, 목록 페이지에 새 아이템이 등록되어 있으면 해당 URL이 하위 그룹에 자동으로 업데이트됩니다.


Last updated
Was this helpful?


