목록 페이지주소, url 추출이 안 됩니다.

그룹 추출을 위해서는 목록 페이지의 URL 주소가 필요합니다. 그러나 가끔씩, 리스틀리로 목록 페이지를 추출해도 URL 주소가 얻어지지 않는 경우가 발생할 수 있습니다. 이는 해당 웹사이트의 개발팀이 의도적으로 URL 주소 추출을 불가능하도록 숨겨두었기 때문입니다. 그러나 걱정하실 필요는 없어요!

최근에 출시된 리스틀리의 새로운 기능인 "parts"를 활용하여 문제를 해결할 수 있기 때문입니다. 이 방법은 일반적인 추출 방법과는 조금 다를 수 있지만, 차근차근 따라하시면 쉽게 익힐 수 있습니다.

자, 우선 상세 페이지 하나씩을 열어서 확인해보시길 권해드리는데요.

예제로는 해당 웹사이트를 선택했습니다.

Screenshot 2023-12-03 231337

그리고 상세페이지 몇 개를 예시로 들어가보았습니다. 하나하나 확인해보니, 아래와 같은 주소를 나타냈습니다.

https://www.lotteon.com/p/product/LE1215109945?sitmNo=LE1215109945_1287396581&mall_no=2&dp_infw_cd=SCH%EB%82%98%EC%9D%B4%ED%82%A4&areaCode=SCH

https://www.lotteon.com/p/product/PD25694539?mall_no=2&dp_infw_cd=CASLE24010505&areaCode=CAS

https://www.lotteon.com/p/product/LE1208902210?sitmNo=LE1208902210_1248173360&mall_no=2&dp_infw_cd=CASLE24010505&areaCode=CAS

이 주소들을 자세히 살펴보면, p/product/ 뒤의 값이 약간씩 다르게 변하는 것을 알 수 있습니다. 이를 정확히 확인하기 위해 LISTLY PARTS를 활용해보겠습니다.

Screenshot 2023-12-03 232116

여기서 parts 요소 중 임의의 한 요소, 아무거나를 선택해주세요.

저는 타이틀 위주로 선택했습니다. (나이키 에어맥스 sc cw4555.. 의 블록)

Screenshot 2023-12-03 223459

그러면 위의 이미지처럼, 자동으로 유사한 블록끼리 매칭됩니다. 그 후에 우측에 표시된 리스틀리 아이콘을 확인하면 HTML Attribute 옵션이 표시될텐데요.

이 드롭다운을 클릭하여 HTML Attribute 으로 변경한 다음, 바로 아래 나타나는 빈칸에 'id' 라고 값을 입력해주세요.

이제부터는 리스틀리 알고리즘이 자동으로 id 값을 찾아줄 것입니다. "Run Listly" 버튼을 클릭합니다.

Screenshot 2023-12-03 225620

그런 다음 데이터 보드를 확인하면, 위와 같은 데이터 값이 나타날 것입니다. 이 숫자들은 일렬로 나열되어 있지만, 자세히 살펴보면 공통된 규칙이 있다는 것을 알 수 있습니다. 이 데이터가 바로 프로덕트 고유의 값, 즉 URL 주소를 나타내는 힌트입니다.

즉, 이 값들이 바로 웹사이트에 숨겨져 있던 제품 ID 값으로 그룹 추출을 위한 URL주소 들인 거죠.

제품 ID 값은 "product-head-LE1215109945"와 같은 형태일 것인데, 여기서 "product-head-"를 제거하고 뒤의 값만 사용하면 됩니다.

따라서 이 값을 가져와서 "https://www.lotteon.com/p/product/" 뒤에 붙이면 다음과 같은 형식이 됩니다: "https://www.lotteon.com/p/product/LE1215109945".

이렇게 얻은 제품값을 사용하여 목록 페이지의 URL 링크를 생성한 다음, 그룹 추출 (상세페이지 추출)을 진행하시면 됩니다.