설정 - 추출 속도 조정
수집 실패 확률을 낮추기 위한 수집 속도 낮추기
추출 속도 조정 기능이란?
전세계 사용자가 몰리는 유명 웹사이트들일수록 어뷰징 트래픽을 차단하는 시스템을 함께 운영합니다. 리스틀리로 데이터 수집할 때 수집 속도가 너무 빠른 경우, 해당 웹사이트는 이러한 시도를 어뷰징으로 판단하고 접속을 차단할 수 있습니다. 최악의 경우 사용자의 IP 주소를 영구 차단할 수도 있습니다. 이러한 상황을 예방하기 위해 리스틀리는 수집 속도를 사용자가 조절할 수 있는 옵션을 함께 제공합니다.
수집 속도가 빠를수록, IP 주소가 차단될 확률도 올라갑니다.
이런 경우, 리스틀리 엔터프라이즈를 사용하면 해결할 수 있습니다. 고품질프록시 별도 구매 + 자동 재시도 기능을 사용하여 매 요청마다 고품질의새로운 IP주소를 사용하고, 수집 실패하면 다른 IP주소로 자동 재시도합니다.
보다 자세한 사항은 리스틀리팀으로 문의주세요.
사용방법
1. 수집 속도 낮추기
데이터 수집 속도는 동시 수집하는 URL 개수를 의미합니다. 즉 수집 속도 15 는 최대 15개 웹페이지를 동시 수집한다는 뜻입니다. 이는 수집당하는 사이트 입장에서는 트래픽 공격이 될 수 있습니다. 실제로 많은 사이트들이 짧은 시간 동안 너무 많은 방문을 하면, 사람/로봇인지 인증하라는 문구를 띄우기도 하고 IP 차단을 해서 방문자체를 영구적으로 거부하기도 합니다. 결국 추출 실패하는 것이죠.
리스틀리에서는 이를 예방, 보완하기 위해 사용자가 직접 추출 속도를 조절할 수 있는 기능을 제공합니다. 저희가 추천하는 값은 최저값 1 또는 2 입니다. 사람이 실제로 수집하는 속도와 비슷해지는거죠. 수집 속도가 느려지는 만큼, 추출이 실패할 가능성은 낮아집니다.
아래 스크린샷처럼 리스틀리 데이터보드로 간 뒤, 우측 상단의 실행속도 바를 확인하고 눌러주세요.

원하는 속도로 조정하신 뒤 [네] 버튼을 눌러주세요.
추출속도를 1로 선택하면 가장 느리게, 반대로 15 를 선택하면 가장 빠르게 수집할 수 있습니다. 한 번에 1개의 URL을 수집하느냐, 15개의 URL을 수집하느냐의 차이입니다.

2. 수집 속도 높이기

데이터 수집을 신속하게 완료하고 싶다면, 추출속도를 높이고차단 위험을 낮출 고품질의 프록시 를 함께 사용하는 것을 추천합니다. 프록시는 별도 구매 상품입니다.
Last updated
Was this helpful?