설정 - 추출 속도 조정

수집 실패 확률을 낮추기 위한 수집 속도 낮추기

추출 속도 조정 기능이란?

전세계 사용자가 몰리는 유명 웹사이트들일수록 어뷰징 트래픽을 차단하는 시스템을 함께 운영합니다. 리스틀리로 데이터 수집할 때 수집 속도가 너무 빠른 경우, 해당 웹사이트는 이러한 시도를 어뷰징으로 판단하고 접속을 차단할 수 있습니다. 최악의 경우 사용자의 IP 주소를 영구 차단할 수도 있습니다. 이러한 상황을 예방하기 위해 리스틀리는 수집 속도를 사용자가 조절할 수 있는 옵션을 함께 제공합니다.


사용방법

1. 수집 속도 낮추기

데이터 수집 속도는 동시 수집하는 URL 개수를 의미합니다. 즉 수집 속도 15 는 최대 15개 웹페이지를 동시 수집한다는 뜻입니다. 이는 수집당하는 사이트 입장에서는 트래픽 공격이 될 수 있습니다. 실제로 많은 사이트들이 짧은 시간 동안 너무 많은 방문을 하면, 사람/로봇인지 인증하라는 문구를 띄우기도 하고 IP 차단을 해서 방문자체를 영구적으로 거부하기도 합니다. 결국 추출 실패하는 것이죠.

리스틀리에서는 이를 예방, 보완하기 위해 사용자가 직접 추출 속도를 조절할 수 있는 기능을 제공합니다. 저희가 추천하는 값은 최저값 1 또는 2 입니다. 사람이 실제로 수집하는 속도와 비슷해지는거죠. 수집 속도가 느려지는 만큼, 추출이 실패할 가능성은 낮아집니다.

아래 스크린샷처럼 리스틀리 데이터보드로 간 뒤, 우측 상단의 실행속도 바를 확인하고 눌러주세요.

원하는 속도로 조정하신 뒤 [네] 버튼을 눌러주세요.

추출속도를 1로 선택하면 가장 느리게, 반대로 15 를 선택하면 가장 빠르게 수집할 수 있습니다. 한 번에 1개의 URL을 수집하느냐, 15개의 URL을 수집하느냐의 차이입니다.

2. 수집 속도 높이기

데이터 수집을 신속하게 완료하고 싶다면, 추출속도를 높이고차단 위험을 낮출 고품질의 프록시 를 함께 사용하는 것을 추천합니다. 프록시는 별도 구매 상품입니다.

Last updated

Was this helpful?