추출 속도 조절은 언제 필요한가요?

전 세계에서 동시다발적으로 트래픽이 발생해 방문자 수가 굉장히 많은 웹 사이트들이 있습니다. 쉽게 말해 유튜브, 아마존과 같은 웹 사이트는 동시에 방문하는 사용자 수가 굉장히 많은 편이죠.

이와 같은 사이트에서 데이터를 수집 시 수집 속도가 너무 빠르게 설정되어 있다면, 해당 웹 사이트에서 사이트 방문을 어뷰징으로 판단해 데이터 추출을 제한할 수 있어요. 다시 말해, 데이터 추출이 실패하게 되죠. 사용자 IP 주소가 차단될 수도 있습니다.

리스틀리에서는 추출 실패를 방지하기 위해 데이터보드 우측 상단에 파란색 바(bar)를 만들어 데이터 추출 실행속도를 사용자가 조절할 수 있도록 지원하고 있습니다.

1. 추출 속도 줄이기


데이터 수집 속도는 동시에 수집하는 URL 개수를 의미합니다. 즉, "추출 속도 = 15"는 최대 15개의 웹 페이지를 동시에 수집한다고 해석할 수 있습니다. 실제로 데이터를 제공하게 되는 웹 사이트 입장에서는 트래픽 공격이 될 수 있습니다. 많은 웹 사이트에서 단기간에 너무 많은 웹 사이트 방문이 발생하면, 로봇(Bot)인지 아닌지 판별하고자 보안문자 인증 안내를 하기도 하죠. IP 주소를 차단해 해당 웹 사이트 방문 자체를 영구 정지하기도 합니다.

리스틀리에서는 이와 같은 문제를 예방하고 보완하기 위해 사용자가 직접 추출 속도를 조절할 수 있는 기능을 제공하고 있습니다. 기본적으로 추천드리는 추출 속도 값은 최저 1 또는 2 입니다. 이 경우, 사람이 직접 웹 사이트에 방문해 데이터를 수집하는 속도와 비슷합니다. 수집 속도가 느려지는 만큼, 데이터 추출이 실패할 가능성은 낮아집니다.

1. 데이터보드로 이동해 우측 상단의 실행 속도 바를 클릭해주세요.

추출속도

2. 원하는 추출 속도로 조정하신 후, [네] 버튼을 눌러주세요. 만약 추출 속도가 느려지더라도 데이터를 확실하게 수집하고 싶다면, 가장 느린 속도인 1로 설정하시면 됩니다.

추출속도를 1로 선택하면 가장 느리게, 반대로 15 를 선택하면 가장 빠르게 수집할 수 있습니다. 한 번에 1개의 URL을 수집하느냐, 15개의 URL을 수집하느냐의 차이입니다.

리스틀리추출속도

2. 추출 속도 높이기


빠르게 데이터 수집을 완료하고 싶다면, 사용자의 판단 아래 추출 속도를 높일 수도 있습니다. 추출 속도가 7 일 경우, 최대 7개 웹페이지를 동시 수집한다는 뜻입니다.

다만, 앞서 안내드린 것처럼 추출 속도가 빠를수록, IP 주소가 차단될 확률도 높아지는데요. 이 경우 IP 주소가 차단되더라도 해결할 수 있는 방법은 있습니다. 리스틀리에서 일부 추가 비용을 지불하고 단독으로 사용 가능한 개인 프록시 서버를 구매하시면 해당 문제도 해결 가능합니다.

추출속도리스틀리