추출 속도 조절은 언제 필요한가요?
전 세계에서 동시다발적으로 트래픽이 발생해 방문자 수가 굉장히 많은 웹 사이트들이 있습니다. 쉽게 말해 유튜브, 아마존과 같은 웹 사이트는 동시에 방문하는 사용자 수가 굉장히 많은 편이죠.
이와 같은 사이트에서 데이터를 수집 시 수집 속도가 너무 빠르게 설정되어 있다면, 해당 웹 사이트에서 사이트 방문을 어뷰징으로 판단해 데이터 추출을 제한할 수 있어요. 다시 말해, 데이터 추출이 실패하게 되죠. 사용자 IP 주소가 차단될 수도 있습니다.
리스틀리에서는 추출 실패를 방지하기 위해 데이터보드 우측 상단에 파란색 바(bar)를 만들어 데이터 추출 실행속도를 사용자가 조절할 수 있도록 지원하고 있습니다.
1. 추출 속도 줄이기
데이터 수집 속도는 동시에 수집하는 URL 개수를 의미합니다. 즉, "추출 속도 = 15"는 최대 15개의 웹 페이지를 동시에 수집한다고 해석할 수 있습니다. 실제로 데이터를 제공하게 되는 웹 사이트 입장에서는 트래픽 공격이 될 수 있습니다. 많은 웹 사이트에서 단기간에 너무 많은 웹 사이트 방문이 발생하면, 로봇(Bot)인지 아닌지 판별하고자 보안문자 인증 안내를 하기도 하죠. IP 주소를 차단해 해당 웹 사이트 방문 자체를 영구 정지하기도 합니다.
리스틀리에서는 이와 같은 문제를 예방하고 보완하기 위해 사용자가 직접 추출 속도를 조절할 수 있는 기능을 제공하고 있습니다. 기본적으로 추천드리는 추출 속도 값은 최저 1 또는 2 입니다. 이 경우, 사람이 직접 웹 사이트에 방문해 데이터를 수집하는 속도와 비슷합니다. 수집 속도가 느려지는 만큼, 데이터 추출이 실패할 가능성은 낮아집니다.
1. 데이터보드로 이동해 우측 상단의 실행 속도 바를 클릭해주세요.
2. 원하는 추출 속도로 조정하신 후, [네] 버튼을 눌러주세요. 만약 추출 속도가 느려지더라도 데이터를 확실하게 수집하고 싶다면, 가장 느린 속도인 1로 설정하시면 됩니다.
추출속도를 1로 선택하면 가장 느리게, 반대로 15 를 선택하면 가장 빠르게 수집할 수 있습니다.
한 번에 1개의 URL을 수집하느냐, 15개의 URL을 수집하느냐의 차이입니다.
2. 추출 속도 높이기
빠르게 데이터 수집을 완료하고 싶다면, 사용자의 판단 아래 추출 속도를 높일 수도 있습니다. 추출 속도가 7 일 경우, 최대 7개 웹페이지를 동시 수집한다는 뜻입니다.
다만, 앞서 안내드린 것처럼 추출 속도가 빠를수록, IP 주소가 차단될 확률도 높아지는데요. 이 경우 IP 주소가 차단되더라도 해결할 수 있는 방법은 있습니다. 리스틀리에서 일부 추가 비용을 지불하고 단독으로 사용 가능한 개인 프록시 서버를 구매하시면 해당 문제도 해결 가능합니다.