추출이 잘 되다가, 갑자기 추출 실패합니다. 웹페이지 구조가 변경되면 어떡하나요?
그간 설정해둔 그룹추출/스케줄러 추출이 문제 없이 진행되다가, 갑자기 추출에 실패하는 경우가 생깁니다.
이 경우 높은 확률로 웹페이지의 구조가 변경되어서 발생하는 상황입니다.
일반적으로 웹 페이지 구조 변경 주기는 빨라도 2-3개월에 한 번 정도입니다.
갑자기 수집 실패가 발생하면 새로운 태스크를 다시 생성하여 전과 같이 설정값을 선택해주시면 됩니다.
다만 수집하는 사이트 개수가 2,000 개 이상이 될 경우, 처음부터 수집 영역을 느슨하게 설정하는 것을 추천합니다.
데이터가 존재할만한 영역을 크게 설정해주면 해당 영역이 없어서 실패하는 일이 크게 줄어들기 때문입니다.
아래에 스크린샷을 통해 예를 들어보겠습니다.
수집 영역을 뾰족하게 선택한 화면입니다.
아래처럼, 느슨한 영역을 선택한다면 비교적 수집되는 데이터가 덜 정제된 상태가 되는데요.
대신 수집 영역이 넓게 설정되기에 해당 영역이 존재하지 않아 수집에 실패하는 일은 줄어듭니다.
다만 이 떄는 후처리가 필요하기에, 특정 수식이나 AI툴을 사용해서 데이터 정제 과정을 자동화하시기를 권해드립니다.