G마켓 베스트셀러 여러 상품 페이지를 한 번에 크롤링 하는 방법

여러 페이지에 걸쳐 반복되는 데이터를 리스틀리를 통해 크롤링 해보겠습니다. 추출하는 페이지의 수는 제한이 없습니다. 수백, 수천, 수만 페이지까지 동시에 데이터 추출이 가능합니다. 로그인하지 않아도 확인이 가능한, 공개된 페이지 크롤링에 해당하는 예시입니다.

​아래 그림과 같은 구조로 되어 있는 웹 페이지의 크롤링에 해당하는 방법입니다. 부모 페이지는 자식 페이지로 연결되는 하이퍼링크를 포함하고 있고, 자식 페이지에는 최종적으로 추출하려는 데이터 (예: 상품정보, 회사 이름, 이메일, 주소, 전화번호 등) 가 들어 있습니다.

예시로 G마켓(지마켓) 베스트셀러 페이지를 크롤링 해보겠습니다. 부모 페이지는 G마켓 베스트셀러 페이지가 되는 것이고, 추출하고자 하는 데이터는 자식 페이지(1위부터 200위까지의 상품 상세페이지)에 들어있는 위의 구조와 같은 웹 페이지입니다.

1. 크롤링하고자 하는 페이지 URL 한 번에 준비하기

① G마켓 베스트셀러 페이지(http://corners.gmarket.co.kr/Bestsellers)에서 리스틀리 실행 -> 전체로 크롤링

② 베스트셀러 상품 200개의 카드 확인 후, 하이퍼링크 포함 체크 후, 엑셀 변환

③ 크롤링 된 엑셀 시트에서 200개 각각의 상품 상세페이지 URL 확인 (이따 복사해서 사용할 거예요)

2. 소스 데이터 추출한 뒤 그룹 생성

① 추출한 200개의 상품 페이지 크롤링을 시작하기 전에 소스가 되는 데이터를 추출하려고 합니다. 200개의 상품 페이지 중 하나의 URL를 선택한 뒤 웹 페이지를 열어주세요. 샘플이 되는 데이터를 추출할 거예요.

② 샘플이 될 대표 상품 상세페이지에서 리스틀리 실행 -> 부분 추출 -> 화살표로 크롤링하고자 하는 정보의 영역을 지정한 뒤, Run Listly 를 클릭하여 데이터를 크롤링 하세요.

③ 추출하고자 하는 데이터의 정보가 담긴 탭을 확인하고 그룹 생성

④ 이전에 추출해둔 베스트셀러 200개의 상품 URL을 복사/붙여넣기 합니다. 샘플로 추출했던 소스 데이터와 동일하게 200개의 상품 상세페이지를 리스틀리가 대신 방문하여 정보를 크롤링 해줄 거예요.

3. 모든 데이터 크롤링 완료

그룹 엑셀을 클릭하고 데이터 정렬 방식을 선택한 후, 엑셀로 다운로드

② 200개 각각의 상품 데이터 크롤링이 완료되었습니다. 단 몇 번의 클릭으로 200개 상품페이지 데이터 크롤링이 끝났네요! 이제 원하는 방식으로 데이터를 가공하여 사용하시면 됩니다.

크롬/웨일만 있다면 쉽게 설치가 가능한 리스틀리, 지금 바로 사용해보세요. 1 Page -> 1 Excel 변환은 Free 입니다. 더 이상 복붙 NO! 야근 NO! 쉽고 빠르게 데이터를 추출하세요!