로그인이 필요한 페이지의 웹 크롤링
통계 분석이나 빅데이터 리서치 업무를 위해 웹 데이터 수집이 필수적이지만, 웹 데이터를 추출하는 작업이 생각만큼 쉽지는 않습니다.
(1) 데이터를 수집하기 위해 별도의 로그인 절차가 필요하거나,
(2) 여러 개의 웹 페이지에 데이터가 나누어 저장되어 있다면, 아래 튜토리얼을 한번 따라해보세요!
이번 튜토리얼에서는 도서에 관한 정보와 리뷰를 살펴볼 수 있는 굿리즈(Goodreads) 웹 사이트에서 데이터를 수집해 볼 예정입니다. 우선, 굿리즈 웹 사이트에 접속하기 위해서는 로그인이 필요합니다. 해당 웹 사이트가 아니더라도 여러분이 수집하고자 하는 웹 사이트에서 로그인을 요구한다면, 아래의 데이터 수집 절차를 참고해주세요.
추가로, 리스틀리에서는 로그인 베타 (LOGIN BETA) 서비스를 제공하고 있는데요. 한 번 로그인 정보를 입력하면, 데이터를 수집할 때마다 로그인을 따로 하지 않아도 자동으로 로그인해 데이터를 추출할 수 있도록 도와드리고 있답니다.
다시 굿리즈 웹 사이트로 돌아가 로그인 후, 리스틀리 확장프로그램을 클릭해주세요. 가장 먼저, 리뷰 정보를 수집하고자 하는 도서를 하나 선택해 줄게요.
해당 웹 사이트에서는 특정 도서 클릭 시, 리뷰 정보를 확인할 수 있어요. 아래 이미지에서는 1,300 여개의 리뷰 데이터가 1, 2, 3 ... 웹 페이지에 나뉘어 저장되어 있다는 것을 확인할 수 있습니다. 오늘은 간단하게 리뷰 데이터가 1, 2, 3 페이지에 걸쳐 따로 저장되어 있다고 가정해 볼게요.
이제, 리스틀리 부분 (LISTLY PART) 버튼을 클릭해 수집하고자 하는 영역을 설정해주세요.
이제, 리스틀리 부분 (LISTLY PART) 버튼을 클릭해 수집하고자 하는 영역을 설정해주세요.
아래의 이미지에는 1 페이지에서 리뷰 데이터를 추출한 결과를 보여주고 있습니다. 동일한 방식으로 2 페이지와 3 페이지에 있는 리뷰 데이터도 추출해볼까요?
리스틀리 부분 버튼을 클릭해 1 페이지부터 3 페이지까지 데이터를 추출하고 나면, 데이터보드(Databoard)에 데이터 추출 기록이 나타날 거예요. 리스틀리 무료 버전에서도 동일하게 리뷰 데이터를 수집할 수 있지만, 아래와 같이 데이터보드에서 데이터 추출 기록을 살펴보거나 재추출하려면 비즈니스 버전으로 업그레이드가 필요합니다.
아래와 같이 1-3 페이지 추출 결과 링크를 클릭해 상단의 폴더 목록 (Folders) 버튼을 선택해주세요. 그리고 폴더 이름을 설정합니다. 이 버튼을 이용해 여러 개의 데이터를 하나의 엑셀 시트로 저장해 볼 수 있어요.
이제, 데이터 추출 링크들을 방금 생성한 폴더로 옮겨줄 거예요. 이동 (Move) 버튼을 이용해 해당 링크들을 모두 이동시켜 주세요.
폴더 모양의 아이콘이 데이터를 추출한 링크 위에 생성되어 있을 거예요. 그럼, 폴더 선택 (Select Folder) 버튼을 클릭해 여러 웹 페이지에 저장되어 있던 데이터를 모두 한 번에 다운로드해 보세요!
리스틀리를 통해 코딩을 몰라도, 파이썬을 몰라도 누구나 쉽게 웹 데이터를 수집할 수 있습니다.
1 Page -> 1 Excel 변환은 무제한으로 서비스 되고 있으니, 데이터 수집이 필요한 업무에 많이 활용해주세요. 크롬/웨일/엣지 확장 프로그램으로 원클릭으로 설치 GO!