웹 크롤링 (Web Crawling) vs. 웹 스크래핑 (Web Scraping)
웹 크롤링과 웹 스크래핑이라는 두 개념은 종종 혼재되어 사용되기도 하지만, 실제로는 작동 방식과 이용 목적에 차이가 있습니다. 이와 같은 용어가 생소한 분들을 위해 간단히 요약하면, 웹 크롤링은 웹 사이트의 특정 페이지 혹은 연계된 페이지 URL을 발견하는 과정이고, 웹 스크래핑은 웹 사이트에서 데이터를 추출하는 것을 의미합니다.
웹 크롤링과 웹 스크래핑, 어떻게 다른가요?
웹 크롤링과 웹 스크래핑 모두 웹 상에서 웹 크롤러 혹은 스크래퍼라고 불리는 자동화 봇(bot)을 이용해 효율적으로 데이터를 수집하기 위해 필요한 데이터 추출 방식이라고 생각해볼 수 있어요. 하지만 엄밀히 말해 웹 크롤링이란 웹 사이트의 콘텐츠를 모아서 분류하고, 알아보기 쉽게 표시(색인화)해 구글과 같은 검색엔진 검색 결과에서 해당 페이지가 노출될 수 있도록 하는 작업에 더 가깝다고 볼 수 있습니다. 웹 사이트의 페이지를 검색하고 색인하는 검색 엔진 봇을 “웹 크롤러” 혹은 “스파이더”라고 이야기합니다. 크롤러는 웹 사이트에 방문해 해당 사이트를 구성하는 웹 페이지들 간의 구조나 웹 데이터를 수집해 색인화합니다. 웹 상에서 웹 페이지들이 어떻게 서로 연결되어 있는지에 관한 정보들을 모으고, 분류하는 것이 주된 목적이라고 볼 수 있습니다. 크롤러는 검색엔진에서도 흔히 사용되며, SEO 및 검색 전략을 수립하는 데에도 필수적이라고 볼 수 있어요. 이와 관련한 국제 권고안에서는 기본적으로 웹 사이트의 어떤 정보를 수집해도 되는 지에 관한 프로토콜 robots.txt (robots exclusion standard) 파일의 지침을 준수하는 선에서 크롤러가 동작하도록 권고하고 있습니다.
반면에, 웹 스크래핑은 웹 페이지에서 특정한 정보를 추출하기 위해 사용됩니다. 실제로 웹 사이트의 목록 페이지나 제품 상세 페이지에서 볼 수 있는 제품 정보, 재고 상황, 가격 등의 특정 데이터를 수집하는 행위가 대표적인 사례입니다. 이렇게 스크래핑한 데이터는 분석 및 해석의 과정을 거쳐 경쟁사 제품 가격 모니터링, 마켓 리서치 등에 활용할 수 있습니다. 따라서 웹 스크래핑 시, 웹 사이트의 서비스 이용약관을 무시하거나 운영자의 동의없이 데이터를 수집하는 경우 법적 문제가 발생할 수 있으니 유의해야 합니다. 스크래핑과 관련한 법적 쟁점은 데이터의 종류, 혹은 수집된 데이터가 어떻게 사용되는지에 따라서도 달라질 수 있기 때문에 스크래핑하려는 자료의 출처, 데이터베이스, 저작권, 제작자 권리 등을 반드시 미리 확인하는 것이 중요합니다.
장단점이 궁금해요!
웹 크롤링은 웹 사이트를 구성하는 여러 웹 페이지 및 연관된 페이지들의 URL을 발견하고 색인화하는 과정입니다. 웹 상의 방대한 데이터를 수집하는 데에 초점이 맞춰진 작업이기 때문에 정보의 확장성이 가장 큰 장점이라고 볼 수 있지만, 동시에 정보를 저장해야 하는 서버의 용량을 많이 차지한다는 단점이 있습니다. 특히, 동적 데이터를 수집하는 경우 수집 속도가 느릴 수 있습니다.
웹 스크래핑은 이커머스에서 상품 정보를 추출하거나 디지털 언론 매체에서 뉴스기사를 수집하는 등의 작업을 수행하는 것처럼 필요와 목적에 따라 특정한 웹 데이터를 수집할 수 있다는 장점이 있어요. 하지만, 특정한 정보를 수집하는 만큼 수집하는 자료의 출처, 저작권 등 법적으로 문제가 되는 부분이 없는지 잘 살펴보아야 합니다. 또한 일부 웹 사이트에서는 무분별한 스크래핑을 방지하기 위해 특정 지역의 IP 주소 접근을 차단하거나 자동화 봇의 접속을 막는 보안 조치를 강화하고 있는 만큼, 이에 따른 대응 방안이 추가적으로 필요할 수도 있습니다.
웹 크롤링과 스크래핑의 차이점, 장단점에 대한 이해를 바탕으로 필요한 정보를 정확하고, 손쉽게 수집하실 수 있기를 바라겠습니다.