웹 크롤링은 합법일까, 불법일까?

웹 크롤링은 합법인가요?

간단히 말해, 인터넷에 공개적으로 올라온 자료를 크롤링한다면 법적으로 문제가 되지 않습니다. 웹 크롤링 자체는 불법이 아니지만, 서비스 이용약관을 무시하고 사이트 운영자의 동의 없이 특정 데이터를 크롤링한다면 문제가 될 수 있습니다. 휴대폰으로 사진을 찍는 것에 비유해볼 수 있어요. 사진을 찍는 것 자체는 아무런 문제가 되지 않을 수 있지만, 기밀 문서나 민감한 사항을 찍게 되면 곤란한 상황에 처할 수 있는 것과 마찬가지이죠.

웹 크롤링을 금지하는 법이 없다고 해도 온라인상의 아무 데이터나 크롤링할 수는 없습니다. 개인정보와 지적 재산권 규정은 웹 크롤링에서 가장 중요시 되는 부분이지만, 웹 사이트의 서비스 이용약관 같은 기타 요소들도 중요한 역할을 하기 때문에 웹 크롤링을 하기 이전에 자세히 살펴보는 것이 중요합니다.

웹 크롤링 서비스, 법의 사각지대를 이용하는 것은 아닌가요?

웹 크롤링 서비스도 일반적인 사업과 다를 게 없습니다. 다른 서비스들과 마찬가지로 사업을 진행하기 위해 준수해야 하는 규정과 규칙을 지키면서 웹 크롤링 서비스를 제공합니다. 웹 크롤러도 일반적으로 개인이 웹 사이트를 이용하는 방식과 유사하게 웹 사이트에 접근합니다.

하지만 국가별로 웹 크롤링 및 데이터에 관한 규정이 다르기 때문에 크롤링하려는 자료의 출처, 데이터베이스, 저작권, 제작자 권리 등을 반드시 미리 확인해주세요. 특정 국가에서는 문제가 되지 않더라도 다른 지역에서는 개인정보에 접근하는 행위만으로도 문제를 야기할 수 있기 때문입니다.

개인정보는 신중하게!

유럽이나 미국에서는 개인정보를 크롤링하려면 일반 개인정보 보호법 (GDPR, General Data Protection Regulation), 캘리포니아주 소비자 개인정보 보호법 (CCPA, California Consuemr Privacy Act), 지역별 규정 등에 대해 특히 명확하게 알아두는 것이 좋습니다. 개인정보 보호법 (GDPR)에서는 개인정보를 ‘신원이 확인되었거나 신원을 확인할 수 있는 자연인에 관련한 모든 정보’로 정의하고 있어요. 아래 개인정보의 종류와 예시를 참고해 크롤링 작업 시 허용되는 범위를 미리 살펴보는 것이 중요합니다.

  • 개인 신상에 관한 공식 자료
    • 이름, 성
    • 생년원일
    • 주소
    • 사회 보장 번호, 여권 번호, 주민등록번호
    • 직장 정보
  • 연락처
    • 전화 번호
    • 이메일 주소
    • IP 주소
    • 인스타그램, 트위터 등의 네트워크 계정
  • 애플리케이션이 자주 수집하는 자료
    • 주소나 GPS로 확인되는 위치
    • 쇼핑 선호도
    • 개인의 행동에 대한 자료

윤리적으로 웹사이트를 크롤링하는 방법

합법적으로 웹 사이트를 크롤링하기 위해서 몇 가지 원칙이 필요합니다. 아래 내용을 참고해 웹 크롤링 시 법적·윤리적으로 문제가 발생하지 않도록 주의해주세요!

  1. Robots.txt 파일 확인하기. 로봇 배제 표준(Robots Exclusion Standard)으로도 잘 알려진 Robots.txt 파일은 웹 사이트에 로봇이 무단으로 접근하는 것을 방지하기 위한 프로토콜입니다. 웹 사이트에서 크롤링할 수 있는 범위를 안내해주기도 하죠. 크롤링하기 전에 웹 사이트의 URL 뒤에 /robots.txt를 덧붙여 해당 URL에 접속하면, robots.txt 파일 내용을 확인해볼 수 있습니다.
  2. 이용 약관 충분히 숙지하기. 웹 사이트의 콘텐츠를 상업적으로 활용하거나 소유자 혹은 제작자의 동의 없이 무단으로 복제하는 경우, 저작권 침해로 간주될 수 있습니다. 저작권이 있거나 개인적인 자료를 동의 없이 상업적인 목적으로 사용하지 않도록 주의해주세요. 특정 정보만을 취사선택해 수집하더라도 법적 문제가 없는지 미리 확인해야 합니다.
  3. 크롤링을 하고자 하는 웹 사이트의 서버에 부하 주지 않기. 웹 사이트에서 데이터를 추출하기 위해 한 번에 너무 많은 요청을 보내면 해당 웹 서버에 과부하 문제가 발생할 수 있습니다. 보통은 웹 사이트에서 반복적으로 너무 많은 요청이 들어올 경우 로봇으로 간주해 데이터 요청을 차단하는 경우가 많습니다. 웹 서버에 피해를 주지 않도록 웹 크롤링 작업 속도를 줄여 하나의 웹 페이지를 추출한 후, 다음 페이지를 크롤링하는 것이 좋습니다.