인공지능(AI) 챗봇에 궁금한 점을 물어보면, 챗봇은 먼저 온라인으로 관련 내용을 검색한다. 검색 결과가 어느 정도 모이면 도움 될 만한 내용을 추출해 정리하고 사용자에게 답변을 돌려준다.
이때 사용되는 대표적인 기술로 ‘크롤링(Crawling)’이 있다. 웹사이트를 돌아다니며 원하는 내용을 수집하는 기술로 1994년 상용화됐다. 크롤링에 사용하는 소프트웨어를 ‘크롤러’라고 부르는데, 서버 부담을 줄이고 웹사이트에서 필요한 내용을 얻기 용이해 검색 관련 기술을 제공하는 기업체는 대부분 크롤러를 사용한다.
그러나 모든 웹사이트가 정보를 흔쾌히 내주진 않는다. 유료 콘텐츠를 취급하거나 외부에 알려지기를 꺼리는 웹사이트는 ‘로봇’이라는 파일을 통해 크롤러의 활동을 막는다. 웹사이트를 구성하는 로봇 파일(robots.txt)에 크롤링 행위를 거부한다는 내용의 표준 코드를 입력하면 해당 사이트에서는 크롤러가 활동하지 못한다.
불펌 방지 코드 삽입했지만…AI 기업 여전히 ‘크롤링’ 중
그런 와중 일부 AI 기업이 크롤링을 금지한 웹사이트의 내용을 수집한다는 주장이 제기됐다. 로이터통신은 콘텐츠 라이선스 스타트업 ‘톨빗(TollBit)’의 제보를 인용해, AI 기업 몇 군데가 크롤링을 금지한 웹사이트의 내용을 수집하기 위해 비표준 기술을 사용하고 있다고 6월 21일(현지시간) 보도했다.
톨빗은 어느 기업이 비표준 기술을 사용했는지 밝히지 않았다. 한편 비슷한 시기에 미국 언론사 포브스(Forbes), 와이어드(Wired), 숏컷(The Shortcut)은 무료 AI 검색 엔진 개발사 ‘퍼플렉시티(Perplexity)’가 크롤링 금지 코드를 무시하고 매체 기사를 무단 인용했다고 주장했다.
매체들은 퍼플렉시티가 유료 회원만 볼 수 있는 ‘페이월(Paywall)’ 기사 내용까지 무단으로 수집해 AI 검색 결과에 활용했다고 알렸다. 포브스는 검색 결과에 출처가 표기돼 있었지만, 눈을 가늘게 뜨고 봐야 할 정도로 작은 아이콘 형태로 삽입돼 식별하기 어려웠다고 덧붙였다.
소식이 전해진 뒤 미국 경제 매체 비즈니스 인사이더(Business Insider)가 조사한 결과에 따르면 챗GPT(ChatGPT) 개발사 오픈AI(OpenAI), 클로드(Claude) 개발사 앤트로픽(Anthropic)도 웹사이트 로봇 파일에 명시한 크롤링 금지 코드를 무시하고 내용을 수집한 것으로 드러났다.
미국과 캐나다의 2,200개 이상 매체를 대표하는 뉴스미디어연합(NMA)은 크롤링 금지 코드를 무시하는 행위가 연합 회원사에 악영향을 미칠 수 있다며 우려를 표했다.
많은 매체가 중요한 기사나 칼럼을 유료 고객에게 제공해 수익을 창출하는데, 유료 기사의 내용을 누구나 AI 챗봇으로 검색할 수 있다면 멤버십에 가입하는 소비자가 줄어 매체 수익 감소로 이어질 가능성이 높다. 또한 AI 챗봇이 기사 내용을 허가 없이 인용하면 저작권 위반으로 간주될 수도 있다.
크롤링 방지 우회는 불법 아냐, AI 기업 양심에 기대야
크롤링 방지를 우회하는 행위 자체는 법에 위배되지 않는다. 로봇을 활용한 크롤링 금지 코드는 웹 표준 기술일 뿐이며, 이 기술을 준수할지 여부는 기업체가 결정할 일이다. 따라서 로봇 파일에 적힌 크롤링 금지 코드를 비표준 기술로 무시한다고 법적 제재를 가하진 못한다.
모든 비표준 크롤링 기술을 차단하는 건 현실적으로 불가능한 이야기다. 결국 AI 챗봇이 기사 내용을 무단 인용하지 않으려면 개발사가 표준 기술을 자의적으로 준수해야 한다.
퍼플렉시티는 자체 크롤러 외에 다른 개발사가 만든 크롤러도 함께 사용하고 있다며, 최근 매체 기사 내용을 수집한 크롤러는 자사 소프트웨어가 아니라고 책임 소재를 부인했다. 그러나 특정 매체를 수집 대상에서 제외했는지 묻는 말에는 답변을 피했다.
한편 비즈니스 인사이더가 크롤링 금지 코드를 무시했다고 주장한 AI 기업 오픈AI와 앤트로픽은 온라인으로 데이터를 수집할 때 웹사이트의 로봇 파일에 명시한 크롤링 금지 규칙을 준수하겠다고 밝힌 바 있다. 매체 주장대로 이들 기업이 크롤링 방지 코드를 우회했다고 밝혀지면 비난을 면치 못할 것으로 보인다.
테크플러스 에디터 이병찬
tech-plus@naver.com
댓글 많은 뉴스