(출처:Apple)
인공지능(AI) 훈련에 유튜브 영상이 무단으로 사용됐다는 이슈가 도마 위에 올랐다.
7월 16일(현지시간) IT 전문 매체 와이어드(Wired)와 프루프 뉴스(Proof News)는 공동 취재를 통해 애플, 엔비디아, 세일즈포스, 앤트로픽과 같은 기술 기업에서 유튜브 영상을 자사의 인공지능 서비스 훈련에 사용한 사실을 보도했다. 정확하게는 유튜브 영상 속 자막만을 훈련에 활용했다.
인공지능 훈련에 데이터가 사용되는 것은 당연한 일이지만, 문제는 추출된 유튜브 자막을 어떠한 허락도 없이 이용했다는 점이다. 외신에서 확인한 데이터세트에는 4만 8000개가 넘는 채널에서 가져온 영상 자막 17만 3536개가 담겨있었다. 상당히 방대한 데이터라는 것을 알 수 있다.
인공지능 훈련에 사용된 영상은 분야를 가리지 않았다. △ABC뉴스, BBC, 뉴욕타임스(NYT), 월스트리트저널(WSJ), NPR 등 뉴스 매체 △칸아카데미, MIT, 하버드 등 온라인 학습 채널 △지미 키멀 라이브(Jimmy Kimmel Live), 레이트 쇼 위드 스티븐 콜베어(The Late Show With Stephen Colbert), 래스트 윅 투나잇 위드 존 올리버(Last Week Tonight With John Oliver) 등 토크쇼 △미스터비스트(MrBeast), 마르케스 브라운리(Marques Brownlee), 퓨다이파이(PewDiePie), 잭셉틱아이(Jacksepticeye) 등 대형 유튜브 채널 이렇게 다양한 출처에서 확보된 자막이 데이터세트에서 발견됐다.
마르케스 브라운리(Marques Brownlee)
프루프 뉴스에서는 이번 조사 과정에서 인공지능 훈련 데이터세트에서 제작자만 따로 검색하는 도구까지 개발했다. IT 매체 더버지(The Verge)는 데이터세트에서 자사의 영상 관련 자막이 100개가 넘는 것을 확인했다고 보도했다.
구독자 222만명을 자랑하는 유튜브 채널 ‘데이비드 팩먼 쇼(David Pakman Show)’의 영상 자막은 약 160개가 데이터세트에서 발견됐는데, 해당 채널의 진행자인 데이비드 팩먼은 “어떤 누구도 자신에게 와서 (영상을) 사용하고 싶다고 말하지 않았다”고 전했다. 그는 몇몇 미디어 기업과는 인공지능 훈련에 자신의 제작물을 사용하는 명목으로 계약을 체결한 바 있으며, 이번 사례에서도 마땅히 데이터 사용에 대한 보상을 지불해야 한다고 주장했다.
논란의 데이터세트를 만든 곳은 비영리 오픈소스 그룹인 ‘일루더AI(EleutherAI)’다. 그룹 웹사이트에는 자신들의 목표가 인공지능 개발에 대한 장벽을 낮추는 것이라고 설명하고 있다. 일루더AI가 발표한 연구 논문에 따르면 애플과 엔비디아 등에서 사용한 데이터세트는 인공지능 모델 훈련 데이터세트인 더 파일(The Pile)의 일부분에 해당한다. 더 파일은 2021년에 학술과 연구를 목적으로 구축됐으며 유튜브 자막 말고도 위키피디아, 딥마인드(DeepMind), 미국 특허상표청(USPTO), 유럽의회, 펍메드(PubMed), 해커뉴스 등 다양한 출처에서 수집한 자료를 포함하고 있다. 대부분 인터넷에서 쉽게 접근이 가능한 자료다.
(출처:AP)
유튜브, “명백한 정책 위반”
유튜브의 입장은 분명하다. 유튜브는 규정을 통해 허가 없이 콘텐츠를 다운로드 후 사용하는 것을 금지하고 있다. 지난 4월 닐 모한 유튜브 최고경영자(CEO)는 텍스트 명령어로 고화질 동영상을 제작하는 오픈AI의 소라(SORA)와 같은 인공지능 훈련에 유튜브 영상을 사용하는 것은 자사 플랫폼 정책을 위반하는 행위라고 밝혔다. 공교롭게도 이러한 이야기가 나온 후 며칠 지나 오픈AI가 GPT-4 모델 훈련에 100만 시간이 넘는 유튜브 영상에서 추출한 자막을 사용했다는 뉴욕타임스의 보도가 나왔다.
기업에는 잘못이 없다는 주장도 있다. 애플 전문 매체 나인투파이브맥(9to5Mac)은 일루더AI에서 직접 데이터를 추출했기에 유튜브의 정책을 위반한 것도 일루더AI라고 주장했다. 그럼에도 공개된 데이터세트를 기업에서 무분별하게 이용하는 것은 언제든 문제가 될 수 있다고 전했다.
최근 기술 기업의 생성형 인공지능 경쟁이 가속화되고 있는데, 이 가운데 자사 인공지능 모델을 개선하기 위한 훈련 데이터 확보에도 열을 올리는 양상이다. 그래서인지 인공지능 훈련에 어떤 콘텐츠가 어떻게 사용되는지 투명하게 밝혀야 한다는 목소리도 계속되고 있다.
테크플러스 에디터 나유권
tech-plus@naver.com
댓글 많은 뉴스