주요 메뉴 바로가기 (상단) 본문 컨텐츠 바로가기 주요 메뉴 바로가기 (하단)

애플·엔비디아 AI 훈련에 유튜브자막 무단 사용 논란

박진수 에디터 조회수  

(출처:Apple)

인공지능(AI) 훈련에 유튜브 영상이 무단으로 사용됐다는 이슈가 도마 위에 올랐다.

7월 16일(현지시간) IT 전문 매체 와이어드(Wired)와 프루프 뉴스(Proof News)는 공동 취재를 통해 애플, 엔비디아, 세일즈포스, 앤트로픽과 같은 기술 기업에서 유튜브 영상을 자사의 인공지능 서비스 훈련에 사용한 사실을 보도했다. 정확하게는 유튜브 영상 속 자막만을 훈련에 활용했다.

인공지능 훈련에 데이터가 사용되는 것은 당연한 일이지만, 문제는 추출된 유튜브 자막을 어떠한 허락도 없이 이용했다는 점이다. 외신에서 확인한 데이터세트에는 4만 8000개가 넘는 채널에서 가져온 영상 자막 17만 3536개가 담겨있었다. 상당히 방대한 데이터라는 것을 알 수 있다.

인공지능 훈련에 사용된 영상은 분야를 가리지 않았다. △ABC뉴스, BBC, 뉴욕타임스(NYT), 월스트리트저널(WSJ), NPR 등 뉴스 매체 △칸아카데미, MIT, 하버드 등 온라인 학습 채널 △지미 키멀 라이브(Jimmy Kimmel Live), 레이트 쇼 위드 스티븐 콜베어(The Late Show With Stephen Colbert), 래스트 윅 투나잇 위드 존 올리버(Last Week Tonight With John Oliver) 등 토크쇼 △미스터비스트(MrBeast), 마르케스 브라운리(Marques Brownlee), 퓨다이파이(PewDiePie), 잭셉틱아이(Jacksepticeye) 등 대형 유튜브 채널 이렇게 다양한 출처에서 확보된 자막이 데이터세트에서 발견됐다.

마르케스 브라운리(Marques Brownlee)

프루프 뉴스에서는 이번 조사 과정에서 인공지능 훈련 데이터세트에서 제작자만 따로 검색하는 도구까지 개발했다. IT 매체 더버지(The Verge)는 데이터세트에서 자사의 영상 관련 자막이 100개가 넘는 것을 확인했다고 보도했다.

구독자 222만명을 자랑하는 유튜브 채널 ‘데이비드 팩먼 쇼(David Pakman Show)’의 영상 자막은 약 160개가 데이터세트에서 발견됐는데, 해당 채널의 진행자인 데이비드 팩먼은 “어떤 누구도 자신에게 와서 (영상을) 사용하고 싶다고 말하지 않았다”고 전했다. 그는 몇몇 미디어 기업과는 인공지능 훈련에 자신의 제작물을 사용하는 명목으로 계약을 체결한 바 있으며, 이번 사례에서도 마땅히 데이터 사용에 대한 보상을 지불해야 한다고 주장했다.

논란의 데이터세트를 만든 곳은 비영리 오픈소스 그룹인 ‘일루더AI(EleutherAI)’다. 그룹 웹사이트에는 자신들의 목표가 인공지능 개발에 대한 장벽을 낮추는 것이라고 설명하고 있다. 일루더AI가 발표한 연구 논문에 따르면 애플과 엔비디아 등에서 사용한 데이터세트는 인공지능 모델 훈련 데이터세트인 더 파일(The Pile)의 일부분에 해당한다. 더 파일은 2021년에 학술과 연구를 목적으로 구축됐으며 유튜브 자막 말고도 위키피디아, 딥마인드(DeepMind), 미국 특허상표청(USPTO), 유럽의회, 펍메드(PubMed), 해커뉴스 등 다양한 출처에서 수집한 자료를 포함하고 있다. 대부분 인터넷에서 쉽게 접근이 가능한 자료다.

(출처:AP)

유튜브, “명백한 정책 위반”

유튜브의 입장은 분명하다. 유튜브는 규정을 통해 허가 없이 콘텐츠를 다운로드 후 사용하는 것을 금지하고 있다. 지난 4월 닐 모한 유튜브 최고경영자(CEO)는 텍스트 명령어로 고화질 동영상을 제작하는 오픈AI의 소라(SORA)와 같은 인공지능 훈련에 유튜브 영상을 사용하는 것은 자사 플랫폼 정책을 위반하는 행위라고 밝혔다. 공교롭게도 이러한 이야기가 나온 후 며칠 지나 오픈AI가 GPT-4 모델 훈련에 100만 시간이 넘는 유튜브 영상에서 추출한 자막을 사용했다는 뉴욕타임스의 보도가 나왔다.

기업에는 잘못이 없다는 주장도 있다. 애플 전문 매체 나인투파이브맥(9to5Mac)은 일루더AI에서 직접 데이터를 추출했기에 유튜브의 정책을 위반한 것도 일루더AI라고 주장했다. 그럼에도 공개된 데이터세트를 기업에서 무분별하게 이용하는 것은 언제든 문제가 될 수 있다고 전했다.

최근 기술 기업의 생성형 인공지능 경쟁이 가속화되고 있는데, 이 가운데 자사 인공지능 모델을 개선하기 위한 훈련 데이터 확보에도 열을 올리는 양상이다. 그래서인지 인공지능 훈련에 어떤 콘텐츠가 어떻게 사용되는지 투명하게 밝혀야 한다는 목소리도 계속되고 있다.

테크플러스 에디터 나유권

tech-plus@naver.com​

댓글 많은 뉴스

author-img
박진수 에디터
CP-2023-0021@techpress.com

댓글0

300

댓글0

[Techpress] 랭킹 뉴스

  • 삼성도 곧 위성 통신 지원할 듯...인증 확인
  • 에어팟 '보청기 기능', 생각보다 빠를 듯...FDA 승인
  • 소니, 올해 '엑스페리아 5 VI' 미출시...이유는?
  • 알아두면 좋은 아이폰 16의 작은 변화 몇 가지
  • 고작 1년 만에...파인우븐 케이스 어디로?
  • 크롬 탭 관리 더욱 쉬워진다...신기능 세 가지

[Techpress] 공감 뉴스

  • 에어팟 프로 2, '보청기 모드' 지원한다
  • 수면 무호흡 감지하는 애플워치, 어떻게?
  • 비전 프로에서 입력한 내용 노출 위험 있었다
  • 구글, 캐시된 웹페이지 기능 부활
  • 테스트 통해 확인된 아이폰 A18 프로 칩 성능
  • “갤럭시 탭 S10, 키보드에 AI 전용 키 추가”

당신을 위한 인기글

  • 완벽한 플레이팅과 다채로운 구성이 일품인 브런치 맛집 BEST5
    완벽한 플레이팅과 다채로운 구성이 일품인 브런치 맛집 BEST5
  • 뽀얀 국물에 다채로운 재료까지, 순대국 맛집 BEST5
    뽀얀 국물에 다채로운 재료까지, 순대국 맛집 BEST5
  • 맛집 구별하는 방법으로 최고라는 어르신 맛집 BEST5
    맛집 구별하는 방법으로 최고라는 어르신 맛집 BEST5
  • 레이 차주들 ‘화들짝’ 놀란 신차.. 가격은 고작 ‘1천만 원’ 예상!
    레이 차주들 ‘화들짝’ 놀란 신차.. 가격은 고작 ‘1천만 원’ 예상!
  • ‘패밀리카 고민 종결’ 똑똑한 아빠들이 계약한 SUV, 대체 뭐길래?
    ‘패밀리카 고민 종결’ 똑똑한 아빠들이 계약한 SUV, 대체 뭐길래?
  • 무려 ‘2천만 원대’.. 쏘나타 계약한 아빠들 멘붕 왔다는 ‘이 차’ 정체
    무려 ‘2천만 원대’.. 쏘나타 계약한 아빠들 멘붕 왔다는 ‘이 차’ 정체
  • “운전자 10만명, 과태료 3배” 정부야 차라리 대놓고 잡아라 난리!
    “운전자 10만명, 과태료 3배” 정부야 차라리 대놓고 잡아라 난리!
  • “165만명 600억 털렸다” 운전자들, 서울시 과태료 너무 뜯는다 오열!
    “165만명 600억 털렸다” 운전자들, 서울시 과태료 너무 뜯는다 오열!

[Techpress] 인기 뉴스

  • 삼성도 곧 위성 통신 지원할 듯...인증 확인
  • 에어팟 '보청기 기능', 생각보다 빠를 듯...FDA 승인
  • 소니, 올해 '엑스페리아 5 VI' 미출시...이유는?
  • 알아두면 좋은 아이폰 16의 작은 변화 몇 가지
  • 고작 1년 만에...파인우븐 케이스 어디로?
  • 크롬 탭 관리 더욱 쉬워진다...신기능 세 가지

[Techpress] 추천 뉴스

  • 에어팟 프로 2, '보청기 모드' 지원한다
  • 수면 무호흡 감지하는 애플워치, 어떻게?
  • 비전 프로에서 입력한 내용 노출 위험 있었다
  • 구글, 캐시된 웹페이지 기능 부활
  • 테스트 통해 확인된 아이폰 A18 프로 칩 성능
  • “갤럭시 탭 S10, 키보드에 AI 전용 키 추가”

당신을 위한 인기글

  • 완벽한 플레이팅과 다채로운 구성이 일품인 브런치 맛집 BEST5
    완벽한 플레이팅과 다채로운 구성이 일품인 브런치 맛집 BEST5
  • 뽀얀 국물에 다채로운 재료까지, 순대국 맛집 BEST5
    뽀얀 국물에 다채로운 재료까지, 순대국 맛집 BEST5
  • 맛집 구별하는 방법으로 최고라는 어르신 맛집 BEST5
    맛집 구별하는 방법으로 최고라는 어르신 맛집 BEST5
  • 레이 차주들 ‘화들짝’ 놀란 신차.. 가격은 고작 ‘1천만 원’ 예상!
    레이 차주들 ‘화들짝’ 놀란 신차.. 가격은 고작 ‘1천만 원’ 예상!
  • ‘패밀리카 고민 종결’ 똑똑한 아빠들이 계약한 SUV, 대체 뭐길래?
    ‘패밀리카 고민 종결’ 똑똑한 아빠들이 계약한 SUV, 대체 뭐길래?
  • 무려 ‘2천만 원대’.. 쏘나타 계약한 아빠들 멘붕 왔다는 ‘이 차’ 정체
    무려 ‘2천만 원대’.. 쏘나타 계약한 아빠들 멘붕 왔다는 ‘이 차’ 정체
  • “운전자 10만명, 과태료 3배” 정부야 차라리 대놓고 잡아라 난리!
    “운전자 10만명, 과태료 3배” 정부야 차라리 대놓고 잡아라 난리!
  • “165만명 600억 털렸다” 운전자들, 서울시 과태료 너무 뜯는다 오열!
    “165만명 600억 털렸다” 운전자들, 서울시 과태료 너무 뜯는다 오열!

댓글 많은 뉴스

공유하기