데이터 도둑질의 대가

2024년 4월 17일, explained

빅테크들이 데이터를 도둑질한다. 피해는 누구의 몫일까.

MWC2024의 기조연설에서 마이크로소프트의 사장인 브래드 스미스가 ‘새로운 시대를 위한 새로운 전략’ 기조 연설에서 발언하고 있다. 사진: Joan Cros, Getty Images
NOW THIS

오픈AI가 대규모 언어 모델인 GPT-4의 학습을 위해 유튜브 동영상 데이터를 수집한 것으로 드러났다. 오픈AI는 2022년, 음성 인식 도구인 ‘위스퍼(Whisper)’를 개발했다. 여러 언어를 인식해 전사하고 영어로 번역할 수 있는 ASR 시스템으로, 오픈AI는 해당 모델이 실시간 음성 인식 및 번역이 가능한 애플리케이션 구축에 도움을 줄 것이라 밝힌 바 있다. 물론 지금은 유튜브의 데이터를 도둑질해 오는 데 쓰였다.

WHY NOW

인공지능 개발 전쟁이 데이터 확보 전쟁으로 옮겨 붙고 있다. 데이터는 불법과 공정 사용, 대가 지불과 도둑질 사이를 오간다. 영국의 과학 전문지 《뉴사이언티스트》는 2026년에 AI가 새로 학습할 데이터가 고갈된다는 계산을 내놨다. 빅테크들은 어떻게 이 예견된 종말에 대처하고 있을까. 그들의 대처가 불러올 나비효과는 어떤 모습일까.

오픈AI

2023년 11월, 오픈AI는 데이터 파트너십을 도입했다. 아이슬란드 정부 등과 협력해 GPT-4의 아이슬란드어 능력을 향상시켰고 비영리 단체인 ‘프리로우프로젝트(Free Law Project)’와 파트너십을 맺어 법적 이해에 대한 접근을 민주화하려 한다고 밝혔다. 함께 언급된 기술은 PDF 문서의 문자를 인식하는 OCR 기술과 음성을 텍스트로 변환하는 ASR 기술이었다. 오픈AI는 “AI가 세상을 이해하도록 가르치는 데 도움을 주는 파트너를 찾고 있다”며 파트너십 공고를 마무리했다. 이렇게 언급된 ASR 기술은 100만 시간 이상의 유튜브 데이터를 수집하는 데 사용됐다. 유튜브는 타 동영상 플랫폼과 독립 애플리케이션에 유튜브 내의 동영상을 사용하는 것을 금지한다. 오픈AI는 자사의 이용이 공정 이용이었다며 법적 문제가 없다고 반발하고 있다.

구글

치사해 보이지만 오픈AI만이 저지르는 잘못은 아니다. 구글 역시 그리 떳떳하지만은 않다. 지난해 구글은 문서, 구글 지도의 리뷰, 구글 스프레드시트 속의 데이터를 인공지능 학습을 위해 사용할 수 있다고 사용자 약관을 조용히 확대했다. 지난해 10월에는 데이터 수집을 통해 수억 명 미국인의 개인정보와 재산권을 침해했다고 주장하는 집단 소송에 직면하기도 했다. 구글은 “공개적으로 이용 가능한 정보를 이용해 (인공지능을) 학습시키는 것은 도둑질이 아니”라고 주장했으나 원고 측에서는 “우리의 개인 정보를 대량으로 도용하려는 빅테크 기업의 시도는 매우 무책임하고 근시안적”이라고 지적했다.

어도비

한편 그래픽 소프트웨어 기업인 어도비는 약간 다른 접근을 취했다. 어도비는 오픈AI의 비디오 생성형 인공지능 ‘소라(SORA)’를 따라잡기 위해 동영상 데이터 수집에 나섰다. 사진작가 및 아티스트가 걷는 모습이나 감정 표현 등 일상 행동이 담긴 동영상을 제출할 경우 최대 120달러, 우리 돈 16만 원 상당을 지급하겠다고 밝혔다. 저작권 시비가 없는 자체 학습 데이터를 확보하기 위함이다. 그러나 이면에서는 자사의 이미지 생성형 인공지능 ‘파이어플라이’를 교육하기 위해 AI가 생성한 콘텐츠에 일부 의존하고 있었다는 게 밝혀졌다. 훈련용 이미지 중 5퍼센트가량이 다른 AI 플랫폼에서 생성된 이미지였다는 사실이 드러난 것이다. 회사 내부에서는 우리의 인공지능은 “윤리적이어야 하고, 더 투명해야 한다”는 비판의 목소리가 나왔다.

규모

뛰어나게 작동하는 AI 챗봇 시스템을 만들기 위해서는 3조 개의 단어가 필요했다. 1602년부터 원고를 수집해 온 옥스퍼드대학교의 보들리안 도서관에 저장된 단어 수의 약 두 배에 해당하는 규모다. 게다가 존재하는 모든 말뭉치를 넣는다고 되는 게 아니다. 사람이 세심하게 집필한 책, 기사와 같은 양질의 데이터가 필요하다. 수년 동안 그 역할을 해온 건 위키피디아와 같은 오픈 백과사전, 그리고 레딧과 같은 오픈형 커뮤니티였다. 상황은 달라졌다. 위키피디아는 구글로부터 데이터 비용을 받았고, 레딧은 API와 데이터에 엑세스할 수 있도록 하는 유료 모델을 출시했다. 게다가 돈만 있다고 해결되는 문제가 아니다. ‘안드레센 호로위츠’의 한 변호사는 공개 토론을 통해 “필요한 데이터가 너무 방대해서 단체로 맺는 라이선스 계약도 실제로는 효과가 없다”고 지적했다.

합성 데이터

오픈AI의 GPT-3는 이미 3000억 개의 말뭉치를 학습했다. 중국 연구진은 영어와 중국어 텍스트에서 3조 2000억 개의 데이터를 학습한 AI 모델인 ‘스카이워크(Skywork)’를 출시했고, 구글의 AI 시스템인 ‘PaLM2’는 무려 3조 6000억 개의 데이터를 학습했다. 인터넷의 자료는 무한해 보인다. 그러나 무한한 자료라는 건 세상에 없다. 그래서 기술적 해결책이 등장했다. 바로 AI가 만든 데이터, 합성 데이터를 AI가 학습하는 방식이다. 어도비의 사례가 입증하듯 이제 인공지능은 다른 생성형 AI가 만든 데이터로 훈련받고 있다. 자가 포식 루프(autophageous loop)라고도 불리는 이 현상은 데이터의 품질을 낮출 뿐 아니라 인공지능의 지속 가능성도 위협할 수 있다.

돌이킬 수 없는 결함

합성 데이터를 활용해 인공지능을 학습시키면 결과물은 단조로워진다. 생물 근친 교배의 부작용을 생각하면 편하다. 작은 오류는 인공지능 모델을 통과하며 눈덩이처럼 불어나고 그렇게 산출된 데이터는 현실로부터 멀어지기 시작한다. 합성 데이터의 부작용을 연구한 라이스대학교의 연구원에 따르면 합성 데이터로 훈련된 인공지능은 더 다양한 결과물을 산출하는 대신 점점 한 사람의 이미지를 만드는 형태로 수렴됐다. 품질의 저하 말고도 문제점은 또 있다. 루프 위에 루프를 얹는 아이디어인 만큼 AI 모델의 문제가 어디에서 발생하는지 추적하는 일이 궁극적으로 어려워질 수 있다. 인공지능 모델이 태생적으로 가진 편향성의 강화도 피할 수 없는 부작용이다. 옥스퍼드대학교와 케임브리지대학교의 연구원들은 그들의 논문 〈재귀의 저주(THE CURSE OF RECURSION)〉에서 이러한 문제점들을 “돌이킬 수 없는 결함”이라고 표현했다.

제도

그래서 합성 데이터도 완벽한 답이 될 수 없다. 합성 데이터라는 위험 부담을 안기에 빅테크 기업들은 인공지능에 이미 지나치게 많은 자본과 인력을 투입하고 있다. 기계도, 자본도, 고도로 발달한 인공지능도 그간 인간이 인터넷에 남긴 역사의 발자취를 대체할 수는 없다. 일각에서는 제도를 통해 이 악순환을 멈추려 시도하고 있다. 지난 4월 11일, 미국의 연방 하원의원 애덤 쉬프(Adam Schiff)는 생성형 AI 저작권 공개 법안을 발의했다. AI를 훈련할 데이터 세트를 만드는 모든 사람이 해당 내용에 대한 보고서를 제출하도록 요구하는 법안이다. 기업은 훈련 데이터 세트를 활용한 인공지능 모델이 대중에 공개되기 30일 전까지 보고서를 제출해야 한다. 기존 AI 모델에도 소급 적용된다.

IT MATTERS

도둑질에는 대가가 따른다. 《뉴욕타임스》에 소개된 한 팬픽 작가는 자신이 무료로 인터넷에 업로드하던 작품이 챗GPT에 무단 제공됐다는 사실을 알고 나서 자신의 작품을 비공개 처리했다. 인공지능은 오픈된 웹에는 쉽게 접근할 수 있지만 로그인월, 페이월로 가로막힌 곳에는 쉽게 접근하기 어렵다. 데이터가 곧 자원인 시대에서 무료로, 간편하게 양질의 정보를 받아 보던 인터넷의 시대는 막을 내릴지 모른다. 데이터는 인공지능의 땔감이다. 양질의 땔감을 모두가 누렸던 숲에서 무단으로 베어 간다면 어떤 일이 일어날까. 숲 앞에는 ‘출입 금지’라는 팻말과 높은 울타리가 쳐질 것이다. 그렇게 숲 내음과 나무의 푸르름은 모두의 것에서 누군가의 것으로 축소된다. 인공지능이라는 편리한 도구 앞에서 우리가 누렸던 오픈 인터넷의 종말을 떠올려야 하는 이유다.
다음 이야기가 궁금하신가요?
프라임 멤버가 되시고 모든 콘텐츠를 무제한 이용하세요.
프라임 가입하기
추천 콘텐츠
Close