
세상 복잡한 이야기들, 5가지 그래프로 명쾌하게 풀어내는 오그랲입니다.
지난 5월 10일 트럼프 대통령이 미국 저작권의 총책임자인 저작권청장을 해고했다는 소식이 전해졌습니다. 뭐 사실 트럼프 대통령이 사람을 자르는 건 아주 특별한 일은 아니죠. 이미 예전부터 '너 해고'가 트레이드 마크였던 만큼요. 그런데 이번 저작권청장 해임이 조금은 특별한 이유가 있습니다. 오늘 오그랲에서는 도대체 왜 트럼프 대통령이 이 시점에 뜬금없이 저작권청장을 해고한 것인지 5가지 그래프를 통해서 살펴보도록 하겠습니다.
트럼프, 미 역사상 최초로 저작권청장 해임
"새 술은 새 부대에"라는 말이 있듯이 여느 정부라도, 집권 초기에는 자신의 정책을 잘 집행할 수 있는 사람들로 새롭게 교체하는 게 이상한 일은 아닙니다. 근데 트럼프 정부에서는 유독 그 비율이 높긴 합니다. 데이터로 살펴보시죠.

레이건 정부부터 바이든 행정부까지 내각 교체 건수를 살펴보면 트럼프 1기 행정부가 14건으로 압도적으로 많습니다.

내각뿐 아니라 대통령을 보좌하는, 이른바 'A팀'의 교체율도 트럼프 행정부가 압도적으로 높아요. 다른 정부들과 비교해서 유일하게 트럼프 1기 행정부 때 교체율이 90%를 넘겼고요, 집권 1년 차의 교체율도 유일하게 30%가 넘죠.
이런 데이터만 보자면 이번에 해임된 저작권청장 쉬라 펄머터의 소식도 아주 특별한 일은 아닌 것처럼 보입니다. 아 참고로 쉬라 펄머터는 지난 2020년 트럼프 1기 행정부 시절에 임명되어서 최근까지 주욱 직을 역임하고 있었는데, 지난 5월 10일에 아무런 설명 없이 해고를 당한 겁니다.
일단 이번 해고가 특별한 점 하나는 미국 역사상 대통령이 저작권청장을 날려버린 게 이번이 처음이라는 겁니다. 저작권청장의 임명과 면직 권한은 의회도서관장이 갖고 있음에도 불구하고 트럼프 대통령은 저작권청장을 잘라 버렸죠.
'불법 해임'이라는 위험성을 감수하면서도 트럼프가 미국 역사상 처음으로 저작권청장을 날린 이유는 뭘까요? 그 힌트가 아래 보고서에 있습니다. 이번 해임은 이 보고서가 공개된 이후 바로 다음 날 이뤄졌습니다. 보고서의 제목은 Report on Copyright and Artificial Intelligence, 저작권과 AI에 대한 보고서'입니다.

파트 1과 파트 2는 이미 이전에 공개가 됐었고요, 문제가 된 것으로 보이는 건 파트 3인 '생성형 AI 학습'입니다. 저작권청은 이례적으로 보고서의 사전 공개 버전을 홈페이지에 올려두었는데, 내용을 보면 이렇습니다. 생성형 AI 학습 중요하긴 한데, 그렇다고 해서 저작권을 침해할 순 없다는 거죠.
저작권법에서는 언론 보도나 교육 목적 등 이른바 '공정 이용'에 한해서는 저작권자의 허락 없이 제작물을 사용할 수 있도록 하고 있습니다. AI를 만드는 기업들은 AI 모델을 학습시키는 것이 '공정 이용'이라고 주장해 왔어요. 그런데 이 보고서에서 이렇게 적혀 있습니다.

"방대한 양의 저작물을 상업적으로 사용해서 기존 시장에서 경쟁하는 콘텐츠를 제작하는 것은 공정 사용 경계를 넘어서는 것이다."
AI 기업들과 반대되는 입장의 보고서가 나온 뒤 청장은 이메일로 해고 통보를 받습니다.
저작권법은 AI 기업들에게 매우 골칫거리였습니다. 트위터를 창업했던 잭 도시는 지난 4월에 "모든 저작권법을 지워버리자"는 글을 올리기도 했고요, 일론 머스크는 곧바로 "동의한다"고 답했죠. 구글과 오픈AI도 정도의 차이일 뿐이지 이들과 비슷한 입장입니다. 급변하는 AI 환경에서 미국이 중국보다 앞서나가려면 이 '공정 이용'에 예외를 허용해 줘야 한다고 요청했습니다.
이런 상황에서 AI 모델 학습이 '공정 이용'이 아니라고 한 저작권청장을 잘랐다? 전문가들은 이번 사건을 두고 사실상 트럼프 정부가 저작권법이 아닌 AI 기업들의 손을 들어준 것으로 보고 있습니다.
뉴스도, 책도 이미 무단으로 사용한 빅테크들
사실 이미 AI 기업들은 저작권법과 관련해서 수많은 소송 전을 이어오고 있습니다. 그런데 소송 과정에서 공개되는 증거들과 내부 문건들을 보면 빅테크 기업들은 이미 무단으로 저작권이 있는 데이터를 사용하고 있었어요.

먼저 이건 뉴욕타임스가 법원에 제출한 문서입니다. 여기엔 뉴욕타임스 기사가 오픈AI의 모델에 얼마나 많이 포함되어 있는지, 그 증거가 담겨 있어요.

뉴욕타임스 기자가 쓴 음식 리뷰 기사에 대한 질문을 챗GPT에 던져봤습니다. 후속 질문으로 해당 리뷰의 첫 단락이 어떻게 되는지 물어보자 챗GPT가 뉴욕타임스의 기사를 그대로 내뱉습니다.
뉴욕타임스는 오픈AI가 자신들의 기사를 임의로 학습하고, 또 이렇게 암기된 기사를 다시 그대로 출력하는 건 저작권 침해라고 주장합니다. 뉴욕타임스는 저작권 침해 사례로 볼 수 있는 예시 100개를 정리한 이 보고서를 증거로 제출했어요. 반면 오픈AI는 모델이 학습 데이터를 '암기'해서 내뱉는 건 버그라고 얘기합니다. 또 뉴욕타임스의 기사를 사용한 건 저작권법에서 허용하는 '공정 이용'에 해당한다고 주장하고 있죠.
이 소송이 시작된 게 지난 2023년 12월인데요. 아직 결과가 나오진 않고 있습니다.
참고로 올해 3월에 오픈AI가 이 소송을 기각해 달라고 재판부에 요청했어요. 이유는 다음과 같습니다. 뉴욕타임스 기사들을 보니까 이미 2020년부터 AI 학습에 자신들의 기사를 활용하고 있다는 걸 알고 있었다는 거죠. 그런데 2024년 다 되어서 소송을 냈으니 이미 소송 기한을 넘겼다는 건데요. 물론 법원은 오픈AI의 이 요청을 받아들이진 않았습니다.
이 사건의 판결이 어떻게 날지는 모르겠지만, 뉴욕타임스가 승리하게 된다면 오픈AI 뿐 아니라 다른 LLM을 만들던 빅테크들도 난리가 날 수 있습니다. 오그랲 두 번째 그래프를 통해 살펴보겠습니다.

아까 증거로 제시했던 뉴욕타임스 기사를 다른 모델들도 암기하고 있는지 확인을 해봤습니다. 오픈AI 뿐 아니라 다른 기업들의 모델에서도 뉴욕타임스 기사의 흔적이 발견되고 있습니다. 모델 크기가 클수록 기사 암기량이 더 많았고요. 가장 많이 발견된 모델은 앤트로픽의 Claude-3 Opus 모델이었습니다. 이 연구에서는 오히려 오픈AI 모델의 기사 암기량이 다른 모델들보다 적었는데요, 연구진들은 오픈AI가 소송 중이니만큼 답변 필터링을 더 강력하게 한 영향 아닐까 해석하고 있습니다.
기사뿐 아니라 책 데이터도 불법으로 다운받았다는 의혹을 받는 기업도 있습니다. 메타는 작가들과 소송 전을 벌이고 있는데요, 전미도서상을 수상한 타네히시 코츠 작가부터, SNL로 유명한 사라 실버먼까지 면면이 화려합니다. 작가들은 메타가 모델을 학습하는 데 자신들의 저작물을 허락 없이 사용했다고 주장하고 있어요.
소송 과정에서 공개된 내부 자료를 보면 메타에서는 불법으로 전자책을 다운 받은 정황이 포착되었는데, 립젠(Libgen) 같은 불법 공유 사이트에서 메타가 다운받은 전자책 규모가 무려 81.7 테라바이트나 되는 것으로 알려졌죠.
메타 내부에서는 이러한 행위가 문제가 될 것이라는 걸 알고 있었습니다. 그래서 이걸 은폐하기 위한 다양한 아이디어도 오갔어요. 가령 ISBN, Copyright, 저작권 표시가 포함된 데이터는 다 지운다거나, 앞서 살펴본 뉴욕타임스 사례처럼 무단으로 암기한 자료가 뱉어지지 않도록 그런 질문들은 아예 답변하지 않도록 모델을 조정하자고 제안하기도 했죠. 게다가 불법 다운의 흔적이 남지 않으려고 서버를 우회해서 토렌트로 다운 받은 정황도 확인할 수 있었어요.
메타뿐 아니라 오픈AI도 무단으로 책 데이터를 학습한 듯합니다. 미국 사회과학연구협의회 연구진은 프로그래밍 공부하시는 분들이라면 익숙할 오라일리 출판사의 책 34권을 가지고 오픈AI 모델이 책의 자료를 학습했는지 파악해 봤어요. 오그랲 세 번째 그래프를 통해 살펴보겠습니다.

오픈AI의 모델들은 오라일리와 라이선스 계약을 하지 않았는데도 불구하고 유료 구독자만 볼 수 있는 비공개 콘텐츠를 너무나 잘 인지하고 있었습니다. GPT-4o는 무려 82%나 파악하고 있었죠. 게다가 공개된 자료보다 비공개 콘텐츠를 더 잘 인지하고 있다는 결과가 나온 건 무단으로 크롤링했거나 메타처럼 비공식 경로를 사용한 건 아닌지 의심이 되기도 합니다.
창작자 "GPU엔 수조 원 쓰면서, 데이터엔 왜 안 쓰나요?
글과 책뿐이겠습니까. 그림, 영상, 음악 등 다양한 저작물들의 이용을 두고 창작자와 AI 기업들 사이의 갈등은 이어지고 있습니다.
빅테크들은 왜 이렇게 저작권이 있는 자료들을 탐하는 걸까요? 그건 바로 이게 양질의 자료이기 때문입니다.

좋은 AI 모델을 만들기 위해선 핵심 자원 세 가지가 필요합니다. 먼저 뛰어난 인재가 있어야 할 테고요, 또 모델을 만들기 위한 컴퓨팅 인프라도 갖춰져야 할 겁니다. 그리고 마지막으로 모델을 학습시키는 데 필요한 데이터까지.
좋은 모델을 만들기 위해선 데이터를 많이 투입하면 됩니다. 하지만 많은 양의 데이터를 투입하는 데는 리소스가 엄청나게 들죠. 그래서 기업들은 데이터를 덜 넣으면서도 좋은 모델을 만들기 위한 노력을 해왔으니, 그 해답은 바로 '양질의 데이터'였습니다.
마이크로소프트에서 발표한 "Textbooks Are All You Needs"라는 논문이 있습니다. "우리에게 필요한 건 교과서"라는 말대로 교과서 수준의 양질의 데이터만 있다면 학습 데이터 규모가 크지 않더라도 좋은 성능의 모델을 만들 수 있습니다.
메타가 토렌트를 써서라도 책을 다운받으려는 이유가 바로 여기에 있습니다.

다 좋습니다. 양질의 데이터 쓰는 것 좋죠. 그런데 왜 그걸 훔쳐서 쓰냐는 게 창작자들의 입장입니다. 엔지니어 한 명당 10억 넘게 주면서 채용하고, 또 GPU 같은 인프라에 1조 넘게 투자하고 있으면서 왜 데이터는 불법으로, 무료로 사용하려고 하는 건지 납득이 안 된다는 거죠. GPU를 훔치는 건 범죄고, 데이터를 무단으로 훔치는 건 범죄가 아니라고 생각하는 걸까요?
창작자들은 빅테크들의 질주를 막기 위해 적극적으로 행동에 나서고 있습니다. 지난 2024년 10월, AI 기업이 창작물을 무단 학습하는 것에 반대하는 서명을 시작했는데 당시에만 예술인 1만 명이 참여했습니다. 2025년 5월엔 그 규모가 5만 명을 넘어섰어요. 오그랲 네 번째 그래프는 서명에 참여한 예술인들입니다.

기관 279개, 그리고 5만 544명의 개인이 참여했는데요. 여기엔 줄리안 무어, 케빈 베이컨, 킷 해링턴 같은 배우들 뿐 아니라 라디오헤드의 톰 요크, 큐어의 로버트 스미스, 케이트 부시의 이름도 확인할 수 있습니다.
이렇게나 많은 창작자들이 우려하고 있음에도 불구하고 일부 국가에선 AI 기업에 힘을 실어주려는 모습입니다. 트럼프의 저작권청장 해임 사건도 그 전조 증상으로 보이고요, 영국은 실제로 관련 법을 개정하려 했어요. 영국 정부는 AI 발전을 위해 저작권이 있는 콘텐츠도 학습 데이터로 활용할 수 있도록 하는 개정안을 공개했는데요, 이 법안이 공개된 이후 많은 예술인이 분노했습니다. 그중엔 폴 매카트니와 엘튼 존 같은 레전드들도 있었죠. 이들은 왜 예술가들의 권리를 침해하면서까지 기술 대기업에만 이익을 집중해 주냐며 목소리를 높였습니다.
최근엔 1,000명의 영국 아티스트들이 모여 영국 정부에 항의하는 뜻을 모아 앨범을 발매했습니다. <Is This What We Want?>라는 앨범인데요. 이 앨범에 수록곡 제목을 이어 붙이면 이런 문장이 완성됩니다.

예술가들의 강력한 항의가 이어지자 영국 정부는 기존 개정안을 재검토하겠다고 밝혔어요.
투명한 공개 vs 그건 영업비밀
전 세계를 휩쓸고 간 지브리 스타일의 이미지들 기억하시죠. 누가 봐도 챗GPT가 지브리 스튜디오의 이미지를 학습하고 생성한 것으로 보이지만 이걸 두고 저작권 침해라고 딱 떨어지게 말하긴 어렵습니다. 왜냐하면 AI 학습 과정에서 정말로 지브리의 저작물을 무단으로 사용한 건지 판단하려면 오픈AI의 학습 데이터를 우리가 알아야 하는데, 기업들이 공개하지 않는 한 외부에서 정확히 파악하기는 어렵기 때문입니다.
명쾌한 해결 방법은 학습 데이터를 법적으로 아예 공개하도록 하면 됩니다. 어떤 재료들을 사용했고, 이 재료는 어느 창작자가 소유하고 있는지 투명하게 밝히는 식으로요. 하지만 기업들은 학습 데이터를 공개하라는 요구에 대해 강력히 반대하고 있습니다. 데이터 경쟁 시대에 데이터라는 것 자체가 영업비밀에 해당하는데, 이걸 공개해 버리면 경쟁력이 상실될 수 있다는 우려가 있는 겁니다.
일단 학계에서는 AI 기술을 활용해서라도 저작권 침해를 줄이려는 시도를 고민하고 있습니다. 일부 연구진은 콘텐츠의 독창성을 아예 수치화해서 AI가 이미지를 생성할 때 저작권이 있는 콘텐츠의 고유 특징들을 모방하지 않도록 했어요.

한 번 슈퍼마리오 시리즈의 마리오를 떠올려볼까요? 마리오 하면 떠오르는 고유 특징들이 있죠. 커다란 눈, 동그란 코, 그리고 콧수염까지. 또 M이 박혀있는 빨간 모자와 빨간 셔츠, 파란색 멜빵바지도 있습니다. 연구진은 알고리즘을 통해 마리오 특유의 고유 특징을 포함하지 않도록 해서 가장 평균적인 이미지만을 생성하도록 했습니다. 이런 식으로 말이죠.

배트맨을 요구해도 이렇게, 캡틴 아메리카를 요구해도 이렇게, 주디를 요구해도 이렇게 나오도록 말이죠. 오그랲 마지막 그래프를 통해 이 알고리즘의 효과를 살펴보겠습니다.

직접적으로 '마리오'를 그려달라고 모델에 입력했을 때 아무런 제약이 없는 모델에선 최대 41.3%가 저작권과 유사한 결과물이 나왔습니다. 하지만 연구진이 개발한 알고리즘이 적용된 경우엔 3.3%로 크게 떨어집니다.
어떤 연구진들은 AI의 학습 데이터 자체에 집중하기도 합니다. AI가 문제가 되는 저작권 데이터를 학습하고 암기하고 있다면, 이걸 지워버리자는 거죠. 이른바 머신 언러닝인데요. 머신 언러닝은 저작권뿐 아니라 AI가 학습한 잘못된 가짜 정보와 개인정보도 없앨 수 있다는 점에서 주목받고 있어요.
정부에서는 제도를 통해 기술과 저작권의 간극을 메우려고 하고 있습니다. 일단 미국과 유럽에서는 학습 데이터를 의무적으로 공개하라는 법을 준비하고 있는데요, 다만 미 연방 차원에서는 아직 입법으로 이어지진 않았고요, 발의만 되어 있어요. 대신 AI가 가장 빠르게 발전하고 있는 캘리포니아주에선 2026년 1월부터 AI 기업들은 학습 데이터의 출처와 지적재산권 보호 여부를 웹사이트에 공개해야 합니다. 물론 많은 AI 기업은 이 법안에 대해 침묵을 지키고 있지만요. 유럽연합에서는 AI 기본법을 통해 데이터 출처를 제출토록 해두었어요. 만약 위반하게 될 경우엔 매출 기준으로 벌금이 부과될 수 있죠.
유럽에 이어 세계에서 두 번째로 AI 기본법을 제정한 우리나라 상황은 어떨까요? 우리나라의 AI 기본법에는 학습 데이터의 저작권 보호를 명시한 조항이 없습니다. 대신 AI 저작권법을 만들어서 따로 관리할 예정이었는데, 아직 뚜렷한 진전이 보이진 않고 있습니다.
다만 영국에서도 예술가들의 행동이 입법을 막았듯 우리나라에서도 창작자들이 움직이고 있습니다. 최근엔 15개 창작자 단체가 AI 학습 데이터를 공개하고 창작자에게 제대로 된 보상을 해야 한다는 공동 성명을 발표하기도 했습니다.
저작권자와 빅테크 사이의 갈등 아마 근시일 내에 해결되진 않을 겁니다.
하지만 빅테크 기업 내부에서도 이런 무분별한 데이터 이용에 전적으로 동의하는 건 아닙니다. 메타 임직원 중에는 불법 복제 자료를 사용하는 것에 우려를 표하기도 했고, 내부적으로도 자성의 목소리가 나오고 있다는 건 분명 반가운 일입니다.
AI로 더 나은 세상을 만들기 위해 누군가는 피해를 보고, 또 누군가는 이득을 본다면 그건 좋은 과정이 될 수 없을 겁니다. 기업 내부의 자성의 목소리에 창작자의 움직임이 더해지고 정부도 이에 발맞춰 제도를 정비한다면 기술 발전과 창작자 권리 보호 사이에서 균형을 충분히 맞출 수 있지 않을까요?
(남은 이야기는 스프에서)

댓글 아이콘댓글