2022년 4월 22일, 샘 올트먼에게서 갑작스러운 문자를 받았습니다. O'Reilly 도서를 GPT-4 학습에 사용할 수 있는 가능성에 대해 문의했습니다. 며칠 후에 전화를 드려 가능성을 논의했습니다.
제가 대화를 기억하기로는, 샘에게 흥미롭다고 말씀드렸지만, 약간의 저어하는 마음이 있었다고 했습니다. 데이터 사용을 추적하고 저자에게 보상할 수 있는 메커니즘이 있을 때만 데이터를 라이선스할 수 있다고 설명했습니다. 전 충분히 가능할 거라고 설명했습니다. 생성 AI와 함께 참여형 콘텐츠 경제의 기초가 될 수 있다고 생각합니다. 이 아이디어에 대해 나중에 '인공지능의 원죄를 해결하는 방법'이라는 제목의 글로 작성했습니다. 샘은 그것에 대해 생각해보지 않았지만, 그 아이디어가 매우 흥미롭다고 하며 다시 연락하겠다고 했습니다. 절대 그렇게 하지 않았습니다.
물론 이제 메타가 러시아의 불법 도서 데이터베이스인 LibGen에서 라마를 훈련시켰다는 보고가 나왔으니, OpenAI도 같은 일을 했는지 궁금해집니다. 사회과학연구위원회의 AI Disclosures Project에서 일하는 동료들과 함께 검토하기로 했습니다. 그 결과는 오늘 Sruly Rosenblat, Tim O'Reilly, Ilan Strauss의 연구 보고서 '대규모 언어 모델 사전 학습 데이터에서의 공공 접근을 넘어서'에 발표되었습니다.
특정 콘텐츠를 학습한 인공지능의 가능성을 추정하기 위한 다양한 통계 기법이 있습니다. DE-COP이라고 하는 것을 선택했습니다. 모델이 특정 도서로 학습되었는지 확인하기 위해, 사람의 손으로 쓴 책에서 인용한 단락과 동일한 단락의 세 가지 변형을 모델에 제공하고, 그 책에서 '정확한' 구절을 식별하도록 요청했습니다. 각 도서에 대해 이 과정을 여러 번 반복했습니다.
오라일리는 DE-COP와 함께 사용할 독특한 데이터셋을 제공할 수 있는 위치에 있었습니다. 수십 년 동안 각 책에서 두 개의 샘플 장을 공개 인터넷에 게재했습니다. 또한 각 장의 첫 부분에서도 일부를 발췌하여 제공했습니다. 각 도서의 나머지 부분은 구독 결제를 통해 제공되는 O’Reilly 온라인 서비스에서 볼 수 있습니다. 이는 공개적으로 이용할 수 있는 데이터의 결과와 같은 책에서 나왔지만 비공개 데이터의 결과를 비교할 수 있음을 의미합니다. 각 모델의 훈련 날짜 이후에 발행된 자료에 대해 동일한 테스트를 실행하여 추가 검사를 제공합니다. 이러한 자료는 훈련 데이터에 포함될 수 없으므로, 모델의 성능을 더 정확하게 평가할 수 있습니다. 이것은 비인가된 접근에 대해 꽤 좋은 신호를 줍니다.
O'Reilly 도서를 시대와 접근 가능성에 따라 나누었습니다. 이를 통해 모델 접근 위반 여부를 제대로 테스트할 수 있습니다.
참고 모델은 이전에 보지 못한 구문이라도 '말 그대로' 맞는 구문을 추측할 수 있습니다. 모델의 학습이 이미 완료된 후에 출판된 책을 포함하는 이유는 모델을 위한 '기준' 추측률을 설정하기 위해서입니다. 모델이 훈련을 마친 시점 t 이전 데이터는 모델이 이미 보았고 훈련했을 수 있습니다. 모델이 학습을 마친 후에 발표된 데이터는 모델이 본 적이 없거나 학습을 할 수 없었던 시기의 것입니다. 모델이 학습한 개인 데이터의 일부는 접근 위반일 가능성이 높습니다. 이 이미지는 개념적으로 표현된 것이며, 비율에 맞지 않습니다.
AUROC라는 통계적 측정을 사용하여 학습 세트에 포함될 가능성이 있는 샘플과 데이터셋 외부의 알려진 샘플 간의 구분 가능성을 평가했습니다. 여기서 두 가지 분류는 (1) 모델의 학습 컷오프 이전에 출판된 오라일리 도서와 (2) 이후에 출판된 도서입니다. 그 후에 모델의 식별률을 사용하여 이러한 클래스들을 구분했습니다. 시간 기반 분류는 필요합니다. OpenAI가 공개하지 않는 한 어떤 특정 책들이 학습 데이터셋에 포함되었는지 확실히 알 수 없기 때문입니다. 이 분할을 사용하면 AUROC 점수가 높을수록 해당 모델이 학습 기간 동안 출판된 O'Reilly 도서를 학습했을 확률이 높습니다.
결과가 흥미롭고 경각심을 줍니다. 아래 그림에서 볼 수 있듯이, GPT-3.5는 2022년 11월에 출시되었을 때 공공 콘텐츠에 대한 지식은 일부 보여주었지만, 사적 콘텐츠에 대한 지식은 거의 없었습니다. GPT-4o가 2024년 5월에 출시될 때쯤 되면, 모델이 공적 콘텐츠보다 사적 콘텐츠에 대한 지식을 더 많이 포함하는 것처럼 보입니다. 흥미롭게도 GPT-4o 미니의 수치는 대략 동일하며 모두 임의의 가능성에 가까워서 거의 학습된 것이 없거나 거의 유지되지 않은 것으로 보입니다.
모델의 '추측률'에 기반한 AUROC 점수는 사전 학습 데이터의 인식을 보여줍니다.
참고: 모델과 데이터 분할에 따른 도서 수준의 AUROC 점수(총 34개)를 보여드립니다. 도서 수준의 AUROC는 각 도서 내 모든 단락의 추측률을 평균 내고, 데이터셋 내 샘플과 데이터셋 외 샘플 간에 AUROC를 수행하여 계산합니다. 점선은 아무 것도 학습하지 않았을 때 예상되는 결과를 나타냅니다. 단락 수준에서도 테스트를 진행했습니다. 자세한 내용은 논문을 참조하십시오.
상대적으로 작은 서적 하위 집합을 선택했습니다. 이 테스트는 대규모로 반복할 수 있습니다. 이 테스트는 OpenAI가 책을 어떻게 입수했는지에 대한 지식을 제공하지 않습니다. 메타처럼 OpenAI도 불법 복제된 도서 데이터베이스를 활용하여 훈련했을 수 있습니다. 애틀랜틱의 검색 엔진에서 LibGen을 조사해보니 거의 모든 오라일리 도서가 불법 복제되어 포함되어 있는 것이 확인되었습니다.
OpenAI의 지속적인 주장에 따르면, 대규모 언어 모델 개발자가 저작권 데이터에 대한 보상 없이 제한 없이 학습할 수 없다면 인공지능의 진보가 멈추고 '중국에 뒤질 것'이라고 합니다. 따라서 모든 저작권 콘텐츠를 허용된 것으로 간주하는 것으로 보입니다.
DeepSeek이 OpenAI에게 저자와 출판사에 했던 행동을 그대로 했음에도 불구하고, 회사의 지도자들은 이를 꺼려하지 않는 것 같습니다. OpenAI의 수석 로비스트인 크리스 레인은 OpenAI의 학습 방법을 도서관 책을 읽고 배우는 것에 비유했으며, DeepSeek의 방법은 도서관 책에 새 표지를 씌워서 자신의 것으로 파는 것에 가깝습니다. 동의하지 않습니다. ChatGPT와 다른 LLM은 도서와 기타 저작권 있는 자료를 활용하여 여러 원작을 대체할 수 있는 결과물을 만들어냅니다. 이는 DeepSeek이 ChatGPT의 신뢰할 수 있는 대체물이 되어가는 것과 유사합니다.
공개적으로 이용 가능한 데이터를 기반으로 훈련하는 데는 명확한 선례가 있습니다. 구글 북스가 책을 읽어 색인을 만들어 사용자가 검색할 수 있도록 했을 때, 이는 도서관 책을 읽고 배우는 것과 같았습니다. 변화의 계기가 된 공정 사용이었습니다.
원작과 경쟁할 수 있는 파생 저작물을 생성하는 것은 결코 '공정 사용'이 아닙니다.
또한, 진정으로 '공공'이란 무엇인지에 대한 질문이 있습니다. 저희 연구에 따르면, O'Reilly 도서는 두 가지 형태로 제공됩니다: 일부 내용은 검색 엔진이 찾을 수 있도록 공개되어 있으며, 누구나 웹에서 읽을 수 있습니다. 다른 내용은 개인별 접근 방식에 따라 판매되며, 인쇄물로 제공되거나 좌석 기반 구독 서비스를 통해 제공됩니다. 최소한 OpenAI의 무단 접근은 저희 이용 약관을 명백히 위반하는 것입니다.
저자와 다른 창작자의 권리를 존중한다고 믿습니다. 그래서 저희 오라일리에서는 저자들의 작업을 기반으로 AI 출력을 만들 수 있는 시스템을 구축했습니다. 이 시스템은 RAG(검색 증강 생성) 및 기타 기법을 활용하여 사용을 추적하고 저작권료를 지급하며, 이는 플랫폼 내 다른 유형의 콘텐츠 사용에도 적용됩니다. 저희가 훨씬 더 제한된 자원으로 할 수 있다면, OpenAI도 시도하면 충분히 할 수 있을 것입니다. 그것은 제가 2022년에 샘 알트만에게 요청했던 것입니다.
그리고 시도해 보셔야 합니다. 오늘날 인공지능의 큰 결점 중 하나는 지속 가능성의 선순환이 부족하다는 점입니다. 이것을 제프 베이조스는 '태엽 장치'라고 불렀습니다. AI 기업들은 자신들이 창조하지 않은 자원을 착취하고, 이러한 자원의 지속적인 창조에 투자하는 이들의 수입을 잠재적으로 감소시키는 접근 방식을 취하고 있습니다. 근시안적인 접근입니다.
오라일리는 고객에게 훌륭한 콘텐츠를 제공하는 것 이상의 역할을 하고 있습니다. 저희는 창작을 장려하는 일에 종사하고 있습니다. 지식 격차를 찾아냅니다. 즉, 어떤 사람들은 알고 있지만 다른 사람들은 모르는 내용을 찾아내어 그들이 알기를 바라는 것을 발견하여, 발견의 최전선에 있는 분들이 배운 것을 나누도록 돕습니다, 도서, 영상, 라이브 강의를 통해. 알고 계신 것을 공유하기 위해 시간과 노력을 들인 부분에 대해 보상하는 것은 저희 사업의 핵심입니다.
2000년에 온라인 플랫폼을 시작하게 되었습니다. 초기 전자책 집계 스타트업인 Books 24×7에서 제안서를 받았는데, 이는 고객 한 명당 책 한 권에 해당하는 매우 적은 금액으로 라이선스를 제공하겠다는 내용이었습니다. 해당 금액은 저자와 공유해야 했습니다. 대신 주요 경쟁자를 초대하여 출판의 경제성을 유지하고 저자가 훌륭한 도서를 창작하는 데 시간과 노력을 계속 투자하도록 독려하는 공동 플랫폼에 참여하도록 하였습니다. 지금까지 생성 인공지능 기업은 보상 없이 가져가도 된다고 생각하는 콘텐츠입니다.
결과적으로, 저작권자는 소송을 제기하고 AI 크롤러에 대한 차단을 점점 더 강화하거나 사업을 중단하고 있습니다. 이것은 좋은 일이 아닙니다. LLM 제공 회사들이 소송에서 패배할 경우, 큰 벌금을 지불하고, 침해 콘텐츠 방지를 위한 안전장치를 제품에 재설계하며, 처음부터 했어야 했던 일을 이제 와서 해결해야 하는 상황에 직면하게 됩니다. 그들이 이기면, 콘텐츠를 실제로 창작하는 사람들은 불공정한 경쟁에 직면하게 되어 모두가 더 가난해질 것입니다.
저작권자뿐만 아니라 저자의 권리가 보장되고 새로운 수익 창출 방법이 제공되는 AI 시장을 원하는 것은 LLM 개발자에게도 중요합니다. 오늘날 우리가 알고 있는 인터넷은 저작권을 잘 보존했기 때문에 매우 비옥해졌습니다. 구글과 같은 회사는 논란이 있는 분야에서도 콘텐츠 창작자가 작품을 수익화할 수 있는 새로운 방법을 찾았습니다. 예를 들어, 음악 회사들이 저작권이 있는 음악을 사용하는 사용자 생성 동영상을 삭제하라고 요구했을 때, 유튜브는 대신 콘텐츠 ID를 개발하여 저작권 있는 콘텐츠를 인식하고 파생 작업의 창작자와 원본 저작권자 모두와 수익을 공유할 수 있도록 했습니다. 많은 스타트업이 AI 생성 파생 작품에 대해 같은 제안을 하고 있지만, 아직 필요한 규모를 갖춘 곳은 없습니다. 대형 AI 연구소에서 이 문제를 해결해야 합니다.
오늘날 LLM 개발자가 무분별하게 접근하는 방식 대신, 모든 공개 콘텐츠와 라이선스가 있는 비공개 콘텐츠로 대규모 중앙 집중식 AI 모델을 교육할 수 있는 세상을 고려해야 합니다. 또한, 비공개 콘텐츠로 교육된 많은 특화된 모델이 있으며, 이러한 모델은 접근할 수 없고 접근해서도 안 됩니다. 만약 어떤 생성 AI가 '그 질문에 대한 가장 좋은 답을 알고 있는지는 모르겠습니다. 블룸버그에게 물어보겠습니다(혹은 오라일리에게, 네이처에게, 마이클 셰이버에게, 조지 R.R. 마틴에게 물어보겠습니다).'라고 말할 정도로 똑똑하다면 어떨까요? 마틴(또는 소송을 제기한 다른 작가들 중 한 명으로, 소송을 할 수도 있는 수백만 명의 대변인 역할을 하는 사람들)이 잠시 후에 다시 연락드리겠습니다. 이것은 MCP에 대한 완벽한 확장 기회로, 양방향 저작권 대화 및 적절한 보상 협상을 가능하게 합니다. 처음으로 일반적인 목적의 저작권 인식 LLM은 독특한 경쟁 우위를 가집니다. 그렇게 하시지요.
원문 : Copyright-Aware AI: Let’s Make It So
댓글