당신의 인공지능, 저작권은 안녕하십니까? 1편

생성형 인공지능에 불붙은 저작권 이슈와 현황

Feb 09, 2024

Contents

1. 들어가며 AI Innovation vs. Copyright Protection Dilemma Process of Generative AI model development The Complexity of Open Source License Dependencies 2. Copyright Lawsuits on Generative AI 뉴욕타임즈, AI 대기업에 법적대응: A Landmark Lawsuit Against AI Giants 저작권 소송과 관련한 2024년 1월 주요 업데이트 Timeline of GenAI Lawsuits 3. 맺음말

※ 본 블로그 포스팅 시리즈 “당신의 인공지능, 저작권은 안녕하십니까? - LLM 시대 오픈소스 정책과 라이선스 이슈”는 LangCon 2024에 발표될 내용과 관련된 주제를 다룹니다.

CONTENTS

1. 들어가며

2022년 12월, OpenAI社에서 ChatGPT를 공개하면서 전세계에 반향을 일으켰습니다. 최근 생성형 인공지능(Generative AI)과 관련된 기술에 대한 대중의 관심이 늘어난 것은 물론 산업 전반에서도 이를 활용한 다양한 서비스 개발과 제공에 박차를 가하고 있습니다. 생성형 AI가 가져올 변화와 혁신에 대한 기대감의 다른 한편에는 일자리 문제를 비롯하여 저작권의 문제와 관련된 우려 섞인 목소리가 나오고 있습니다.

현재 필자는 ChatGPT와 같은 대규모 언어모델(Large Language Model; 이하 LLM)을 개발하고 다양한 비즈니스 애플리케이션에 이를 응용하는 업무를 하고 있습니다. 그리고 저의 팀, 한국금융인공지능연구원(이하 KIFAI)은 구글의 지원을 받아 GECKO라는 프로젝트 이름으로 한국어를 더 잘 이해하고 텍스트를 생성하되 영어와 코드 등에 대해서도 좋은 성능을 보일 수 있는 LLM을 사전학습 단계부터 시작해 만들고 있습니다. 본 연재 시리즈를 다 읽으실 때 쯤에는 지금 언급하고 있는 단어들이 어떤 의미인지 충분히 아시게 될 겁니다.

GECKO: Generative pretrained transformer for English, Code and KOrean

필자는 실제 LLM을 만들고 그 생성물을 활용하려는 엔지니어로서 방대한 양의 텍스트 데이터를 사전학습 단계에서부터 사용하면서 학습에 사용하는 데이터와 이로 인해 학습된 모델, 생성된 텍스트에 대한 저작권과 라이선스가 이슈는 없는지 고민하였습니다. 단순한 데이터 활용과 관련된 영역을 넘어서 인공지능 모델에 의한 재생성 및 가공된 경우의 이슈에 대해서도 생각해봐야 했습니다.

최근 국내를 비롯해 전 세계적으로 생성형 AI와 관련된 수 많은 법적 분쟁과 소송이 일어나고 있습니다. 기존의 언어모델을 개발할 때에는 이러한 이슈가 크게 불거지지 않았으나 최근 인공지능이 생성한 결과물이 인간 수준 혹은 그 이상의 결과를 보여주었고 인공지능에 대한 경각심과 위협, 실제 저작권 및 라이선스 침해 사례가 발생한 것들이 기폭제가 되어 인공지능의 저작권과 라이선스 문제에 대한 관심이 뜨거워진 것으로 보입니다.

AI Innovation vs. Copyright Protection Dilemma

이번 포스팅 시리즈에서는 “AI 혁신과 저작권 보호 사이의 딜레마”(AI Innovation vs. Copyright Protection Dilemma)가 전체의 내용을 꿰뚫는 주제가 될 것 같습니다. 최신 기술을 개발하고 이를 실제 산업현장에서 사용할 정도의 수준으로 만들기 위한 노력을 하면서도 개인정보와 저작권을 보호하는데 신경을 써야 하는 이 딜레마에서 어느 측면에 더 중점을 둘지 고민하고 있습니다. 이 문제에 대해 가능한 한 균형 잡힌 시각을 유지하면서 포스팅을 이어가려고 합니다.

또한, 생성형 인공지능 개발 과정에서 다양한 오픈소스 소프트웨어와 데이터셋을 사용하게 되는데 이들 각각이 가진 고유 라이선스와 제약 조건 등에 대해서도 알아볼 필요가 있습니다. 생성형AI의 학습에 사용되는 수 많은 오픈소스와 데이터셋은 고유의 라이선스와 제약 조건을 가지고 있고, 이로 인해 학습된 AI 모델들과 그 결과물이 같은 라이선스 정책을 따를 수 있는지 혹은 따라야 하는지에 대해서는 불확실한 측면이 많습니다. 오픈소스의 다양한 제공 방식과 라이선스 별로 준수해야 하는 규정들로 인해 발생할 수 있는 저작권 침해 위험도 이번 포스팅 시리즈에서 함께 다루어보려고 합니다.

Process of Generative AI model development

하나의 AI 모델이나 서비스를 만들기 위해서는 코드나 라이브러리, 프레임워크 그리고 때로는 기존 공개된 모델 Weight, 데이터셋 등 다양한 리소스들을 활용하게 됩니다. 인공지능 영역에 국한된 내용은 아니지만 많은 단계에서 AI 개발 시에 많은 부분에서 상업적으로 사용이 허가된 공개된 리소스들을 사용합니다. 복잡한 인공지능 소프트웨어 생태계 안에서 모든 리소스를 직접 개발해서 사용하기는 어렵습니다. 실제로 컴퓨터 과학 분야는 수많은 오픈 소스와 커뮤니티의 도움으로 빠르게 혁신하고 성장할 수 있었습니다.

대표적으로 🤗 Hugging Face는 Transformers 라이브러리를 오픈 소스로 배포하여 BERT, GPT와 같이 초심자가 다루기 어려운 모델들을 손 쉬운 인터페이스를 통해 불러오고 학습하고 추론할 수 있도록 했습니다. 그리고 이를 기반으로 다양한 연구와 프로젝트들이 진행되면서 빠른 결과물을 만들고 인공지능 분야와 커뮤니티가 성장하는데 큰 도움을 주었습니다.

오픈소스(코드, 모델, 데이터셋 등)를 활용한 AI 서비스 개발과 생성되는 결과물의 프로세스를 설명하기 위한 그림

각 오픈 소스는 다양한 라이선스 정책에 따라 제공되고 있으며 이를 준수하여 사용할 것을 명시합니다. 어떤 오픈 소스는 공공 및 연구용으로만 사용을 제한하기도 하고 혹은 특정 조건 하에서만 사용을 허락하기도 합니다. 과거에는 프로젝트 전체에 동일한 라이선스 정책을 가져갔다면, 최근에는 생성형 인공지능과 관련하여 다양한 법적 분쟁에 대비하기 위해 모델 개발 및 활용에 사용하는 ①소스코드, ②모델 Weights, ③데이터 각각에 대해서 상이한 라이선스 정책을 가져가는 경우도 있습니다.

마이크로소프트 소속 엔지니어가 관리하고 있는 WizardLM 프로젝트에서 소스코드, 모델, 데이터 각각에 대해서 라이선스를 구분하여 명시한 것이 대표적인 예시입니다. 이 프로젝트에서 코드는 Apache 2.0을, 모델과 데이터는 CC-by-NC-4.0을 따르도록 하고 있습니다.

WizardLM: An Instruction-following LLM Using Evol-Instruct

또 눈여겨보아야 할 것은 코드, 데이터 그리고 모델 weights을 사용할 때 WizardLM이 생성한 결과물이 정확하지 않거나 통제 불가능할 수 있다는 점을 명시한 부분입니다. 그리고 생성된 결과물에 대해 어떠한 법적인 의무나 책임을 질 수 없다는 점을 분명히 하면서 생성형AI와 관련하여 우려되는 부분에 대해서 이를 사용하는 사람에게 책임이 있다는 것을 간접적으로 표현하고 있습니다.

The Complexity of Open Source License Dependencies

오픈 소스의 특성으로 인해 하나의 프로젝트는 여러 다른 오픈 소스 프로젝트의 리소스를 활용하여 이를 베이스로 만들어진 경우가 많습니다. 위의 예시에서와 같이 하나의 프로젝트에서도 배포하는 리소스 별로 각기 다른 라이선스 정책을 유지하기도 하고, Meta의 언어모델인 LLaMA와 같이 Community License를 사용하는 경우가 많아지면서 오픈 소스 라이선스의 의존성 관계가 더욱 복잡해지고 파악하기 어려워졌습니다.

각 오픈 소스가 갖는 다양한 라이선스 조항들을 이해하고 이들이 어떻게 다른지 그리고 서로 어떤 영향을 줄 수 있는지, 어떤 조항이 우선시되는지 이런 것들을 파악하기가 쉽지 않습니다. 예를 들어, 한 프로젝트에서 GPL과 같은 엄격한 ‘copyleft’ 라이선스를 사용한다고 했을 때 이는 해당 소프트웨어를 사용하는 모든 파생된 작업들은 동일한 라이선스 조건을 준수해야 함을 의미합니다. 반면에 MIT, Apache와 같이 사용에 제한이 적은 더 유연한 라이선스를 사용하는 프로젝트를 함께 사용하게 되면 라이선스 조건의 충돌이 발생할 여지가 생깁니다.

오픈 소스 프로젝트들 사이의 의존성이 증가하고 있는 요즘에는 하나의 프로젝트가 변경되거나 업데이트 될 때 이와 의존하는 다른 프로젝트들에도 영향을 미칠 수 있습니다. 특히나 많은 비용을 투자해야 하는 LLM과 관련된 프로젝트에서는 MIT와 Apache와 같은 자유로운 라이선스 보다는 상업적 사용에 제한을 걸거나 상업적 사용을 위해서는 특정 조항을 만족해야 하는 경우가 많습니다.

상기 캡처된 이미지는 🤗 Hugging Face의 Spaces에서 운영 중인 LMSYS의 리더보드 입니다. 새로운 국민게임이 된 롤(LOL; League of Legends)에서 게이머들 간의 랭킹과 게임 매칭을 위해 사용하는 Elo ranking system을 LLM 성능을 평가하기 위한 지표로 응용하였습니다. 현재 이 글을 작성하는 2024년 2월 6일 기준으로 GPT-4-Turbo-0125 가 가장 높은 점수를 얻었습니다. LLM 평가 방법에 대한 내용은 다른 포스트를 통해 소개할 수 있도록 하겠습니다.

리더보드의 컬럼 항목 중에 License 부분을 보면 유료로 사용하는(Proprietary) 라이선스를 비롯하여 일반적으로 많이 사용하는 Apache-2.0과 CC-BY-NC-4.0과 같은 라이선스가 있습니다. 그리고 Llama 2 Community, AI2 ImpACT Low-risk, Yi License, DeepSeek License와 같이 생소한 라이선스들도 보실 수 있습니다.

전통적인 라이선스는 그 조건과 규정에 대한 내용이 오랜시간 논의되고 사용자들에 의해서 규격화 및 표준화돼있어 사용 시 예측 가능한 면이 있습니다. 하지만 예를 들어, Llama 2 Community 라이선스는 전문에서 발췌한 아래의 부분과 같이 active user가 7억 명이 넘는 경우에는 Meta의 승인을 받아야 한다는 문구가 적혀있습니다. 이런 생소하면서도 비표준인 라이선스들은 이를 사용하는 개발자와 조직, 회사들에게 이용에 대한 확신을 주기 어려우며 어떤 법적인 규제가 적용되는지 명확히 알기가 어렵습니다.

2. Additional Commercial Terms. If, on the Llama 2 version release date, the monthly active users of the products or services made available by or for Licensee, or Licensee’s affiliates, is greater than 700 million monthly active users in the preceding calendar month, you must request a license from Meta, which Meta may grant to you in its sole discretion, and you are not authorized to exercise any of the rights under this Agreement unless or until Meta otherwise expressly grants you such rights. - extracted from LLAMA 2 Community License

하나의 데이터셋 안에서 데이터의 특성에 따라 라이선스를 구분해서 배포하는 경우도 있습니다(Zheng et al., 2023). 입력 텍스트로의 user prompts는 CC-BY-4.0으로 하는 반면 해당 입력 값을 바탕으로 모델을 통해 출력된 텍스트인 model outputs에 대해서는 CC-BY-NC-4.0으로 라이선스를 정의하였습니다. 대부분의 오픈 소스들은 상업적 사용을 금하는 라이선스를 따르도록 하는 라이선스 정책을 취합니다. 이는 AI가 생성하는 콘텐츠에서 위협이나 폭력, 차별적인 표현이 포함할 수 있고, 혹은 사법 리스크에 이를 수 있는 위험에서 벗어나기 위한 목적이 큽니다.

필자는 최근 들어 LLM 관련 연구를 하거나 개발 프로젝트를 수행할 때 오픈 소스로 공개되었더라도 이전보다 더 라이선스 부분을 꼼꼼하게 확인하게 되었고, 해당 리소스들을 어느 목적으로까지 사용이 가능한지 확인하는 습관이 생겼습니다. 그리고 베이스가 되는 프로젝트가 있다면 해당 프로젝트는 어떤 라이선스 정책을 고수했는지 앞으로 정책이 변화할 가능성은 있는지 확인합니다.

이러한 고민과 걱정이 비단 필자만의 문제는 아니었던 것 같습니다. 인공지능 업계 오픈 소스 생태계의 대표주자인 🤗 Hugging Face에서 작년 LLM 서빙과 관련되어 공개한 오픈 소스 프로젝트인 Text Generation Inference (link)에 “HFOIL v1.0”이라는 새로운 라이선스 정책을 부여했을 때, 많은 개발자들이 혼란스러워했고, 라이선스 조항에 대해서 많은 질문을 했습니다.

HFOIL 1.0 license - Hugging Face’s Text Generation Inference (link)

LLM을 중심으로 인공지능 분야가 발전을 하면서 소프트웨어 개발에 이전과는 차원이 다른 금액의 비용을 지불해야 되는 시대가 되었고, 많은 비용을 들여 만든 리소스들을 영리적인 목적을 위해 수정, 재가공 및 재판매할 수 있도록 오픈 소스로 배포하기에는 부담이 되는 상황입니다. 리소스를 완전히 자유롭게 배포하기에는 그것을 만들고 활용하려는 개인 및 조직의 수익과도 직결되는 상황으로 이전처럼 소스코드를 공개하는 일도 줄어들게 되었습니다. 그리고 엄청난 스펙의 하드웨어를 공공 및 연구 목적으로의 사용만을 약속하고 지원을 받아 프로젝트를 진행하는 경우가 많아진 이유도 있습니다.

이런 상황이 지속되던 때에 사전학습 단계의 언어모델(Pretrained Language Model; PLM)을 Apache-2.0 라이선스로 공개한 Mistral 7B 모델이 성능이 다른 Community License 모델들의 성능을 뛰어넘으면서 오픈 소스 생태계에 새로운 활력을 불어넣어주고 있어 오픈 소스에 대한 기대감이 다시 생기게 되었습니다.

2. Copyright Lawsuits on Generative AI

최근 콘텐츠 제작자들과 미디어 산업 관계자들이 생성형 인공지능(이하 GenAI)을 개발하는 회사들을 상대로 소송을 걸었고 현재 지속적으로 법적 분쟁이 일어나고 있습니다. 대표적으로 ChatGPT를 만든 OpenAI를 비롯 Microsoft, Anthropic, Midjourney, Stability AI와 같은 회사들이 그 대상입니다.

인공지능이 저작권이 있는(copyrighted) 콘텐츠를 무단으로 불법하게 LLM을 학습하는데 사용했다는 것이 소송을 건 회사들의 주장입니다. 이에 대응하여 GenAI를 만드는 회사들은 일반적으로 AI 모델을 학습시킬 때 “fair use” 원칙을 지키기 때문에 이러한 소송들은 근거가 없다고 반박하는 모양새입니다. 일부 미디어 매체들은 자신들의 콘텐츠를 GenAI 회사와 금전적으로 거래하여 라이선스와 함께 제공하고 있으나 이 거래 조건들은 대체로 비공개로 남아있습니다.

Fair Use (link)
Fair use is a copyright principle based on the belief that the public is entitled to freely use portions of copyrighted materials for purposes of commentary and criticism. For example, if you wish to criticize a novelist, you should have the freedom to quote a portion of the novelist’s work without asking permission. Absent this freedom, copyright owners could stifle any negative comments about their work. — from Stanford Libraries

저작권과 관련된 법적 분쟁과 소송의 이면에는 개별 회사나 조직, 개인 창작자들의 수익과 직결되는 문제이기도 하지만 넓게는 검색엔진과 스트리밍 서비스 그리고 이들을 통해 수수료를 지불하는 광고대행사까지 수많은 관계자들의 이해가 얽혀있습니다. GenAI의 저작권 문제는 단순한 돈의 문제가 아니며 콘텐츠 생태계 전반에 대한 패러다임을 바꿀 수 있으며 이를 위협할 수 있는 이슈입니다. 이와 관련된 자세한 내용은 다른 포스팅에서 좀 더 다루도록 하겠습니다.

뉴욕타임즈, AI 대기업에 법적대응: A Landmark Lawsuit Against AI Giants

2022년 12월 연말 OpenAI가 ChatGPT를 공개하면서 인공지능 업계와 전세계 반향을 일으켰습니다. 2023년 12월 연말에는 미국 뉴욕타임즈(New York Times)가 미국의 주요 언론사 중에서는 최초로 거대 기술 기업인 OpenAI와 Microsoft를 상대로 법적 소송에 들어가면서 다시 한번 저작권법에 대한 논의에 불을 지폈습니다. 이번 소송은 생성형 인공지능을 개발하는데 사용되는 대규모 학습 데이터셋과 관련된 텍스트, 이미지 및 기타 콘텐츠에 대한 제작자의 권리에 대한 논의가 지속되고 있는 가운데 중요한 이정표가 될 것으로 보입니다.

뉴욕타임즈는 OpenAI와 Microsoft가 세계적인 서비스인 ChatGPT를 포함한 AI 기술을 개발할 때 수백만 건의 뉴스 기사를 허가 없이 불법적으로 활용했다고 주장하고 있습니다. 단순한 텍스트가 아니라 신문사의 고유한 가치와 저널리즘을 위한 노력의 결정체이기 때문에 이를 허가 없이 활용했다면 명백한 저작권 침해 행위라는 것이 그 골자입니다.

CNN에 따르면, 작년 말 법적 조치를 취하기 전인 2022년 4월, 뉴욕타임즈는 원만한 해결책을 모색하기 위해 Microsoft와 OpenAI에 연락을 취했다고 합니다. (link) 지식 재산(Intellectual Property)에 대한 사용에 있어 발생할 수 있는 우려되는 부분들을 원만하게 해결하기 위한 협의를 하려고 했으나 만족할 만한 해결책을 찾지 못했고 현재의 법적 소송에 이르게 되었습니다.

뉴욕타임즈의 소송장 원문 내용(link)에 따르면 정확한 손해배상액이 명시되어 있지는 않으나 저작권 침해로 인한 회사의 법적 혹은 실제 손해액이 수십억 달러에 달할 수 있다고 명시되어있습니다. 이 수치는 이후 다른 미디어 회사들이 자신들의 저작물에 부여할 가치를 어느 정도로 잡을 지 가늠할 수 있는 중요한 척도가 될 수도 있습니다. 뉴욕타임스는 금전적 보상 외에도 해당 기업이 사용한 AI 모델과 학습 데이터에서 자사의 저작권이 있는 자료를 삭제할 것을 요구하고 있습니다.

뉴욕타임즈가 69페이지에 달하는 소송장에서 OpenAI가 자사 콘텐츠를 무단 도용했다는 증거로 제출한 이미지

필자가 이 소송에 주목하고 있는 또 다른 이유는 뉴욕타임스나 해당 피고들만의 문제가 아니라 인공지능으로 생성된 콘텐츠와 관련된 저작권 이슈에서 앞으로의 법적 소송이나 분쟁을 규정하는 나침반이 될 것으로 보기 때문입니다. 이 소송의 결과가 Tech 업계뿐만 아니라 창작자와 콘텐츠 유통업 전반에 걸쳐 광범위한 영향을 미칠 수 있으며, 현재 진행 중인 저작권 소송의 중요한 판례로 남을 것이기 때문에 그 귀추가 더욱 주목됩니다.

날짜	GenAI 회사	관련 회사	주요 내용
2024-01-25	Google	Singular Computing	16억 7천만 달러(원화 약 2,200억원)를 요구한 AI관련 칩 특허 소송 합의 from Reuters
2024-01-25	Dudesy	George Calin Estate	칼린 소유의 자료로 학습한 AI를 이용해 바이럴성 영상을 제작한 것으로 추정 이에 대해 소송
2024-01-18	ㅤ	Fairly Trained	Stability AI의 오디오 부문 부사장직을 역임한 Ed Newton-Rex이 설립한 비영리 단체로 AI 제품이 저작권을 준수하는지 평가하고 인증하기 위한 목적으로 모델 세부정보를 제출하는 AI회사에 승인할 계획이라고 전함. from Bloomberg
2024-01-17	Anthropic	Universal Music, ABKCO 및 Concord Music Group	Tenessee 연방법원에 음반 출판사들의 저작권 침해 소송을 취하해 달라고 요청
2024-01-08	OpenAI	New York Times	OpenAI가 자사 블로그를 통해 뉴욕 타임즈의 소송에 대해 근거 없는 허위 소송이라는 입장을 표명
2024-01-05	OpenAI, Microsoft	Nicholas Basbanes, Nicholas Gage	두 명의 논픽션 작가는 Manhattan 연방법원에 AI 학습에 자신들의 작품을 오용(misuse)했다며 소송
2024-01-04	OpenAI	ㅤ	일부 미디어 매체를 통해 연간 1백만 달러에서 5백만 달러 정도의 계약으로 뉴스 데이터를 공급받은 것으로 알려짐
2024-01-04	Midjourney	ㅤ	Midjourney가 생성형 인공지능 모델을 학습할 때 사용된 것으로 추정되는 약 16,000명 이상의 작가들의 이름이 포함된 리스트가 유출되었음.

Timeline of GenAI Lawsuits

날짜	GenAI 회사	관련 회사	주요 내용
2023-12-27	OpenAI, Microsoft	New York Times	저작권 침해 혐의로 고소. OpenAI의 서비스가 인터넷 트래픽 전환을 막아 회사의 광고, 라이선싱 및 구독으로 인한 수익에 영향을 준다는 이유로 소송이 제기
2023-12-13	OpenAI	Business Insider, Axel Springer	다년간의 라이선스 계약을 체결. Springer는 베를린에 본사를 둔 회사로 약 18,000명의 종업원이 일하고 있음. 40여개국 이상에서 미디어 브랜드를 운영 중
2023-10	Anthropic	Universal Music, ABKCO 및 Concord Music Group	3개 주요 음악 출판사가 저작권이 있는 노래 가사와 유사하거나 동일한 텍스트를 생성하도록 하여 자적권이 있는 노래의 가사를 침해했다고 고소 from Hollywood Reporter
2023-08-30	ㅤ	U.S. Coyright Office	미국 저작권청(USCO)은 인공지능으로 인해 발생하는 지식재산권 문제를 조사 및 규제하기 위한 공개의견을 요청하는 질의 공지(NOI)를 연방관보(Federal Register)에 발표 [original link], [KIIP link]
2023-07-13	OpenAI	Associated Press	AP의 텍스트 아카이브 중 OpenAI 라이선스 부분을 포함하여 OpenAI의 기술과 제품을 활용하는데에 대한 합의. 저널리즘을 위해 뉴스 기사 생성 등에 활용하지는 않겠다고 입장 표명
2023-07-11	OpenAI	Shutterstock	고품질의 학습 데이터를 제공하기 위한 6년 연장 계약에 합의
2023-03	ㅤ	U.S. Copyright Office	미국 저작권청(USCO)은 AI를 사용하여 생성된 저작물의 저작권 범위, AI 모델 학습 시의 저작권이 보호된 데이터의 사용 등 인공지능과 관련된 저작권법 및 정책 문제를 검토하기 위한 initiative 추진
2023-02	Stability AI	Getty Images	Getty의 저작권을 침해했다고 주장하며 미국에서 소송을 제기 from Reuters. 2023년 1월 유럽에서 Stability AI를 상대로 비슷한 소송을 제가한 바 있음
2023-01	Stability AI, Midjourney, DevianArt	A group of visual artists	저작권 침해에 대한 소송 제기 from Reuters
2022-11	OpenAI	Shutterstock	Shutterstock은 OpenAI 기술 사용에 대해서 그리고 OpenAI는 저작권 있는 데이터 교류에 대한 합의 from Wall Street Journal. 동시에 Shuttersotck은 AI 학습을 위한 작품 제작을 하는 작가들에게 보상하는 체계 마련

3. 맺음말

생성형 AI 기술은 이미 우리 일상과 산업에 깊숙이 들어와 있으며, 앞으로도 그 역할은 더욱 확대될 것입니다. 필자는 인공지능을 개발하는 엔지니어이면서도 이를 일상에서 활용하고 있는 사용자로서 다양한 문화와 지식을 연결하는 데 기여할 수 있는 생성형 AI의 가능성에 확신을 가지고 있습니다. 그러나 동시에, 뉴욕타임즈의 법적 소송과 같은 사건들을 보면서 생성형 AI 기술의 발전과 혁신이 저작권을 비롯한 기존 법 체계에 새로운 도전을 하고 있음을 깨닫게 되었습니다.

개인적으로는 LLM 성능 향상에 집중하고 있어, 이러한 법적 이슈들은 다소 부담스러운 측면이 없지 않아 있습니다. 그럼에도 이번 글 작성을 통해, 생성형 AI가 기존 체계와 프로세스에 변화를 가져올 수 있는 잠재력을 가지고 있으며, 그로 인해 발생할 수 있는 변화와 위험성에 대해 고민하게 되었습니다. 이러한 과정에서 저작권과 라이선스에 대한 고민을 통해 보다 책임 있는 개발을 지향하게 되었습니다.

현재로서는 생성형 AI 기술과 관련된 문제들에 대한 명확한 해결책이 제시되지 않았습니다. 책임감 있는 AI 개발 방향성에 대한 답을 찾는 것은 간단하지 않으며, 이는 다양한 이해당사자들 간의 협업과 지속적인 논의를 필요로 합니다.