인공지능 저작권이란 - 당신의 인공지능, 저작권은 안녕하십니까? 2편
생성형 인공지능의 저작권과 라이선스의 차이를 모르시겠다면 한 번 살펴보세요. 그리고 혹시 NOMERGE 라이센스라고 들어보셨나요?
Feb 26, 2024
※ 본 블로그 포스팅 시리즈 “당신의 인공지능, 저작권은 안녕하십니까?”는 LangCon 2024에 발표될 내용과 관련된 주제를 다룹니다.
이전 포스팅에서는 생성형AI 관련 저작권 침해 소송과 관련된 주요 이슈와 타임라인에 대해 소개했습니다. 뉴욕 타임즈의 OpenAI, Microsoft를 대상으로 한 소송과 관련한 다양한 자료들을 참고하면서 다양한 개념적 정의를 접하였습니다.
필자는 저작권이 어떤 개념인지 그리고 무엇을 보호하기 위해 만들어졌는지 법조인이 아니기 때문에 정확하게 알지 못합니다. 하지만 본 시리즈 연재물인 “당신의 인공지능, 저작권은 안녕하십니까?”에서 아래의 두 가지 이슈를 중점적으로 다루기 때문에 필자부터 저작권이 무엇인지 정리하고 이 글을 읽는 독자들에게도 글의 이해에 도움을 주기 위해서 본 포스트를 작성하게 되었습니다.
(1) 인공지능 모델 개발・학습 단계에서 사용하는 데이터의 저작권 이슈
(2) 인공지능으로 생성한 결과물이 다른 저작물의 권리를 침해하는 이슈
CONTENTS
들어가며1. 지식재산권지식재산 기본법의 목적2. 저작권컴퓨터 프로그램도 저작권이 있는가?신문기사는 저작권법으로 보호받지 못하는 저작물인가?AI 개발자 및 사업자가 주의해야 할 신문기사특정 인공지능이 나의 데이터를 사용했는지 알 수 있을까요?3. 라이선스라이선스와 저작권의 차이오픈소스 라이선스는 공짜(Free) 라이선스?오픈소스 라이선스 유형CC BY-NC 라이선스는 회사에서 개인적으로 사용해도 문제 없는가?비상업용 라이선스의 동상이몽 NOMERGE License?4. 맺음말
들어가며
인공지능 기술이 급속도로 발전하고 있고 그 중에서도 Generative AI(생성형 AI)가 생성한 결과물이 사람이 만든 것과 비슷한 수준으로까지 발달하였고, 산업 현장에서 생성형 AI가 적용되는 영역이 확대되고 있습니다. 특히 문화와 예술의 영역에서 인공지능의 역할이 점차 확대되면서 새로운 형태의 창작물과 콘텐츠가 등장하고 있습니다. 이러한 배경 속에서, 인공지능과 관련된 저작권 침해와 이를 보호해야 하는 저작권법은 중요한 논의 주제가 되고 있습니다.
현재, 다양한 데이터가 지속적으로 가공되고 결합하여 새로운 지식을 창출하고 있습니다. 산업화 시대에 특허권과 저작권이 혁신의 촉진제 역할을 했던 것처럼, 지금과 같은 디지털 전환 시기에는 새로운 형태의 지식재산권 제도를 구축하는 것이 중요합니다. AI 기술 개발자들의 활동을 지원하면서도 동시에 콘텐츠 창작자의 권리를 보호할 수 있는 방향으로 이루어져야 합니다. 전세계적으로 관심이 뜨겁고 향후 국가 미래 경제와도 밀접한 연관을 가지고 있어 더욱 주의해서 보게되는 것 같습니다.
왜 수많은 소송 문제가 일어나고 있는지 그 이면을 살펴보기 전에 먼저 인공지능 저작권이 무엇인지 먼저 개념을 살펴보도록 하겠습니다. 처음 이 이슈를 다룰 때만 해도 필자는 지식재산권과 저작권 그리고 라이선스가 모두 같은 개념으로 알고 있었습니다. 각 개념이 어떻게 다른지 차이점이 무엇인지 한번 짚어볼 필요가 있어 본 포스팅을 통해 정리해보려고 합니다.
1. 지식재산권
'지식재산권'은 법률이나 국제 조약에 의해 인정되고 보호받는 지식 기반의 무형 자산에 대한 권리를 의미합니다. 이는 인간의 지적 창작 활동으로부터 발생하는 모든 재산적 권리를 포괄하는 개념입니다. 크게 산업재산권과 저작권으로 나뉘며, 산업재산권에는 특허권, 상표권, 디자인권 등이 포함되고, 저작권은 문학, 예술, 과학 작품에 대한 권리를 의미합니다. 그 밖에도 경제, 사회, 문화의 변화나 발전에 따라 새로 생긴 지식 재산권을 따로 분류하여 신지식재산권이라고 분류하기도 합니다. 온라인 상의 디지털 콘텐츠나 반도체의 설계와 같이 전통적인 지식 재산권의 범주에 속하지 않는 것들을 말합니다.
지식재산 기본법의 목적
이 법의 목적은 지식재산을 생산하는 이들인 발명가나 기술자, 예술가와 같은 이들이 창의적이고 안정적으로 활동할 수 있도록 지식재산을 보호하면서 활동을 촉진시는 데 있습니다. [link] 우리나라는 미국이나 여타 선진국 수준으로 법적 그리고 실제 규범적으로 많은 영역에서 지식재산권에 대한 보호가 잘 이루어지고 있는 국가 중 하나입니다.
제2조(기본이념) 정부는 지식재산 관련 정책을 다음 각 호의 기본이념에 따라 추진하여야 한다.
- 저작자, 발명가, 과학기술자 및 예술가 등 지식재산 창출자가 창의적이고 안정적으로 활동할 수 있도록 함으로써 우수한 지식재산의 창출을 촉진한다.
- 지식재산을 효과적이고 안정적으로 보호하고, 그 활용을 촉진하는 동시에 합리적이고 공정한 이용을 도모한다.
- 지식재산이 존중되는 사회환경을 조성하고 전문인력과 관련 산업을 육성함으로써 지식재산의 창출ㆍ보호 및 활용을 촉진하기 위한 기반을 마련한다.
- 지식재산에 관한 국내규범과 국제규범 간의 조화를 도모하고 개발도상국의 지식재산 역량 강화를 지원함으로써 국제사회의 공동 발전에 기여한다.
— 지식재산 기본법 제2조
2. 저작권
필자가 다루고자 하는 주제는 인공지능과 관련한 저작권 이슈로 저작권은 앞에서 서술하였듯이 지식재산권에 대한 분류 중 하나입니다. 저작권은 창작자가 자신의 창작물, 예를 들어 시, 소설, 음악, 미술작품, 영화, 연극, 컴퓨터 프로그램 등에 대해 가지는 법적 권리입니다.
저작물은 창작자의 지적 노력과 창의성의 산물이기 때문에, 저작권은 이를 인정하고 보호하기 위해 존재합니다. 정부에서는 오랜 법 개정을 통해 다양한 저작자의 저작물들을 보호하기 위해 노력해왔습니다. 저작물을 공표하거나 출처를 표시해야 하는 등과 관련된 저작인격권과 저작물의 복제나 배포, 대여 등과 관련된 저작재산권으로 구성되어있습니다.
저작권은 단순히 물리적 소유 여부에 따라 결정되는 것이 아니라, 원작을 창조한 개인이나 단체에게 자동으로 부여됩니다. 하지만, 상황에 따라서 현재 내가 소유하고 있다고 해서 무조건 저작권을 가지는 것은 아닙니다. 창작자가 속한 조직이나 단체와의 계약 방식 등에 따라서 저작권의 소유자는 조직이나 단체일 수 있습니다.
컴퓨터 프로그램도 저작권이 있는가?
이 중에서 컴퓨터 프로그램에도 저작권이 있다는 점은 흥미로운데요, 일찍이 2000년대 초반부터 별도의 법으로 그 보호되었다가 2009년부터 저작권법으로 그 권리를 일관되게 보호받게 되었습니다.
제2조(정의)
- “저작물”은 인간의 사상 또는 감정을 표현한 창작물을 말한다.
- “저작자”는 저작물을 창작한 자를 말한다.
…
- “컴퓨터프로그램저작물”은 특정한 결과를 얻기 위하여 컴퓨터 등 정보처리능력을 가진 장치(이하 “컴퓨터”라 한다) 내에서 직접 또는 간접으로 사용되는 일련의 지시 • 명령으로 표현된 창작물을 말한다.
— 저작권법 제2조
신문기사는 저작권법으로 보호받지 못하는 저작물인가?
또 흥미로운 것은 저작권법으로 보호받지 못하는 저작물들이 있다는 것입니다. 제1호부터 제4호까지는 국가 또는 지방자치단체에서 작성한 것이기 때문에 국민들이 이를 사용하는데 있어 국가나 지방자치단체로부터 허락을 받을 필요가 없다는 것이 납득이 되는 부분이 있습니다. 하지만 제5호
사실의 전달에 불과한 시사보도
의 경우에는 저작권으로 보호받지 못한다는 항목이 있습니다.제7조(보호받지 못하는 저작물) 다음 각 호의 어느 하나에 해당하는 것은 이 법에 의한 보호를 받지 못한다. <개정 2023. 8. 8.>1. 헌법ㆍ법률ㆍ조약ㆍ명령ㆍ조례 및 규칙2. 국가 또는 지방자치단체의 고시ㆍ공고ㆍ훈령 그 밖에 이와 유사한 것3. 법원의 판결ㆍ결정ㆍ명령 및 심판이나 행정심판절차 그 밖에 이와 유사한 절차에 의한 의결ㆍ결정 등4. 국가 또는 지방자치단체가 작성한 것으로서 제1호부터 제3호까지에 규정된 것의 편집물 또는 번역물5. 사실의 전달에 불과한 시사보도— 저작권법 제7조
자칫 사실(Fact)을 다루는 신문기사가 여기에 포함되어 보호받을 수 없는 것처럼 보입니다. 실제로 저작권법으로 보호받지 못하는 신문기사가 있습니다. 환율, 주식 시세, 날씨정보와 같이 공공의 이익을 위해 널리 알려져야 하는 단순한 사실 정보나, 인사/부고 정보 그리고 육하원칙에 따라 작성된 간단한 사건사고를 기록한 기사는 제5호에 따라 저작권 보호를 받지 못할 수 있습니다.
하지만, 이런 제한적인 경우 외에는 대부분의 신문 기사 혹은 논평, 칼럼, 해설 등은 편집저작물로서 저작권법의 보호를 받습니다. 기사가 단순히 사실을 나열하는 것을 넘어 그 사실들을 보도하기 위해 어떤 내용을 선택하고 배열하는 등의 노력이 창의적인 활동으로 간주되기 때문입니다.
또한, 시사보도가 사실의 전달에 불과하다 하더라도, 해당 보도에 포함된 사진이 학술적이거나 예술적인 창작성을 갖는 경우, 그 사진은 별도로 저작권법의 보호를 받을 수 있습니다. 이는 해당 사진이 독립적인 예술 작품으로서의 가치를 인정받는 경우에 한합니다.
AI 개발자 및 사업자가 주의해야 할 신문기사
AI 개발자와 사업자들이 인공지능을 개발하는 과정에서 자주 마주치는 문제 중 하나는 학습 데이터의 저작권 이슈입니다. 특히, 인터넷상의 신문기사를 활용할 때는 더욱 주의가 필요합니다. 신문기사는 저작권법에 의해 보호되는 저작물로, 포탈 사이트나 뉴스 사이트에 등록된 기사를 허가 없이 복사하여 사용하는 것은 법적 문제를 야기할 수 있습니다.
어떤 신문기사를 저작권자의 동의 없이 임의로 사용하는 것은 해당 기사의 복제권 및 전송권을 침해하는 행위로 간주됩니다. 이는 영리 목적 여부와 관계없이 저작권 침해에 해당하며, 법적 책임을 질 수 있습니다. 따라서, 기사 내용을 사용하고 싶다면 기사 원문에 대한 링크를 제공하거나, 기사 내용을 인용하여 출처를 명확히 밝히는 방법을 선택해야 합니다.
ChatGPT와 같은 LLM을 개발할 때 뉴스 기사를 데이터로 활용하는 경우가 많습니다. 하지만, 뉴스 기사를 크롤링하는 행위는 해당 신문사의 이용약관을 위반할 수 있습니다. 많은 신문사들이 무단 전재 및 재배포를 금지하고 있으며, 특히 AI 모델 학습을 위한 뉴스 기사 크롤링을 명시적으로 금지하는 경우가 증가하고 있습니다. 현재 한국어 언어모델을 개발하고 있는 회사 및 기관, 단체 모두에게 해당되는 조항으로 크롤링 자체를 금지하는 것은 아니나 인공지능 학습에 사용한다면 별도의 협의가 필요하며, 그렇지 않을 경우 민형사상 책임을 물을 수 있습니다.
이런 상황에서 fair use 원칙을 준수하여 기사의 일부 내용만 인공지능의 학습 데이터로 사용하는 것이 가능할 지는 의문입니다. 인공지능을 개발하고 이를 배포하는 개발자나 사업자들은 각 신문사의 이용약관과 robots.txt 파일을 꼼꼼히 확인하여 법적 문제를 피할 수 있도록 해야 될 것입니다.
아래에서 좀 더 다루겠지만 문화체육관광부와 한국저작권위원회에서 작년 12월 안내한 가이드를 따르자면, AI 개발자와 사업자는 신문기사를 활용할 때 저작권법을 준수해야 하고 필요한 경우 저작권자의 허가를 받거나 적법한 방법으로만 기사를 사용해야 합니다.
특정 인공지능이 나의 데이터를 사용했는지 알 수 있을까요?
인공지능 모델을 학습하는 방식과 관련이 깊은 이부분에 대해서는 다음 포스트를 통해서 좀 더 다루도록 하겠습니다.
3. 라이선스
저작권과 함께 자주 등장하는 개념인 “라이선스(LICENSE)”는 저작권과 혼동되는 개념이지만, 실제로는 매우 다른 법적 의미를 가지고 있습니다.
라이선스와 저작권의 차이
저작권은 창작물에 대한 창작자의 권리를 말하며, 이는 창작자가 자신의 작품을 통제할 수 있는 권리를 포함합니다. 반면에 라이선스는 저작권에 포함된 권리 중 일부를 타인에게 사용할 수 있도록 허가하는 계약을 의미합니다.
라이선스의 핵심은 저작권자가 자신의 지적재산을 다른 사람이 사용할 수 있도록 허락하는 것입니다. 이러한 허가는 저작권자가 특정한 조건 하에 자신의 저작물을 사용하도록 다른 사람에게 권리를 부여하는 것을 말하며, 이 과정에서 저작권자와 사용자 간의 계약이 성립됩니다.
양도와 라이선스는 저작권을 타인이 행사할 수 있도록 허락하는 두 가지 방법입니다. 양도는 저작권자가 자신의 권리를 완전히 다른 사람에게 넘기는 것을 의미하며, 이 경우 원저작권자는 더 이상 해당 저작물에 대한 권리를 행사할 수 없게 됩니다. 반면, 라이선스는 저작권자가 여전히 저작권을 유지하면서도, 특정 조건 하에서 다른 사람이 그 권리를 사용할 수 있도록 허락하는 것을 말합니다.
라이선스의 범위는 매우 중요한데, 이는 라이선스를 받는 사람이 (1)무엇을 가지고, (2)어떤 행위를 할 수 있는지에 따라 결정됩니다. 예를 들어, 영화의 상영권 라이선스를 받았다고 할 때, 그 범위가 명확하지 않으면 실제로 어떤 권리를 가지는지 알 수 없습니다. 하지만 "영화를 국내에서 변형 없이 극장에서 상영할 라이선스를 받았다"고 명시한다면, 이는 해당 영화를 국내 극장에서 상영할 수 있는 명확한 권리를 가지게 됨을 의미합니다.
오픈소스 라이선스는 공짜(Free) 라이선스?
오픈소스란, 공짜가 아니라 소스 코드가 공개되어 있어 누구나 자유롭게 사용, 수정, 재배포할 수 있는 소프트웨어를 의미합니다. 현재 오픈소스 소프트웨어는 인공지능 기술 생태계에서 빼놓을 수 없는 핵심입니다. Google, Meta 등의 글로벌 빅테크 회사들이 인공지능 오픈소스 소프트웨어를 누구나 사용할 수 있도록 MIT 혹은 Apache License 2.0 등의 자유도가 높은 라이선스로 제공한 것이 빠른 발전의 원동력이 되었습니다. 그리고 Hugging Face와 같은 인공지능 스타트업에서 개발자 커뮤니티를 활성화하면서 인공지능 개발에 필요한 다양한 오픈소스 소프트웨어를 개선하고 새로운 기능을 추가할 수 있는 장을 마련하였습니다.
오픈소스의 적절한 활용은 개발 비용과 시간을 절약할 수 있게 하지만, 각 라이선스의 법적 요구사항을 이해하고 준수해야 합니다. 신문기사나 다른 콘텐츠처럼 소프트웨어 역시 소프트웨어 개발자들의 창의적인 노력으로 만들어진 창작물입니다.
오픈소스 라이선스는 사용자에게 넓은 범위의 권리를 부여하지만, 상용 소프트웨어와 마찬가지로 저작권 등 지식재산권이 있습니다. 사용자는 라이선스가 부여하는 권리 내에서만 소프트웨어를 사용, 복제, 수정 및 배포할 수 있으며, 이러한 권리는 라이선스 문서에 명시적으로 기술되어 있습니다. 예를 들어, GPL과 같은 일부 라이선스는 소스 코드의 공개와 수정된 소프트웨어의 재배포 시 동일한 라이선스의 적용을 요구합니다.
오픈소스라 하더라도, 해당 소프트웨어를 사용할 때에는 라이선스 조건을 준수해야 합니다. 라이선스를 준수하지 않을 경우, 사용 권리를 잃거나 법적 소송에 휘말릴 수 있으며, 더 나아가 기업의 이미지 손상으로 이어질 수 있습니다.
만약 명시적으로 오픈소스 라이선스가 적용되지 않은 소프트웨어를 사용하려고 한다면 주의가 필요합니다. 별다른 오픈소스 라이선스가 함께 부여된 소프트웨어는 오픈소스가 아니며, 저작권자를 제외한 누구도 그 소프트웨어를 사용, 복제, 수정 및 배포할 수 없는 것이 기본입니다.
이와 관련한 대표적인 법적 소송으로는 세계 최대의 오픈소스 코드 공유 플랫폼인 GitHub을 인수한 마이크로소프트社를 대상으로 오픈소스 라이선스 위반에 대해 있었던 소송 사례를 참고할 수 있습니다. [link]
오픈소스 라이선스 유형
- Copyleft
- Weak Copyleft
- Permissive
유형 | 정의 | 특징 | 예시 라이선스 |
Copyleft | 수정된 버전도 원본 소프트웨어와 동일한 라이선스를 유지해야 하는 라이선스 | - 수정된 소프트웨어를 배포할 때 원본 라이선스 유지
- 소스 코드 공개 의무
- 강력한 오픈소스 보장 | - GNU General Public License (GPL)
- GNU Affero General Public License (AGPL) |
Weak Copyleft | 원본 라이선스를 유지해야 하지만, 전체 프로젝트에 대해서는 그러한 요구사항이 적용되지 않는 라이선스 | - 라이브러리나 코드 일부 수정 시 원본 라이선스 유지
- 전체 프로젝트에 대한 라이선스 유연성 | - GNU Lesser General Public License (LGPL)
- Mozilla Public License (MPL) |
Permissive | 소프트웨어를 거의 제한 없이 사용, 수정, 배포할 수 있도록 허용하는 라이선스 | - 최대한의 유연성과 자유
- 상업적 사용 촉진
- 저작권 명시만 요구 | - MIT License
- Apache License 2.0 |
CC BY-NC 라이선스는 회사에서 개인적으로 사용해도 문제 없는가?
CC BY-NC 라이선스, 즉 크리에이티브 커먼즈 저작자 표시-비영리 라이선스에 대한 이해는 기업 환경에서 상당히 중요한 요소입니다. 이 라이선스 하에 공개된 자료는 개인적인 학습이나 연구 목적으로 사용할 경우에는 대체로 문제가 되지 않지만, 회사 내에서 사용할 때는 몇 가지 주의해야 할 사항이 있습니다.
먼저, 회사 내에서의 사용이라도 그 활동이 회사의 상업적 이익이나 업무 수행과 직접적으로 관련되지 않아야 합니다. 예를 들어, 직원이 자기 개발을 위해 CC BY-NC 라이선스 자료를 활용하는 경우, 이는 비상업적 목적으로 간주될 수 있습니다. 하지만, 개인 학습이나 연구의 결과물을 회사의 상업적 프로젝트나 제품 개발에 사용하는 것은 허용되지 않습니다.
또한, 회사 내에서 오픈소스 또는 크리에이티브 커먼즈 라이선스 자료의 사용에 대한 명확한 정책이나 지침을 준수하는 것이 중요합니다. SK텔레콤과 같은 회사는 사용 제한 라이선스를 별도로 지정하여 회사 내에서 CC BY-NC 비상업용 라이선스 소프트웨어 사용을 제한하고 있습니다. [link]
정보통신산업진흥원(NIPA) 소속의 오픈소스 소프트웨어 통합지원센터는 회사 내부에서만 사용해도 되는지 공개SW 라이선스에 대한 문의에 대한 대답으로 “내부 사용 목적일 경우에는 라이선스 적용이 되지 않아 자유롭게 사용 가능하다”고 답변하고 있습니다. [link]
그러나, '비상업적 사용'의 정의는 법적으로 복잡할 수 있으므로, 회사 환경에서의 해석과 적용에 있어서 법적 조언을 구하는 것이 가장 안전할 것 같습니다.
비상업용 라이선스의 동상이몽
LMSYS Chatbot Arena에 등록된 상위에 랭킹된 오픈소스 LLM 모델 중 Starling-LM-7B-alpha, SOLAR-10.7B-Instruct-v1.0 두 개의 모델이 필자가 글을 작성하는 시점인 2024년 2월 25일을 기준으로 CC BY-NC 4.0 라이선스로 공개되어 있습니다. 같은 라이선스로 배포했지만 그 이유는 서로 다른데 그 이유가 흥미롭습니다.
전자인 Starling-LM-7B-alpha은 UC Berkeley의 연구자들이 공개한 모델로 OpenAI ToS 정책 위반으로 법적 분쟁의 여지가 있다고 판단해 원래의 Apache License 2.0에서 CC BY-NC-4.0으로 최근 라이선스를 변경했습니다.
후자인 SOLAR-10.7B-Instruct-v1.0은 한국의 스타트업 Upstage에서 공개한 모델로 Non Commercial 라이선스로 제공된 데이터셋을 학습에 사용하여 비상업용 라이선스로 배포했습니다.
NOMERGE License?
앞서 언급한 모델 SOLAR-10.7B-Instruct-v1.0은 Apache License 2.0으로 공개된 Mistral 모델에 파라미터를 추가로 쌓은 다음 학습을 더 한 모델이라고 소개하고 있습니다. 이와 같이 자유롭게 사용 가능한 공개 모델들을 수평적으로 혹은 수직적으로 혼합하여 사용하는 방식들을 써서 경쟁적으로 모델을 공개하다보니
NOMERGE License
라는 재미있는 커스텀 라이선스도 생겨난 것 같습니다. 아래는 해당 라이선스의 일부를 발췌한 내용입니다.All tensors ("weights") provided by the Software shall not be conjoined with other tensors ("merging") unless given explicit permission by the license holder. Utilities including but not limited to "mergekit", "MergeMonster", are forbidden from use in conjunction with this Software.
4. 맺음말
이번 포스트를 작성하는 동안 정해진 목적지 없이 여행하는 듯한 기분이 들었습니다. 기술과 창작이 교차하는 지점에서 새로운 법적, 윤리적, 창의적 질문들이 들었고 처음에는 이에 대한 적절한 답이 있을 것이라고 생각했었는데 한 바퀴 돌고 나니 새로운 출발점에 서 있는 듯한 느낌입니다.
생성형 AI와 관련된 저작권 문제는 기존의 지식재산권에 개념을 다르게 봐야 할 수도 있습니다. 컴퓨터 프로그램부터 신문기사까지, AI가 창출하는 콘텐츠의 범위는 점점 넓어지고 있으며,법적으로 보호받을 수 있는 '창작물'의 정의에 대한 재고를 요구하고 있는데 아직까지는 명확한 기준이나 가이드라인을 내리기가 어려울 것 같습니다.
다음 포스트에서는 정답이 없을 것 같은 이 문제를 세계 각국은 어떻게 바라보고 있는지 대응해나가고 있는지를 살펴보도록 하겠습니다.
Share article
Subscribe to our newsletter