자금세탁 방식과 LLM의 학습 방식이 유사하다고요? - 당신의 인공지능, 저작권은 안녕하십니까? 4편

LLM 학습 방식에 대한 설명과 함께 한국어 언어모델에 대한 저작권 침해 저작물에 대한 복원 실험결과로 알아보는 인공지능 저작권 핵심 논쟁

Feb 28, 2024

자금세탁 방식과 LLM의 학습 방식이 유사하다고요? - 당신의 인공지능, 저작권은 안녕하십니까? 4편

Contents

1. 인공지능 데이터 세탁 (AI Data Laundry)Bloomberg Law, AI Data Laundering 행태 비판 자금세탁(Money Laundering)과 정말로 유사한가?2. LLM 학습 방법 여러 단계를 거쳐 학습되는 LLM, 사전학습과 사후학습 LLM 학습 메커니즘과 AI Data Laundering 비교 3. 학습(Learning)인가? 암기(Memorization)인가? AI 개발자에게 암기(Memorization)는 오히려 버그🐞다 암기가 나타나지 않게 하기 위한 다양한 학습 방법들 그럼에도 불구하고 나타날 수 있는 암기 현상 4. 인공지능이 내 데이터를 썼는지 알 수 있을까?한국어 언어모델의 저작권 침해 실험: 뉴욕 타임즈 사례 재검토 언어모델을 통해 정보를 탈취하려는 공격에 대한 대비 또한 필요 5. 맺음말

CONTENTS

1. 인공지능 데이터 세탁 (AI Data Laundry)Bloomberg Law, AI Data Laundering 행태 비판 자금세탁(Money Laundering)과 정말로 유사한가?2. LLM 학습 방법 여러 단계를 거쳐 학습되는 LLM, 사전학습과 사후학습 LLM 학습 메커니즘과 AI Data Laundering 비교 3. 학습(Learning)인가? 암기(Memorization)인가? AI 개발자에게 암기(Memorization)는 오히려 버그🐞다 암기가 나타나지 않게 하기 위한 다양한 학습 방법들 ① 학습데이터 중복 제거 ② 생성 이후 사후 필터링 그럼에도 불구하고 나타날 수 있는 암기 현상 4. 인공지능이 내 데이터를 썼는지 알 수 있을까?한국어 언어모델의 저작권 침해 실험: 뉴욕 타임즈 사례 재검토 실험 결과1: 실제 뉴스기사의 제목 복원하는데 성공 실험 결과2: 뉴스기사 본문의 일부를 똑같이 재현하는데 성공 언어모델을 통해 정보를 탈취하려는 공격에 대한 대비 또한 필요 LLM으로부터의 학습 데이터 추출에 대한 연구들 Embedding 벡터로부터의 공격 취약성 또한 존재 5. 맺음말

이번 포스트에서는 앞에서 다뤘던 논쟁인 ‘인공지능 개발•학습 단계에서의 저작물 사용’과 관련하여 ChatGPT와 같은 생성형 인공지능이 실제로 저작물을 암기(Memorization)하는 방식으로 학습을 하는지 알아보도록 하겠습니다.

1. 인공지능 데이터 세탁 (AI Data Laundry)

Bloomberg Law, AI Data Laundering 행태 비판

블룸버그 Law에서는 최근 생성형 인공지능(AI)과 관련된 저작권 이슈에 대해 중요한 전문가 의견을 공개했습니다. 이들의 주장에 따르면, 인공지능 학습 데이터의 저작권 침해 문제와 이를 통해 생성된 결과물이 저작권을 침해할 수 있는 상황이 심각한 문제로 대두되고 있습니다. 특히 OpenAI의 행위에 대한 비판적인 시각을 담고 있으며, 이를 'AI Data Laundering'이라는 표현으로 강조하고 있습니다. [link]

'AI Data Laundering'은 비영리 조직인 OpenAI가 인공지능 연구와 배포를 목적으로 하면서, 그 과정에서 fair use 원칙에 따른 학습 데이터 사용이 문제될 수 있다는 점을 지적합니다. 이는 비영리 목적으로 데이터를 수집하고 학습시킨 후, 그 결과물을 나중에 영리 목적으로 전환하여 사용하는 행위를 비판하는 것입니다. 이러한 행태는 영리 조직이 부담해야 할 책임으로부터 회피하려는 의도로 볼 수 있으며, 이는 궁극적으로 저작권과 라이선스의 본질을 흐릴 수 있기 때문입니다.

챗지피티와 같은 고성능의 인공지능 모델을 훈련시키기 위해서는 방대한 양의 데이터를 준비하고 여러 차례의 재학습 과정을 거쳐야 합니다. 이 과정에서 새로운 학습 데이터를 재생성하고 이를 통해 모델을 강화시키는 방식이 사용됩니다. 하지만 이러한 과정을 통해 데이터의 출처와 저작권, 라이선스가 불분명해지는 문제가 생기게 됩니다.

자금세탁(Money Laundering)과 정말로 유사한가?

자금세탁(Money Laundering)은 단일한 어떤 행위로 이루어질 수 있는 것이 아니라 일련의 단계를 거쳐 이루어지는 것으로 인공지능도 여러차례 학습하는 과정에서 이와 유사한 부분이 있다는 관점에서 Bloomberg Law에서 그런 표현을 사용한 것 같습니다. AI Data Laundering이라는 표현을 학습 데이터와 관련해서 저작권 침해 가능성이 있는 원천으로부터 얻은 것을 합법적 혹은 정당한 것으로 보이게 하는 과정에 대해서 자금세탁과 연결한 것이라고 생각하니 꽤나 참신하고 그럴듯하다는 생각을 하게 되었습니다. 실제로 자금세탁과 그 메커니즘과 목적에서 유사한 패턴을 보입니다.

예치 단계(Placement Stage)

자금세탁에서는 불법 활동을 통해 얻은 수익의 출처를 은닉해서 금융기관에 예치하는 단계입니다.

AI Data Laundering에서는 저작권이 있는 데이터를 인공지능 학습 과정에 초기 단계에서 사용하여 모델을 학습시킵니다

이 두 과정 모두 불법적이거나 문제 있는 원천으로부터 시작합니다.

은폐 단계(Layering Stage)

자금세탁에서 은폐 단계는 다양한 금융 거래를 통해 반복함으로 자금의 출처를 숨깁니다.

AI Data Laundering에서는 다양한 데이터 처리 및 학습 기법을 통해 원본 데이터의 출처와 저작권 소유권을 모호하게 만들어 저작권 문제를 회피합니다. 이 과정에서 원본 데이터의 흔적을 지우고, 저작권 침해의 증거를 희석시키는 목적이 있습니다.

합법화 단계(Integration Stage)

자금세탁에서 합법화 단계는 불법 자금을 합법적인 경제 활동으로 되돌리는 과정입니다.

비슷하게, AI Data Laundering에서는 저작권 침해의 원천으로부터 얻은 데이터로 학습된 인공지능 모델이 합법적인 제품이나 서비스로 제공되며, 이 과정을 통해 모델의 출처와 학습 데이터에 대한 복원이 어려워지고 최종 사용자로부터 확인이 어려워집니다.

정리하자면 Money Laundering과 AI Data Laundering의 유사한 부분은 문제가 있는 원천 자금 혹은 데이터에서 시작하여, 여러 단계를 통해 이를 숨기고, 최종적으로는 합법적이거나 정당한 결과물로 통합하는 메커니즘입니다. 자금세탁이 금융 범죄의 수익을 정당화하는 과정이라면, AI Data Laundering은 저작권을 침해한 데이터를 합법적인 인공지능 모델의 학습 과정에 사용하여 결과적으로 합법적인 제품이나 서비스를 생성하는 과정으로 볼 수 있습니다. 둘 다 윤리적, 법적 문제를 야기할 수 있는 행위로, 인공지능 개발 학습 단계에서의 데이터에 대한 저작권 이슈가 불거진 이유이기도 합니다.

2. LLM 학습 방법

여러 단계를 거쳐 학습되는 LLM, 사전학습과 사후학습

인공지능의 세계에서 가장 매력적인 부분 중 하나는 그 학습 과정이 어떻게 이루어지는지를 파악하는 것입니다. 특히, GPT-4와 같은 대규모 언어 모델(Large Language Models, LLM)은 그들의 학습 과정으로 인해 많은 주목을 받고 있습니다. 이러한 모델들은 기본적으로 두 단계의 학습 과정을 거치게 됩니다.

첫 번째 단계는 "사전 학습(pre-training)" 과정으로, 이 단계에서는 모델이 방대한 양의 데이터를 통해 지능적인 능력을 학습하게 됩니다. 예측, 추론, 문제 해결 능력과 같은 지능의 핵심 요소들이 이 과정을 통해 모델에 내재화됩니다. 슈퍼컴퓨터를 사용하여 수행되는 이 과정은 매우 비용이 많이 들며, 모델에게 인간 언어의 복잡성을 이해하고, 문장에서 다음에 올 단어를 예측하는 능력을 키웁니다.

이 단계에서 모델은 텍스트를 토큰으로 분해하고, 이 토큰들을 숫자로 변환하여 학습 데이터에서 각 토큰 간의 관계를 학습합니다. '트랜스포머' 알고리즘을 통해 모델은 문장 내에서 단어들이 어떻게 상호작용하는지, 주변 단어와 문장이 만드는 맥락을 이해하게 되고, 이는 모델이 단어의 다양한 의미를 맥락에 따라 파악할 수 있게 합니다.

두 번째 단계는 사전 학습이 완료된 후, 모델은 "사후 학습(post-training)" 단계로 넘어갑니다. 이 단계에서는 모델의 성능과 안정성을 높이기 위해 보다 세부적인 조정이 이루어집니다. 사람들의 선호와 가치를 반영하여 모델의 생성 결과를 조정하는 과정이 포함됩니다. 이 과정은 모델이 더욱 정교하고 사람처럼 자연스러운 대화를 할 수 있도록 만듭니다.

이처럼 LLM의 학습 과정은 매우 복잡하고 비용이 많이 드는 작업입니다. 수 조 개의 단어를 분석하고 학습하는 이 과정은 몇 달 동안 슈퍼컴퓨터 클러스터를 점유하며, 한 번의 학습에 수백만 달러의 비용이 발생할 수 있습니다. 그러나 이러한 투자를 통해 모델은 문법적으로 단어들이 어떻게 맞물리는지, 그리고 단어의 순서가 어떻게 구조화된 아이디어를 형성하는지를 이해하게 됩니다.

LLM의 학습 과정이 자금세탁과 유사하다는 비유는 그 과정의 복잡성과 숨겨진 메커니즘을 강조하기 위한 것일 수 있습니다. 실제로 LLM 학습은 체계적이고 투명한 과정을 거치는 것처럼 보이지만 그 결과로의 인공지능 모델은 수십억 개에서 수조 개에 달하는 파라미터에 학습된 부분이 블랙박스(black-box)와 같아 알기가 어렵습니다.

LLM 학습 메커니즘과 AI Data Laundering 비교

이 과정을 AI Data Laundering에 비유하자면, 원천 학습 데이터에서 얻은 정보가 반복적인 사후학습을 통해 '세탁'되어 사용자에게 제공되는 최종 답변의 형태로 변화합니다. 이 '세탁' 과정에서 원천 데이터의 원래 형태는 보존되지 않으며, 대신 사용자의 요구와 선호를 더 잘 반영하는 새로운 형태로 변환됩니다. 이렇게 변환된 정보는 원래의 원천 데이터를 정확히 복원하기 힘들게 만듭니다.

이런 학습 메커니즘이 LLM의 학습 과정과 결과에 대한 신중한 평가와 규제가 필요하다고 보면서 원천으로 사용되는 학습 데이터들의 저작권에 대한 침해 우려가 제기되고 있는 것으로 보입니다.

LLM의 학습 메커니즘에 대한 좀 더 내용은 필자와 필자의 동료가 함께 개발하는 LLM 프로젝트, GECKO에 대한 안내와 함께 따로 자세하게 소개해보려고 합니다.

3. 학습(Learning)인가? 암기(Memorization)인가?

최근 인공지능 개발 분야에서는 LLM(Large Language Models) 학습 방법론에 대한 다양한 접근과 논의가 활발히 이루어지고 있습니다. 그 중 훈련 데이터에 대한 '암기(memorization)'인가에 대한 논쟁이 필자가 다루는 저작권 문제와 밀접한 관련이 있습니다.

AI 개발자에게 암기(Memorization)는 오히려 버그🐞다

암기라는 개념은 우리가 학교에서 배우는 과정에서 긍정적인 측면으로 받아들여지곤 합니다. 하지만, LLM 학습에서 암기는 바람직한 현상이 아닙니다. 모델이 특정 문장이나 텍스트 이후에 반복적으로 나타나는 단어를 '암기'하여 생성하는 것은 모델의 창의성과 다양성을 저해하며, 결과적으로 특정 상황이나 데이터에 과도하게 의존하는 과적합 현상을 유발할 수 있습니다.

과적합은 모델이 훈련 데이터를 너무 잘 학습하여, 새로운 데이터나 다양한 상황에 대응하지 못하는 문제를 일으킵니다. 이는 모델이 일반화(generalization) 능력을 상실하게 만들어, 실제 세계의 복잡하고 다양한 상황에 대응하는 데 한계를 가지게 합니다. 따라서, AI 개발자들은 모델이 다양한 단어 생성 패턴을 학습하여 보다 강건한 추론 능력을 가질 수 있도록 노력합니다.

데이터 세트의 다양성을 확보하고, 정규화 기법 등을 사용하여 과적합을 방지하는 다양한 기술적 전략을 사용합니다. 또한, 사전학습 단계에서 특정 지식이나 내용을 주입시키는 것보다는, 모델이 다양한 상황에서 유연하게 대응할 수 있도록 하는 것을 중요하게 보기 때문에 암기 자체는 개발자들이 추구하는 목표라기보다는 해결해야 할 문제로 보고 있습니다.

AI 개발에서 '암기(Memorization)'는 양날의 검 • 실무를 하다보면 특정 상황에서는 모델이 데이터 패턴을 정확히 기억하는 것이 중요할 수 있음 • 이는 과적합이 아닌 모델의 성능이 좋아지도록 하는 방향임 • 하지만, 모델이 다양한 상황에 유연하게 대응하는 능력, 즉 일반화 능력을 잃어서는 안됨

암기가 나타나지 않게 하기 위한 다양한 학습 방법들

① 학습데이터 중복 제거

LLM 학습에 있어 데이터 정제는 기본이자 가장 중요한 단계 중 하나입니다. 데이터의 양보다는 질적인 부분이 더 중요하다는 것이 여러 연구를 통해 입증 되면서 중복 제거는 필수적인 데이터 정제 작업이 되었습니다. 특히, 학습 데이터 내의 중복은 암기 현상을 증가시킬 수 있어 중복을 제거하는게 당연시 되고 있습니다. 필자와 필자의 동료들은 학습 말뭉치에서의 중복 제거로 언어모델의 성능 향상에 대해 확인한 바 있으며(Kim et al., 2022), LLM에서는 The Falcon LLM team에서 공개한 Falcon LLM과 데이터셋에 대한 아티클 “The RefinedWeb Dataset for Falcon LLM: Outperforming Curated Corpora with Web Data, and Web Data Only”에서 중복 제거된 데이터의 학습이 모델의 성능 향상과 학습시간의 감소 등 다양한 이점이 있다고 말했습니다.

Source: The RefinedWeb Dataset for Falcon LLM (paper link)

중복 제거는 단순히 완전히 동일한 텍스트를 제거하는 것뿐만 아니라, 의미적으로 유사한 패턴을 그룹화하여 일부만 사용하는 등의 방식으로도 이루어질 수 있습니다.

② 생성 이후 사후 필터링

모델이 생성하는 텍스트에 대한 사후적인 필터링을 하여 부적절한 콘텐츠나 저작권을 침해할 수 있는 내용의 출력 자체를 제외하는 방법입니다. 필자는 ChatGPT를 이용해 이런저런 실험을 하다가 아래의 그림과 같이 경고가 뜨면서 출력되던 내용이 갑자기 보이지 않거나 혹은 생성이 중지되는 상황을 맞이한 경우가 종종 있습니다. 이는 OpenAI에서 자체적으로 개발한 필터가 생성되는 내용 자체를 탐지해 사후적으로 필터링하는 방식입니다. 완전한 해결책은 아니지만 적어도 암기가 나타나지 않게 하는 방법으로 볼 수 있습니다.

그럼에도 불구하고 나타날 수 있는 암기 현상

LLM(대규모 언어 모델)의 학습 과정에서 발생할 수 있는 '암기(memorization)' 현상에 대해 이야기해보겠습니다. 암기 현상이란, LLM이 특정 데이터를 그대로 기억하여, 유사한 맥락이나 질문에 대해 그 데이터를 반복해서 생성하는 현상을 말합니다. 이는 다양한 상황에서 발생할 수 있는데, 여기서 몇 가지 사례를 들어볼까 합니다.

첫 번째 예로, 필자가 개인적으로 좋아하는 유명한 철학자 르네 데카르트의 방법서설에서 언급된 🗨️"나는 생각한다, 고로 나는 존재한다"는 문장을 들 수 있습니다. 이 문장은 전 세계적으로 다양한 맥락에서 인용되며, 때로는 패러디의 형태로도 사용됩니다. LLM이 이러한 문구를 반복적으로 접하게 되면, "나는 생각한다, 고로"라는 시작 부분에 대해 "나는 존재한다"라는 문구를 자동으로 생성하는 경향이 높아질 수 있습니다.

두 번째 사례는 특정 이벤트나 사건, 아티클에 대한 텍스트가 저작권 보호를 받아 독특하게 한 번만 등장하는 경우입니다. 이 경우, LLM은 해당 텍스트를 학습하고 그대로 기억할 수 있으며, 이로 인해 비슷한 맥락에서 정확히 같은 내용을 생성할 가능성이 있습니다. 이는 LLM이 그 내용을 '암기'했다고 볼 수 있습니다.

마지막 예시는 한국 프로야구 팀인 한화 이글스가 1999년에 한국시리즈에서 우승했다는 사실과 관련된 것입니다. 이 정보는 특정 질문에 대해 "1999년입니다"라는 답변을 생성할 확률이 높게 만들 수 있습니다. 그러나 이러한 정보는 다양한 맥락에서 다양한 방식으로 표현될 수 있으므로, LLM은 다른 해석이나 다른 시간대를 제시할 수도 있습니다. 하지만, 이러한 정보가 고유한 맥락에서만 등장한다면, LLM은 그 정보를 암기하고 정확한 답변을 생성할 가능성이 높아집니다.

이처럼 LLM은 다양한 데이터를 학습하면서 특정 정보를 '암기'할 수 있으며, 이는 때로는 예상치 못한 결과를 초래할 수 있습니다. 최근 저작권에 대한 법적 소송과 이슈가 지속적으로 불거지는 것을 의식했던지 2024년 2월 구글 딥마인드에서 공개한 언어모델 Gemma에 대한 기술 보고서에서 ‘Memorization Evaluations’라는 섹션을 별도로 마련해 최대한 LLM에서 나타날 수 있는 암기 문제를 해소하기 위해 노력했음을 밝혔습니다. (report link)

출처: Gemma: Open Models Based on Gemini Research and Technology

4. 인공지능이 내 데이터를 썼는지 알 수 있을까?

한국어 언어모델의 저작권 침해 실험: 뉴욕 타임즈 사례 재검토

저작권 침해의 가능성을 탐색하기 위한 한 실험으로, 필자는 최근 🤗 Hugging Face Hub에 등록된 Open Access가 가능한 한국어가 학습된 언어모델을 대상으로 한 연구를 진행했습니다. 본 시리즈의 1편에서 뉴욕 타임즈가 OpenAI를 상대로 제기한 저작권 법적 소송을 참고하였습니다. 소송에서는 OpenAI의 언어모델이 뉴욕 타임즈의 저작권 콘텐츠를 침해했다고 주장하며, 특히 뉴욕 타임즈에서만 찾아볼 수 있는 기사를 거의 동일하게 생성해냈다는 점을 근거로 들었습니다.

이러한 배경을 바탕으로, 필자는 한국어 언어모델이 특정 언론사의 기사를 학습하여 유사한 콘텐츠를 생성할 수 있는지, 그리고 어떤 언론사의 데이터를 주로 학습했는지를 파악하기 위해 실험을 설계했습니다. 이 실험에서는 PLM(Pre-trained Language Models)이 특정 콘텐츠를 '암기'하는 경향이 있음을 가정하였고, 이러한 '암기' 현상이 실제로 얼마나 일어나는지를 찾기 위한 기법들을 사용했습니다.

실험을 통해 저는 몇 가지 중요한 발견을 했습니다. 먼저, 한국어 언어모델이 실제로 특정 기사의 내용을 높은 정확도로 재현할 수 있음을 확인했습니다. 이는 뉴욕 타임즈의 저작권 소송에서 제시된 근거와 유사한 결과로, 언어모델이 특정 출처의 콘텐츠를 '암기'하여 비슷한 콘텐츠를 생성할 수 있는 가능성을 시사합니다.

실험 결과1: 실제 뉴스기사의 제목 복원하는데 성공

어떤 뉴스 기사들이 학습에 사용됐는지 제목들을 복원하는 실험을 진행했습니다. 결과는 흥미롭게도 학습에 사용되었을 것으로 예상되는 뉴스기사의 약 80%에 이르는 제목들을 복원하는데 성공했습니다. 실험 과정 일부에 대한 소스코드와 결과 예시는 아래의 그림과 같습니다.

상기 이미지의 두번째 줄에 “지금이 반도체 바닥, 오히려 좋아” 삼성전자에 모이는 기대감”이라는 기사 제목을 검색했을 때 실제로 2023년 3월에 나온 기사였음을 찾아냈습니다. 이를 통해 해당 언어모델의 학습 데이터의 출처나 기타 여러가지 정보를 알 수 있었습니다.

실험 결과2: 뉴스기사 본문의 일부를 똑같이 재현하는데 성공

뉴스기사들의 제목을 복원하는데 성공한 이후에는 뉴스기사의 본문이 그대로 재현되는지를 실험하는 작업을 했고 전체 콘텐츠의 일부 발췌를 정확하게 추출하는데 성공했습니다. 아래의 실험 코드에서 나온 결과를 봤을 때 주목해야 할 점은 뉴스기사에 기자의 이름과 정보과 같은 개인정보라고 할 수 있는 것들이 포함되어 있는 것입니다. 대용량 데이터에 대한 학습 과정에서 이러한 개인정보나 민감정보들을 잘 처리하는 것도 굉장히 중요한 요소입니다.

언어모델을 통해 정보를 탈취하려는 공격에 대한 대비 또한 필요

LLM으로부터의 학습 데이터 추출에 대한 연구들

대규모 언어모델(LLM)로부터 학습 데이터를 추출하는 공격에 대한 연구가 오래 전부터 수행되어 왔습니다. 2020년에 Google, Stanford, UC Berkeley, Northeastern University, OpenAI, Harvard, Apple 소속의 연구자들은 이미 이러한 가능성을 알고 공동 연구를 진행한 바 있습니다 (Carlini et al.,2020). 당시 LLM이었던 GPT-2를 통해 진행한 연구에서는 언어모델에서 개인식별정보, IRC대화, 코드 그리고 UUID와 같은 민감정보가 추출 공격을 통해 복원되었음을 증명했습니다. 학습 데이터 내에서 한 번의 문서에서만 해당 정보가 나타났음에도 공격에 성공했다는 점에서 대규모 언어모델의 취약성이 드러났음을 보여줬습니다.

Source: Charlini et al., 2022, Extracting Training Data from Large Language Models

Embedding 벡터로부터의 공격 취약성 또한 존재

필자와 필자의 동료는 몇 년전부터 언어모델을 통해 텍스트에서 변환한 Embedding 벡터에 대한 취약점을 연구했습니다(Kim et al., 2022). 최근 RAG와 같은 아키텍처에 대한 관심의 증가와 함께 embedding에 대한 관심이 매우 높아져 있고 많은 검색엔진에서 벡터 검색에 대한 부분들이 생성형 인공지능과의 연계 및 통합을 위해 기능이 추가되고 있는 상황입니다.

Source: Donggyu Kim, Garam Lee, and Sungwoo Oh. 2022. Toward Privacy-preserving Text Embedding Similarity with Homomorphic Encryption. In Proceedings of the Fourth Workshop on Financial Technology and Natural Language Processing (FinNLP), pages 25–36, Abu Dhabi, United Arab Emirates (Hybrid). Association for Computational Linguistics. — Source: Donggyu Kim, Garam Lee, and Sungwoo Oh. 2022. Toward Privacy-preserving Text Embedding Similarity with Homomorphic Encryption. In *Proceedings of the Fourth Workshop on Financial Technology and Natural Language Processing (FinNLP)*, pages 25–36, Abu Dhabi, United Arab Emirates (Hybrid). Association for Computational Linguistics.

필자는 저작권 침해 가능성이 있는 콘텐츠가 학습 데이터에 포함되었을지를 확인하기 위해 적대적 공격(Adversarial attack)과 같은 방법을 사용하여 언어모델의 학습 데이터를 알아내는데 사용했습니다. 하지만 다른 측면에서 보면 악의적인 목적이 있는 사람이 필요로 한다면 학습 데이터에 포함되었을 수 있는 고객의 정보나 기업의 중요정보를 추출하는 것도 가능할 수 있습니다. 이와 관련되어 관심이 있으신 독자분들은 아래의 필자가 EMNLP 2022 FinNLP workshop에서 발표했었던 내용을 한 번 보시는 것도 좋을 것 같습니다.

5. 맺음말

생성형 인공지능이 주는 기술적 놀라움과 성능에 매료되어 이를 어떻게 활용할까에 대한 고민과 생각이 그 어느때보다도 활발한 요즘입니다. 하지만 그만큼 이를 활용했을 때 발생할 수 있는 Side effect에 대해서도 함께 고려해야 될 것 같습니다. 본 포스팅 시리즈에서 계속 다루고 있는 저작권 침해 문제가 그 중 하나입니다. 사실 다른 축으로는 개인정보보호 문제가 함께 제기되고 있습니다.