LLM
대규모 언어 모델 정의
대규모 언어 모델(LLM)은 다양한 자연어 처리(NLP) 작업을 수행할 수 있는 딥 러닝 알고리즘입니다.
대규모 언어 모델은 트랜스포머 모델을 사용하며 방대한 데이터 세트를 사용하여 훈련됩니다. 따라서 대규모입니다. 이를 통해 텍스트나 기타 콘텐츠를 인식, 번역, 예측 또는 생성할 수 있습니다.
대규모 언어 모델은 신경망(NN)이라고도 하는데, 이것은 인간의 두뇌에서 영감을 받은 컴퓨팅 시스템입니다. 이러한 신경망은 뉴런과 마찬가지로 계층화된 노드 네트워크를 사용하여 작동합니다.
인공 지능(AI) 애플리케이션에 인간 언어를 가르치는 것 외에도, 대규모 언어 모델은 단백질 구조 이해, 소프트웨어 코드 작성 등과 같은 다양한 작업을 수행하도록 훈련될 수 있습니다. 인간의 뇌처럼, 대규모 언어 모델은 텍스트 분류, 질문 답변, 문서 요약 및 텍스트 생성 문제를 해결할 수 있도록 사전 훈련된 다음 미세 조정되어야 합니다. 대규모 언어 모델의 문제 해결 능력은 번역, 챗봇, AI 도우미 등과 같이 대규모 언어 모델이 다양한 NLP 애플리케이션 서비스를 제공하는 의료, 금융, 엔터테인먼트 분야에 적용될 수 있습니다.
대규모 언어 모델도 많은 수의 매개 변수를 가지고 있는데, 이것은 모델이 훈련을 통해 배울 때 수집하는 기억과 유사합니다. 이 매개 변수들을 모델의 지식 저장소라고 생각하세요.
그렇다면 트랜스포머 모델이란 무엇인가?
트랜스포머 모델은 대규모 언어 모델의 가장 일반적인 아키텍처이며, 인코더와 디코더로 구성되어 있습니다. 트랜스포머 모델은 입력된 정보를 토큰화한 다음, 토큰 간의 관계를 발견하기 위해 동시에 수학 방정식을 수행함으로써 데이터를 처리합니다. 이를 통해 컴퓨터는 동일한 쿼리가 주어졌을 때 인간이 볼 수 있는 패턴을 볼 수 있습니다.
트랜스포머 모델은 셀프 어텐션(self-attention) 메커니즘과 함께 작동하는데, 이 메커니즘은 모델이 장단기 기억 모델(long short-term memory models)과 같은 전통적인 모델보다 더 빨리 학습할 수 있도록 합니다. 셀프 어텐션은 트랜스포머 모델이 시퀀스의 다른 부분 또는 문장의 전체 맥락을 고려하여 예측을 생성할 수 있도록 하는 것입니다.
대규모 언어 모델의 주요 구성 요소
대규모 언어 모델은 여러 신경망 레이어로 구성됩니다. 순환 레이어, 피드포워드 레이어, 임베딩 레이어, 어텐션 레이어가 함께 동작하여 입력 텍스트를 처리하고 출력 콘텐츠를 생성합니다.
임베딩 레이어 Embedding layer는 입력 텍스트로부터 임베딩을 생성합니다. 대규모 언어 모델의 이 부분은 입력의 의미론적이고 구문론적 의미를 포착하므로 모델이 컨텍스트를 이해할 수 있습니다.
대규모 언어 모델의 피드포워드 레이어 Feedforward layer, FFN는 입력 임베딩을 변환하는 여러 개의 완전히 연결된 레이어로 구성됩니다. 그렇게 함으로써 이러한 레이어를 통해 모델은 더 높은 수준의 추상화를 수집할 수 있습니다. 즉, 텍스트 입력을 통해 사용자의 의도를 이해할 수 있습니다.
순환 레이어 Recurrent layer는 입력 텍스트의 단어를 순서대로 해석하며, 문장 내 단어 간의 관계를 포착합니다.
어텐션 메커니즘 Attention mechanism을 사용하면 언어 모델이 현재 작업과 관련된 입력 텍스트의 단일 부분에 집중할 수 있습니다. 이 레이어는 모델이 가장 정확한 출력을 생성할 수 있도록 합니다.
검색 애플리케이션에 트랜스포머 적용
대규모 언어 모델에는 크게 세 가지 종류가 있습니다.
-
일반 또는 원시 언어 모델 Generic or raw language model은 학습 데이터의 언어를 기반으로 다음 단어를 예측합니다. 이러한 언어 모델은 정보 검색 작업을 수행합니다.
-
지시 학습 언어 모델 Instruction-tuned language model은 입력에 제공된 지시에 대한 응답을 예측하도록 훈련되며, 이를 통해 정서 분석을 수행하거나 텍스트 또는 코드를 생성할 수 있습니다.
-
대화 조정 언어 모델 Dialog-tuned language model은 다음 응답을 예측하여 대화가 가능하도록 훈련됩니다. 챗봇이나 대화형 AI를 생각해보세요.
대규모 언어 모델과 생성형 AI의 차이점은 무엇인가?
생성형 AI는 콘텐츠를 생성할 수 있는 능력을 갖춘 인공 지능 모델을 지칭하는 포괄적인 용어입니다. 생성형 AI는 텍스트, 코드, 이미지, 영상, 음악 등을 생성할 수 있습니다. 생성형 AI의 예로는 Midjourney, DALL-E, ChatGPT 등이 있습니다.
대규모 언어 모델은 텍스트에 대해 훈련되어 텍스트 콘텐츠를 생성하는 생성형 AI의 한 유형입니다. ChatGPT는 생성형 텍스트 AI의 인기 있는 예입니다.
모든 대규모 언어 모델은 생성형 AI입니다1.
대규모 언어 모델은 어떻게 작동하는가?
대규모 언어 모델은 트랜스포머 모델을 기반으로 하며 입력을 받아 인코딩한 후 디코딩하여 출력 예측을 생성하는 방식으로 작동합니다. 대규모 언어 모델이 텍스트 입력을 받아 출력 예측을 생성하기 위해서는 일반적인 기능을 수행할 수 있는 훈련과 특정 작업을 수행할 수 있는 미세 조정이 필요합니다.
훈련: 대규모 언어 모델은 Wikipedia, GitHub 등의 사이트에서 대규모 텍스트 데이터 세트를 사용하여 사전 훈련됩니다. 이러한 데이터 세트는 수조 개의 단어로 구성되며 그 품질은 언어 모델의 성능에 영향을 미칩니다. 이 단계에서, 대규모 언어 모델은 비지도 학습에 참여하는데, 이는 특정 명령 없이 자신에게 제공된 데이터 세트를 처리한다는 것을 의미합니다. 이 과정에서 LLM의 AI 알고리즘은 단어의 의미와 단어 간의 관계를 학습할 수 있습니다. 또한 컨텍스트에 따라 단어를 구별하는 방법도 학습합니다. 예를 들어, “right"이 “올바른"을 의미하는지 “왼쪽"의 반대인지 이해하는 방법을 배울 수 있습니다.
미세 조정: 대규모 언어 모델이 번역과 같은 특정 작업을 수행하기 위해서는 특정 작업에 맞게 미세 조정되어야 합니다. 미세 조정은 특정 작업의 수행을 최적화합니다.
프롬프트 조정은 미세 조정과 유사한 기능을 수행합니다. 즉, 퓨샷 프롬프트(few-shot prompting) 또는 제로샷 프롬프트(zero-shot prompting)를 통해 특정 작업을 수행하도록 모델을 훈련시킵니다. 프롬프트는 LLM에 제공되는 명령입니다. 퓨샷 프롬프트는 모델이 예제를 사용하여 출력을 예측하도록 가르칩니다. 예를 들어, 이 정서 분석 연습에서 퓨샷 프롬프트는 다음과 같습니다.
Customer review: This plant is so beautiful! Customer sentiment: positive
Customer review: This plant is so hideous! Customer sentiment: negative
언어 모델은 “hideous(끔찍하다)“라는 의미론적 의미를 통해, 그리고 반대의 예가 제공되었기 때문에, 두 번째 예의 고객 정서가 “negative(부정적)“라는 것을 이해하게 됩니다.
이와는 달리, 제로샷 프롬프트는 입력에 응답하는 방법을 언어 모델에 가르치기 위해 예제를 사용하지 않습니다. 대신에, “’This plant is so hideous(이 식물은 너무 끔찍하다)‘에서의 정서는…“이라는 질문을 공식화합니다. 이는 언어 모델이 어떤 작업을 수행해야 하는지 명확하게 나타내지만, 문제 해결 예제를 제공하지는 않습니다.
대규모 언어 모델 사용 사례
대규모 언어 모델은 다음과 같이 여러 용도로 사용될 수 있습니다.
-
정보 검색: Bing이나 Google을 생각해 보세요. 검색 기능을 사용할 때마다 쿼리에 대한 응답으로 정보를 생성하기 위해 대규모 언어 모델에 의존하게 됩니다. 정보를 검색한 다음 대화 방식으로 답변을 요약하고 전달할 수 있습니다.
-
정서 분석: 자연어 처리를 적용하면, 대규모 언어 모델을 통해 기업이 텍스트 데이터의 정서를 분석할 수 있습니다.
-
텍스트 생성: 대규모 언어 모델은 ChatGPT와 같은 생성형 AI의 이면에 있으며 입력을 기반으로 텍스트를 생성할 수 있습니다. 메시지가 표시되면 텍스트의 예를 만들 수 있습니다. 예를 들면, 다음과 같습니다. “에밀리 디킨슨 스타일의 야자수에 대한 시를 써주세요.”
-
코드 생성: 텍스트 생성과 마찬가지로 코드 생성도 생성형 AI를 적용한 것입니다. LLM은 패턴을 이해하여 코드를 생성할 수 있습니다. 챗봇과 대화형 AI: 대규모 언어 모델을 사용하면 고객 서비스 챗봇이나 대화형 AI가 고객과 소통하고, 쿼리나 응답의 의미를 해석하고, 차례로 응답을 제공할 수 있습니다. 이러한 사용 사례 외에도 대규모 언어 모델은 문장을 완성하고 질문에 답하며 텍스트를 요약할 수 있습니다.
이렇게 다양하게 응용되기 때문에, 다음과 같이 다양한 분야에서 대규모 언어 애플리케이션을 찾아볼 수 있습니다.
-
기술: 대규모 언어 모델은 검색 엔진이 쿼리에 응답하도록 하는 것부터 개발자의 코드 작성 지원에 이르기까지 어디에서나 사용됩니다.
-
의료와 과학: 대규모 언어 모델은 단백질, 분자, DNA, RNA를 이해하는 능력이 있습니다. 그렇기 때문에LLM은 백신 개발, 질병 치료법 찾기, 예방 치료 의약품 개선을 지원할 수 있습니다. LLM은 환자 접수 또는 기본 진단을 수행하기 위한 의료용 챗봇으로도 사용됩니다. 고객 서비스: LLM은 챗봇이나 대화형 AI 등 고객 서비스 목적으로 산업 전반에 걸쳐 사용됩니다.
-
마케팅: 마케팅 팀은 LLM을 사용해 정서 분석을 수행하여 캠페인 아이디어나 피칭 사례로서의 텍스트를 신속하게 생성할 수 있습니다.
-
법무: 방대한 텍스트 데이터 세트를 검색하는 것부터 법률 용어 생성에 이르기까지, 대규모 언어 모델은 변호사, 사무장 및 법무 담당 직원을 지원할 수 있습니다.
-
뱅킹: LLM은 신용카드 회사가 사기를 탐지할 수 있도록 지원할 수 있습니다.
대규모 언어 모델의 이점
대규모 언어 모델은 사용자가 이해하기 쉬운 명확하고 대화적인 방식으로 정보를 제공하기 때문에 다양한 응용 분야에서 문제 해결에 매우 유용합니다.
폭넓은 응용 분야: 대규모 언어 모델은 언어 번역, 문장 완성, 정서 분석, 질문 답변, 수학 방정식 등에 사용할 수 있습니다.
지속적 향상: 대규모 언어 모델의 성능은 더 많은 데이터와 매개 변수가 추가될수록 성장하므로 지속적으로 향상됩니다. 즉, 더 많이 학습할수록 향상된다는 것을 의미합니다. 더욱이, 대규모 언어 모델은 “인컨텍스트 러닝(in-context learning)“이라는 것이 가능합니다. LLM이 사전 훈련되면, 퓨샷 프롬프트를 통해 추가 매개 변수 없이 모델이 프롬프트에서 학습할 수 있습니다. 이러한 방식으로, 대규모 언어 모델은 지속적으로 학습합니다.
빨리 배움: 인컨텍스트 러닝(in-context learning)을 선보일 때, 대규모 언어 모델은 훈련을 위한 추가적인 가중치, 리소스, 매개 변수가 필요하지 않기 때문에 빨리 배웁니다. 너무 많은 예제를 필요로 하지 않는다는 점에서 빠릅니다.
대규모 언어 모델의 한계와 과제
대규모 언어 모델은 우리에게 의미를 이해하고 정확하게 반응할 수 있다는 인상을 줄 수 있습니다. 그러나 그래도 여전히 기술적인 도구이기 때문에 대규모 언어 모델은 다양한 과제에 직면합니다.
환각(Hallucinations): 환각은 LLM이 거짓이거나 사용자의 의도와 일치하지 않는 결과를 생성하는 경우입니다. 예를 들어, 인간이라고 주장하거나 감정이 있다고 주장하거나 사용자를 사랑하고 있다고 주장하는 것입니다. 대규모 언어 모델은 구문적으로 올바른 다음 단어나 문구를 예측하기 때문에, 인간의 의미를 완전히 해석할 수는 없습니다. 그 결과는 때때로 “환각"이라고 하는 것일 수 있습니다.
보안: 대규모 언어 모델은 적절하게 관리되거나 감시되지 않으면 중요한 보안 위험을 초래합니다. 사람들의 개인 정보를 유출하고, 피싱 사기에 가담하고, 스팸을 생성할 수 있습니다. 악의적인 의도를 가진 사용자는 AI를 자신의 이데올로기나 편견에 맞게 다시 프로그래밍하여 잘못된 정보의 확산에 기여할 수 있습니다. 그 영향은 전 세계적으로 파괴적일 수 있습니다.
편향: 언어 모델을 훈련하는 데 사용되는 데이터는 주어진 모델이 산출하는 결과에 영향을 미칠 것입니다. 따라서 데이터가 단일 인구통계에 한정되거나 다양성이 부족한 경우 대규모 언어 모델에서 생성된 출력도 다양성이 부족합니다.
동의: 대규모 언어 모델은 수조 개의 데이터 세트에 대해 훈련을 받는데, 그 중 일부는 동의를 얻지 못했을 수도 있습니다. 인터넷에서 데이터를 스크래핑할 때, 대규모 언어 모델은 저작권 라이선스를 무시하고, 작성된 내용을 표절하며, 원래 소유자나 아티스트의 허락 없이 독점 콘텐츠를 재사용하는 것으로 알려져 있습니다. 결과가 생성되면 데이터 계보를 추적할 방법이 없으며 창작자에게 사용권이 부여되지 않는 경우가 많아 사용자가 저작권 침해 문제에 노출될 수 있습니다.
또한 사진 설명에서 피사체나 사진작가의 이름과 같은 개인 데이터를 스크래핑할 수 있으므로 프라이버시가 침해될 수 있습니다.2 LLM은 지적 재산권 침해로 Getty Images의 유명한 소송3을 포함하여 이미 여러 소송을 당한 바 있습니다.
확장: 대규모 언어 모델을 확장하고 유지 관리하는 것은 어렵고 시간과 리소스가 많이 소요될 수 있습니다.
배포: 대규모 언어 모델을 배포하려면 딥 러닝, 트랜스포머 모델, 분산형 소프트웨어 및 하드웨어, 전반적인 기술 전문 지식이 필요합니다.
인기있는 대규모 언어 모델의 예
인기있는 대규모 언어 모델들이 세계를 놀라게 했습니다. 많은 대규모 언어 모델들이 산업 전반에 걸쳐 사람들에 의해 채택되었습니다. 여러분은 분명히 생성형 AI 챗봇의 한 형태인 ChatGPT에 대해 들어보셨을 것입니다.
다른 인기 있는 LLM 모델은 다음과 같습니다.
PaLM: Google의 PaLM(Pathways Language Model)은 상식적이고 산술적인 추론, 농담 설명, 코드 생성 및 번역이 가능한 트랜스포머 언어 모델입니다.
BERT: BERT(Bidirectional Encoder Representations from Transformers) 언어 모델도 Google에서 개발되었습니다. 자연어를 이해하고 질문에 답할 수 있는 트랜스포머 기반 모델입니다.
XLNet: 순열 언어 모델인 XLNet은 무작위 순서로 출력 예측을 생성하여 BERT와 차별화됩니다. 인코딩된 토큰의 패턴을 평가한 다음 순차적 순서가 아닌 무작위 순서로 토큰을 예측합니다.
GPT: 사전 훈련된 생성형 트랜스포머는 아마도 가장 잘 알려진 대규모 언어 모델일 것입니다. OpenAI에서 개발한 GPT는 이전 모델(GPT-3, GPT-4 등)을 개선하여 반복 횟수를 늘리는 인기 있는 기본 모델입니다. 특정 작업을 다운스트림으로 수행하도록 미세 조정할 수 있습니다. 이에 대한 예로 Salesforce에서 CRM용으로 개발한 EinsteinGPT와 금융용 Bloomberg의 BloombergGPT가 있습니다.