본문 바로가기
IT 공부/생성형 AI

[생성형 AI] 거대 언어 모델(LLM)

by 해모해모 2024. 10. 14.
728x90
반응형

[거대 언어 모델(LLM)이란]

언어 모델(Language Model, LM)

  • 인간의 언어 능력을 모사하는 모델
  • 현재 존재하는 문장 내의 단어를 기반으로 앞으로 나올 단어 예측

SLM(Statistical Language Model)

  • 통계적 언어 모델
  • 단어의 등장 횟수를 바탕으로 확률 계산
  • 희소성(Sparsity) 문제가 있다 -> 말뭉치 데이터에 없으면 문장 생성이 되지 않음

NLM(Neural Language Model)

  • Neural network 기반의 언어 모델
  • Word2Vec, RNN, LSTM, seq2seq 등

PLM(Pre-trained Language Model)

  • 사전 학습된 언어 모델
  • ELMo, BERT, GPT 등

LLM(Large Language Model)

  • PLM의 크기를 훨씬 키운 LM
  • GPT-3, ChatGPT, LLaMA2, GPT-4 등

[GPT를 통해 알아보는 LLM의 등장]

OpenAI GPT

  • 정답이 있는 데이터(Labeled data)
  • 정답이 없는 데이터(Unlabeled data)
    => 정답이 없는 데이터가 훨씬 많다.
  • 데이터 라벨링 작업(정답이 없는 데이터에 정답을 다는 작업)은 많은 시간과 비용이 듦
  • 학습에 정답이 없는 데이터셋을 사용한다면? -> 데이터 라벨링 작업에 들어가는 시간과 비용을 아낄 수 있을 것

GPT-1

  • 전이학습(Transfer Learning)을 사용한 OpenAI GPT
  • 비지도 사전학습(Unsupervised pre-training)
  • 지도 미세조정(Supervised fine-tuning)
  • 미세조정 단계에서 여전히 정답이 있는 데이터로 학습을 진행한다는 한계
  • 대부분의 사람은 주어진 과제를 풀어내는데 수많은 예제가 필요하지 않음

GPT-2

  • 지도 미세조정 과정 없이 비지도 사전학습만을 사용하여 모델을 학습
  • Zero-shot learning 기법: 모델에게 해겨할 과제에 대한 설명만 전달하고, 모델은 그 설명만 보고 주어진 문제에 대한 답을 예측하는 방식
  • 지도 미세조정을 진행하는 다른 모델보다는 좋은 성능을 보이지 못함
  • In-context learning: 원하는 문제 풀이에 대한 간단한 설명과 함께 학습하는 방법

GPT-3

  • Meta-learning: 학습하는 동안 다양한 데이터셋들의 skill과 패턴을 인지하는 능력을 길러주는 것
  • In-context learning을 사용해 동일한 문제를 푸는 데이터들로 학습을 구성하여 다양한 형태의 문제들을 하나의 모델이 학습할 수 있도록 유도
  • 성별/인종/종교에 대한 편향 발생

GPT-3.5(InstructGPT)

  • 인간 피드백 기반 강화학습(RLHF, Reinforcement Learning from Human Feedback): 학습에 사람이 직접 개입하여 편향되거나 잘못된 문장을 생성하는 GPT-3의 한계를 개선

InstructGPT vs ChatGPT

  • ChatGPT는 InstructGPT에 비해 안전에 대한 부분 확보

Multi-modal을 지원하는 GPT-4

  • 입력 Context 길이의 증가(25,000개 이상의 텍스트 처리 가능, 3.5에서는 3,000개 정도의 텍스트만 처리 가능했음)

[Fine-tuning vs Prompt Engineering]

발전하는 LM

  • PLM의 등장으로 자연어처리의 혁신적인 발전이 시작됨
  • PLM의 학습기법이 크게 Fine-tuning과 Prompt Engineering 두가지로 자리잡음

Fine-tuning

  • PLM에 레이블이 존재하고 task에 특화된 dataset을 사용하여 학습을 진행
  • PLM의 가중치를 모두 업데이트 해야 하므로 수많은 연산이 요구됨
  • 고사양 GPU 또는 TPU와 같은 하드웨어가 필요함
  • BERT가 대표적인 fine-tuning 모델

Prompt Engineering의 등장

  • PLM에 원하는 task에 대한 입력을 prompt라는 자연어 명령을 통해 지시하면 모델이 이를 알아듣고 결과 값을 출력하게끔 함
  • PLM의 가중치 업데이트 작업이 필요 없음
  • Zero-shot prompting, Few-shot prompting

Fine-tuning vs Prompt Engineering

  • Fine-tuning: 수만은 연산이 요구됨, 고사양 하드웨어가 필요함, 학습한 데이터에 잘 맞는 결과를 도출(장점)
  • Prompt Engineering: 정확하지 않은 답변을 뱉을 수 있음, 빠르고 경제적인 학습 가능(장점)

[LLM의 주요 활용 분야]

  • ChatGPT, Bard
  • 코드 생성 AI: OpenAI Codex, GitHub Copilot
  • Notion AI: 노션 작성 글의 요약 등
728x90
반응형

댓글