본문 바로가기

IT 공부/생성형 AI

[생성형 AI] 거대 언어 모델(LLM)

by 해모해모 2024. 10. 14.

728x90

[거대 언어 모델(LLM)이란]

언어 모델(Language Model, LM)

인간의 언어 능력을 모사하는 모델
현재 존재하는 문장 내의 단어를 기반으로 앞으로 나올 단어 예측

SLM(Statistical Language Model)

통계적 언어 모델
단어의 등장 횟수를 바탕으로 확률 계산
희소성(Sparsity) 문제가 있다 -> 말뭉치 데이터에 없으면 문장 생성이 되지 않음

NLM(Neural Language Model)

Neural network 기반의 언어 모델
Word2Vec, RNN, LSTM, seq2seq 등

PLM(Pre-trained Language Model)

사전 학습된 언어 모델
ELMo, BERT, GPT 등

LLM(Large Language Model)

PLM의 크기를 훨씬 키운 LM
GPT-3, ChatGPT, LLaMA2, GPT-4 등

[GPT를 통해 알아보는 LLM의 등장]

OpenAI GPT

정답이 있는 데이터(Labeled data)
정답이 없는 데이터(Unlabeled data)
=> 정답이 없는 데이터가 훨씬 많다.
데이터 라벨링 작업(정답이 없는 데이터에 정답을 다는 작업)은 많은 시간과 비용이 듦
학습에 정답이 없는 데이터셋을 사용한다면? -> 데이터 라벨링 작업에 들어가는 시간과 비용을 아낄 수 있을 것

GPT-1

전이학습(Transfer Learning)을 사용한 OpenAI GPT
비지도 사전학습(Unsupervised pre-training)
지도 미세조정(Supervised fine-tuning)
미세조정 단계에서 여전히 정답이 있는 데이터로 학습을 진행한다는 한계
대부분의 사람은 주어진 과제를 풀어내는데 수많은 예제가 필요하지 않음

GPT-2

지도 미세조정 과정 없이 비지도 사전학습만을 사용하여 모델을 학습
Zero-shot learning 기법: 모델에게 해겨할 과제에 대한 설명만 전달하고, 모델은 그 설명만 보고 주어진 문제에 대한 답을 예측하는 방식
지도 미세조정을 진행하는 다른 모델보다는 좋은 성능을 보이지 못함
In-context learning: 원하는 문제 풀이에 대한 간단한 설명과 함께 학습하는 방법

GPT-3

Meta-learning: 학습하는 동안 다양한 데이터셋들의 skill과 패턴을 인지하는 능력을 길러주는 것
In-context learning을 사용해 동일한 문제를 푸는 데이터들로 학습을 구성하여 다양한 형태의 문제들을 하나의 모델이 학습할 수 있도록 유도
성별/인종/종교에 대한 편향 발생

GPT-3.5(InstructGPT)

인간 피드백 기반 강화학습(RLHF, Reinforcement Learning from Human Feedback): 학습에 사람이 직접 개입하여 편향되거나 잘못된 문장을 생성하는 GPT-3의 한계를 개선

InstructGPT vs ChatGPT

ChatGPT는 InstructGPT에 비해 안전에 대한 부분 확보

Multi-modal을 지원하는 GPT-4

입력 Context 길이의 증가(25,000개 이상의 텍스트 처리 가능, 3.5에서는 3,000개 정도의 텍스트만 처리 가능했음)

[Fine-tuning vs Prompt Engineering]

발전하는 LM

PLM의 등장으로 자연어처리의 혁신적인 발전이 시작됨
PLM의 학습기법이 크게 Fine-tuning과 Prompt Engineering 두가지로 자리잡음

Fine-tuning

PLM에 레이블이 존재하고 task에 특화된 dataset을 사용하여 학습을 진행
PLM의 가중치를 모두 업데이트 해야 하므로 수많은 연산이 요구됨
고사양 GPU 또는 TPU와 같은 하드웨어가 필요함
BERT가 대표적인 fine-tuning 모델

Prompt Engineering의 등장

PLM에 원하는 task에 대한 입력을 prompt라는 자연어 명령을 통해 지시하면 모델이 이를 알아듣고 결과 값을 출력하게끔 함
PLM의 가중치 업데이트 작업이 필요 없음
Zero-shot prompting, Few-shot prompting

Fine-tuning vs Prompt Engineering

Fine-tuning: 수만은 연산이 요구됨, 고사양 하드웨어가 필요함, 학습한 데이터에 잘 맞는 결과를 도출(장점)
Prompt Engineering: 정확하지 않은 답변을 뱉을 수 있음, 빠르고 경제적인 학습 가능(장점)

[LLM의 주요 활용 분야]

ChatGPT, Bard
코드 생성 AI: OpenAI Codex, GitHub Copilot
Notion AI: 노션 작성 글의 요약 등

728x90

저작자표시 비영리 변경금지 (새창열림)

'IT 공부 > 생성형 AI' 카테고리의 다른 글

[생성형 AI] 프롬프트 관련 확장 프로그램 (6)	2024.11.09
[생성형 AI] 프롬프트 엔지니어링 테크닉 (4)	2024.11.09
[생성형 AI] 프롬프트 엔지니어링 (2)	2024.10.30
[생성형 AI] ChatGPT 활용 (9)	2024.10.15
[생성형 AI] ChatGPT (14)	2024.10.14

댓글

티스토리툴바