728x90
반응형
[거대 언어 모델(LLM)이란]
언어 모델(Language Model, LM)
- 인간의 언어 능력을 모사하는 모델
- 현재 존재하는 문장 내의 단어를 기반으로 앞으로 나올 단어 예측
SLM(Statistical Language Model)
- 통계적 언어 모델
- 단어의 등장 횟수를 바탕으로 확률 계산
- 희소성(Sparsity) 문제가 있다 -> 말뭉치 데이터에 없으면 문장 생성이 되지 않음
NLM(Neural Language Model)
- Neural network 기반의 언어 모델
- Word2Vec, RNN, LSTM, seq2seq 등
PLM(Pre-trained Language Model)
- 사전 학습된 언어 모델
- ELMo, BERT, GPT 등
LLM(Large Language Model)
- PLM의 크기를 훨씬 키운 LM
- GPT-3, ChatGPT, LLaMA2, GPT-4 등
[GPT를 통해 알아보는 LLM의 등장]
OpenAI GPT
- 정답이 있는 데이터(Labeled data)
- 정답이 없는 데이터(Unlabeled data)
=> 정답이 없는 데이터가 훨씬 많다. - 데이터 라벨링 작업(정답이 없는 데이터에 정답을 다는 작업)은 많은 시간과 비용이 듦
- 학습에 정답이 없는 데이터셋을 사용한다면? -> 데이터 라벨링 작업에 들어가는 시간과 비용을 아낄 수 있을 것
GPT-1
- 전이학습(Transfer Learning)을 사용한 OpenAI GPT
- 비지도 사전학습(Unsupervised pre-training)
- 지도 미세조정(Supervised fine-tuning)
- 미세조정 단계에서 여전히 정답이 있는 데이터로 학습을 진행한다는 한계
- 대부분의 사람은 주어진 과제를 풀어내는데 수많은 예제가 필요하지 않음
GPT-2
- 지도 미세조정 과정 없이 비지도 사전학습만을 사용하여 모델을 학습
- Zero-shot learning 기법: 모델에게 해겨할 과제에 대한 설명만 전달하고, 모델은 그 설명만 보고 주어진 문제에 대한 답을 예측하는 방식
- 지도 미세조정을 진행하는 다른 모델보다는 좋은 성능을 보이지 못함
- In-context learning: 원하는 문제 풀이에 대한 간단한 설명과 함께 학습하는 방법
GPT-3
- Meta-learning: 학습하는 동안 다양한 데이터셋들의 skill과 패턴을 인지하는 능력을 길러주는 것
- In-context learning을 사용해 동일한 문제를 푸는 데이터들로 학습을 구성하여 다양한 형태의 문제들을 하나의 모델이 학습할 수 있도록 유도
- 성별/인종/종교에 대한 편향 발생
GPT-3.5(InstructGPT)
- 인간 피드백 기반 강화학습(RLHF, Reinforcement Learning from Human Feedback): 학습에 사람이 직접 개입하여 편향되거나 잘못된 문장을 생성하는 GPT-3의 한계를 개선
InstructGPT vs ChatGPT
- ChatGPT는 InstructGPT에 비해 안전에 대한 부분 확보
Multi-modal을 지원하는 GPT-4
- 입력 Context 길이의 증가(25,000개 이상의 텍스트 처리 가능, 3.5에서는 3,000개 정도의 텍스트만 처리 가능했음)
[Fine-tuning vs Prompt Engineering]
발전하는 LM
- PLM의 등장으로 자연어처리의 혁신적인 발전이 시작됨
- PLM의 학습기법이 크게 Fine-tuning과 Prompt Engineering 두가지로 자리잡음
Fine-tuning
- PLM에 레이블이 존재하고 task에 특화된 dataset을 사용하여 학습을 진행
- PLM의 가중치를 모두 업데이트 해야 하므로 수많은 연산이 요구됨
- 고사양 GPU 또는 TPU와 같은 하드웨어가 필요함
- BERT가 대표적인 fine-tuning 모델
Prompt Engineering의 등장
- PLM에 원하는 task에 대한 입력을 prompt라는 자연어 명령을 통해 지시하면 모델이 이를 알아듣고 결과 값을 출력하게끔 함
- PLM의 가중치 업데이트 작업이 필요 없음
- Zero-shot prompting, Few-shot prompting
Fine-tuning vs Prompt Engineering
- Fine-tuning: 수만은 연산이 요구됨, 고사양 하드웨어가 필요함, 학습한 데이터에 잘 맞는 결과를 도출(장점)
- Prompt Engineering: 정확하지 않은 답변을 뱉을 수 있음, 빠르고 경제적인 학습 가능(장점)
[LLM의 주요 활용 분야]
- ChatGPT, Bard
- 코드 생성 AI: OpenAI Codex, GitHub Copilot
- Notion AI: 노션 작성 글의 요약 등
728x90
반응형
'IT 공부 > 생성형 AI' 카테고리의 다른 글
[생성형 AI] 프롬프트 관련 확장 프로그램 (5) | 2024.11.09 |
---|---|
[생성형 AI] 프롬프트 엔지니어링 테크닉 (3) | 2024.11.09 |
[생성형 AI] 프롬프트 엔지니어링 (2) | 2024.10.30 |
[생성형 AI] ChatGPT 활용 (9) | 2024.10.15 |
[생성형 AI] ChatGPT (14) | 2024.10.14 |
댓글