728x90
반응형
컴퓨터 비전(Computer Vision)
- 컴퓨터가 디지털 이미지를 분석하고 이해하여 인간의 시각 능력을 모방하는 기술
- 목적에 따라 판별 문제와 생성 문제로 구분
- 판별 모델(Discriminative Models)
- 분류, 객체 탐지, 이미지 분할
- 생성 모델
- 입력 데이터의 패턴을 학습하여 새로운 이미지를 생성하는 알고리즘
- 스타일 전이, 이미지 복원, Text-to-Video, 2D to 3D
이미지 생성 모델
이미지 생성 모델의 변천
- 이미지를 생성하기 위해 사용했던 두 가지 대표적 알고리즘
- VAE(Variational Auto Encoder): 학습이 안정적이며 노이즈에 강하지만 이미지의 품질이 낮음
- GAN(Generative Adversarial Network): 이미지가 정교하지만 학습이 불안정하며, 다양한 이미지를 생성하지 못함
Diffusion
Diffusion의 등장
- GAN과 VAE의 장점을 포괄하며 단점을 보완
- 우수한 이미지 품질
- 다양한 이미지 표현
- 안정적 학습
- 다양한 애플리케이션에 응용
- MS Windows 그림판 - Cocreator
- Adobe Photoshop
- 갤럭시/아이폰 사진 앱
- 이미지 생성 분야를 고도화하여 실용적인 레벨까지 견인
- 상업적 이미지 생성, 이미지 복원, 이미지 검출 등 다양한 영역에 활요
- 창의적인 이미지 생성을 넘어서 원본 이미지의 색채와 형태를 복구하기 위한 용도로 연구
- GAN의 이미지 품질과 VAE의 학습 안정성을 포괄한 알고리즘
Diffusion의 원리
- 확산의 원리에서 아이디어를 착안
- 여러 단계의 걸쳐 이미지를 알아볼 수 없을 때까지 노이즈를 추가하여 부식(Forward process)
- 신경망을 통하여 이미지의 노이즈를 점진적으로 제거(Reverse process)
- 우리가 사용하는 Diffusion 기반 애플리케이션은 Text-to-Image 구조
- 프롬프트를 입력받고, 이에 상응하는 이미지를 생성
- Diffusion 아키텍쳐에 텍스트를 이해할 수 있는 모델을 결합
- CLIP(Contrastive Language-Image Pretraining)이 프롬프트를 텍스트 임베딩으로 변환
Diffusion의 대표적인 서비스
대표적인 Diffusion 서비스
- DALL-E
- Midjourney
- Stable Diffusion
- 이 외에도 NovelAI, Guagan2, Glaze AI 등이 있음
DALL-E
- OpenAI의 이미지 생성 서비스
- 사유화 모델이므로 내부 구조 접근 불가
- GPT와 마찬가지로 API를 호출하거나 ChatGPT + 구독자의 경우 대화 창에서 사용 가능(V3)
- 다개국어 프롬프트 이해 능력 우수
- DALL-E V3.0에서 추가된 기능(2023.09)
- 업로드 된 이미지 편집(Inpainting/Outpainting)
- Bing chat에서 사용 가능
Midjourney
- 동명의 기업에서 제공하는 Text-to-Image 생성 프로그램
- 메신저 앱인 Discord 채널에서 사용 가능
- 기존에는 채널 챗봇에게 약속된 명령어를 전달 시 이미지가 반환
- V6.0 이후부터 일반적인 텍스트 형식의 프롬프트도 전달 가능
- 구독 플랜을 통해 모델 사용 가능
Stable Diffusion
- Stability AI에서 공개한 오픈소스 이미지 생성 모델 및 프로그램
- 모델과 학습된 가중치를 공개하였으므로 다양한 경로를 통해 이용 가능
- Hugging Face Diffusers 라이브러리
- WebUI, comfyui 등 오픈소스 프레임워크/애플리케이션
- DiffusionBee, Draw Things(MacOS, iOS)
- 개인 디바이스에서 학습이 가능
- LoRA
- ControlNet
Diffusion 서비스 비교
서비스 간 비교
DALL-E 3
- 방대한 양의 이미지 학습
- GPT와의 연동성이 높음
- ChatGPT + 구독 시 추가요금 없이 이미지 생성
- 이미지 생성 시 규제가 강함
Midjourney
- 명령어를 통한 체계적인 이미지 생성 지시
- 디스코드 커뮤니티 활성화
- 구독 시 무제한 이미지 생성
stability AI
- 오픈소스 모델 사용 가능
- 모델 커스터마이징 기능 우수
- 작업물 공유 및 커뮤니티 활성화
- 사용 가능한 하드웨어 요구
728x90
반응형
'IT 공부 > 생성형 AI' 카테고리의 다른 글
[생성형 AI] 프롬프트 엔지니어링 애플리케이션 고도화 및 생성형 AI 오남용 (3) | 2024.11.20 |
---|---|
[생성형 AI] 프롬프트 엔지니어링 애플리케이션 구현 (1) | 2024.11.20 |
[생성형 AI] 프롬프트 엔지니어링 애플리케이션 설계 (1) | 2024.11.20 |
[생성형 AI] 애플리케이션 개발을 위한 생성AI 활용 프로세스 이해하기 (6) | 2024.11.11 |
[생성형 AI] 미드저니, AI IMAGE (8) | 2024.11.11 |
댓글