본문 바로가기

IT 공부/생성형 AI

[생성형 AI] 컴퓨터 비전(Computer Vision)과 Diffusion

by 해모해모 2024. 11. 20.

728x90

컴퓨터 비전(Computer Vision)

컴퓨터가 디지털 이미지를 분석하고 이해하여 인간의 시각 능력을 모방하는 기술
목적에 따라 판별 문제와 생성 문제로 구분
판별 모델(Discriminative Models)
- 분류, 객체 탐지, 이미지 분할
생성 모델
- 입력 데이터의 패턴을 학습하여 새로운 이미지를 생성하는 알고리즘
- 스타일 전이, 이미지 복원, Text-to-Video, 2D to 3D

이미지 생성 모델

이미지 생성 모델의 변천

이미지를 생성하기 위해 사용했던 두 가지 대표적 알고리즘
- VAE(Variational Auto Encoder): 학습이 안정적이며 노이즈에 강하지만 이미지의 품질이 낮음
- GAN(Generative Adversarial Network): 이미지가 정교하지만 학습이 불안정하며, 다양한 이미지를 생성하지 못함

Diffusion

Diffusion의 등장

GAN과 VAE의 장점을 포괄하며 단점을 보완
- 우수한 이미지 품질
- 다양한 이미지 표현
- 안정적 학습
다양한 애플리케이션에 응용
- MS Windows 그림판 - Cocreator
- Adobe Photoshop
- 갤럭시/아이폰 사진 앱
이미지 생성 분야를 고도화하여 실용적인 레벨까지 견인
- 상업적 이미지 생성, 이미지 복원, 이미지 검출 등 다양한 영역에 활요
- 창의적인 이미지 생성을 넘어서 원본 이미지의 색채와 형태를 복구하기 위한 용도로 연구
- GAN의 이미지 품질과 VAE의 학습 안정성을 포괄한 알고리즘

Diffusion의 원리

확산의 원리에서 아이디어를 착안
- 여러 단계의 걸쳐 이미지를 알아볼 수 없을 때까지 노이즈를 추가하여 부식(Forward process)
- 신경망을 통하여 이미지의 노이즈를 점진적으로 제거(Reverse process)
우리가 사용하는 Diffusion 기반 애플리케이션은 Text-to-Image 구조
- 프롬프트를 입력받고, 이에 상응하는 이미지를 생성
- Diffusion 아키텍쳐에 텍스트를 이해할 수 있는 모델을 결합
  - CLIP(Contrastive Language-Image Pretraining)이 프롬프트를 텍스트 임베딩으로 변환

Diffusion의 대표적인 서비스

대표적인 Diffusion 서비스

DALL-E
Midjourney
Stable Diffusion
이 외에도 NovelAI, Guagan2, Glaze AI 등이 있음

DALL-E

OpenAI의 이미지 생성 서비스
- 사유화 모델이므로 내부 구조 접근 불가
- GPT와 마찬가지로 API를 호출하거나 ChatGPT + 구독자의 경우 대화 창에서 사용 가능(V3)
- 다개국어 프롬프트 이해 능력 우수
DALL-E V3.0에서 추가된 기능(2023.09)
- 업로드 된 이미지 편집(Inpainting/Outpainting)
- Bing chat에서 사용 가능

Midjourney

동명의 기업에서 제공하는 Text-to-Image 생성 프로그램
메신저 앱인 Discord 채널에서 사용 가능
- 기존에는 채널 챗봇에게 약속된 명령어를 전달 시 이미지가 반환
- V6.0 이후부터 일반적인 텍스트 형식의 프롬프트도 전달 가능
구독 플랜을 통해 모델 사용 가능

Stable Diffusion

Stability AI에서 공개한 오픈소스 이미지 생성 모델 및 프로그램
모델과 학습된 가중치를 공개하였으므로 다양한 경로를 통해 이용 가능
- Hugging Face Diffusers 라이브러리
- WebUI, comfyui 등 오픈소스 프레임워크/애플리케이션
- DiffusionBee, Draw Things(MacOS, iOS)
개인 디바이스에서 학습이 가능
- LoRA
- ControlNet

Diffusion 서비스 비교

서비스 간 비교

DALL-E 3
- 방대한 양의 이미지 학습
- GPT와의 연동성이 높음
- ChatGPT + 구독 시 추가요금 없이 이미지 생성
- 이미지 생성 시 규제가 강함
Midjourney
- 명령어를 통한 체계적인 이미지 생성 지시
- 디스코드 커뮤니티 활성화
- 구독 시 무제한 이미지 생성
stability AI
- 오픈소스 모델 사용 가능
- 모델 커스터마이징 기능 우수
- 작업물 공유 및 커뮤니티 활성화
- 사용 가능한 하드웨어 요구

728x90

저작자표시 비영리 변경금지

'IT 공부 > 생성형 AI' 카테고리의 다른 글

[생성형 AI] 프롬프트 엔지니어링 애플리케이션 고도화 및 생성형 AI 오남용 (3)	2024.11.20
[생성형 AI] 프롬프트 엔지니어링 애플리케이션 구현 (1)	2024.11.20
[생성형 AI] 프롬프트 엔지니어링 애플리케이션 설계 (1)	2024.11.20
[생성형 AI] 애플리케이션 개발을 위한 생성AI 활용 프로세스 이해하기 (6)	2024.11.11
[생성형 AI] 미드저니, AI IMAGE (8)	2024.11.11

댓글

티스토리툴바