본문 바로가기
IT 공부/생성형 AI

[생성형 AI] 컴퓨터 비전(Computer Vision)과 Diffusion

by 해모해모 2024. 11. 20.
728x90
반응형

컴퓨터 비전(Computer Vision)

  • 컴퓨터가 디지털 이미지를 분석하고 이해하여 인간의 시각 능력을 모방하는 기술
  • 목적에 따라 판별 문제와 생성 문제로 구분
  • 판별 모델(Discriminative Models)
    • 분류, 객체 탐지, 이미지 분할
  • 생성 모델
    • 입력 데이터의 패턴을 학습하여 새로운 이미지를 생성하는 알고리즘
    • 스타일 전이, 이미지 복원, Text-to-Video, 2D to 3D

이미지 생성 모델

이미지 생성 모델의 변천

  • 이미지를 생성하기 위해 사용했던 두 가지 대표적 알고리즘
    • VAE(Variational Auto Encoder): 학습이 안정적이며 노이즈에 강하지만 이미지의 품질이 낮음
    • GAN(Generative Adversarial Network): 이미지가 정교하지만 학습이 불안정하며, 다양한 이미지를 생성하지 못함

Diffusion

Diffusion의 등장

  • GAN과 VAE의 장점을 포괄하며 단점을 보완
    • 우수한 이미지 품질
    • 다양한 이미지 표현
    • 안정적 학습
  • 다양한 애플리케이션에 응용
    • MS Windows 그림판 - Cocreator
    • Adobe Photoshop
    • 갤럭시/아이폰 사진 앱
  • 이미지 생성 분야를 고도화하여 실용적인 레벨까지 견인
    • 상업적 이미지 생성, 이미지 복원, 이미지 검출 등 다양한 영역에 활요
    • 창의적인 이미지 생성을 넘어서 원본 이미지의 색채와 형태를 복구하기 위한 용도로 연구
    • GAN의 이미지 품질과 VAE의 학습 안정성을 포괄한 알고리즘

Diffusion의 원리

  • 확산의 원리에서 아이디어를 착안
    • 여러 단계의 걸쳐 이미지를 알아볼 수 없을 때까지 노이즈를 추가하여 부식(Forward process)
    • 신경망을 통하여 이미지의 노이즈를 점진적으로 제거(Reverse process)
  • 우리가 사용하는 Diffusion 기반 애플리케이션은 Text-to-Image 구조
    • 프롬프트를 입력받고, 이에 상응하는 이미지를 생성
    • Diffusion 아키텍쳐에 텍스트를 이해할 수 있는 모델을 결합
      • CLIP(Contrastive Language-Image Pretraining)이 프롬프트를 텍스트 임베딩으로 변환

Diffusion의 대표적인 서비스

대표적인 Diffusion 서비스

  • DALL-E
  • Midjourney
  • Stable Diffusion
  • 이 외에도 NovelAI, Guagan2, Glaze AI 등이 있음

DALL-E

  • OpenAI의 이미지 생성 서비스
    • 사유화 모델이므로 내부 구조 접근 불가
    • GPT와 마찬가지로 API를 호출하거나 ChatGPT + 구독자의 경우 대화 창에서 사용 가능(V3)
    • 다개국어 프롬프트 이해 능력 우수
  • DALL-E V3.0에서 추가된 기능(2023.09)
    • 업로드 된 이미지 편집(Inpainting/Outpainting)
    • Bing chat에서 사용 가능

Midjourney

  • 동명의 기업에서 제공하는 Text-to-Image 생성 프로그램
  • 메신저 앱인 Discord 채널에서 사용 가능
    • 기존에는 채널 챗봇에게 약속된 명령어를 전달 시 이미지가 반환
    • V6.0 이후부터 일반적인 텍스트 형식의 프롬프트도 전달 가능
  • 구독 플랜을 통해 모델 사용 가능

Stable Diffusion

  • Stability AI에서 공개한 오픈소스 이미지 생성 모델 및 프로그램
  • 모델과 학습된 가중치를 공개하였으므로 다양한 경로를 통해 이용 가능
    • Hugging Face Diffusers 라이브러리
    • WebUI, comfyui 등 오픈소스 프레임워크/애플리케이션
    • DiffusionBee, Draw Things(MacOS, iOS)
  • 개인 디바이스에서 학습이 가능
    • LoRA
    • ControlNet

Diffusion 서비스 비교

서비스 간 비교

  • DALL-E 3

    • 방대한 양의 이미지 학습
    • GPT와의 연동성이 높음
    • ChatGPT + 구독 시 추가요금 없이 이미지 생성
    • 이미지 생성 시 규제가 강함
  • Midjourney

    • 명령어를 통한 체계적인 이미지 생성 지시
    • 디스코드 커뮤니티 활성화
    • 구독 시 무제한 이미지 생성
  • stability AI

    • 오픈소스 모델 사용 가능
    • 모델 커스터마이징 기능 우수
    • 작업물 공유 및 커뮤니티 활성화
    • 사용 가능한 하드웨어 요구
728x90
반응형

댓글