이미지생성ai챗봇 빙 이미지 생성기(달리DALL.E2) 드림스튜디오(Dreamstudio) 아숙업(AskUP) 비교

오픈 AI(OpenAI)에서 챗지피티(ChatGPT)가 대중에게 공개된 이래로, 이미지 생성 ai 챗봇은 더 놀라운 세상이 매우 가까이 왔음을 피부로 느끼게 해 주었습니다. 인간이 그림을 잘 그리려면, 기본적으로 자연적인 재능이 필요합니다. 그 재능에 더하여 오랜 기간 훈련이 필요합니다. 이런 재능과 훈련이 필요 없게 만든 이미지생성 ai 챗봇이 많이 등장하였고, 달리 DALL.E2(MS Bing), 드림스튜디오(DreamStudio, stability) 아숙업AskUP, 칸바 CANVA, 크레용(craiyon), 스타리(Starry ai), 나이트카페(NightCafe Creator), 아트브리더(ArtBreeder) 등을 쉽게 접할 수 있게 되었습니다.

저작권을 걱정할 필요없이 필요한 이미지를 마음대로 그려낼 수 있는 시대가 되었습니다. 텍스트 입력 후 이미지 생성 챗봇에 대해 무료로 사용하면서 초보자도 쉽게 사용할 수 있는 AI 서비스 위주로 알아보겠습니다.

목차
이미지 생성 챗봇 모델 종류(Text to Image generator task model)
1. GAN기술
2. VAE기술
3. VQ-VAE 기술
4. Sable Diffusion 기술

이미지 비교하기 달리DALL.E(MS 빙), 드림스튜디오(DreamStudio), 아숙업AskUP
동물
인물
풍경

결론

이미지생성 챗봇 모델 종류 (Text to Image generator task model)

이미지 생성 챗봇의 기반 기술은 다양합니다. 기술 종류에 따른 이미지 생성 챗봇 모델 종류는 다음과 같습니다.

1. GAN기술 :

딥 러닝 기반의 이미지 생성 기술을 이용하는 GAN(Generative Adversarial Network)을 활용하여 이미지 생성 API를 제공합니다.

GAN기술 기반의 이미지 생성 챗봇으로 아숙업AskUP의 업스케치(UpSketch), 오픈 AI의 달리(DALL.E) 등이 있습니다.
GAN은 생성모델(Generative model)이며, 생성자(generator)와 판별자(discriminator)로 이루어져 있습니다. 생성자는 랜덤한 잠재변수를 입력으로 받아 가짜 데이터를 생성하고 판별자는 진짜 데이터와 가짜 데이터를 구분합니다. GAN은 VAE보다 더욱 선명한 이미지를 생성할 수 있습니다. 단점은 학습이 불안정하고 모드 붕괴(mode collapse) 문제가 발생할 수 있습니다.
DALL-E는 GPT3과 같은 Transformer기반 모델을 사용하였습니다.
DALL.E2는 기반기술이 완전히 변경되었습니다.

2. VAE기술 :

잠재변수를 학습하여 이용하는 VAE(Variational Auto Encoder)을 활용하여 이미지 생성과 복원 API를 제공합니다.

StyleGAN2-ADA기술 : VAE기술 기반으로 NVIDIA에서 개발한 인공지능 모델로 이미지 생성분야에서 높은 성능을 보여주고 있습니다. 주로 예술작품생성에 사용됩니다.
VAE기술 사용 : 이미지생성, 이미지 복원, 데이터 압축 등
VAE(Variational Auto Encoder)은 생성모델(Generative model)입니다. VAE기술은 연속적인 코드들을 생성하면서 데이터의 잠재변수(latent variable)를 학습하는 모델로 인코더와 디코더로 이루어 있으며, 인코더는 입력 데이터를 잠재 변수로 변환합니다. 이 잠재변수를 받아 이용하여 디코더를 통해 새로운 이미지를 생성합니다. 또는 인코더를 이용하여 입력 이미지를 잠재변수로 변환하고 이 잠재변수를 이용하여 디코더를 통해(입력받아) 원래 데이터를 복원합니다. 즉, 잠재변수의 분포를 정규분포로 가정하고 이 분포와 실제분포 사이의 차이를 최소화하는 방식으로 학습합니다.

3. VQ-VAE기술 :

연속적이지 않은 이산 코드들을 출력하는 VQ-VAE(Vector Quantized-Variation Auto Encoder) 기술은 정적(static)이지 않고 대신 학습이 가능한 기술로 후방 붕괴(posterior collapse)를 피할 수 있습니다.

VQ-VAE기술기반 이미지 생성 챗봇은 오픈 AI의 달리 2(DALL.E2)가 있습니다.
VQ-VAE 장점 : 학습이 안정적, 높은 성능, posterior collapse를 피할 수 있습니다.

4. Stable Diffusion기술 :

stability.ai에서 만든 이미지 생성 ai입니다. 안정적인 확산(Stable Diffusion) 기술은 고정된(안정적인) CLIP ViT-L/14 텍스트 인코더(Stabled CLIP ViT-L/14 text incoder)를 사용하여 텍스트 프롬프트에서 명령을 내려, 그림을 그리게 하는 Text to Image 모델입니다. 확률과정에서 일정한 규칙을 가지고 있는 확산과정을 말합니다. 이는 이미지 생성 모델을 대중화하기 위한 목적으로 만들어졌습니다.

CLIP ViT-L/14 text incoder기반기술 : 오픈 AI(OpenAI)에서 개발한 CLIP(Contrastive Language-Image Pretraining) 모델의 텍스트 인코더입니다. 이 모델은 이미지와 텍스트 쌍을 학습하여 이미지와 텍스트 간의 상호작용을 이해하고, 이미지와 관련된 텍스트를 예측할 수 있습니다. 이 모델은 높은 정확도와 다양한 응용 분야에서 좋은 성능을 보이고 있습니다.
(안정적인/조건부의) Stable CLIP ViT-L/14 text incoder 기술 : CLIP ViT-L/14 text incoder 기술을 사용하는데, 조건부로 생성된 이미지를 안정적으로 생성하는 모델입니다. 이 모델은 안정적인 이미지 생성을 위해 Stable Diffusion이라는 잠재적인 확산 모델을 사용합니다.
- 이미지와 텍스트 간의 상호작용을 이해하고 이미지와 관련된 텍스트를 예측할 수 있습니다.
- 높은 정확도와 다양한 응용 분야에서 좋은 성능을 보입니다.
- CLIP ViT-L/14 text incoder 기술에 "안정적인/조건부의(stable)" 상태를 만듭니다. 즉, Stable Diffusion(안정적인 확산)이라는 잠재적인 확산모델을 사용하여 안정적으로 이미지 생성을 합니다.
Imagen기술 : 텍스트-이미지 확산모델(Text to Image Diffusion model) : Google의 Imagen은 대형 고정 T5-XXL 인코더를 사용하여 입력 텍스트를 임베딩(embedding, 자연어를 컴퓨터가 처리하도록 벡터로 변경)으로 인코딩합니다. 조건부 확산 모델은 임베딩된 텍스트를 64 ×64 이미지에 매핑합니다. Imagen은 텍스트 조건부 초해상도 확산 모델을 활용하여 이미지를 64 ×64→256 ×256 및 256 ×256→1024 ×1024로 업샘플링합니다.
- Imagen은 COCO(Common Object in Context)에 대한 교육 없이 COCO 데이터 세트에서 7.27이라는 새로운 최첨단 FID 점수를 달성했습니다. 인간 평가자는 이미지-텍스트 정렬에서 Imagen 샘플이 COCO 데이터 자체와 동등하다는 것을 알게 됩니다. 텍스트-이미지 모델을 더 깊이 있게 평가하기 위해 텍스트-이미지 모델을 위한 포괄적이고 도전적인 벤치마크인 DrawBench를 사용하여 Imagen을 VQ-GAN+CLIP, Latent Diffusion Models 및 DALL-E 2를 포함한 최신 방법과 비교하고 인간 평가자가 샘플 품질 측면에서 나란히 비교하여 Imagen을 다른 모델보다 선호한다는 사실을 발견했습니다.