본문 바로가기
카테고리 없음

이미지생성ai챗봇 빙 이미지 생성기(달리DALL.E2) 드림스튜디오(Dreamstudio) 아숙업(AskUP) 비교

by jinia.B 2023. 4. 16.
반응형

오픈 AI(OpenAI)에서 챗지피티(ChatGPT)가 대중에게 공개된 이래로, 이미지 생성 ai 챗봇은 더 놀라운 세상이 매우 가까이 왔음을 피부로 느끼게 해 주었습니다. 인간이 그림을 잘 그리려면, 기본적으로 자연적인 재능이 필요합니다. 그 재능에 더하여 오랜 기간 훈련이 필요합니다. 이런 재능과 훈련이 필요 없게 만든 이미지생성 ai 챗봇이 많이 등장하였고, 달리 DALL.E2(MS Bing), 드림스튜디오(DreamStudio, stability) 아숙업AskUP, 칸바 CANVA, 크레용(craiyon), 스타리(Starry ai), 나이트카페(NightCafe Creator), 아트브리더(ArtBreeder)  등을 쉽게 접할 수 있게 되었습니다.

 

저작권을 걱정할 필요없이 필요한 이미지를 마음대로 그려낼 수 있는 시대가 되었습니다. 텍스트 입력 후 이미지 생성 챗봇에 대해 무료로 사용하면서 초보자도 쉽게 사용할 수 있는 AI 서비스 위주로 알아보겠습니다.

 

목차
이미지 생성 챗봇 모델 종류(Text to Image generator task model)
      1. GAN기술
      2. VAE기술
      3. VQ-VAE 기술
      4. Sable Diffusion 기술

이미지 비교하기 달리DALL.E(MS 빙), 드림스튜디오(DreamStudio), 아숙업AskUP
     동물
     인물
     풍경

 결론

 

이미지생성 챗봇 모델 종류 (Text to Image generator task model)

이미지 생성 챗봇의 기반 기술은 다양합니다. 기술 종류에 따른 이미지 생성 챗봇 모델 종류는 다음과 같습니다.

 

1. GAN기술 :

딥 러닝 기반의 이미지 생성 기술을 이용하는 GAN(Generative Adversarial Network)을 활용하여 이미지 생성 API를 제공합니다.

  • GAN기술 기반의 이미지 생성 챗봇으로 아숙업AskUP의 업스케치(UpSketch), 오픈 AI의 달리(DALL.E) 등이 있습니다.
  • GAN은 생성모델(Generative model)이며, 생성자(generator)와 판별자(discriminator)로 이루어져 있습니다. 생성자는 랜덤한 잠재변수를 입력으로 받아 가짜 데이터를 생성하고 판별자는 진짜 데이터와 가짜 데이터를 구분합니다. GAN은 VAE보다 더욱 선명한 이미지를 생성할 수 있습니다. 단점은 학습이 불안정하고 모드 붕괴(mode collapse) 문제가 발생할 수 있습니다.
  • DALL-E는 GPT3과 같은 Transformer기반 모델을 사용하였습니다.
  • DALL.E2는 기반기술이 완전히 변경되었습니다.

2. VAE기술 :

잠재변수를 학습하여 이용하는 VAE(Variational Auto Encoder)을 활용하여 이미지 생성과 복원 API를 제공합니다.

  • StyleGAN2-ADA기술 : VAE기술 기반으로 NVIDIA에서 개발한 인공지능 모델로 이미지 생성분야에서 높은 성능을 보여주고 있습니다. 주로 예술작품생성에 사용됩니다.
  • VAE기술 사용 : 이미지생성, 이미지 복원, 데이터 압축 등
  • VAE(Variational Auto Encoder)은 생성모델(Generative model)입니다. VAE기술은 연속적인 코드들을 생성하면서 데이터의 잠재변수(latent variable)를 학습하는 모델로 인코더와 디코더로 이루어 있으며, 인코더는 입력 데이터를 잠재 변수로 변환합니다. 이 잠재변수를 받아 이용하여 디코더를 통해 새로운 이미지를 생성합니다. 또는 인코더를 이용하여 입력 이미지를 잠재변수로 변환하고 이 잠재변수를 이용하여 디코더를 통해(입력받아) 원래 데이터를 복원합니다. 즉, 잠재변수의 분포를 정규분포로 가정하고 이 분포와 실제분포 사이의 차이를 최소화하는 방식으로 학습합니다. 

3. VQ-VAE기술 :

연속적이지 않은 이산 코드들을 출력하는 VQ-VAE(Vector Quantized-Variation Auto Encoder) 기술은 정적(static)이지 않고 대신 학습이 가능한 기술로 후방 붕괴(posterior collapse)를 피할 수 있습니다.

  • VQ-VAE기술기반 이미지 생성 챗봇은 오픈 AI의 달리 2(DALL.E2)가 있습니다.
  • VQ-VAE 장점 : 학습이 안정적, 높은 성능, posterior collapse를 피할 수 있습니다.

4. Stable Diffusion기술 :

stability.ai에서 만든 이미지 생성 ai입니다. 안정적인 확산(Stable Diffusion) 기술은 고정된(안정적인) CLIP ViT-L/14 텍스트 인코더(Stabled CLIP ViT-L/14 text incoder)를 사용하여 텍스트 프롬프트에서 명령을 내려, 그림을 그리게 하는 Text to Image 모델입니다. 확률과정에서 일정한 규칙을 가지고 있는 확산과정을 말합니다. 이는 이미지 생성 모델을 대중화하기 위한 목적으로 만들어졌습니다. 

  • CLIP ViT-L/14 text incoder기반기술 : 오픈 AI(OpenAI)에서 개발한 CLIP(Contrastive Language-Image Pretraining) 모델의 텍스트 인코더입니다. 이 모델은 이미지와 텍스트 쌍을 학습하여 이미지와 텍스트 간의 상호작용을 이해하고, 이미지와 관련된 텍스트를 예측할 수 있습니다. 이 모델은 높은 정확도와 다양한 응용 분야에서 좋은 성능을 보이고 있습니다.
  • (안정적인/조건부의) Stable CLIP ViT-L/14 text incoder 기술 : CLIP ViT-L/14 text incoder 기술을 사용하는데, 조건부로 생성된 이미지를 안정적으로 생성하는 모델입니다. 이 모델은 안정적인 이미지 생성을 위해 Stable Diffusion이라는 잠재적인 확산 모델을 사용합니다.
    • 이미지와 텍스트 간의 상호작용을 이해하고 이미지와 관련된 텍스트를 예측할 수 있습니다.
    • 높은 정확도와 다양한 응용 분야에서 좋은 성능을 보입니다.
    • CLIP ViT-L/14 text incoder 기술에 "안정적인/조건부의(stable)" 상태를 만듭니다. 즉, Stable Diffusion(안정적인 확산)이라는 잠재적인 확산모델을 사용하여 안정적으로 이미지 생성을 합니다.
  • Imagen기술 : 텍스트-이미지 확산모델(Text to Image Diffusion model)  : Google의 Imagen은 대형 고정 T5-XXL 인코더를 사용하여 입력 텍스트를 임베딩(embedding, 자연어를 컴퓨터가 처리하도록 벡터로 변경)으로 인코딩합니다. 조건부 확산 모델은 임베딩된 텍스트를 64 ×64 이미지에 매핑합니다. Imagen은 텍스트 조건부 초해상도 확산 모델을 활용하여 이미지를 64 ×64→256 ×256 및 256 ×256→1024 ×1024로 업샘플링합니다.
    •  Imagen은 COCO(Common Object in Context)에 대한 교육 없이 COCO 데이터 세트에서 7.27이라는 새로운 최첨단 FID 점수를 달성했습니다. 인간 평가자는 이미지-텍스트 정렬에서 Imagen 샘플이 COCO 데이터 자체와 동등하다는 것을 알게 됩니다. 텍스트-이미지 모델을 더 깊이 있게 평가하기 위해 텍스트-이미지 모델을 위한 포괄적이고 도전적인 벤치마크인 DrawBench를 사용하여 Imagen을 VQ-GAN+CLIP, Latent Diffusion Models 및 DALL-E 2를 포함한 최신 방법과 비교하고 인간 평가자가 샘플 품질 측면에서 나란히 비교하여 Imagen을 다른 모델보다 선호한다는 사실을 발견했습니다.

 

이미지 비교하기 :  달리 DALL.E(MS 빙),드림스튜디오 DreamStudio, 아숙업AskUP

여러 가지 과제를 주고 이미지를 생성시켜 그 결과들을 비교해 봅니다.

모두 똑같은 문장을 영문 만들어서 진행하였습니다.

영문 번역은 딥엘(DeepL) 번역기로 진행했습니다.

동물 : 꽃밭에서 나비를 쫓고 있는 강아지와 고양이.

(번역 DeepL) A dog and a cat chasing butterflies in a flower garden.

 

왼쪽부터-빙(달리)-드림스튜디오(SDXL베타)-아숙업ASKUP

 

인물 : 카페에서 커피 한잔을 앞에 두고 책을 읽으며 앉아있는 여인

(번역 DeepL) A woman sitting in a cafe reading a book with a cup of coffee in front of her.

왼쪽부터-빙(달리)-드림스튜디오(SDXL베타)-아숙업ASKUP

 

풍경 : 아름다운 풍경의 사실적인 사진

(번역DeepL) Realistic photos of beautiful landscapes.

 

결론

시간은 아숙업askup이 가장 빠르고 마이크로소프트 빙의 이미지 생성기가 가장 많이 걸렸습니다. 그러나 사진이나 그림 퀄리티는 오래 걸린 만큼 마이크로소프트의 빙 이미지생성기의 퀄리티가 가장 좋았습니다.

 

동물의 경우 개와 고양이와 나비가 다 표현된 경우는 마이크로소프트 빙(달리)이 유일했습니다.

 

무료로 사용하면서도 퀄리티가 보장이 되는 챗봇 이미지 생성 AI는 마이크로소프트 빙에 연결된 이미지 생성기를 추천하는 바입니다.

 

 

딥엘DeepL 왓슨IBM Watson 구글 파파고 카카오 번역기

 

딥엘DeepL 왓슨IBM Watson 구글 파파고 카카오 번역기

영어를 약간 할 수는 있지만, 긴 내용을 직접 번역하려면 전문 번역사도 아니니, 시간이 정말로 많이 걸립니다. 요즘같이 번역기도 잘 나오는 시대에 사전을 찾아가면서 직접 번역작업을 하거나

jinia100.com

뤼튼 아숙업 written vs Askup 카카오톡에서 챗지피티ChatGPT 챗봇 사용법 등록법

 

뤼튼 아숙업 written vs Askup 카카오톡에서 챗지피티ChatGPT 챗봇 사용법 등록법

요즘 한국처럼 ChatGPT챗지피티가 핫이슈인 나라가 있을까 싶습니다. 물론 만들어지기는 미국에서 만들어졌지요. Open AI라는 회사가 만들었습니다. 인공지능이 학습하고, 그 학습내용을 인간이 대

jinia100.com

마이크로소프트 엣지 빙 검색 AI 이미지생성기image Creator 달리 신청 사용하기

 

마이크로소프트 엣지 빙 검색 AI 이미지생성기image Creator 달리 신청 사용하기

마이크로소프트 엣지의 빙 검색에 텍스트를 넣으면, AI로 이미지를 생성하는 기능을 탑재했습니다. 엣지브라우저의 오른쪽에는 단축아이콘들이 있는데 여기에 추가되어서 누르면 바로 이용할

jinia100.com

url단축 비틀리 구글 보라 url.kr 당장 사용하기 feat. QR코드 생성

 

url단축 비틀리 구글 보라 url.kr 당장 사용하기 feat. QR코드 생성

가장 많이 쓰는 url 단축 서비스 비틀리, 네이버, 보라, 리유알엘의 이용꿀팁을 소개합니다. QR코드로도 생성도 가능합니다. 어떤 게시물의 주소를 복사해서 다른 사람에게 전달하거나, 어떤 흥미

a01.jinia100.com

 

반응형

댓글