La comparaison des IA spécialisées dans la génération d'images à partir de texte révèle des différences marquées

Le deep learning au service de la création de contenu visuel

17 novembre 2022 par

Adgensee, Vincent

Fabian Stelzer a récemment effectué un test de comparaison d'images entre trois générateurs de texte en image dotés d'une intelligence artificielle (IA) : DALL-E 2, Midjourney et Stable Diffusion.

Comparatif de trois IA générateurs de texte en image

Stelzer a publié ses résultats dans un fil Twitter où il a expliqué le processus qui consistait à donner exactement le même message à chaque machine et à utiliser un rapport d'aspect 1:1.

Il explique qu'il considère chaque programme, qu'il surnomme synthétiseurs d'images, comme des "instruments", chaque générateur produisant son propre style, son propre ton et son propre état d'esprit :

"Je considère ces synthés d'images comme des instruments, chacun ayant son propre timbre, ses forces et ses faiblesses", explique-t-il.

Cette expérience fascinante donne un aperçu de la façon dont chaque générateur d'images IA interprète les instructions et laisse des indices sur le style d'image global de la machine.

MidJourney

"Midjourney me rappelle un magnifique synthétiseur analogique Moog - il est presque impossible de le faire sonner mal et vous pouvez faire des choses incroyables avec lui, mais en contrepartie, sa gamme est plus limitée. Les artefacts qu'il produit sont comme une distorsion analogique, très agréable."

DALL-E 2 de OpenAI

Stelzer dit que le générateur d'images AI peut-être le plus connu, DALL-E 2, est comme "un synthétiseur numérique; une gamme incroyable, mais il sonne presque toujours un peu trop numérique."

Stable Diffusion

"Stable Diffusion est comme un synthétiseur modulaire complexe, vous pouvez en tirer presque n'importe quel ton, mais c'est un peu plus difficile à jouer et à déclencher."

Conclusion

Midjourney a un aspect plus sombre que les deux autres. Prenez l'image "Behind the scenes of the moon landing". Alors que DALL-E 2 et Stable Diffusion génèrent une image beaucoup plus réaliste. L'offre de Midjourney a un aspect apocalyptique, avec l'astronaute qui semble tout droit sorti d'un film d'horreur.

Cependant, Midjourney ne semble pas être en mesure de créer une image photoréaliste, tandis que Stable Diffusion semble être la meilleure solution d'après l'essai de Stelzer.

Une révolution prochaine dans le domaine créatif

"Les synthèses d'images IA vont révolutionner le travail créatif d'une manière que nous n'avons pas vue depuis l'avènement de la photographie - ce que la photographie était à la peinture, les synthèses d'images le sont à la photographie, et ce que le cinéma était au théâtre, les synthèses d'images le sont au cinéma", déclare Stelzer, basé à Berlin.

"Il ne s'agit pas seulement de pouvoir convoquer n'importe quelle image à la volée, mais de ce que ces outils permettront - dans quelques années, n'importe qui sera capable de créer un contenu de type cinématographique en le tapant simplement dans des détails littéraux riches."

Ce qui était autrefois difficile va devenir facile. Il est vrai que l'IA rend sans effort des tâches dont la maîtrise demandait autrefois des heures de pratique. Par exemple, un logiciel qui peut réparer de vieilles photographies.

Vous souhaitez générer vos propres images ?

DALL-E 2 n'est actuellement pas disponibles au public mais vous pouvez essayer sa version 1 depuis l'un des sites ci-dessous, cependant elle produit des images bien moins réalistes que la dernière version.

DALL-E 1 :

huggingface : dalle-mini craiyon.com

Stable Diffusion :

hugginface : stable-diffusion dreamstudio.ai

in Innovations

# DALL-E 2 Midjourney Stable Diffusion

Partager cet article

Étiquettes

DALL-E 2 Midjourney Stable Diffusion

Lire suivant

Comprendre le workflow d’automatisation n8n : Le guide pour les non-techniciens

Découvrez ce qu'est un workflow n8n et comment cet outil d'automatisation low-code peut révolutionner les processus de votre entreprise. Guide simple par Adgensee.