Rejoignez Leaders à Boston le 27 mars pour une soirée exclusive de réseautage, d'idées et de conversation. Demandez une invitation ici.
Le célèbre service de génération d’images d’intelligence artificielle En plein vol Il a déployé l'une de ses fonctionnalités les plus demandées : la possibilité de recréer des personnages de manière cohérente sur de nouvelles images.
De par sa nature, cela constitue jusqu’à présent un obstacle majeur pour les générateurs d’images IA.
En effet, la plupart des générateurs d’images IA s’appuient sur «Modèles de diffusion« , des outils similaires ou basés sur l'algorithme de génération d'images open source de Stability AI, Stable Diffusion, qui fonctionne à peu près en prenant le texte saisi par l'utilisateur et en essayant de reconstituer une image pixel par pixel qui correspond à cette description, comme nous l'avons fait. appris d'expériences similaires avec des images et des balises de texte dans un groupe de données de formation énormes (et controversées) comprenant des millions d'images générées par l'homme.
Pourquoi les personnalités cohérentes sont si puissantes – et insaisissables – pour l'IA générative
Cependant, comme avec les grands modèles de langage basés sur du texte (LLM) comme ChatGPT d'OpenAI ou le nouveau Command-R de Cohere, le problème avec toutes les applications d'IA générative est l'incohérence des réponses : l'IA génère quelque chose de nouveau pour chaque invite individuelle saisie. , même si la revendication est répétée ou si certains des mêmes mots-clés sont utilisés.
événement VB
Tournée d’impact de l’intelligence artificielle – Boston
Demander une invitation
C'est idéal pour créer des éléments de contenu entièrement nouveaux – dans le cas de Midjourney, des images. Mais que se passe-t-il si vous réalisez un film, un roman, une bande dessinée, une bande dessinée ou tout autre média visuel que vous aimez ? la même chose Un ou plusieurs personnages à parcourir et à apparaître dans différentes scènes et décors, avec différentes expressions faciales et accessoires ?
Ce scénario précis, qui est généralement nécessaire à la continuité narrative, a été très difficile à réaliser avec l’IA générative – jusqu’à présent. Mais Midjourney travaille maintenant sur ce problème, en introduisant une nouvelle balise, « –cref » (abréviation de « référence de personnage ») que les utilisateurs peuvent ajouter à la fin de leurs invites de texte dans Midjourney Discord et tenteront de faire correspondre le visage d'un personnage. Caractéristiques, type de corps et même vêtements à partir de l'URL que l'utilisateur colle dans la balise mentionnée suivante.
Au fur et à mesure que la fonctionnalité progresse et s’améliore, Midjourney pourrait devenir un jeu sympa ou une source d’idées pour devenir un outil plus professionnel.
Comment utiliser la nouvelle fonctionnalité de personnalité cohérente de Midjourney
La balise fonctionne mieux avec les images Midjourney précédemment créées. Ainsi, par exemple, le flux de travail de l'utilisateur consisterait à créer ou à récupérer l'URL d'un personnage généré précédemment.
Partons de zéro et disons que nous créons un nouveau personnage avec cette invite : « Homme chauve et musclé avec une perle et un cache-œil ».
Nous mettrons à jour l'image que nous aimons le plus, puis Ctrl-cliquez dessus sur le serveur Midjourney Discord pour trouver l'option « Copier le lien ».
Ensuite, nous pouvons écrire une nouvelle invite dans « Portez un smoking blanc lorsque vous êtes debout dans une villa -cref ». [URL] » et collez l'URL de l'image que nous venons de créer, et Midjourney essaiera de créer le même personnage qu'auparavant dans le paramètre nouvellement saisi.
Comme vous le constaterez, les résultats sont loin de correspondre au chiffre initial (ou même à notre affirmation initiale), mais ils sont certainement encourageants.
De plus, l'utilisateur peut contrôler dans une certaine mesure le « poids » de la façon dont la nouvelle image est produite par rapport au caractère d'origine en appliquant l'indicateur « -cw » suivi d'un nombre de 1 à 100 à la fin de la nouvelle invite ( après « -cref [URL] »chaîne, comme ceci : »-cref [URL] – CW 100. » Plus le nombre « CW » est bas, plus le contraste de l'image résultante est élevé. Plus le nombre « CW » est élevé, plus la nouvelle image résultante suit de près la référence d'origine.
Comme vous pouvez le voir dans notre exemple, saisir « cw 8 » très bas a en fait renvoyé ce que nous voulions : le smoking blanc. Bien qu'il ait maintenant retiré le cache-œil caractéristique de notre personnage.
Eh bien, il n’y a rien qu’une « zone différente » ne puisse réparer, n’est-ce pas ?
Bon, le cache-œil a été mis sur le mauvais œil… mais on y est arrivé !
Vous pouvez également combiner plusieurs caractères en un seul en utilisant deux balises « –cref » ainsi que leurs URL respectives.
La fonctionnalité a été lancée plus tôt dans la soirée, mais les artistes et les créateurs la testent actuellement. Essayez-le vous-même si vous disposez de Midjourney. Et lisez la note complète du fondateur David Holz sur le sujet ci-dessous :
Salut @tout le monde ici, nous testons aujourd'hui la nouvelle fonctionnalité de référence de personnage, elle est similaire à la fonctionnalité de référence de modèle, sauf qu'au lieu de faire correspondre un modèle de référence, elle essaie de faire correspondre le caractère à l'image de référence de personnage.
Comment ça fonctionne
- Il écrit
--cref URL
Une fois que vous êtes invité à saisir l'URL de votre photo de profil - vous pouvez utiliser
--cw
Pour ajuster la « force » de la référence de 100 à 0 - Force 100 (
--cw 100
) Par défaut et utilise le visage, les cheveux et les vêtements - (fortement 0)
--cw 0
) se concentrera uniquement sur le visage (idéal pour changer de vêtements, de cheveux, etc.)
A quoi est-ce destiné
- Cette fonctionnalité fonctionne mieux lorsque vous utilisez des personnages créés à partir d’images Midjourney. Il n'est pas conçu pour de vraies personnes/images (et les déformera probablement comme le font les invites d'image normales)
- Cref fonctionne de la même manière que les invites d'image classiques, sauf qu'il « se concentre » sur les traits de caractère
- La précision de cette technique est limitée, elle ne reproduira pas exactement les fossettes/taches de rousseur/ou les logos de chemises.
- Cref fonctionne avec les modèles Niji et MJ classiques et peut également être combiné avec
--sref
Options avancées
- Vous pouvez utiliser plusieurs URL pour mélanger les informations/caractères de plusieurs images comme celle-ci
--cref URL1 URL2
(Ceci est similaire à plusieurs invites d'image ou de style)
Comment ça marche sur alpha web ?
- Faites glisser ou collez une image dans la barre de visualisation, où elle contient désormais trois icônes. Spécifiez ces groupes s'il s'agit d'un vecteur d'image, d'une référence de style ou d'une référence de caractère. Maj+Sélectionner une option pour utiliser une image pour plusieurs catégories
N'oubliez pas que bien que MJ V6 soit en phase alpha, d'autres fonctionnalités peuvent changer soudainement, mais la version bêta officielle de V6 arrive bientôt. Nous serions ravis de partager les réflexions de chacun sur les Idées et fonctionnalités et nous espérons que vous apprécierez cette première version et nous espérons qu'elle vous aidera pendant que vous jouez à la construction d'histoires et de mondes.
La mission de VentureBeat Il s'agit d'une place publique numérique permettant aux décideurs techniques d'acquérir des connaissances sur la technologie d'entreprise transformationnelle et transactionnelle. Découvrez nos résumés.
« Évangéliste des médias sociaux. Baconaholic. Lecteur dévoué. Chercheur de Twitter. Pionnier avide du café. »
More Stories
Apple annonce l’expansion de Vision Pro dans deux pays supplémentaires
Nintendo lance une application musicale avec des thèmes de Mario et Zelda et, plus important encore, une chaîne Wii Shop
C’est le journal que personne n’a lu avant d’annoncer la disparition de la cryptographie moderne.