La génération d’images par l’IA est très utile pour créer du contenu visuel à partir d’invites textuelles, où elle combine généralement la vision par ordinateur et le traitement du langage naturel pour produire des résultats basés sur la description de l’image par l’utilisateur.
Mais il existe un autre aspect qui ne cesse de se développer, à savoir la retouche et modification d’images assistée par l’IA. De nombreux éditeurs populaires ont déjà intégré cette fonctionnalité, et d’autres envisagent de le faire. Aujourd’hui, un nouveau modèle d’IA open source appelé OmniGen a été présenté. Il se concentre sur l’édition d’images par le biais de l’invite.
OmniGen : retouches d’images rapides grâce à l’IA
Grâce à la magie de l’IA, le modèle open source OmniGen peut éditer des images à l’aide d’invites de commande. Développé par un groupe de neuf chercheurs de l’Académie d’intelligence artificielle de Pékin, OmniGen est un modèle de génération d’images unifié sous licence du MIT qui peut être utilisé pour créer des images à partir d’invites multimodales.
Les créateurs de OmniGen sont convaincus que la génération d’images devrait être plus simple et plus flexible, c’est-à-dire qu’il devrait permettre de générer diverses images directement à l’aide d’instructions multimodales arbitraires sans qu’il soit nécessaire de recourir à des plugins et à des opérations supplémentaires, à l’instar de ce que fait chatGPT dans le domaine de la génération de langage.

Ainsi OmniGen est capable d’intégrer une image existante et de suivre les instructions concernant le retrait de boucles d’oreilles ou le remplacement d’un objet près du sujet par un autre objet en toute simplicité. Il est également capable d’effectuer des tâches de génération d’images conventionnelles, de génération axée sur le sujet, de génération conditionnée par l’image, de génération préservant l’identité, ainsi que diverses autres tâches.
Le point fort de ce modèle est qu’il ne nécessite pas la mise en œuvre de techniques supplémentaires telles que ControlNet, IP-Adapter et Reference-Net, tout en supprimant la nécessité d’effectuer des étapes de prétraitement telles que la détection des visages, l’estimation de la pose, le recadrage, etc.
Vous pouvez approfondir les aspects techniques d’OmniGen en consultant son document technique, dont le code source est hébergé sur GitHub. Les développeurs ont fourni une live démo à usage limité via Hugging Face, où vous trouverez également la carte de modèle d’OmniGen. Vous pouvez également utiliser ComfyUI pour l’exécuter.


