OpenAI propose une génération d’images native dans ChatGPT et Sora.
Lors d’un livestream animé par le PDG Sam Altman et des membres de l’équipe OpenAI, l’entreprise a présenté de nouvelles capacités de génération d’images alimentées par le modèle GPT-4o.
Auparavant, la génération d’images reposait sur le modèle DALL-E d’OpenAI, spécialisé dans la conversion de texte en image. Désormais, GPT-4o prend le relais, apportant une meilleure compréhension du monde et du contexte pour une expérience plus fluide et conversationnelle. Selon OpenAI, le modèle peut interpréter des instructions contextuelles sans référence explicite à une image, affiner les images générées en fonction des retours et améliorer considérablement le rendu du texte.
L’objectif d’OpenAI est de rendre la génération d’images dans ChatGPT plus utile qu’un simple gadget. Cela inclut la création de diagrammes, d’infographies, de logos, de publications pour les réseaux sociaux et d’autres types de graphiques. Dans Sora, une nouvelle section permet désormais de générer des images en plus des vidéos, à l’image de l’interface de Midjourney.
Lors du livestream, Altman a mis en avant l’accent mis sur la “liberté créative”, déclarant : « Ce que nous aimerions, c’est que le modèle ne soit pas offensant si vous ne le souhaitez pas, mais si vous le voulez—dans des limites raisonnables—qu’il laisse vraiment les gens créer ce qu’ils veulent. »
Altman a ensuite semblé clarifier cette déclaration dans un post sur X, affirmant : « Notre objectif est que l’outil ne génère pas de contenus offensants, sauf si vous le souhaitez, et dans ce cas, dans des limites raisonnables, il le fait. Comme nous l’expliquons dans les spécifications de notre modèle, nous pensons que donner cette liberté intellectuelle et ce contrôle aux utilisateurs est la bonne approche, mais nous observerons comment cela évolue et écouterons la société. »
Si cela n’était pas totalement clair, la politique d’OpenAI concernant le blocage des images violant ses règles—comme les contenus pédopornographiques et les deepfakes à caractère sexuel—reste inchangée.
D’après l’article de blog accompagnant cette annonce, toutes les images générées intègrent des métadonnées C2PA, qui ajoutent des filigranes invisibles précisant leur origine.
La génération d’images native dans ChatGPT est disponible dès aujourd’hui pour les utilisateurs ChatGPT Plus, Pro, Team et Free dans l’expérience de chat, avec un déploiement prévu prochainement pour les utilisateurs Enterprise et Edu.