Google renforce son chatbot Bard AI pour intensifier la compétition contre ChatGPT d'OpenAI. Sous la direction de Sundar Pichai, Google a annoncé l'intégration des capacités de génération d'images via son modèle d'IA Imagen 2, ainsi qu'une version plus avancée de Gemini Pro. Ces mises à jour offrent aux utilisateurs un accès élargi aux fonctionnalités de Bard, y compris un nouvel outil gratuit pour créer des images générées par IA.
"Ces mises à jour positionnent Bard comme un partenaire IA plus efficace et accessible à l'échelle mondiale, pour des projets créatifs variés et des tâches quotidiennes," a déclaré Jack Krawczyk, responsable produit de Bard, dans un article de blog. De plus, Google teste un autre générateur d'images appelé ImageFX, à partir d'aujourd'hui.
Gemini Pro avec Support Multilingue
Il y a plus d'un mois, Google a lancé le modèle d'IA Gemini en trois versions : Nano pour une utilisation mobile, Pro pour des applications intermédiaires, et Ultra, qui devrait être le modèle linguistique le plus puissant jamais créé, surpassant le GPT-4; cependant, la version Ultra ne sera pas disponible avant la fin de l'année.
Des comparaisons initiales entre Gemini Pro et d'autres modèles ont indiqué qu'il pourrait être en retard par rapport au modèle précédant d'OpenAI, le GPT-3.5 Turbo. Cela pose un défi pour Google qui souhaite mettre en avant ses capacités dans le paysage concurrentiel de l'IA générative. Une version affinée de Gemini Pro a été mise en ligne sur Bard le mois dernier, mais uniquement en anglais.
La dernière série de nouvelles fonctionnalités IA vise à combler cette lacune. La version la plus récente de Bard prendra en charge plus de 40 langues, notamment le coréen, l'espagnol, le tamoul, l'italien et le russe, dans plus de 230 pays et territoires. Cette expansion offre à davantage d'utilisateurs un accès aux capacités avancées de Gemini Pro en compréhension, synthèse, raisonnement et programmation, ainsi qu'à la fonctionnalité de validation des réponses de Bard via des recherches sur le web.
Imagen 2 sur Bard : En concurrence avec ChatGPT Plus et DALL-E 3
Peut-être le développement le plus captivant est l'introduction de la génération d'images IA utilisant le modèle Imagen 2, conçu pour créer des images photoréalistes de haute qualité à partir de descriptions textuelles. Cela place Bard comme un concurrent direct de ChatGPT Plus d'OpenAI, qui intègre le générateur d'images DALL-E 3.
"Décrivez simplement ce que vous voulez—comme ‘créer une image d'un chien sur une planche de surf’—et Bard générera une variété de visuels pour donner vie à votre concept," a expliqué Krawczyk.
Lors des tests, Bard a produit des images en environ 30 à 40 secondes, montrant une bonne constance. Cependant, il y a eu des cas où il n'a pas réussi à générer d'images, même en respectant les directives qui filtrent les images impliquant des personnes bien connues pour éviter des scandales potentiels. Actuellement, il n'y a pas de support pour modifier le format d'image ou utiliser des descriptions non anglaises, selon nos tests initiaux de l'outil.
Pour répondre aux préoccupations concernant le droit d'auteur autour des médias générés par IA, Google Bard permet aux utilisateurs de signaler des problèmes juridiques liés à la protection des données et au droit d'auteur pour tout contenu généré. La plateforme impose également des limites sur les contenus violents, offensants ou à caractère sexuel. En outre, Google a intégré des filigranes numériquement identifiables dans les pixels des images générées grâce à SynthID développé par DeepMind, aidant à distinguer les visuels générés par IA de ceux créés par des artistes humains.
Nouvelles Fonctionnalités de l'Itération avec ImageFX
En plus de Bard, Google explore ImageFX, propulsé par Imagen 2. Disponible dès maintenant dans AI Test Kitchen, l'application expérimentale de Google, ImageFX encourage l'exploration créative à travers des "chips expressifs" qui offrent des suggestions et des dimensions adjacentes pour enrichir vos descriptions. Cette fonctionnalité est similaire à celles trouvées dans d'autres outils créatifs, tels qu'Ideogram.
AI Test Kitchen héberge également des projets innovants comme MusicFX, qui peut créer des mélodies allant jusqu'à 70 secondes avec des descriptions textuelles et des chips expressifs, ainsi que TextFX, destiné aux paroliers et écrivains créatifs.