Nano Banana : L’Éditeur d’Images IA Révolutionnaire de Google enfin Démasqué !

Article de Kami

Un mystérieux éditeur d’images IA, surnommé Nano Banana, a récemment fait son apparition, surclassant de très loin tous ses concurrents. Le secret est désormais levé : il s’agit en réalité de Gemini 2.5 Flash, le dernier modèle multimodal de Google. Plus qu’une simple IA capable d’analyser du texte, de l’audio ou de la vidéo, Gemini 2.5 Flash démontre une capacité ahurissante à créer et éditer des images avec une précision inégalée.

Les classements ne mentent pas. Sur la plateforme de test à l’aveugle LM Arena, où les utilisateurs évaluent les modèles sans savoir lequel ils utilisent, l’avance de Nano Banana est écrasante. Il devance le second de près de 200 points ELO, un écart colossal qui le place dans une catégorie à part.

Cet article explore ce qui rend Nano Banana si puissant, en le comparant à ses principaux rivaux : GPT-4o d’OpenAI et l’alternative open-source Quen Image Edit.


Les Super-pouvoirs de Nano Banana

La force principale de Nano Banana réside dans sa capacité phénoménale à capturer et préserver les détails des images de référence, ouvrant la voie à des éditions complexes qui étaient jusqu’alors impossibles.

1. Cohérence des Personnages et Deepfakes

Là où beaucoup d’IA échouent, Nano Banana excelle. En lui fournissant une photo de Will Smith et Emma Watson dans une galerie d’art et en demandant de les vêtir d’un smoking doré et d’une robe rouge, le résultat est bluffant. Non seulement les visages sont parfaitement reconnaissables, mais l’arrière-plan, jusqu’aux coups de pinceau des tableaux, est conservé à l’identique. GPT-4o a refusé de générer l’image pour des raisons de censure, tandis que Quen a bien réussi les visages mais a complètement changé l’arrière-plan.

Une deep fake avec mon visage réalisé en quelques secondes..

Mieux encore, à partir d’un simple croquis de poses de combat, Nano Banana a réussi à mettre en scène les deux acteurs dans ces mêmes postures tout en conservant leurs visages de la photo originale.

2. Consistance des Modèles Complexes

Le test du personnage de mecha Destiny Gundam, au design très complexe, a été une autre démonstration de sa supériorité. En demandant une « model sheet » (vue de face, de dos, de côté), Nano Banana a produit des vues parfaitement cohérentes, conservant tous les détails complexes de l’armure, des ailes et même de l’arme tenue en main. Ses concurrents ont tous échoué, oubliant des éléments cruciaux comme les ailes ou altérant le design d’une vue à l’autre.

3. Échange de Vêtements et Micro-éditions

Nano Banana est le seul à avoir réussi un défi particulièrement retors : sur une image de deux humains et un cochon, il a fallu échanger les tenues des humains et transformer la tête du cochon en tête de poulet. Il a exécuté la tâche à la perfection, en conservant le style graphique et les motifs exacts des vêtements.

De même, pour un essai virtuel de vêtements (« virtual try-on »), il a pu appliquer la tenue d’un personnage d’anime à un homme pratiquant le kung-fu, en préservant parfaitement sa pose et les traits de son visage. GPT-4o a changé le visage, et Quen a échoué complètement.

Enfin, une demande de « micro-édition » consistant à échanger l’ethnicité d’un couple sur une photo a été réalisée sans le moindre défaut, une prouesse de compréhension contextuelle et de manipulation d’image.

4. Restauration de Photos

Donnez-lui une vieille photo de famille, abîmée, floue et en noir et blanc, et Nano Banana la restaure et la colorise avec une fidélité stupéfiante. Chaque visage est préservé, et les défauts (plis, taches) sont effacés. Dans ce domaine, Quen Image Edit a également fourni un excellent résultat, le rendant un concurrent sérieux pour cette tâche spécifique. GPT-4o, en revanche, a modifié les visages et a même ajouté des doigts et des lunettes qui n’existaient pas.


Là où Nano Banana Dérape (Parfois)

Malgré sa domination, l’outil n’est pas parfait et montre quelques faiblesses.

  • Prompts Techniques Spécifiques : Lorsqu’on lui a demandé de transformer une photo prise au fisheye en un cliché pris avec un « objectif 100mm f/1.4 » (ce qui implique un zoom, une suppression de la distorsion et un fond flou), il a échoué. Étonnamment, c’est GPT-4o qui a le mieux compris la requête photographique, même s’il a légèrement modifié le visage du sujet.
  • Transfert de Style Artistique : C’est sa plus grande faiblesse. Demander de transformer une photo réaliste en style « anime » ou de diviser une image en style « Lego » et « Pixar » s’est soldé par des échecs. GPT-4o et Quen se sont montrés bien plus performants pour le transfert de style.
  • Génération d’Expressions : Dans un test demandant de créer une grille de neuf photos d’une même personne avec des expressions différentes (joie, peur, colère…), les résultats étaient mitigés. Si la fidélité du visage était excellente, les émotions étaient parfois ambiguës. GPT-4o, bien qu’altérant légèrement le visage, a bien mieux réussi à représenter les émotions demandées.

Comment Essayer Nano Banana ?

Vous voulez tester cette merveille par vous-même ? C’est possible et gratuit (pour l’instant, avec des quotas) :

  1. Google AI Studio : C’est la plateforme officielle. Il suffit de se connecter avec un compte Google, de sélectionner le modèle Gemini 2.5 Flash Image et de commencer à téléverser des images et à écrire des prompts.
  2. LM Arena : Le site de « battle » de modèles permet également de chatter directement avec Gemini 2.5 Flash Image Preview en le sélectionnant dans le menu déroulant.

Pour les développeurs, le modèle est déjà accessible via l’API de Google, prêt à être intégré dans de nouvelles applications.

Vous pouvez également l’utilisé directement via l’application de google sur mobile.


Le Verdict : Une Nouvelle Ère pour l’Édition d’Images

Les benchmarks objectifs et les tests pratiques convergent vers une seule conclusion : Nano Banana (Gemini 2.5 Flash) est actuellement le meilleur éditeur d’images IA au monde, en particulier pour les tâches qui exigent une grande fidélité à l’image source et une compréhension fine des instructions.

Le plus effrayant ? Il s’agit de la version « Flash », une version allégée et rapide du modèle. On ne peut qu’imaginer la puissance des versions « normale » ou « Pro » à venir. Google avait probablement cette technologie en réserve depuis des mois, ce qui laisse songeur sur les autres innovations révolutionnaires qui attendent encore dans leurs laboratoires. Le futur de l’imagerie numérique s’annonce spectaculaire.


Tuto comment utiliser son twitch prime et soutenir le site gratuitement.

Trouve des groupes avec qui jouer sur notre discord !

Ou plus simplement pour faire avancer le site  Kami-labs.fr abonne toi à ma chaine YouTube ! Merci <3

youtube kami

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *