La Nouvelle IA GRATUITE de Google va-t-elle VRAIMENT tuer Photoshop ?

🚀 Add to Chrome – It’s Free - YouTube Summarizer

Category: AI Technology

Tags: AIEditingGeminiGoogleImage

Entities: AI StudioChatGPTGemini 2.5 Flash ImageGoogleLe Bretzel

Building WordCloud ...

Summary

    Introduction to Gemini 2.5 Flash Image
    • The video introduces Gemini 2.5 Flash Image, a new AI by Google.
    • The AI allows for interactive image generation and modification through conversation.
    • The focus is on dialogue with the AI rather than issuing commands.
    Features and Capabilities
    • Gemini 2.5 can maintain character consistency across different environments.
    • The AI excels in modifying images with precise details as per user input.
    • It supports conversational editing, allowing real-time adjustments.
    Practical Applications
    • Gemini 2.5 is useful for e-commerce by creating product mockups quickly.
    • The AI can change product colors and materials while maintaining design integrity.
    Limitations and Challenges
    • The AI struggles with complex compositions involving multiple images.
    • Text generation within images is currently a weak point for Gemini 2.5.
    Conclusion and Future Outlook
    • Gemini 2.5 is not a Photoshop replacement but a creative partner.
    • The future lies in orchestrating multiple AI tools for optimal results.

    Transcript

    00:00

    Regardez bien ça. Un seul personnage, des  situations différentes, une cohérence parfaite.   C'est la promesse folle de la nouvelle IA de  Google.

    Mais est-ce que c'est juste un coup de   chance ? Pour arriver à ça, c'est facile.

    Mais  pour éviter ça, il y a des pièges critiques à  

    00:15

    connaître. Dans cette vidéo, on fait le crash  test complet de Gemini 2.5 Flash Image.

    On va   voir ce qu'il a vraiment dans le ventre et  je vous montre les astuces pour débloquer   sa vraie puissance quand il échoue. Oubliez  tout ce que vous savez.

    Le vrai changement,   ce n'est pas la puissance, c'est le dialogue. On  arrête de lui crier des ordres en espérant qu'il  

    00:32

    comprenne pour plutôt commencer à sculpter  nos images en discutant avec lui. Et ça,   ça change tout.

    Allez, accrochez-vous, c'est parti  ! Ok, nous voilà sur l'interface Gemini et pendant   que je prépare notre toute première génération,  laissez-moi vous raconter rapidement la petite  

    00:52

    histoire. Pendant des semaines, une IA mystérieuse  tournait sur le web, surnommée Nano-banana.

    Les   résultats étaient tellement bluffants que tout le  monde se demandait qui était derrière. Et bien,   le secret est levé : c'était bien Google,  avec leur tout nouveau modèle Gemini 2.5 Flash  

    01:09

    Image. Le concept est simple et vraiment dans la  lignée de ce qui se fait désormais avec ChatGPT,   Flux Kontext ou plus récemment Qwen.

    On génère  une image et ensuite, on discute avec l'IA pour la   transformer, la modifier, l'améliorer, comme si on  briefait un graphiste en temps réel. Plus besoin  

    01:25

    de relancer 30 fois des prompts en espérant que  les résultats soient enfin bons. Ici, on dialogue.   Et c'est ça, l'édition conversationnelle.

    Et on va  voir tout de suite ensemble si ça tient vraiment   la route. Et donc premier défi, c'est le test  de base, celui qui fait le buzz : la cohérence.  

    01:41

    Est-ce qu'il va vraiment garder le même personnage  si je commence à changer complètement son   environnement, certains détails ? Et pour ça, on  va créer notre mascotte du jour.

    On va l'appeler,   disons, Alex. Et ici, ça va être un double  défi parce que je vais lui demander pas mal   de détails précis pour voir s'il les respecte  correctement ma demande.

    Je lui demande : "Crée  

    02:00

    une photo d'un jeune homme avec une veste en  toile orange vif avec un petit logo bretzel noir,   des cheveux bruns avec une mèche blanche, des  yeux verts, un tatouage sur la main gauche, et une   montre sur son autre poignet, le poignet droit.  Il porte un casque sans fil sur les oreilles,   la scène se passe en centre-ville." Et c'est  parti. Et déjà, remarquez comme la génération  

    02:20

    est rapide. En seulement quelques secondes, on  va avoir notre image qui est générée.

    Et ça déjà,   c'est très agréable. Ok, ça respecte plutôt bien.  La qualité de la peau, c'est pas ce qui se fait de   mieux, mais bon, c'est pas le plus important ici.  Et surtout, comme je m'y attendais, la montre.

    Vu   que la majorité des gens portent leur montre au  poignet gauche, les IA sont entraînées pour les  

    02:40

    mettre, bah, au poignet gauche, alors que là,  j'avais demandé au poignet droit explicitement,   et j'avais bien précisé le tatouage sur la main  gauche pour pouvoir différencier. Un petit loupé,   rien de bien méchant.

    Tout le reste correspond  bien, j'ai la veste orange, le petit bretzel,   la mèche blanche, le casque. Un très bon début.  Mais bon, pour l'instant, ce n'est que de la  

    02:58

    génération d'image. Là, on va rentrer dans ce qui  nous intéresse vraiment : l'édition.

    Je reste donc   dans la même conversation et je lui dis simplement  : "Place-le devant des néons publicitaires d'une   rue animée de Tokyo la nuit. L'ambiance doit être  cyberpunk avec la lumière ajustée et des reflets   de lumière sur sa veste." Et c'est parti.

    Ok, bon,  facile, c'est bien lui. Tout le fond a été changé.  

    03:18

    Lui, il est intact. On peut facilement le faire  voyager sans dénaturer le personnage, c'est bien   la même personne.

    Et regardez, c'est pas juste  un copier-coller. L'IA a recalculé la physique   de la lumière pour ajouter les reflets sur la  veste comme j'ai demandé.

    Elle a compris comment   le personnage devait s'intégrer à la scène. C'est  là qu'on passe de la simple imitation à une forme  

    03:38

    d'intelligence visuelle entre guillemets.  C'est vraiment très, très propre. Allez,   on pousse le test encore plus loin dans une  ambiance radicalement différente.

    "Maintenant,   mets-le au sommet d'une montagne enneigée au  lever du soleil, l'air déterminé, avec de la buée   qui sort de la bouche." Alors, c'est OK, c'est  toujours lui. Il a même adapté légèrement son  

    03:55

    expression pour qu'elle soit plus sérieuse, plus  déterminée. La lumière dorée du soleil levant se   reflète sur le côté et dans les cheveux ici là.

    La  cohérence est maintenue à 100%. On va essayer un   dernier test, un petit peu plus subtil.

    Parce que  cette fois-ci, je fais un changement directement   sur le personnage en lui disant : "Remets-le dans  un café parisien, habillé en costard des années  

    04:13

    30" - donc on change sa tenue - "assis à une  table, l'air pensif, en train de regarder par la   fenêtre, et la photo est prise de côté." Bon, ben  ça fonctionne encore. Le personnage est le même,   on retrouve le tatouage, la montre toujours  au poignet gauche, bon.

    Et on peut remarquer   d'ailleurs que la main droite aussi est tatouée,  mais bon, ça, je l'avais pas précisé, donc ça peut  

    04:31

    être une interprétation, il y a pas de souci.  Mais franchement, la promesse est tenue, c'est   bluffant de facilité. Et l'IA parvient vraiment à  comprendre la scène dans son ensemble, parce que   je peux demander des points de vue différents  d'une même scène.

    Là, je lui ai demandé de   placer la caméra à l'extérieur. Et hop, comme ça,  directement, on le voit cette fois-ci à travers la  

    04:49

    fenêtre, comme si nous, on était à l'extérieur et  lui à l'intérieur en train de boire son café. Et   cette nouvelle IA n'est pas dispo que sur l'appli  Gemini.

    Pour le prochain défi, on va passer à mon   interface préférée qui présente quelques avantages  qui vont vous plaire : AI Studio. On bascule donc   maintenant sur Google AI Studio.

    Alors, qu'est-ce  que c'est ? C'est une autre interface, gratuite  

    05:08

    aussi, qui donne accès au même moteur Gemini, et  notamment ici le meilleur modèle Gemini 2.5 Pro,   avec bien plus de messages disponibles  gratuitement. Et c'est un petit peu comme   passer du mode automatique au mode manuel sur  un appareil photo.

    On a plus de contrôle, plus  

    05:24

    de paramètres. Mais ce qui va nous intéresser,  c'est ici à gauche, 'Generate media', et on va   cliquer sur 'Gemini native image' pour avoir le  tout dernier modèle qui vient de sortir.

    Donc là,   pour le coup, pas vraiment de paramètres précis,  on peut juste garder à l'œil le nombre de tokens,   la fenêtre contextuelle de la conversation, ça  peut être intéressant. Et notre défi numéro deux,  

    05:41

    c'est un vrai cas d'usage e-commerce. On va faire  revenir un produit.

    Si vous le reconnaissez,   dites-le en commentaire. Voilà donc une canette de  la marque Glacial.

    Elle est propre, le design est   simple, parfait pour notre test. Et je lui rajoute  le brief simple mais quand même exigeant : "Prends   cette canette, change sa couleur principale  en bleu électrique, en gardant le logo intact,  

    06:01

    mais avec une couleur adaptée pour le mettre en  valeur. Et ensuite, place-la sur un fond en marbre   blanc avec un éclairage de studio professionnel."  Et c'est parti, il y a plus qu'à envoyer.

    Ok,   c'est pas mal du tout. Le bleu est très bien  appliqué, tout en modifiant la couleur du logo   pour le faire ressortir.

    Les ombres sur le marbre,  c'est crédible. Franchement, la génération est  

    06:20

    très propre. Mais est-ce qu'il pourrait gérer un  changement de matériaux ?

    Là, c'est beaucoup plus   dur. Ok, maintenant, change le matériau de la  canette.

    Je veux qu'elle soit en verre dépoli   blanc transparent, comme si elle était givrée.  Assombris le fond pour la mettre en valeur. Et là,   c'est encore plus impressionnant.

    Il a pas  juste changé la couleur, il a changé la texture,  

    06:36

    la façon dont la lumière va interagir avec  l'objet. On sent vraiment le côté froid.

    Le fond   aussi est assombri, c'est c'est crédible, c'est  vraiment excellent. Là, pour un e-commerçant ou   un créateur qui a besoin de décliner des visuels  de produit, c'est un gain de temps absolument   colossal.

    On peut créer des dizaines de mockups  en quelques minutes. Mais le test ultime pour  

    06:55

    un matériau comme le verre, c'est la transparence.  Alors, est-ce qu'il pourrait gérer ici les reflets   de l'environnement à travers la canette ? On va  lui demander de le placer dans une forêt.

    Je lui   dis donc : "Place la canette en verre dépoli  givré dans un environnement naturel, une forêt   abondante et luxuriante." Regardez-moi ça. On  voit la lumière du soleil qui vient éclairer la  

    07:13

    canette. On n'a pas forcément de reflets verts  dessus, mais ça reste très crédible pour la   matière demandée.

    C'est vraiment impressionnant.  Et on a toujours, bien sûr, le logo qui est intact   dessus. Et toute cette interface AI Studio  a encore bien d'autres secrets.

    Et c'est ce   genre d'outils IA que je présente chaque semaine  dans ma newsletter gratuite IAka. Donc si vous  

    07:32

    voulez aller plus loin que cette vidéo, si vous  voulez recevoir des prompts prêts à l'emploi,   des astuces pour être plus productif et des  analyses d'outils, je vous attends dans ma   newsletter gratuite IAka. Chaque lundi, je vous  envoie directement dans votre boîte mail de quoi   rester à la pointe de l'IA.

    C'est du concret,  de l'actionnable. Le lien est juste en dessous  

    07:50

    dans la description ou alors avec le QR code  juste au-dessus de moi qu'il suffit de flasher.   Rejoignez dès maintenant plusieurs centaines  de professionnels qui en profitent déjà chaque   semaine. Et en plus, si vous vous inscrivez, vous  recevez le Starter Kit IAka qui vous donne une   méthode complète pour optimiser tous vos prompts.  C'est gratuit, c'est cadeau, profitez-en.

    Bon,  

    08:08

    c'est déjà excellent. On a un personnage, on a  un très beau produit.

    Mais ne partez surtout pas,   parce que c'est en essayant de les assembler que  le vrai problème se présente. Et juste après ça,   on verra sa faiblesse la plus critique, celle  qui peut ruiner n'importe quelle image.

    Vous   devez voir ça. Retour dans l'application Gemini  classique.

    Le défi va être simple en apparence,  

    08:27

    mais ça va pas être si facile. Je vais donner  trois images distinctes à Gemini.

    Premièrement,   notre personnage, Alex. Deuxièmement, notre  canette Glacial en verre dépoli.

    Et troisièmement,   cette photo d'une plage paradisiaque. Et le  prompt est direct : "Génère une photo de cet   homme parfaitement intégré sur cette plage buvant  cette canette." Voyons un petit peu ce qu'il se  

    08:46

    passe. Et voilà, c'est le drame.

    Regardez-moi  ça, c'est exactement ce que je craignais. Alex   a l'air d'avoir déjà été découpé aux ciseaux et  collé sur l'image de la plage.

    Il est collé de   manière grossière, il a l'air plat, comme comme  un autocollant. Ne parlons pas de la canette,   on dirait un montage fait sur Paint au collège,  c'est c'est affreux.

    C'est vraiment pas du tout  

    09:06

    utilisable. Là, c'est vraiment un fail.

    Mais au  moins, on a une leçon cruciale : l'application de   base Gemini, aussi bonne soit-elle pour  des modifications sur une seule image,   a atteint ici sa limite. Elle est pas faite pour  des compositions trop complexes.

    Mais attention,   ça ne veut pas dire que le moteur de l'IA est  mauvais, ça veut juste dire qu'il faut l'utiliser  

    09:24

    différemment. Et pour ça, on va utiliser un petit  hack entre guillemets, on va passer par l'API.

    Et   une API, pour faire simple, c'est comme si  on branchait un tuyau sur le cœur de l'IA,   sans passer ici par l'interface simplifiée de  Gemini qui a ses propres limites. Et pour faire   ça facilement, sans coder ou je ne sais quoi,  on va utiliser une plateforme comme Fal.ai.

    Nous  

    09:42

    voilà sur l'interface. Je vous mettrai le lien en  description directement, ne vous en faites pas,   vous avez pas besoin de chercher partout.

    Et ici,  on a accès au même moteur Gemini 2.5 Flash Image,   mais de manière beaucoup plus directe. Donc je lui  ai redonné nos trois images, j'ai remis exactement   le même prompt, et on va laisser la magie opérer  sans les filtres de l'application grand public.  

    10:00

    Et je peux même faire générer quatre images d'un  coup. Comme ça, si jamais il y a un fail comme   on a eu juste avant, bah là, j'ai quatre chances  d'avoir de meilleurs résultats.

    Et c'est parti.   Et là, c'est le jour et la nuit. Regardez la  différence.

    Bon, déjà, heureusement que j'ai fait   générer quatre images, ça permet d'éviter certains  fails. Sur ces quatre résultats, j'en ai au moins  

    10:18

    deux qui semblent être exploitables. Par exemple,  celui-ci où il a carrément changé la tenue pour   vraiment l'intégrer dans le paysage, c'est  très bien.

    Le personnage correspond toujours,   ça reste cohérent. Il est en train de boire à la  canette, on peut même voir un petit aperçu du logo   ici.

    Ça reste vraiment cohérent par rapport à tous  les éléments que je lui ai envoyés. La plage, bah  

    10:35

    c'est la même, tout simplement. On est vraiment  passé d'un collage amateur à une image crédible   qui a réussi à assembler mes trois images que  j'ai envoyées.

    C'est ça la vraie puissance de ce   modèle. Il faut parfois savoir sortir des sentiers  battus pour en tirer le meilleur.

    Et maintenant,   le test final, sa faiblesse la plus critique, le  point faible ultime de 99% des IA d'image : le  

    10:56

    texte. Ça, c'est le test qui risque de faire  mal.

    On retourne ici dans l'application Gemini,   on reprend notre image d'Alex et on va lui  demander une chose plutôt simple : "Fais-le tenir   une pancarte avec écrit : J'espère que cette vidéo  vous plaît, si c'est le cas, laissez un like et un   commentaire et abonnez-vous à la chaîne Le Bretzel  en activant la cloche de notification." Un message  

    11:15

    tout à fait innocent. Mais attention, pour que le  test soit juste, on va demander exactement la même   chose à son grand rival, ChatGPT, qui est connu  pour être parmi les meilleurs dans ce domaine.

    Et   c'est parti, je lance sur les deux. Bon, je crois  que les résultats parlent d'eux-mêmes.

    À gauche,  

    11:31

    Gemini. C'est correct, mais les lettres sont  déformées, il y a des mots qui sont mal écrits,   il y en a certains qui sont en double.

    Mais  au moins, on a bien notre personnage avec sa   mèche blanche, par exemple. Ça, au niveau de la  cohérence, c'est toujours très bien.

    Et à droite,   ChatGPT. Le texte est propre, même s'il s'est  pas trop embêté à faire un carton, c'est juste  

    11:49

    un simple carré blanc avec du texte noir. Mais  au moins, le texte, lui, est correct et lisible.   Par contre, notre personnage a déjà commencé à  changer de tête, il a déjà perdu sa mèche blanche,   par exemple.

    Donc pour la génération de texte  dans une image, il y a pas de débat, Gemini est  

    12:04

    encore un petit peu à la ramasse, ChatGPT reste  meilleur. Mais attention, ça ne veut pas dire   qu'on est vraiment bloqué avec Gemini pour autant.  Regardez un petit peu.

    Je retourne sur Gemini, je   crée une nouvelle conversation, je renvoie encore  une fois notre personnage et cette fois-ci, je lui   dis : "Fais-le tenir une grande pancarte en carton  vide." Et c'est parti. Et voilà, c'est parfait, il  

    12:22

    a fait ça très bien. Maintenant, je n'ai plus qu'à  prendre cette image avec mon personnage cohérent,   c'est bien lui, on le retrouve, il ressemble  exactement à la première photo, et il me reste   plus qu'à ajouter du texte ici, soit sur Photoshop  ou soit en le renvoyant sur ChatGPT, mais bon,   ça risque de modifier un petit peu la tête.

    En  tout cas, j'ai tout cet espace de disponible pour  

    12:40

    venir compléter moi-même. Et c'est ça la leçon la  plus importante aujourd'hui : le futur, c'est pas   de trouver l'outil magique qui fait tout, c'est de  devenir le chef d'orchestre de ces outils IA qui   sait exactement quel instrument utiliser et à quel  moment.

    Donc au final, Gemini 2.5 Flash Image,  

    12:56

    c'est pas un remplaçant de Photoshop, c'est un  nouveau type de partenaire créatif, un assistant   ultra-rapide qui excelle dans certains  domaines et qui a besoin d'être guidé,   voire aidé par ses concurrents dans d'autres.  J'espère que ce test complet vous a éclairé sur   le potentiel et les limites de cette nouvelle  IA. Dites-moi en commentaire quel test vous  

    13:15

    a le plus bluffé ou le plus déçu. Si la vidéo  vous a plu, le meilleur moyen de me soutenir,   c'est de laisser un gros pouce bleu, ça aide  énormément la chaîne.

    Abonnez-vous et surtout,   activez cette fameuse cloche de notification  pour ne pas rater toutes les prochaines vidéos.   Je vous souhaite à tous une excellente  journée, c'était Le Bretzel, à très vite.