La Nouvelle IA GRATUITE de Google va-t-elle VRAIMENT tuer Photoshop ? | YouTube Summarizer

Category: AI Technology

Tags: AI Editing Gemini Google Image

Entities: AI Studio ChatGPT Gemini 2.5 Flash Image Google Le Bretzel

Summary

Introduction to Gemini 2.5 Flash Image

The video introduces Gemini 2.5 Flash Image, a new AI by Google.
The AI allows for interactive image generation and modification through conversation.
The focus is on dialogue with the AI rather than issuing commands.

Features and Capabilities

Gemini 2.5 can maintain character consistency across different environments.
The AI excels in modifying images with precise details as per user input.
It supports conversational editing, allowing real-time adjustments.

Practical Applications

Gemini 2.5 is useful for e-commerce by creating product mockups quickly.
The AI can change product colors and materials while maintaining design integrity.

Limitations and Challenges

The AI struggles with complex compositions involving multiple images.
Text generation within images is currently a weak point for Gemini 2.5.

Conclusion and Future Outlook

Gemini 2.5 is not a Photoshop replacement but a creative partner.
The future lies in orchestrating multiple AI tools for optimal results.

Transcript

00:00

Regardez bien ça. Un seul personnage, des situations différentes, une cohérence parfaite. C'est la promesse folle de la nouvelle IA de Google.

Mais est-ce que c'est juste un coup de chance ? Pour arriver à ça, c'est facile.

Mais pour éviter ça, il y a des pièges critiques à

00:15

connaître. Dans cette vidéo, on fait le crash test complet de Gemini 2.5 Flash Image.

On va voir ce qu'il a vraiment dans le ventre et je vous montre les astuces pour débloquer sa vraie puissance quand il échoue. Oubliez tout ce que vous savez.

Le vrai changement, ce n'est pas la puissance, c'est le dialogue. On arrête de lui crier des ordres en espérant qu'il

00:32

comprenne pour plutôt commencer à sculpter nos images en discutant avec lui. Et ça, ça change tout.

Allez, accrochez-vous, c'est parti ! Ok, nous voilà sur l'interface Gemini et pendant que je prépare notre toute première génération, laissez-moi vous raconter rapidement la petite

00:52

histoire. Pendant des semaines, une IA mystérieuse tournait sur le web, surnommée Nano-banana.

Les résultats étaient tellement bluffants que tout le monde se demandait qui était derrière. Et bien, le secret est levé : c'était bien Google, avec leur tout nouveau modèle Gemini 2.5 Flash

01:09

Image. Le concept est simple et vraiment dans la lignée de ce qui se fait désormais avec ChatGPT, Flux Kontext ou plus récemment Qwen.

On génère une image et ensuite, on discute avec l'IA pour la transformer, la modifier, l'améliorer, comme si on briefait un graphiste en temps réel. Plus besoin

01:25

de relancer 30 fois des prompts en espérant que les résultats soient enfin bons. Ici, on dialogue. Et c'est ça, l'édition conversationnelle.

Et on va voir tout de suite ensemble si ça tient vraiment la route. Et donc premier défi, c'est le test de base, celui qui fait le buzz : la cohérence.

01:41

Est-ce qu'il va vraiment garder le même personnage si je commence à changer complètement son environnement, certains détails ? Et pour ça, on va créer notre mascotte du jour.

On va l'appeler, disons, Alex. Et ici, ça va être un double défi parce que je vais lui demander pas mal de détails précis pour voir s'il les respecte correctement ma demande.

Je lui demande : "Crée

02:00

une photo d'un jeune homme avec une veste en toile orange vif avec un petit logo bretzel noir, des cheveux bruns avec une mèche blanche, des yeux verts, un tatouage sur la main gauche, et une montre sur son autre poignet, le poignet droit. Il porte un casque sans fil sur les oreilles, la scène se passe en centre-ville." Et c'est parti. Et déjà, remarquez comme la génération

02:20

est rapide. En seulement quelques secondes, on va avoir notre image qui est générée.

Et ça déjà, c'est très agréable. Ok, ça respecte plutôt bien. La qualité de la peau, c'est pas ce qui se fait de mieux, mais bon, c'est pas le plus important ici. Et surtout, comme je m'y attendais, la montre.

Vu que la majorité des gens portent leur montre au poignet gauche, les IA sont entraînées pour les

02:40

mettre, bah, au poignet gauche, alors que là, j'avais demandé au poignet droit explicitement, et j'avais bien précisé le tatouage sur la main gauche pour pouvoir différencier. Un petit loupé, rien de bien méchant.

Tout le reste correspond bien, j'ai la veste orange, le petit bretzel, la mèche blanche, le casque. Un très bon début. Mais bon, pour l'instant, ce n'est que de la

02:58

génération d'image. Là, on va rentrer dans ce qui nous intéresse vraiment : l'édition.

Je reste donc dans la même conversation et je lui dis simplement : "Place-le devant des néons publicitaires d'une rue animée de Tokyo la nuit. L'ambiance doit être cyberpunk avec la lumière ajustée et des reflets de lumière sur sa veste." Et c'est parti.

Ok, bon, facile, c'est bien lui. Tout le fond a été changé.

03:18

Lui, il est intact. On peut facilement le faire voyager sans dénaturer le personnage, c'est bien la même personne.

Et regardez, c'est pas juste un copier-coller. L'IA a recalculé la physique de la lumière pour ajouter les reflets sur la veste comme j'ai demandé.

Elle a compris comment le personnage devait s'intégrer à la scène. C'est là qu'on passe de la simple imitation à une forme

03:38

d'intelligence visuelle entre guillemets. C'est vraiment très, très propre. Allez, on pousse le test encore plus loin dans une ambiance radicalement différente.

"Maintenant, mets-le au sommet d'une montagne enneigée au lever du soleil, l'air déterminé, avec de la buée qui sort de la bouche." Alors, c'est OK, c'est toujours lui. Il a même adapté légèrement son

03:55

expression pour qu'elle soit plus sérieuse, plus déterminée. La lumière dorée du soleil levant se reflète sur le côté et dans les cheveux ici là.

La cohérence est maintenue à 100%. On va essayer un dernier test, un petit peu plus subtil.

Parce que cette fois-ci, je fais un changement directement sur le personnage en lui disant : "Remets-le dans un café parisien, habillé en costard des années

04:13

30" - donc on change sa tenue - "assis à une table, l'air pensif, en train de regarder par la fenêtre, et la photo est prise de côté." Bon, ben ça fonctionne encore. Le personnage est le même, on retrouve le tatouage, la montre toujours au poignet gauche, bon.

Et on peut remarquer d'ailleurs que la main droite aussi est tatouée, mais bon, ça, je l'avais pas précisé, donc ça peut

04:31

être une interprétation, il y a pas de souci. Mais franchement, la promesse est tenue, c'est bluffant de facilité. Et l'IA parvient vraiment à comprendre la scène dans son ensemble, parce que je peux demander des points de vue différents d'une même scène.

Là, je lui ai demandé de placer la caméra à l'extérieur. Et hop, comme ça, directement, on le voit cette fois-ci à travers la

04:49

fenêtre, comme si nous, on était à l'extérieur et lui à l'intérieur en train de boire son café. Et cette nouvelle IA n'est pas dispo que sur l'appli Gemini.

Pour le prochain défi, on va passer à mon interface préférée qui présente quelques avantages qui vont vous plaire : AI Studio. On bascule donc maintenant sur Google AI Studio.

Alors, qu'est-ce que c'est ? C'est une autre interface, gratuite

05:08

aussi, qui donne accès au même moteur Gemini, et notamment ici le meilleur modèle Gemini 2.5 Pro, avec bien plus de messages disponibles gratuitement. Et c'est un petit peu comme passer du mode automatique au mode manuel sur un appareil photo.

On a plus de contrôle, plus

05:24

de paramètres. Mais ce qui va nous intéresser, c'est ici à gauche, 'Generate media', et on va cliquer sur 'Gemini native image' pour avoir le tout dernier modèle qui vient de sortir.

Donc là, pour le coup, pas vraiment de paramètres précis, on peut juste garder à l'œil le nombre de tokens, la fenêtre contextuelle de la conversation, ça peut être intéressant. Et notre défi numéro deux,

05:41

c'est un vrai cas d'usage e-commerce. On va faire revenir un produit.

Si vous le reconnaissez, dites-le en commentaire. Voilà donc une canette de la marque Glacial.

Elle est propre, le design est simple, parfait pour notre test. Et je lui rajoute le brief simple mais quand même exigeant : "Prends cette canette, change sa couleur principale en bleu électrique, en gardant le logo intact,

06:01

mais avec une couleur adaptée pour le mettre en valeur. Et ensuite, place-la sur un fond en marbre blanc avec un éclairage de studio professionnel." Et c'est parti, il y a plus qu'à envoyer.

Ok, c'est pas mal du tout. Le bleu est très bien appliqué, tout en modifiant la couleur du logo pour le faire ressortir.

Les ombres sur le marbre, c'est crédible. Franchement, la génération est

06:20

très propre. Mais est-ce qu'il pourrait gérer un changement de matériaux ?

Là, c'est beaucoup plus dur. Ok, maintenant, change le matériau de la canette.

Je veux qu'elle soit en verre dépoli blanc transparent, comme si elle était givrée. Assombris le fond pour la mettre en valeur. Et là, c'est encore plus impressionnant.

Il a pas juste changé la couleur, il a changé la texture,

06:36

la façon dont la lumière va interagir avec l'objet. On sent vraiment le côté froid.

Le fond aussi est assombri, c'est c'est crédible, c'est vraiment excellent. Là, pour un e-commerçant ou un créateur qui a besoin de décliner des visuels de produit, c'est un gain de temps absolument colossal.

On peut créer des dizaines de mockups en quelques minutes. Mais le test ultime pour

06:55

un matériau comme le verre, c'est la transparence. Alors, est-ce qu'il pourrait gérer ici les reflets de l'environnement à travers la canette ? On va lui demander de le placer dans une forêt.

Je lui dis donc : "Place la canette en verre dépoli givré dans un environnement naturel, une forêt abondante et luxuriante." Regardez-moi ça. On voit la lumière du soleil qui vient éclairer la

07:13

canette. On n'a pas forcément de reflets verts dessus, mais ça reste très crédible pour la matière demandée.

C'est vraiment impressionnant. Et on a toujours, bien sûr, le logo qui est intact dessus. Et toute cette interface AI Studio a encore bien d'autres secrets.

Et c'est ce genre d'outils IA que je présente chaque semaine dans ma newsletter gratuite IAka. Donc si vous

07:32

voulez aller plus loin que cette vidéo, si vous voulez recevoir des prompts prêts à l'emploi, des astuces pour être plus productif et des analyses d'outils, je vous attends dans ma newsletter gratuite IAka. Chaque lundi, je vous envoie directement dans votre boîte mail de quoi rester à la pointe de l'IA.

C'est du concret, de l'actionnable. Le lien est juste en dessous

07:50

dans la description ou alors avec le QR code juste au-dessus de moi qu'il suffit de flasher. Rejoignez dès maintenant plusieurs centaines de professionnels qui en profitent déjà chaque semaine. Et en plus, si vous vous inscrivez, vous recevez le Starter Kit IAka qui vous donne une méthode complète pour optimiser tous vos prompts. C'est gratuit, c'est cadeau, profitez-en.

Bon,

08:08

c'est déjà excellent. On a un personnage, on a un très beau produit.

Mais ne partez surtout pas, parce que c'est en essayant de les assembler que le vrai problème se présente. Et juste après ça, on verra sa faiblesse la plus critique, celle qui peut ruiner n'importe quelle image.

Vous devez voir ça. Retour dans l'application Gemini classique.

Le défi va être simple en apparence,

08:27

mais ça va pas être si facile. Je vais donner trois images distinctes à Gemini.

Premièrement, notre personnage, Alex. Deuxièmement, notre canette Glacial en verre dépoli.

Et troisièmement, cette photo d'une plage paradisiaque. Et le prompt est direct : "Génère une photo de cet homme parfaitement intégré sur cette plage buvant cette canette." Voyons un petit peu ce qu'il se

08:46

passe. Et voilà, c'est le drame.

Regardez-moi ça, c'est exactement ce que je craignais. Alex a l'air d'avoir déjà été découpé aux ciseaux et collé sur l'image de la plage.

Il est collé de manière grossière, il a l'air plat, comme comme un autocollant. Ne parlons pas de la canette, on dirait un montage fait sur Paint au collège, c'est c'est affreux.

C'est vraiment pas du tout

09:06

utilisable. Là, c'est vraiment un fail.

Mais au moins, on a une leçon cruciale : l'application de base Gemini, aussi bonne soit-elle pour des modifications sur une seule image, a atteint ici sa limite. Elle est pas faite pour des compositions trop complexes.

Mais attention, ça ne veut pas dire que le moteur de l'IA est mauvais, ça veut juste dire qu'il faut l'utiliser

09:24

différemment. Et pour ça, on va utiliser un petit hack entre guillemets, on va passer par l'API.

Et une API, pour faire simple, c'est comme si on branchait un tuyau sur le cœur de l'IA, sans passer ici par l'interface simplifiée de Gemini qui a ses propres limites. Et pour faire ça facilement, sans coder ou je ne sais quoi, on va utiliser une plateforme comme Fal.ai.

Nous

09:42

voilà sur l'interface. Je vous mettrai le lien en description directement, ne vous en faites pas, vous avez pas besoin de chercher partout.

Et ici, on a accès au même moteur Gemini 2.5 Flash Image, mais de manière beaucoup plus directe. Donc je lui ai redonné nos trois images, j'ai remis exactement le même prompt, et on va laisser la magie opérer sans les filtres de l'application grand public.

10:00

Et je peux même faire générer quatre images d'un coup. Comme ça, si jamais il y a un fail comme on a eu juste avant, bah là, j'ai quatre chances d'avoir de meilleurs résultats.

Et c'est parti. Et là, c'est le jour et la nuit. Regardez la différence.

Bon, déjà, heureusement que j'ai fait générer quatre images, ça permet d'éviter certains fails. Sur ces quatre résultats, j'en ai au moins

10:18

deux qui semblent être exploitables. Par exemple, celui-ci où il a carrément changé la tenue pour vraiment l'intégrer dans le paysage, c'est très bien.

Le personnage correspond toujours, ça reste cohérent. Il est en train de boire à la canette, on peut même voir un petit aperçu du logo ici.

Ça reste vraiment cohérent par rapport à tous les éléments que je lui ai envoyés. La plage, bah

10:35

c'est la même, tout simplement. On est vraiment passé d'un collage amateur à une image crédible qui a réussi à assembler mes trois images que j'ai envoyées.

C'est ça la vraie puissance de ce modèle. Il faut parfois savoir sortir des sentiers battus pour en tirer le meilleur.

Et maintenant, le test final, sa faiblesse la plus critique, le point faible ultime de 99% des IA d'image : le

10:56

texte. Ça, c'est le test qui risque de faire mal.

On retourne ici dans l'application Gemini, on reprend notre image d'Alex et on va lui demander une chose plutôt simple : "Fais-le tenir une pancarte avec écrit : J'espère que cette vidéo vous plaît, si c'est le cas, laissez un like et un commentaire et abonnez-vous à la chaîne Le Bretzel en activant la cloche de notification." Un message

11:15

tout à fait innocent. Mais attention, pour que le test soit juste, on va demander exactement la même chose à son grand rival, ChatGPT, qui est connu pour être parmi les meilleurs dans ce domaine.

Et c'est parti, je lance sur les deux. Bon, je crois que les résultats parlent d'eux-mêmes.

À gauche,

11:31

Gemini. C'est correct, mais les lettres sont déformées, il y a des mots qui sont mal écrits, il y en a certains qui sont en double.

Mais au moins, on a bien notre personnage avec sa mèche blanche, par exemple. Ça, au niveau de la cohérence, c'est toujours très bien.

Et à droite, ChatGPT. Le texte est propre, même s'il s'est pas trop embêté à faire un carton, c'est juste

11:49

un simple carré blanc avec du texte noir. Mais au moins, le texte, lui, est correct et lisible. Par contre, notre personnage a déjà commencé à changer de tête, il a déjà perdu sa mèche blanche, par exemple.

Donc pour la génération de texte dans une image, il y a pas de débat, Gemini est

12:04

encore un petit peu à la ramasse, ChatGPT reste meilleur. Mais attention, ça ne veut pas dire qu'on est vraiment bloqué avec Gemini pour autant. Regardez un petit peu.

Je retourne sur Gemini, je crée une nouvelle conversation, je renvoie encore une fois notre personnage et cette fois-ci, je lui dis : "Fais-le tenir une grande pancarte en carton vide." Et c'est parti. Et voilà, c'est parfait, il

12:22

a fait ça très bien. Maintenant, je n'ai plus qu'à prendre cette image avec mon personnage cohérent, c'est bien lui, on le retrouve, il ressemble exactement à la première photo, et il me reste plus qu'à ajouter du texte ici, soit sur Photoshop ou soit en le renvoyant sur ChatGPT, mais bon, ça risque de modifier un petit peu la tête.

En tout cas, j'ai tout cet espace de disponible pour

12:40

venir compléter moi-même. Et c'est ça la leçon la plus importante aujourd'hui : le futur, c'est pas de trouver l'outil magique qui fait tout, c'est de devenir le chef d'orchestre de ces outils IA qui sait exactement quel instrument utiliser et à quel moment.

Donc au final, Gemini 2.5 Flash Image,

12:56

c'est pas un remplaçant de Photoshop, c'est un nouveau type de partenaire créatif, un assistant ultra-rapide qui excelle dans certains domaines et qui a besoin d'être guidé, voire aidé par ses concurrents dans d'autres. J'espère que ce test complet vous a éclairé sur le potentiel et les limites de cette nouvelle IA. Dites-moi en commentaire quel test vous

13:15

a le plus bluffé ou le plus déçu. Si la vidéo vous a plu, le meilleur moyen de me soutenir, c'est de laisser un gros pouce bleu, ça aide énormément la chaîne.

Abonnez-vous et surtout, activez cette fameuse cloche de notification pour ne pas rater toutes les prochaines vidéos. Je vous souhaite à tous une excellente journée, c'était Le Bretzel, à très vite.