24 heures après l’annonce du modèle multimodal Gemini, les secrets de la vidéo démo de Google sont révélés. Google a posé des questions préfabriquées, simulant la déduction contextuelle par Gemini. En réalité, les interrogations de Google guidaient l’IA vers des réponses précises.
Google aurait-il exagéré l’intelligence de Gemini, son modèle de langage récent, prétendu supérieur à GPT-4 d’OpenAI ? Aucune preuve actuelle ne conteste les dires du géant du web, mais une faute semble commise dans leur présentation.
Une vidéo de 6 minutes et 23 secondes, partagée le 6 décembre 2023, montrait Gemini comme une IA avancée, semblable à Jarvis (dans le film Iron Man), avec des capacités de compréhension remarquables. Gemini paraissait analyser le monde en temps réel et réagir logiquement. Pourtant, Gemini ne fonctionnera sûrement jamais ainsi.
Non, Gemini ne peut pas commenter en temps réel
Des internautes ont noté que la vidéo de Google modifiait plusieurs aspects, donnant une fausse image de Gemini. Bien que Gemini réponde réellement comme dans la vidéo, la manipulation de cette démo pourrait nuire à Google.
Gemini ne peut pas analyser le monde en direct. La vidéo montre Gemini Ultra, bientôt lancé en 2024, sous forme multimodale, apparemment apte à écouter, voir en temps réel et répondre vocalement. Mais cette IA cinématographique n’est pas encore réalité.
En fait, Gemini Ultra ressemble plus à Google Bard, acceptant des requêtes textuelles et photographiques. Google ne lui a jamais parlé, mais écrit. Pour le contenu analysé, Gemini ne le voyait pas en direct mais se basait sur des photos, des tâches que ChatGPT peut également accomplir. Google a aussi fluidifié le montage en accélérant les réponses. Gemini prend du temps pour formuler des textes, et la voix synthétique a été ajoutée après coup.
Dans la description YouTube, Google précise : « Pour cette démo, le délai a été réduit et les réponses de Gemini abrégées pour brièveté ».
Dans un exemple, Gemini commentait un dessin en temps réel, faisait des blagues et déduisait la suite. Mais en réalité, à chaque changement, Google lui envoyait une photo. Les prompts étaient manipulés. Par exemple, au lieu de demander « quelle voiture est la plus rapide ? », Google précisait : « basé sur l’aérodynamisme de ces voitures, laquelle est la plus rapide entre la gauche et la droite ? Explique pourquoi et détaille ». Ainsi, Gemini pouvait répondre complètement, incluant l’aérodynamisme, mais sans spontanéité.
Autre exemple, dans le jeu des gobelets, Gemini ne voyait pas les mouvements. Il lui était expliqué par texte que « le gobelet 1 a remplacé le gobelet 2 ». L’ordre des planètes était aussi truqué, Google demandant non seulement « est-ce le bon ordre » mais « est-ce le bon ordre considérant la distance avec le Soleil. Explique ton raisonnement ». La démo différait donc grandement.
Les réponses de Gemini sont authentiques, mais les questions modifiées. Google a assisté son IA pour paraître plus intelligente.
Dans un article de blog pour développeurs, Google détaille certains prompts pour Gemini, confirmant que la démo consistait en une discussion textuelle avec images. Les requêtes étaient plus longues que celles de la vidéo, aidant Gemini à sembler très intelligent. Le but semblait surpasser ChatGPT, risquant de présenter une réalité inexistante.
Gemini Ultra n’est donc pas Jarvis, mais une version évoluée de Google Bard, avec une excellente compréhension des images.
Google envoie un mauvais signal
La communication de Google envoie un message erroné. Faut-il conclure que Gemini n’est pas aussi intelligent qu’annoncé ? Non. Les réponses du modèle de langage sont impressionnantes et montrent que Google a rattrapé OpenAI, après une année difficile où Google semblait dépassé par le créateur de ChatGPT. Gemini représente un progrès vers le futur, en ajoutant une compréhension contextuelle aux services de Google.
Néanmoins, il est impossible d’ignorer une erreur majeure dans la communication de Google. Après avoir ébloui le monde,