Gemini 2.5 Computer Use de Google : une IA autonome pour naviguer sur le Web

Un jour après l’événement DevDay organisé par OpenAI, Google a dévoilé Gemini 2.5 Computer Use, un nouveau modèle d’intelligence artificielle.
Contexte et annonce
Cette présentation s’inscrit dans un contexte de concurrence entre acteurs du secteur et suit l’événement consacré par OpenAI quelques heures plus tôt.
Capacités et mode de fonctionnement
Gemini 2.5 Computer Use permet à des agents d’IA d’explorer et d’interagir de façon autonome avec les interfaces des pages web, comme le ferait un utilisateur humain. Ils peuvent cliquer sur des éléments, saisir du texte dans des formulaires et faire défiler les pages.
Le système s’appuie sur les capacités de compréhension et de raisonnement visuel associées au modèle Gemini 2.5 Pro. Son fonctionnement repose sur une boucle d’actions : lorsqu’une instruction est reçue, l’agent analyse à chaque étape une capture d’écran de l’interface, le contexte de navigation et l’historique des actions pour déterminer la prochaine étape jusqu’à l’accomplissement de la tâche.
Interaction en cas de requêtes sensibles
Pour les requêtes jugées sensibles comme un achat en ligne, le système demande une confirmation explicite à l’utilisateur avant de poursuivre.
Disponibilité
Pour le moment, Gemini 2.5 Computer Use est proposé en préversion et réservé aux développeurs, avec un accès limité au navigateur web.