L’intelligence artificielle atteint une nouvelle étape avec l’imminente introduction du mode Live Camera de ChatGPT. OpenAI prépare discrètement le lancement d’une fonctionnalité qui s’inscrit dans une stratégie plus large visant à développer des agents d’IA autonomes.
Depuis la présentation de GPT-4o en mai 2024, les utilisateurs attendent cette nouvelle capacité visuelle. Cet assistant multimodal sera désormais en mesure d’analyser en temps réel ce qui se trouve devant sa caméra, dans un contexte de concurrence intense avec d’autres entreprises du secteur, telles qu’Anthropic.
La vision en temps réel, une nouvelle frontière pour l’IA
Les premières versions alpha ont déjà suscité l’enthousiasme des testeurs.
Un utilisateur, Manuel Sainsily, a même décrit l’expérience comme « un FaceTime avec un ami très intelligent », capable d’analyser en temps réel son nouveau compagnon à quatre pattes. Les éléments découverts dans la version bêta de l’application laissent penser que cette fonctionnalité sera appelée Live Camera.
Un avertissement important informe déjà les utilisateurs : il est déconseillé d’utiliser cette IA pour des décisions critiques liées à la santé ou à la navigation.
Live Camera sera initialement accessible aux abonnés de ChatGPT Plus et Enterprise, avec un déploiement prévu dans les semaines à venir sur iOS et Android.
Cette approche prudente permettra de tester et d’optimiser la technologie avant un déploiement plus étendu. La fonctionnalité devrait également être intégrée aux versions Windows et macOS dans un avenir proche. Une démonstration de cette version pour Mac avait d’ailleurs été présentée au printemps dernier.
La guerre des agents intelligents
Cette nouveauté s’inscrit dans une vision plus large de développement d’agents d’IA capables d’interagir avec leur environnement. OpenAI n’est pas le seul à s’engager dans cette voie : Anthropic a déjà dévoilé des fonctionnalités similaires pour l’automatisation des tâches informatiques.
Sam Altman, le PDG d’OpenAI, a récemment affirmé que « les agents représenteront la prochaine grande avancée ». L’entreprise travaille sur un projet interne nommé Operator, qui est conçu pour réaliser des tâches autonomes dans un navigateur web, en concurrence directe avec les solutions d’Anthropic.
Google n’est pas en reste avec Gemini, qui prépare sa propre version 2.0 pour décembre 2024, tout en développant des capacités de vision en temps réel avec son initiative Astra.









