Depuis l’émergence de ChatGPT, les entreprises leaders dans le domaine de l’IA générative se sont lancées dans une compétition pour développer des modèles de plus en plus volumineux.
Cependant, OpenAI et ses rivaux rencontrent des difficultés croissantes à créer des modèles qui surpassent réellement les performances de leurs prédécesseurs. La simple augmentation de la taille des modèles ne semble plus être une solution suffisante.
Les sociétés d’IA générative qui ont misé sur la création de modèles de plus en plus grands pour accroître leurs capacités commencent à constater les limites de cette approche.
Selon le média américain The Information, le nouveau modèle d’OpenAI, Orion, dont le lancement a été annoncé pour le mois de décembre prochain par The Verge avant d’être rapidement démenti par Sam Altman, devrait offrir une amélioration des performances bien moins significative que celle observée entre GPT-3 et GPT-4. Contrairement à GPT-4o, Orion n’est pas simplement une version mise à jour de GPT-4, mais un véritable nouveau modèle, ce qui pourrait éventuellement le qualifier de GPT-5 (bien qu’OpenAI ne choisisse peut-être pas de le nommer ainsi).
Un Orion moins impressionnant que prévu
Il est désormais évident que les benchmarks des modèles de langage peuvent induire en erreur, créant l’illusion d’une évolution difficile à quantifier.
Toutefois, certains chercheurs d’OpenAI, d’après The Information, estiment que les performances d’Orion ne seront pas supérieures dans certaines tâches, comme la génération de code, par rapport à d’autres modèles.
Cela remet en question l’application des « lois d’échelle » aux modèles de langage. Ces lois suggèrent qu’en entraînant des modèles avec des ensembles de données de plus en plus vastes sur des machines de plus en plus puissantes, on obtiendrait nécessairement des modèles plus performants.
Tadao Nagasaki, responsable d’OpenAI au Japon, avait pourtant récemment utilisé ces lois pour vanter les avancées continues des modèles de son entreprise.
Des ressources presque épuisées ?
Une hypothèse avancée pour expliquer ce ralentissement est que les entreprises d’IA générative ont déjà exploité les principales sources de textes de qualité, épuisant ainsi les ressources nécessaires pour continuer à améliorer leurs modèles de manière indéfinie.
Pour OpenAI, cette situation pose un problème, car l’utilisation de modèles plus volumineux nécessite davantage d’énergie et entraîne des coûts plus élevés.
L’idée que « plus c’est gros, mieux c’est » perd du terrain, et le développement d’Orion chez OpenAI semble en être une confirmation.
Ilya Sutskever, co-fondateur d’OpenAI, qui a ensuite fondé Safe Superintelligence, a déclaré à Reuters que, selon lui, l’intensification du pré-entraînement a atteint un plateau. Pourtant, il a longtemps plaidé pour l’utilisation de volumes de données et de puissance de calcul toujours plus importants pour faire progresser les IA génératives.
Nous avons également examiné l’importance des données d’entraînement pour les IA, ainsi que les risques de surapprentissage. En effet, produire toujours plus ne garantit pas nécessairement de meilleurs résultats.
Des besoins d’optimisation
Les entreprises commencent à explorer d’autres méthodes pour améliorer les performances de leurs IA.
Des chercheurs de Google et de l’université de Berkeley ont étudié cet été des moyens d’optimiser les performances des modèles durant la phase d’inférence, qui intervient après l’entraînement, lorsque le modèle doit répondre aux questions des utilisateurs.
Selon Reuters, cette technique aurait été appliquée par OpenAI pour GPT-4o.
Ces entreprises avaient déjà initié des optimisations. Par exemple, OpenAI a utilisé des sparse autoencoders, une méthode permettant d’identifier certaines « caractéristiques » dans le réseau neuronal essentielles pour obtenir un résultat donné, afin d’optimiser les performances de GPT-4.
Il semble cependant que ces entreprises devront intensifier leurs efforts et s’appuyer encore davantage sur la recherche pour améliorer l’efficacité de leurs modèles.
Ce plafond dans la course aux modèles de plus en plus grands soulève également des questions sur le rôle de NVIDIA dans cette industrie. Cette quête du « toujours plus » plaçait le fabricant de GPU dans une position privilégiée pour fournir la puissance nécessaire à la création de modèles toujours plus performants.
Cependant, il est possible que les besoins en calcul ne suivent pas l’évolution anticipée, ce qui pourrait décevoir certains investisseurs.









