News Tech et Culture Numérique

La nouvelle ruée vers l'or de la tech – Les environnements qui forgent l'IA de demain

Depuis des années, les PDG des géants de la tech nous promettent une révolution grâce à des agents d'intelligence artificielle capables d'utiliser des logiciels de manière autonome pour accomplir nos tâches quotidiennes. Pourtant, quiconque a déjà testé ces nouveaux outils grand public, comme ceux de ChatGPT d'OpenAI ou de Perplexity, s'est vite rendu compte de leurs limites. Pour que ces assistants virtuels deviennent véritablement robustes et fiables, l'industrie explore de nouvelles frontières techniques, et l'une d'entre elles est en train de provoquer un véritable séisme dans la Silicon Valley.

Cette technique consiste à simuler méticuleusement des espaces de travail numériques où les agents peuvent être entraînés sur des tâches complexes en plusieurs étapes. On les appelle des environnements d'apprentissage par renforcement (ou RL, pour Reinforcement Learning). De la même manière que les ensembles de données étiquetées ont alimenté la vague précédente de l'IA, ces derniers apparaissent aujourd'hui comme l'élément indispensable pour le développement des futurs agents intelligents. Chercheurs, fondateurs de startups et investisseurs s'accordent à le dire, les grands laboratoires d'IA se les arrachent et une myriade de jeunes entreprises espèrent répondre à cette demande explosive. La création de ces simulations est très complexe, donc ils se tournent également vers des fournisseurs tiers capables de créer des environnements et des évaluations de haute qualité. Tout le monde regarde cet espace de très près.

Cette effervescence a déjà donné naissance, outre-Atlantique, à une nouvelle classe de startups très bien financées, telles que Mechanize Work et Prime Intellect, qui aspirent à dominer ce marché naissant. Parallèlement, les géants de l'étiquetage de données comme Mercor et Surge investissent massivement pour passer des jeux de données statiques aux simulations interactives. Les grands laboratoires eux-mêmes envisagent des dépenses colossales. Selon le site The Information, les dirigeants d'Anthropic auraient discuté d'un investissement de plus d'un milliard de dollars dans les environnements RL pour l'année à venir. L'espoir commun des investisseurs et des fondateurs est de voir émerger le prochain « Scale AI des environnements », en référence au titan de l'étiquetage de données qui a été indispensable à l'ère des chatbots.

Mais en quoi consistent-ils exactement ? Au fond, il s'agit de terrains d'entraînement qui simulent ce qu'un agent IA ferait dans une application logicielle réelle. Un fondateur décrivait récemment leur conception comme « la création d'un jeu vidéo très ennuyeux ». Un environnement pourrait par exemple simuler un navigateur Chrome et donner pour mission à un agent d'acheter un produit quelconque sur Amazon. L'agent est alors évalué sur sa performance et reçoit un signal de récompense s'il réussit.

Reinforcement Learning: Bringing Use Cases to Life | Datatonic

Bien que la tâche semble simple, les pièges sont nombreux. L'agent pourrait se perdre dans les menus déroulants ou acheter trop de quantité d’un même produit. Parce que les développeurs ne peuvent pas anticiper toutes les erreurs possibles, l'environnement lui-même doit être suffisamment robuste pour gérer des comportements inattendus tout en fournissant un retour constructif. Cela rend leur construction bien plus complexe que la simple compilation de données statiques.

Si l'apprentissage par renforcement est aujourd'hui au cœur de toutes les attentions, la technique n'est pas nouvelle. L'un des premiers projets d'OpenAI en 2016 était la construction de « RL Gyms », des salles de sport virtuelles très similaires aux environnements actuels. La même année, DeepMind (Google) entraînait AlphaGo, l'IA qui a battu le champion du monde du jeu de Go, en utilisant des techniques de RL dans un environnement simulé. La nouveauté, c'est que les chercheurs tentent aujourd'hui d'appliquer ces méthodes à de grands modèles de type Transformer pour créer des agents polyvalents capables d'utiliser un ordinateur et non plus des systèmes spécialisés dans un univers clos comme un jeu de société. Le point de départ est plus solide, mais l'objectif est infiniment plus complexe.

Face à cette opportunité, le champ de bataille se remplit rapidement. Les entreprises établies comme Surge et Mercor, qui ont bâti leur succès sur l'étiquetage de données pour OpenAI, Google, Anthropic et Meta, se positionnent de manière agressive. On a récemment constaté une augmentation importante de la demande, ce qui a créé une nouvelle division interne dédiée aux environnements RL. De son côté, Mercor met en avant sa capacité à créer des environnements pour des domaines spécifiques comme le codage, la santé ou le droit. Même Scale AI, bien qu'ayant perdu de sa superbe, tente de s'adapter pour ne pas manquer ce nouveau virage technologique.

À leurs côtés, de nouveaux acteurs se concentrent exclusivement sur ce créneau. C'est le cas de Mechanize Work, une startup fondée il y a à peine six mois avec l'objectif audacieux d'automatiser tous les emplois. Pour attirer les meilleurs talents et construire des environnements de pointe, notamment pour les agents spécialisés en codage, l'entreprise n'hésite pas à proposer des salaires de 500 000 dollars à ses ingénieurs. D'autres, comme Prime Intellect, soutenue par des noms prestigieux comme Andrej Karpathy, parient sur l'open-source en lançant une plateforme se voulant le « Hugging Face des environnements RL », afin de démocratiser l'accès à ces outils.

Une question reste cependant en suspens: cette approche passera-t-elle à l'échelle ? L'apprentissage par renforcement a déjà permis des avancées majeures, comme les modèles o1 d'OpenAI et Claude Opus 4 d'Anthropic, à un moment où les techniques traditionnelles montrent des signes d'essoufflement. Mais des voix sceptiques s'élèvent. Ross Taylor, ancien chercheur chez Meta, met en garde contre le reward hacking, un phénomène où l'IA apprend à tricher pour obtenir la récompense sans réellement accomplir la tâche. D'autres, comme Sherwin Wu d'OpenAI, estiment que le marché est trop compétitif et que la recherche évolue trop vite pour que les startups puissent servir efficacement les grands laboratoires.

Même les investisseurs dans le domaine, expriment une certaine prudence, se disant optimiste sur les environnements et les interactions agentiques, mais baissier sur l'apprentissage par renforcement spécifiquement. La course est lancée, et les milliards sont sur la table. Ces mondes simulés donneront-ils naissance aux agents intelligents autonomes qui nous ont été promis, ou resteront-ils des terrains d'expérimentation fascinants mais aux retombées limitées ? L'avenir de l'IA pourrait bien se jouer dans ces arènes virtuelles.

Mon profil Facebook