Matériel & Gadgets

Nvidia lance ENPIRE : des robots qui s’entraînent tout seuls grâce à des agents de codage IA

Par Mag-Info Tech editorial · 2026-06-18

Nvidia, Carnegie Mellon et l’Université de Californie à Berkeley ont présenté ENPIRE, un cadre expérimental qui transfère l’intégralité du processus d’apprentissage des robots à des agents de codage basés sur l’IA. Plutôt que de reposer sur des scripts ou des algorithmes figés, ces agents — capables d’écrire, tester et corriger du code de manière autonome — prennent désormais le contrôle direct des bras robotisés pour leur faire acquérir de nouvelles compétences techniques, sans intervention humaine continue.

Dans la pratique, ENPIRE automatise ce que les chercheurs appellent l’autorecherche appliquée au monde physique : les agents génèrent des programmes d’entraînement, les exécutent sur du matériel réel, analysent les résultats, ajustent les algorithmes et répètent le cycle jusqu’à ce que la tâche soit maîtrisée. Cette approche marque une rupture avec les méthodes classiques, où l’humain supervise chaque étape ou intervient pour réinitialiser l’environnement après un échec. Ici, c’est l’agent lui-même qui gère la boucle, y compris la remise en état de l’espace de travail.

Des agents de codage passés du virtuel au réel

Les agents de codage comme Codex, Claude Code ou Kimi Code ont d’abord prouvé leur capacité à automatiser la création et le débogage de logiciels, en générant du code, en l’exécutant dans des environnements simulés et en itérant sans supervision. Leur force réside dans leur capacité à manipuler des langages de programmation, à interpréter des retours d’exécution et à proposer des corrections rapides. ENPIRE transpose cette logique dans le domaine de la robotique en donnant à ces agents l’accès direct à des bras robotisés et à des outils physiques.

Concrètement, l’agent ne se contente pas d’écrire un algorithme de contrôle : il le déploie sur le robot, observe les mouvements, identifie les échecs, et réécrit le code pour corriger les erreurs. Par exemple, lors de l’insertion d’une épingle ou d’un connecteur GPU, l’agent ajuste la trajectoire ou la force appliquée en fonction des données de retour. Cette boucle d’autocorrection, autrefois limitée aux simulations, devient ainsi applicable à des environnements réels, avec leurs imprécisions et leurs contraintes physiques.

Une flotte de huit robots qui apprennent en parallèle

Dans les expériences menées par Nvidia, Carnegie Mellon et UC Berkeley, une flotte de huit bras robotisés a été utilisée pour valider ENPIRE. Chaque robot a reçu pour mission d’apprendre des tâches précises : insertion d’épingles, montage de cartes graphiques, découpe de colliers de serrage. L’objectif n’était pas seulement de réussir une tâche, mais de mesurer comment l’apprentissage collectif pouvait accélérer l’acquisition de compétences.

Les résultats montrent qu’un robot seul atteint un taux de réussite de 85 % après plusieurs heures d’entraînement. En revanche, lorsqu’un agent gère simultanément huit robots, le taux de réussite global dépasse 99 % en moins de temps. La collaboration entre robots permet une exploration plus large des stratégies possibles, tandis que l’agent centralise les retours et affine les algorithmes en conséquence. Cette approche s’inscrit dans la logique des systèmes multi-agents, où la diversité des essais conduit à une optimisation plus rapide.

Gain de temps, mais explosion des coûts de calcul

L’un des enseignements les plus marquants de l’expérience concerne l’efficacité temporelle. Passer d’un robot à huit robots divise par plus de deux le temps nécessaire pour maîtriser une tâche. Cependant, cette accélération s’accompagne d’une hausse significative des ressources de calcul consommées. Les agents, en effet, doivent générer et tester des milliers de variantes de code, et chaque exécution sur du matériel physique consomme des tokens et des cycles GPU.

Le cadre ENPIRE ne cherche pas à minimiser l’usage des ressources, mais plutôt à maximiser l’autonomie du système. Les chercheurs soulignent que le coût en tokens croît plus vite que le gain de temps, ce qui suggère que l’optimisation des ressources deviendra un enjeu majeur à mesure que des flottes plus larges seront déployées. À court terme, cette approche reste donc réservée à des environnements contrôlés où la précision prime sur l’efficacité énergétique.

Des tâches industrielles simples mais représentatives

Les tâches choisies pour valider ENPIRE — insertion d’épingles, montage de GPU, découpe de colliers — peuvent paraître rudimentaires, mais elles sont représentatives de nombreux processus industriels. L’insertion d’épingles simule le positionnement de composants électroniques, le montage de GPU évoque l’assemblage de cartes dans des serveurs, et la découpe de colliers reflète des opérations de finition ou de conditionnement.

Le trading n'est pas un casino. Arrêtez de jouer.

De vrais résultats grâce à l'IA de MEFAI. Obtenez 50 $ de réduction sur le plan Pro.

Réclamer 50 $ de réduction Pro →

Sponsorisé · Les performances passées ne préjugent pas des résultats futurs. Ceci n'est pas un conseil financier.

Ces exemples montrent que l’IA générative ne se limite plus à la génération de texte ou d’images : elle peut désormais produire des séquences de mouvements et des stratégies d’assemblage. Pour les industriels, cela ouvre la voie à des chaînes de production plus flexibles, où les robots pourraient s’adapter à de nouveaux produits ou à des variations de conception sans reprogrammation manuelle. La capacité à apprendre en continu, plutôt qu’à suivre des scripts prédéfinis, représente un changement de paradigme pour la robotique industrielle.

Une remise en état automatique de l’environnement

Un défi majeur de l’apprentissage robotique autonome réside dans la gestion des échecs : un robot qui échoue à une tâche peut laisser l’espace de travail dans un état imprévu, nécessitant une intervention humaine pour le réinitialiser. ENPIRE intègre un mécanisme de réinitialisation automatique, où l’agent génère un sous-programme dédié au retour à une configuration de départ sûre.

Ce sous-programme, appelé routine de réinitialisation, est créé une fois pour toutes au début du processus et réutilisé à chaque échec. Il permet au robot de nettoyer la zone, de repositionner les objets ou de corriger les anomalies avant de relancer l’essai. Cette fonctionnalité réduit considérablement la dépendance à l’humain et rend le système plus résilient aux erreurs. Sans elle, l’accumulation d’échecs aurait rapidement paralysé le processus d’apprentissage.

Implications pour l’industrie et la recherche

Pour les acteurs industriels, ENPIRE représente une avancée majeure vers des systèmes robotisés auto-apprenants. Plutôt que de programmer manuellement chaque mouvement ou de recourir à l’apprentissage par renforcement classique, les entreprises pourraient déléguer l’acquisition de nouvelles compétences à des agents IA. Cela pourrait réduire les coûts de développement logiciel et accélérer le déploiement de robots dans des environnements non standardisés.

Du côté de la recherche, cette expérience illustre le potentiel des agents autonomes dans des contextes physiques. Elle pose également des questions sur la reproductibilité des résultats, la généralisation des compétences acquises et la sécurité des systèmes. Si un agent peut réécrire son propre code pour s’adapter à un nouvel environnement, comment garantir que ces modifications ne génèrent pas de comportements imprévisibles ? Ces questions seront au cœur des prochaines étapes de validation.

Ce qu’il faut surveiller dans les mois à venir

Plusieurs axes de développement méritent d’être suivis. D’abord, l’extension du cadre ENPIRE à des tâches plus complexes, impliquant des interactions avec des objets déformables, des environnements dynamiques ou des outils variés. Ensuite, l’optimisation des ressources de calcul, afin de rendre l’approche viable à plus grande échelle sans explosion des coûts. Enfin, l’intégration de mécanismes de sécurité renforcés pour encadrer les modifications de code effectuées par les agents.

Les chercheurs ont également évoqué la possibilité d’étendre le système à des robots mobiles ou à des environnements collaboratifs, où plusieurs agents pourraient coordonner leurs actions. À plus long terme, cette approche pourrait contribuer à des systèmes robotisés capables de s’adapter en temps réel à des changements imprévus, une capacité cruciale pour des applications comme la logistique ou la maintenance industrielle.

Conclusion

ENPIRE marque une étape importante dans l’automatisation de l’apprentissage robotique. En confiant l’intégralité du processus d’entraînement à des agents de codage IA, Nvidia et ses partenaires ont démontré qu’il était possible de faire progresser des robots vers une maîtrise quasi parfaite de tâches techniques, sans supervision humaine continue. L’expérience révèle à la fois le potentiel et les limites de cette approche : si l’autonomie et la rapidité sont au rendez-vous, les coûts de calcul et les questions de sécurité restent des défis à relever.

Pour les industriels, cette avancée ouvre des perspectives concrètes de flexibilité et d’adaptabilité dans les chaînes de production. Pour la communauté scientifique, elle soulève des enjeux fondamentaux sur la fiabilité et la généralisation des systèmes auto-apprenants. Une chose est sûre : l’ère où les robots apprennent seuls, guidés par des agents IA, est désormais une réalité expérimentale — et probablement une tendance de fond pour les années à venir.

Plus dans Matériel & Gadgets

Hardware & Gadgets

Intel étend sa capacité de production et accélère le nœud 14A : ce que cela change pour l’industrie des semi-conducteurs

Intel accélère la construction de deux usines en Arizona et Ohio, tout en modernisant ses sites en Irlande. Le nœud 14A, prévu pour 2025-2027, pourrait redéfinir la compétitivité des puces avancées et

2026-06-18Read →

Hardware & Gadgets

Nvidia ENPIRE : des agents IA autonomes pour entraîner des robots à installer des cartes graphiques

Nvidia dévoile ENPIRE, un cadre logiciel qui permet à des agents IA de concevoir et exécuter des programmes d'entraînement pour robots, leur apprenant à installer des cartes graphiques et couper des c

2026-06-18Read →

Hardware & Gadgets

Intel lance la production à risque de son procédé 18A-P : quels gains pour les puces de nouvelle génération ?

Intel a démarré la production à risque de son procédé 18A-P, promettant jusqu’à 9 % de performance en plus à puissance égale et une réduction de 40 % de la résistance thermique. Une avancée majeure po

2026-06-17Read →