硬件与设备

NVIDIA用AI编码代理训练机器人：无人监督的自主学习系统

作者 Mag-Info Tech editorial · 2026-06-18

NVIDIA与卡内基梅隆大学、加州大学伯克利分校的研究团队近期联合发布了名为ENPIRE的框架，这一系统将AI编码代理（如Codex、Claude Code等）的自主研究能力从虚拟环境扩展到物理世界。通过让编码代理直接在真实机械臂上编写、测试并优化代码，ENPIRE实现了机器人在无人监督下完成复杂操作任务的目标。在实验中，八台机械臂组成的机群通过该系统自主学习插针、插装GPU、切割束带等操作，最终在无人工干预的情况下将任务成功率提升至99%。

AI编码代理首次驾驭物理世界：从代码到真实动作

ENPIRE框架的核心突破在于将AI编码代理的自主研究能力从软件开发领域拓展至机器人控制领域。此前，Codex、Claude Code等编码代理已能在虚拟环境中实现自主编写、测试和优化代码的完整循环，但这些过程主要发生在代码编辑器和模拟器内。ENPIRE的关键创新在于构建了从虚拟到物理的无缝衔接机制，使编码代理能够直接在真实硬件上执行实验并获取真实反馈。研究团队在NVIDIA的GEAR实验室部署了八台机械臂，这些机械臂不仅是执行者，更是编码代理的"实验场"。每当代理生成新的控制策略时，系统会立即将其部署到机械臂上进行实际操作，通过传感器反馈评估效果，并基于真实数据持续优化代码。这种闭环训练方式彻底改变了传统机器人学习模式，摆脱了对人工标注数据和专家经验的依赖。

这种无人监督的自主学习过程在传统机器人训练中极为罕见。以往，即使是最先进的强化学习方法也需要大量人工设计的奖励函数和仿真环境，且最终仍需在真实硬件上进行微调。ENPIRE则通过让编码代理直接面对物理约束来解决这个问题。例如，当代理尝试将针插入插座时，系统会根据机械臂的实际位置误差、力反馈等数据实时调整代码逻辑，而无需人工干预。研究显示，这种方法在插针任务中的成功率最终达到99%，远超此前依赖人工示教的传统方法。对于制造业、物流等领域而言，这意味着机器人能够在无需人工编程的情况下快速适应新任务，显著降低部署成本和时间。

ENPIRE的双阶段架构：从基础工具到任务学习

ENPIRE框架采用了分层设计，将自主学习过程分为两个核心阶段。在第一阶段，研究人员首先引导编码代理构建两个永久性工具：一是"重置例程"，用于在实验失败后将工作空间恢复到初始状态；二是"评估器"，用于对机械臂的动作效果进行量化评分。这两个工具由人工初步定义，但后续的优化和维护完全交由编码代理完成。这种设计确保了系统在面对不同任务时能够保持一致的实验环境，同时最大限度地减少人工干预。例如，当机械臂在切割束带时出现偏差，重置例程会自动将工具复位，而评估器则会根据切割质量（如是否完全切断、是否损坏周边材料等）给出分数，指导代理进行下一步优化。

第二阶段则是任务学习的核心。编码代理在这一阶段会基于第一阶段构建的工具，自主生成完成特定任务的控制代码。以插装GPU为例，代理需要编写控制机械臂精确抓取GPU、对准插槽、逐步施加压力的完整流程。系统会将代理生成的每个版本代码部署到机械臂上进行测试，并根据评估器的反馈调整策略。值得注意的是，ENPIRE并未采用传统的端到端学习方法，而是让代理通过模块化的方式构建任务解决方案。这种方法不仅提高了代码的可解释性，还使得系统能够更轻松地复用已学习的子任务（如"精确抓取"或"对准插槽"）来组合新的复杂任务。研究团队发现，随着机群规模从单台机械臂扩展到八台，任务掌握时间缩短超过一半，但token消耗量的增长速度却远快于时间节省幅度，这反映出分布式学习在提升效率的同时也带来了更高的计算成本。

从单机到机群：规模化学习的效率与成本权衡

ENPIRE的实验采用了由八台NVIDIA机械臂组成的机群，这一规模化设计为理解分布式自主学习提供了宝贵数据。研究显示，随着参与学习的机械臂数量增加，任务掌握时间呈现近线性下降趋势。例如，单台机械臂完成插针任务可能需要数小时，而八台机械臂协同工作则能在数十分钟内完成相同任务。这种规模化效应得益于ENPIRE的并行训练机制：每个机械臂在执行相同任务时会生成不同的失败案例和优化路径，这些数据被汇总后能够加速整个机群的学习进程。对制造业而言，这意味着机器人能够在更短时间内适应新产品线或新工艺，显著提升生产线的柔性和响应速度。

然而，规模化也带来了新的挑战。研究者发现，随着机群规模扩大，代理生成和测试的代码版本数量激增，token消耗量（即模型处理的文本量）的增长速度远超时间节省的幅度。这主要是因为每个机械臂在每次实验后都会生成详细的日志和反馈数据，这些数据需要被编码代理重新读取和分析。在八台机械臂的实验中，token消耗量达到单机的数十倍，这对计算资源和API成本提出了更高要求。此外，分布式环境下的同步和协调机制也成为瓶颈：当多个机械臂同时尝试不同的策略时，如何避免冲突并确保最优解被快速识别，仍需进一步优化。这些挑战表明，ENPIRE在走向工业化应用前，还需要在成本控制和系统稳定性方面取得突破。

技术突破背后的方法论创新

ENPIRE的成功并非偶然，其背后蕴含着多项方法论创新。首先是"自主实验设计"的概念，即让编码代理不仅执行任务，还参与实验流程的设计。传统机器人学习通常由人工定义实验空间、失败条件和评估标准，而ENPIRE则将这些决策权下放给代理，使其能够根据实际反馈动态调整实验策略。例如，当代理发现某个任务在特定角度下更容易失败时，它会主动尝试其他角度，并将这些经验编码到后续的控制逻辑中。这种自适应实验设计能力极大地提高了学习效率，减少了人工调参的工作量。

其次是"物理约束感知"的编程范式。ENPIRE要求编码代理在生成代码时必须考虑真实世界的物理限制，如机械臂的力反馈、关节运动范围、抓取对象的易碎性等。这种范式与传统的软件编程截然不同，后者通常忽略硬件细节。为实现这一目标，ENPIRE集成了NVIDIA的物理仿真引擎，使代理能够在虚拟环境中预先评估代码在真实硬件上的执行效果。然而，仿真与现实之间的差距（即所谓的"现实鸿沟"）仍然存在，ENPIRE通过在真实硬件上进行最终验证来弥补这一差距。研究团队发现，这种"仿真+真实"的混合训练方式能够在保证安全的同时加速学习过程，避免了纯仿真训练中常见的过拟合问题。

最后是"模块化任务分解"的策略。ENPIRE并未尝试让代理从零开始学习复杂任务，而是将任务分解为一系列可重用的子任务（如"抓取"、"对准"、"插入"等），并让代理分别学习这些子任务的最佳控制策略。这种方法不仅提高了学习效率，还使得系统能够更轻松地组合已有技能来应对新任务。例如，学会了"插入"动作的机械臂能够快速迁移到"插装GPU"或"插入连接器"等相关任务中。这种模块化设计与现代软件工程中的"微服务"概念类似，为机器人学习提供了可扩展的架构基础。

交易不是赌博。别再赌了。

MEFAI的AI带来真实成果。专业版立减50美元。

领取专业版50美元优惠 →

赞助内容 · 过往表现不代表未来结果。非财务建议。

对制造业与AI产业的深远影响

ENPIRE框架的发布不仅是机器人学习领域的技术突破，更对整个制造业和AI产业产生深远影响。对于制造业而言，ENPIRE有望颠覆传统的机器人部署模式。以往，工厂在引入新产品或新工艺时，通常需要耗费数周甚至数月的时间进行机器人编程和调试。而ENPIRE系统能够让机器人在无人监督下自主学习新任务，将部署时间缩短至数小时或数天。这对于汽车制造、电子装配等对柔性要求极高的行业具有重要意义。例如，某汽车制造商在引入新车型时，可能需要快速调整生产线上的机械臂以适应不同的零部件。传统方法需要工程师手动编写和测试每个动作，而ENPIRE则能让机械臂自主学习如何抓取和组装新零件，显著降低了人工成本和时间成本。

从AI产业的角度来看，ENPIRE展示了编码代理在硬件控制领域的巨大潜力。随着大语言模型（LLM）能力的不断提升，编码代理已能够胜任复杂的软件开发任务。ENPIRE的成功表明，这些代理同样能够胜任物理世界的控制任务，只要为它们提供合适的工具和反馈机制。这意味着未来的AI系统可能不再局限于软件领域，而是能够直接操控现实世界中的设备。对于NVIDIA、Anthropic、OpenAI等AI公司而言，这开辟了新的产品方向：将编码代理与机器人控制系统集成，为用户提供"即插即用"的自主机器人解决方案。例如，一家制造商可以购买预装ENPIRE框架的机械臂，并通过自然语言描述新任务（如"将这个零件插入这个插槽"），系统即可自动生成并执行相应的控制代码。

面临的挑战与未来发展方向

尽管ENPIRE在实验中取得了99%的成功率，但其面临的挑战也不容忽视。首先是安全性问题。在无人监督的自主学习过程中，机械臂可能会尝试危险的动作（如过度施力导致零件损坏或设备故障），这在制造环境中可能造成严重后果。ENPIRE通过重置例程和评估器等机制在一定程度上缓解了这一问题，但仍需更完善的安全保障措施。例如，系统可以集成实时监控摄像头和力传感器，在检测到异常行为时立即停止实验并报警。此外，物理约束感知能力也需要进一步增强，使代理能够更准确地预测和避免危险动作。

其次是成本和可扩展性。ENPIRE在八台机械臂的实验中已显示出显著的token消耗增长，这意味着在更大规模的部署中，计算成本可能成为制约因素。研究团队需要探索更高效的学习算法，如通过模型蒸馏或知识蒸馏将大模型的能力压缩到更小的模型中，或采用分层学习策略减少重复实验。此外，硬件成本也是一个考量因素：高精度的机械臂、传感器和计算设备需要大量投资，这可能限制ENPIRE在中小企业中的应用。未来，随着AI芯片成本的下降和编码代理效率的提升，这一问题有望得到缓解。

最后是通用性问题。ENPIRE目前在特定任务（如插针、插装GPU等）上表现优异，但能否扩展到更复杂的场景（如柔性物体抓取、装配精度要求极高的精密仪器等）仍需验证。此外，系统对不同类型机械臂的适应性、对噪声环境的鲁棒性等也是需要解决的问题。研究团队计划在未来扩展ENPIRE的应用范围，探索其在医疗、农业、家庭服务等领域的潜力。例如，在医疗领域，ENPIRE可以帮助外科机器人自主学习新的手术技术；在农业领域，它可以让收割机器人自主适应不同的农作物。

实用建议：企业与开发者如何跟进

对于希望跟进ENPIRE技术的企业和开发者，有以下几点建议。首先，关注相关论文和开源工具的发布。ENPIRE的研究团队已在arXiv等平台发布了详细的技术报告，其中包含了框架的架构设计、实验数据和代码示例。企业可以基于这些资料评估ENPIRE在自身场景中的适用性，或参考其设计理念开发类似的系统。对于开发者而言，可以尝试在小规模机械臂上复现ENPIRE的核心机制，如自主实验设计和物理约束感知，以积累经验。

其次，评估计算成本与硬件需求。ENPIRE的自主学习过程对计算资源和编码代理的性能要求较高，企业需要评估当前的硬件设施能否支撑大规模部署。对于预算有限的团队，可以考虑从云端API（如Anthropic的Claude Code或OpenAI的Codex）开始尝试，逐步过渡到本地部署。同时，优化token使用效率（如通过压缩实验日志或采用更高效的编码策略）也是降低成本的关键。

最后，重视安全与合规。在引入无人监督的自主学习系统时，企业必须建立完善的安全管理流程，包括实时监控、异常检测、紧急停机机制等。此外，由于ENPIRE涉及物理设备的自主操作，企业还需要考虑责任划分和保险覆盖等法律问题。在部署前，建议进行充分的实验室测试和风险评估，确保系统在真实环境中的稳定性和安全性。

结语：从实验室到工业现场的长征

ENPIRE框架的发布标志着机器人自主学习领域迈出了关键一步，但从实验室走向工业现场仍需克服重重挑战。技术上的突破固然重要，但更关键的是如何将这些技术与实际应用场景深度结合。对于NVIDIA和合作伙伴而言，下一步可能需要在更复杂的任务场景中验证ENPIRE的有效性，并开发更易于部署的商业化版本。对于制造业而言，则需要重新思考机器人部署的流程和成本结构，拥抱自主学习带来的变革。

无论如何，ENPIRE所展示的"编码代理+机械臂"的自主学习模式，为未来的AI与机器人技术指明了一个重要方向。随着大语言模型能力的持续提升和硬件成本的不断下降，我们有理由相信，无人监督的自主机器人学习将在不久的将来成为现实。这不仅将重塑制造业的面貌，也将为人类与机器的协作开辟新的可能性。

NVIDIA用AI编码代理训练机器人：无人监督的自主学习系统

AI编码代理首次驾驭物理世界：从代码到真实动作

ENPIRE的双阶段架构：从基础工具到任务学习

从单机到机群：规模化学习的效率与成本权衡

技术突破背后的方法论创新

对制造业与AI产业的深远影响

面临的挑战与未来发展方向

实用建议：企业与开发者如何跟进

结语：从实验室到工业现场的长征

更多相关内容硬件与设备

英特尔全球晶圆厂扩张路线图：两个关键节点与四大生产基地

NVIDIA用AI编码智能体训练机器人自主完成GPU安装与束带剪断

FBI破获针对白宫UFC活动的无人机袭击阴谋：五名嫌犯落网

AI编码代理首次驾驭物理世界：从代码到真实动作

ENPIRE的双阶段架构：从基础工具到任务学习

从单机到机群：规模化学习的效率与成本权衡

技术突破背后的方法论创新

对制造业与AI产业的深远影响

面临的挑战与未来发展方向

实用建议：企业与开发者如何跟进

结语：从实验室到工业现场的长征

更多相关内容 硬件与设备

英特尔全球晶圆厂扩张路线图：两个关键节点与四大生产基地

NVIDIA用AI编码智能体训练机器人自主完成GPU安装与束带剪断

FBI破获针对白宫UFC活动的无人机袭击阴谋：五名嫌犯落网

更多相关内容硬件与设备