不是模拟器。 连续可操作的现实世界设置。
在我们的背景下,强化学习环境是一个完全指定的真实机器人系统:物理设置、明确定义的任务和成功标准、稳定的观察和行动空间、确定性的重置程序、连续记录以及在重复试验和失败下的安全执行。
这为团队提供了一个在现实世界中培训、评估和迭代基于学习的策略的场所,而不是将部署视为第一个真正的测试。
持久的、可学习的机器人环境,由真实硬件、真实传感器以及对强化学习、评估和迭代的真实操作支持支持。
在我们的背景下,强化学习环境是一个完全指定的真实机器人系统:物理设置、明确定义的任务和成功标准、稳定的观察和行动空间、确定性的重置程序、连续记录以及在重复试验和失败下的安全执行。
这为团队提供了一个在现实世界中培训、评估和迭代基于学习的策略的场所,而不是将部署视为第一个真正的测试。
锁定任务、成功标准、重置流程以及观察或操作界面。
通过可重复的初始化在数千个剧集中操作相同的真实设置。
记录关节状态、控制命令、视觉、触觉或力信号以及结果。
使用真实的故障、真实的边缘情况和回归跟踪来迭代下一个版本。