在本项目中,我探索了在物理机器人上实现强化学习(RL)算法的过程,具体是在定制的3D打印机器人Benny和Bunny上从A到B的路径规划。作为我本科最后一年自选选修课的一部分,项目学习强化学习的基础知识。最初,编码直接在物理机器人上进行,但随着项目进展,意识到需要将算法与硬件解耦。仿真测试表明,在较小的状态空间(<= 100个状态)中表现良好,但在扩展到包含400个状态时,任何探索的RL算法均无法收敛。结果显示,在实现硬件前,需在仿真中探索更强大的算法。所有模拟代码均使用C++编写,确保代码的可移植性,以适应微控制器的限制,避免数据传输带来的复杂性。