Matlab代码正在研究透明RLfD中机器人动作的影响,特别关注不同类型的动作如何改进未来的演示效果。研究涉及的动作类型包括注意动作、不确定性动作和可预测动作。通过分析这些动作如何正面或负面影响演示效果,研究还考察了学习过程随时间的演变和更新的状态值。研究计划包括示范阶段(6月15日)、无模型RL阶段(7月1日)以及动作更新的模拟测试阶段。其中,考虑到状态如姿势、速度和物理特性等因素,奖励机制设定为每个动作直至最终目标的不同得分。研究的下一步将比较两种不同算法在逆向强化学习中的效果,实验数据将在学习过程评估(7月15日)和运动计划测试(7月25日)中得到验证。