Matlab的无花果生成代码用于连续时间和空间中强化学习问题的策略迭代。该存储库提供了用于生成中显示的仿真结果的开源代码: “Jaeyoung Lee和Richard S. Sutton(2021)连续时间和空间中强化学习问题的策略迭代 - 基本理论和方法,自动书,第126卷,109421。”要在中重现结果,请根据以下说明运行代码(在MATLAB R2012a(32位)版本中进行测试)。首先,将MATLAB工作目录设置为您计算机中克隆的本地存储库路径;使用以下命令清除环境: close all; clear all; clc。使用以下命令来再现与手稿中的模拟相对应的数据。案例1:凹面哈密顿量奖赏(第7.1节): DPI: Main('DPI', 'Con', 'Normal', [20, 21], 50)IPI: Main('IPI', 'Con', 'Normal', [20, 21], 50)。情况2:最佳控制(第7.2节): DPI: Main('DPI', 'Opt', 'Normal', [20, 21], 50)IPI: Main('IPI', 'Opt', 'Normal', [20, 21], 50)