该Matlab代码用于将强化学习模型拟合到选择数据。主要功能包括:

  • example.m:提供了一个简单的学习用例,展示了如何在标准增量规则强化学习模型中使用该代码。
  • rlfit.m:接受一个用于计算动作值的函数句柄、选择和结果历史记录以及模型参数约束,进行模型拟合并返回对数似然、动作值和拟合参数。
  • multmin.m:使用多个随机起点进行模型拟合,以找到最佳参数。
  • LL_softmax.m:处理softmax选择函数的对数似然计算,并包含一些渐近展开式,以避免在极端情况下出现NaN。
  • Q_model.m:实现了一个具有单个参数(学习率)的标准增量规则强化学习模型。

用户需要提供一个函数,该函数根据一组参数、选择历史记录和结果历史记录来计算每个选择的动作值。该代码支持多种结果类型,并使用softmax函数进行选择。