在这个演示中,强化学习技术SARSA成功解决了两个不同迷宫的问题。State-Action-Reward-State-Action (SARSA)是一种用于学习马尔可夫决策过程策略的算法,用于强化学习。SARSA的动作价值函数更新公式为:Q(S{t}, A{t}) := Q(S{t}, A{t}) + α*[ R{t+1} + γ ∗ Q(S{t+1}, A{t+1}) − Q(S{t}, A{t}) ]。学习率(α)和折扣因子(γ)在SARSA算法中起关键作用。