MATLAB 实现 e-greedy 算法,用于解决 n-armed bandits 问题,结果重现了强化学习导论第 2.2 章的图表。