MATLAB-PILCO-TensorFlow算法代码: PILCO学习控制的概率推断是在Python中使用TensorFlow和GPflow重新实现的MATLAB代码。这项工作是为了个人发展而进行的,部分实施基于此。存储库将作为未来研究的基准。购物车杆基准测试的实施是基于OpenAI的CartPole环境,但新环境具有连续的动作空间。文件包含了新的CartPole类定义。此外,还创建了MuJoCo环境的文件,用于定义传统手推车杆。安装先决条件需要具备多关节动力学的物理引擎,例如MuJoCo。作者使用了MIT许可证。