订单分批Matlab代码Pytorch实现端到端唇读模型

这是端到端唇读模型的存储库介绍。我们的论文可在这里找到。基于T. Stafylakis和G. Tzimiropoulos的实现，该模型包括2层BGRU，每层有1024个单元。相比Themos的实现，该模型使用的是2层BLSTM，每层有512个单元。更新至2020-06：我们的唇读模型在LRW数据集上的准确率达到了85.5％。Matlab中用于裁剪嘴ROI的坐标为（x1，y1，x2，y2）=（80、116、175、211）。在Python中，固定的嘴ROI可以通过[FxHxW] = [：，115：211，79：175]来实现。训练顺序包括仅视频模型、仅音频模型和视听模型。首先通过时间卷积后端进行训练，可以运行以下脚本：CUDA_VISIBLE_DEVICES='' python main.py --path '' --dataset