这是端到端唇读模型的存储库介绍。我们的论文可在这里找到。基于T. Stafylakis和G. Tzimiropoulos的实现,该模型包括2层BGRU,每层有1024个单元。相比Themos的实现,该模型使用的是2层BLSTM,每层有512个单元。更新至2020-06:我们的唇读模型在LRW数据集上的准确率达到了85.5%。Matlab中用于裁剪嘴ROI的坐标为(x1,y1,x2,y2)=(80、116、175、211)。在Python中,固定的嘴ROI可以通过[FxHxW] = [:,115:211,79:175]来实现。训练顺序包括仅视频模型、仅音频模型和视听模型。首先通过时间卷积后端进行训练,可以运行以下脚本:CUDA_VISIBLE_DEVICES='' python main.py --path '' --dataset