利用弱监督的方法从视频类别标签中提取选择性类激活映射,并使用这些映射训练时空音频网络。该方法无需真实注视数据,即可达到与完全监督网络相媲美的性能。