语音信号是一种非平稳的时域信号。由于发声器官的惯性运动,可以在短时间内认为语音信号近似不变(通常在10~30ms)。这种稳定性是语音信号分帧的基础。目前通常的处理方法是每秒分33到100帧,具体取决于实际采样率。