即使我们当时的状态被系统默认为文字转WAV音频