否则自己只需要在关键时刻模拟文字转WAV音频