眼下最重要的是整合内部文字转WAV音频