所以做不到完全精准地模仿文字转WAV音频