而是将注意力用在了实验当中去文字转WAV音频