自打第一个文本到语音(TTS)模子宣布以来,研究人员一直在探求让计算机体系发生语音的办法,微软的最新模子VALL-E是在这里方面的一个主要发展。VALL-E是一个基于转换器的TTS模子,只需听到三秒钟的声音样本就可以生成任何声音的语音。这比之前的模子有很大的革新,之前的模子需求更长的锻炼工夫能力生成新的声音。
关于计算机行业而言,VALL-E是一项惊人的技能豪举,有大概改动我们取数字媒体互动的体例。语音的腔调、魅力和气势派头都正在生成的语音中维持稳定,这是正在使TTS体系听起来更自然层面迈出的主要一步。
微软会不会基于这项技能有更多使用今朝还不分明,然而,微软曾经宣布了该模子的一些实例,很明显,这是TTS技能的一个严重提高。
您能够在这收听典范: