上海交大开源语音克隆模型F5-TTS
摘要
最近,来自上海交通大学、剑桥大学和吉利汽车研究院的研究团队推出了一种全新的文本到语音(TTS)系统,名为 F5-TTS。支持多语言切换、速度控制、情感表达,具有零样本生成能力的TTS系统。它不像传统的系统那样一步一步生成语音,而是能够同时处理个步骤,这让它的速度更快。能够在多语言、多场景下提供自然、流畅、准确的语音生成。
F5-TTS 在一个包含100K小时的多语言数据集上进行训练,具备出色的多语言处理能力。它能够自然地生成多种语言的语音,并能在不同语言之间无缝切换,处理复杂的多语言输入。
F5-TTS 支持 语速控制,用户可以指定语音的总时长,模型会根据指定的时长自动调整语速,生成符合用户需求的不同速度版本的语音。
例如,可以根据需要生成慢速、中速或快速语音。
F5-TTS 具备生成 带有情感的语音 的能力,能够根据输入文本的情感信息生成相应的语音情感表现。
如愤怒、快乐、悲伤等。
F5-TTS 在处理复杂文本输入时表现出色的 鲁棒性。无论输入的句子多么复杂或难以处理,F5-TTS 仍能生成高质量的语音。
这种能力使得它能够处理包括长句子、复杂语言结构甚至是口语化表达的文本输入,生成流畅的语音输出。
相关链接
– 模型体验地址
– 模型下载地址
© 版权声明
文章版权归作者所有,未经允许请勿转载。