上海交大开源语音克隆模型F5-TTS

小野资讯9个月前更新 xxball

上海交大开源语音克隆模型F5-TTS

摘要

最近，来自上海交通大学、剑桥大学和吉利汽车研究院的研究团队推出了一种全新的文本到语音（TTS）系统，名为 F5-TTS。支持多语言切换、速度控制、情感表达，具有零样本生成能力的TTS系统。它不像传统的系统那样一步一步生成语音，而是能够同时处理个步骤，这让它的速度更快。能够在多语言、多场景下提供自然、流畅、准确的语音生成。

F5-TTS 在一个包含100K小时的多语言数据集上进行训练，具备出色的多语言处理能力。它能够自然地生成多种语言的语音，并能在不同语言之间无缝切换，处理复杂的多语言输入。

F5-TTS 支持语速控制，用户可以指定语音的总时长，模型会根据指定的时长自动调整语速，生成符合用户需求的不同速度版本的语音。

例如，可以根据需要生成慢速、中速或快速语音。

F5-TTS 具备生成带有情感的语音的能力，能够根据输入文本的情感信息生成相应的语音情感表现。

如愤怒、快乐、悲伤等。

F5-TTS 在处理复杂文本输入时表现出色的鲁棒性。无论输入的句子多么复杂或难以处理，F5-TTS 仍能生成高质量的语音。

这种能力使得它能够处理包括长句子、复杂语言结构甚至是口语化表达的文本输入，生成流畅的语音输出。

相关链接

– 项目及模型演示链接

– 模型体验地址

– 模型下载地址

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

LOOPY技术：让数字人声音与画面完美同步

LOOPY技术：让数字人声音与画面完美同步

1年前

9,1200

腾讯元宝AI助手上线长文精读功能，支持近50万字输入

腾讯元宝AI助手上线长文精读功能，支持近50万字输入

1年前

11,3400

360AI助手推出模型竞技场：全面评估AI模型性能

360AI助手推出模型竞技场：全面评估AI模型性能

1年前

16,2900

海螺AI推出AI创作音乐和AI生成视频功能

海螺AI推出AI创作音乐和AI生成视频功能

1年前

8,8400