Seed-TTS

11个月前更新 11,089 0 0

字节跳动团队推出新型语音生成模型Seed-TTS,能生成自然且表现力丰富的语音。

收录时间:
2024-06-06
Seed-TTSSeed-TTS

Seed-TTS 是 ByteDance 开发的一系列文本转语音(TTS)模型,可以生成听起来非常像人类的语音。它的特点和主要内容如下:

  1. 高质量语音生成:Seed-TTS 能够生成非常自然、与人类语音几乎无法区分的语音。
  2. 多语言支持:这个模型可以处理多种语言,即使没有特定的训练数据,也能生成高质量的语音。
  3. 个性化语音:通过微调,Seed-TTS 可以适应不同的说话人,生成更符合个人特征的语音。
  4. 语音控制:模型可以控制语音的情感和其他属性,让语音更加多样化和表达丰富。
  5. 非自回归变体:Seed-TTS 还有一种新的变体,叫做 Seed-TTSDiT,采用全新的架构,不需要预先估计音素持续时间,可以直接生成语音,效果和传统方法一样好。

项目及演示:https://bytedancespeech.github.io/seedtts_tech_report/

论文:https://arxiv.org/pdf/2406.02430

GitHub:https://github.com/BytedanceSpeech/seed-tts-eval/

数据统计

相关导航