Seed-TTS

1年前更新 24,709 0 0

字节跳动团队推出新型语音生成模型Seed-TTS，能生成自然且表现力丰富的语音。

收录时间：

2024-06-06

打开网站手机查看

Seed-TTS

Seed-TTS

Seed-TTS 是 ByteDance 开发的一系列文本转语音（TTS）模型，可以生成听起来非常像人类的语音。它的特点和主要内容如下：

高质量语音生成：Seed-TTS 能够生成非常自然、与人类语音几乎无法区分的语音。
多语言支持：这个模型可以处理多种语言，即使没有特定的训练数据，也能生成高质量的语音。
个性化语音：通过微调，Seed-TTS 可以适应不同的说话人，生成更符合个人特征的语音。
语音控制：模型可以控制语音的情感和其他属性，让语音更加多样化和表达丰富。
非自回归变体：Seed-TTS 还有一种新的变体，叫做 Seed-TTSDiT，采用全新的架构，不需要预先估计音素持续时间，可以直接生成语音，效果和传统方法一样好。

项目及演示：https://bytedancespeech.github.io/seedtts_tech_report/

论文：https://arxiv.org/pdf/2406.02430

GitHub：https://github.com/BytedanceSpeech/seed-tts-eval/

数据统计

相关导航

I2VEdit

视频编辑神器2VEdit只需修改视频第一帧，即可改变整个视频

FunClip自动化视频剪辑工具

FunClip自动化视频剪辑工具

FunClip是一款完全开源、本地部署的自动化视频剪辑工具

Qwen2.5

Qwen2.5是一系列基于Qwen2语言模型构建的新型语言模型，包括通用语言模型Qwen2.5，以及专门针对编程的Qwen2.5-Coder和数学的Qwen2.5-Math。

MaskGCT

生成高质量的语音，模仿不同说话者的风格,跨语言语音翻译

waifu2x

一款开源、完全免费的在线图片放大工具，非常出名，使用卷积神经网络对动漫风格的图片和照片进行放大。

Animate-X

将静态角色图像转换为动态视频

JoyHallo

JoyHallo是一个数字人模型，专为普通话视频生成而设计。

GPT-SoVITS

GPT-SoVITS 是一个强大的语音转换和文本转语音（TTS）工具，支持零样本和少样本语音克隆