Stability AI推出Stable Audio Open:开源音频生成模型,支持生成47秒立体声音频
摘要
Stability AI团队最近推出了一款全新的开源音频生成模型,名为Stable Audio Open。这款模型能够从文本提示生成时长可达47秒的立体声音频,采样率高达44.1kHz。与许多当前流行的音频生成模型不同,Stable Audio Open的权重是开放的,任何人都可以查看、修改和扩展这个模型。模型使用获得Creative Commons许可的音频文件进行训练,确保了数据的合法性和道德性。
主要特点
- 高保真度:生成的音频具有高保真度,用户能够享受到清晰且真实的声音体验。
- 开放性:权重开放,支持查看、修改和扩展,推动科学研究和开发。
- 合法数据使用:只使用Creative Commons许可的音频数据进行训练,确保数据合法性和道德性。
技术优势
- 多样性:接触多种多样的音频样本,生成的音频更加真实多样。
- 性能评估:通过FDopenl3评估指标,证明其在生成高质量音频方面表现出色。
- 高质量音频:生成高质量的立体声音频,表现不俗,与业界顶尖模型相当。
相关链接
– 体验地址
© 版权声明
文章版权归作者所有,未经允许请勿转载。