Loading...

Stability AI推出Stable Audio Open:开源音频生成模型,支持生成47秒立体声音频

小野资讯7个月前更新 xxball
3,570 0 0

Stability AI推出Stable Audio Open:开源音频生成模型,支持生成47秒立体声音频

摘要

Stability AI团队最近推出了一款全新的开源音频生成模型,名为Stable Audio Open。这款模型能够从文本提示生成时长可达47秒的立体声音频,采样率高达44.1kHz。与许多当前流行的音频生成模型不同,Stable Audio Open的权重是开放的,任何人都可以查看、修改和扩展这个模型。模型使用获得Creative Commons许可的音频文件进行训练,确保了数据的合法性和道德性。
Stability AI推出Stable Audio Open:开源音频生成模型,支持生成47秒立体声音频

主要特点

  1. 高保真度:生成的音频具有高保真度,用户能够享受到清晰且真实的声音体验。
  2. 开放性:权重开放,支持查看、修改和扩展,推动科学研究和开发。
  3. 合法数据使用:只使用Creative Commons许可的音频数据进行训练,确保数据合法性和道德性。

技术优势

  1. 多样性:接触多种多样的音频样本,生成的音频更加真实多样。
  2. 性能评估:通过FDopenl3评估指标,证明其在生成高质量音频方面表现出色。
  3. 高质量音频:生成高质量的立体声音频,表现不俗,与业界顶尖模型相当。

相关链接

体验地址

© 版权声明

相关文章