Loading...

阿里巴巴发布语音处理模型 FunAudioLLM 能理解和生成各种人类语音

小野资讯8个月前发布 xxball
4,700 0 0

阿里巴巴发布语音处理模型 FunAudioLLM 能理解和生成各种人类语音

专业总结

阿里巴巴开发的 FunAudioLLM 是一组先进的语音处理模型,旨在提升人类与大语言模型之间的语音交互体验。它由两个主要模型组成:SenseVoice 和 CosyVoice。

SenseVoice

  • 多语言语音识别:支持中文、英语、粤语、日语和韩语五种语言,采用非自回归端到端架构,识别速度极快。
  • 情感识别:能够识别语音中的情感(如快乐、悲伤、愤怒等)。
  • 音频事件检测:检测音频中的特殊事件(如音乐、笑声等),并能预测事件的开始和结束时间。
  • 语言识别:识别说话者使用的语言,确保语音识别的准确性。
  • 逆文本规范化:提供带标点和格式化的转录结果,提高可读性和准确性。

CosyVoice

  • 语音生成:支持多语言生成,包括情感丰富的语音,可以模仿不同的说话人。
  • 多样化的语音控制:控制音色、说话风格和情感表达。
  • 零样本学习:通过几秒钟的音频样本进行声音克隆,无需额外训练数据。
  • 细粒度的副语言特征控制:支持插入笑声、呼吸声、语气词等,使生成语音更加自然生动。

FunAudioLLM 的应用

  1. 语音到语音翻译:实现不同语言之间的语音翻译。
  2. 情感聊天:用于生成情感丰富的聊天语音。
  3. 互动播客:生成多角色对话语音,适用于播客场景。

总结

阿里巴巴推出的 FunAudioLLM 是一套语音处理工具,包括 SenseVoice 和 CosyVoice 两个模型。SenseVoice 可以快速识别多种语言的语音、情感和特殊音频事件,而 CosyVoice 则能够生成自然且富有情感的语音,还能模仿特定说话人。FunAudioLLM 可以应用于语音翻译、情感聊天和互动播客等多个场景。

项目及更多演示:https://fun-audio-llm.github.io/

GitHub:

https://github.com/FunAudioLLM/CosyVoice

https://github.com/FunAudioLLM/SenseVoice

论文:https://fun-audio-llm.github.io/pdf/FunAudioLLM.pdf

在线体验:https://www.modelscope.cn/studios/iic/CosyVoice-300M

© 版权声明

相关文章