阿里巴巴发布语音处理模型 FunAudioLLM 能理解和生成各种人类语音

小野资讯1年前发布 xxball

7,870 0 0

阿里巴巴发布语音处理模型 FunAudioLLM 能理解和生成各种人类语音

专业总结

阿里巴巴开发的 FunAudioLLM 是一组先进的语音处理模型，旨在提升人类与大语言模型之间的语音交互体验。它由两个主要模型组成：SenseVoice 和 CosyVoice。

SenseVoice

多语言语音识别：支持中文、英语、粤语、日语和韩语五种语言，采用非自回归端到端架构，识别速度极快。
情感识别：能够识别语音中的情感（如快乐、悲伤、愤怒等）。
音频事件检测：检测音频中的特殊事件（如音乐、笑声等），并能预测事件的开始和结束时间。
语言识别：识别说话者使用的语言，确保语音识别的准确性。
逆文本规范化：提供带标点和格式化的转录结果，提高可读性和准确性。

CosyVoice

语音生成：支持多语言生成，包括情感丰富的语音，可以模仿不同的说话人。
多样化的语音控制：控制音色、说话风格和情感表达。
零样本学习：通过几秒钟的音频样本进行声音克隆，无需额外训练数据。
细粒度的副语言特征控制：支持插入笑声、呼吸声、语气词等，使生成语音更加自然生动。

FunAudioLLM 的应用

语音到语音翻译：实现不同语言之间的语音翻译。
情感聊天：用于生成情感丰富的聊天语音。
互动播客：生成多角色对话语音，适用于播客场景。

总结

阿里巴巴推出的 FunAudioLLM 是一套语音处理工具，包括 SenseVoice 和 CosyVoice 两个模型。SenseVoice 可以快速识别多种语言的语音、情感和特殊音频事件，而 CosyVoice 则能够生成自然且富有情感的语音，还能模仿特定说话人。FunAudioLLM 可以应用于语音翻译、情感聊天和互动播客等多个场景。

项目及更多演示：https://fun-audio-llm.github.io/

GitHub：

https://github.com/FunAudioLLM/CosyVoice

https://github.com/FunAudioLLM/SenseVoice

论文：https://fun-audio-llm.github.io/pdf/FunAudioLLM.pdf

在线体验：https://www.modelscope.cn/studios/iic/CosyVoice-300M