Google 发布根据视频生成音频技术：V2A

小野资讯1年前更新 xxball

Google 发布根据视频生成音频技术：V2A

技术概述

DeepMind最新研发的V2A（视频转音频）技术可以根据视频画面和文字描述自动生成丰富的音轨，使无声视频变得生动。

主要功能

音频生成：
- 根据视频画面和用户提供的文字描述生成音轨。
- 包括背景音乐、环境音效和对话等。
同步音频：
- 确保生成的音频与视频内容完美同步，没有延迟或错位。
多样化音轨：
- 为视频生成多种音轨，尝试不同音效组合，找到最适合的声音。
创意提示：
- 支持“正向提示”和“负向提示”功能，引导模型生成特定声音或避免生成不希望的声音。

工作原理

输入视频和文字描述：
- 用户提供视频和文字描述（如“紧张的背景音乐”或“鸟叫声”）。
视频编码：
- 系统将视频转换为AI能处理的格式。
生成音频：
- AI模型从随机噪声开始，通过多次优化，生成与视频和文字描述匹配的音频。
合成音频和视频：
- 将生成的音频与视频结合，形成完整的音视频文件。
调整和控制：
- 用户可以提供额外提示进行调整，使生成的音频更加符合预期。

研究与发展方向

音频输出质量改进：
- 研究如何在各种视频质量下保持一致性和高质量的音频输出。
唇同步改进：
- 改善生成的语音与视频中角色唇部动作的同步性。
处理视频失真：
- 提高模型的鲁棒性和适应性，在多样化的视频内容下生成高质量音频。
安全与透明性：
- 进行严格的安全评估和测试，防止技术滥用。

应用场景

为无声视频添加背景音乐。
为老电影制作音轨。
为社交媒体视频添加特殊音效。
电影制作人和创意工作者快速试验不同的音效组合。

提示词案例

电影、惊悚、恐怖电影、音乐、紧张、氛围、混凝土上的脚步声
- Prompt for audio: Cinematic, thriller, horror film, music, tension, ambience, footsteps on concrete
可爱的小恐龙叽叽喳喳，丛林氛围，蛋壳破裂
- Prompt for audio: Cute baby dinosaur chirps, jungle ambience, egg cracking|
水下脉动的水母，海洋生物，海洋
- Prompt for audio: Jellyfish pulsating under water, marine life, ocean
音乐会上一个鼓手站在舞台上，周围是闪烁的灯光和欢呼的人群
- Prompt for audio: A drummer on a stage at a concert surrounded by flashing lights and a cheering crowd
汽车打滑，汽车发动机节流，天使般的电子音乐
- Prompt for audio: Cars skidding, car engine throttling, angelic electronic music
当太阳在大草原上落下时，一支悠缓柔和的口琴演奏
- Prompt for audio: A slow mellow harmonica plays as the sun goes down on the prairie
狼对着月亮嚎叫
- Prompt for audio: Wolf howling at the moon

官网详细介绍：Generating audio for video – Google DeepMind

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

Midjourney 7.0版本即将发布：AI图像生成领域的新突破

Midjourney 7.0版本即将发布：AI图像生成领域的新突破

9个月前

6,0700

元象科技推出MotionGen：革新3D动作生成技术

元象科技推出MotionGen：革新3D动作生成技术

1年前

5,7100

HeyGen推出Avatar 3.0：AI数字人表现力升级

9个月前

10,1500

腾讯文档「智能扫描」功能升级：一键转高清扫描件

腾讯文档「智能扫描」功能升级：一键转高清扫描件

1年前

8,5900