P
PICOPAPA
视频生成

生成发声视频 (Audio in Video)

了解如何使生成的视频原生带有音效和对白

🎵 生成带声音的视频

支持模型名: doubao-seedance-2-0 (没错,同一个模型)

在传统的视频流中,生成视频往往是纯画面(哑巴视频)。如果要配音的话,你需要经过复杂的一套微服务(图生文 -> 文本转 TTS -> 音轨与视频合并分离对齐)。

现在,Seedance 系列等强大的多模态级流式模型,可以直接在一段请求中,让模型“一边作画一边发声”!

关键参数:GenerateAudio

只需在之前的视频请求中,额外追加一个简单的开关 generate_audio: true

模型会理解你传入的所有参考信息中的文本,结合你的视频 Prompt,如果是人像它甚至会生成对应的语音旁白或环境音效,这一切都是端到端的原生结合!

完整请求示例(Python 代码)

app.py
import os
import time
from openai import OpenAI

# 兼容式配置
client = OpenAI(
    base_url='https://ailb.5884.cn/v1',
    api_key=os.environ.get("AILB_API_KEY"),
)

def generate_sounding_video():
    print("----- Submitting task -----")
    # 这里直接使用 OpenAi 官方 SDK 发起请求即可
    # 注意 extra_body 的用法
    response = client.chat.completions.create(
        model="doubao-seedance-2-0",
        messages=[
            {
                "role": "user",
                "content": [
                    {
                        "type": "text",
                        "text": "镜头围绕这个人物旋转,这位美妆博主正在用中文进行介绍,妆容为明艳大气的大红唇。周围可以有一些大自然的风声。"
                    },
                    {
                        "type": "image_url",
                        "image_url": {
                            # 参考先前的资产管理,使用 Asset:// 协议或公网图
                            "url": "Asset://asset-2026xxxxxxxxxx" 
                        },
                        "role": "reference_image"
                    }
                ]
            }
        ],
        extra_body={
            "metadata": {
                "duration": 5,
                "ratio": "9:16",
                "watermark": True,
                # ✨ 这里是黑科技的钥匙
                "generate_audio": True 
            }
        }
    )
    
    # 拿到 task_id
    task_id = response.task_id
    
    print(f"Task ID created: {task_id}, starting polling...")
    # 然后进行常规逻辑轮询即可...

通过这一段极其简明的适配,你就可以享受到世界上最前沿的端到端发音视频大模型体验,所有的复杂鉴权、上游任务同步,网关都为你默默完成了。

这篇文档对您有帮助吗?

最后更新于