🎵 生成带声音的视频

支持模型名: doubao-seedance-2-0 (没错，同一个模型)

在传统的视频流中，生成视频往往是纯画面（哑巴视频）。如果要配音的话，你需要经过复杂的一套微服务（图生文 -> 文本转 TTS -> 音轨与视频合并分离对齐）。

现在，Seedance 系列等强大的多模态级流式模型，可以直接在一段请求中，让模型“一边作画一边发声”！

关键参数：GenerateAudio

只需在之前的视频请求中，额外追加一个简单的开关 generate_audio: true。

模型会理解你传入的所有参考信息中的文本，结合你的视频 Prompt，如果是人像它甚至会生成对应的语音旁白或环境音效，这一切都是端到端的原生结合！

完整请求示例（Python 代码）

app.py

import os
import time
from openai import OpenAI

# 兼容式配置
client = OpenAI(
    base_url='https://ailb.5884.cn/v1',
    api_key=os.environ.get("AILB_API_KEY"),
)

def generate_sounding_video():
    print("----- Submitting task -----")
    # 这里直接使用 OpenAi 官方 SDK 发起请求即可
    # 注意 extra_body 的用法
    response = client.chat.completions.create(
        model="doubao-seedance-2-0",
        messages=[
            {
                "role": "user",
                "content": [
                    {
                        "type": "text",
                        "text": "镜头围绕这个人物旋转，这位美妆博主正在用中文进行介绍，妆容为明艳大气的大红唇。周围可以有一些大自然的风声。"
                    },
                    {
                        "type": "image_url",
                        "image_url": {
                            # 参考先前的资产管理，使用 Asset:// 协议或公网图
                            "url": "Asset://asset-2026xxxxxxxxxx" 
                        },
                        "role": "reference_image"
                    }
                ]
            }
        ],
        extra_body={
            "metadata": {
                "duration": 5,
                "ratio": "9:16",
                "watermark": True,
                # ✨ 这里是黑科技的钥匙
                "generate_audio": True 
            }
        }
    )
    
    # 拿到 task_id
    task_id = response.task_id
    
    print(f"Task ID created: {task_id}, starting polling...")
    # 然后进行常规逻辑轮询即可...

通过这一段极其简明的适配，你就可以享受到世界上最前沿的端到端发音视频大模型体验，所有的复杂鉴权、上游任务同步，网关都为你默默完成了。

生成发声视频 (Audio in Video)

🎵 生成带声音的视频

关键参数：GenerateAudio

完整请求示例（Python 代码）

目录