视频生成
生成发声视频 (Audio in Video)
了解如何使生成的视频原生带有音效和对白
🎵 生成带声音的视频
支持模型名:
doubao-seedance-2-0(没错,同一个模型)
在传统的视频流中,生成视频往往是纯画面(哑巴视频)。如果要配音的话,你需要经过复杂的一套微服务(图生文 -> 文本转 TTS -> 音轨与视频合并分离对齐)。
现在,Seedance 系列等强大的多模态级流式模型,可以直接在一段请求中,让模型“一边作画一边发声”!
关键参数:GenerateAudio
只需在之前的视频请求中,额外追加一个简单的开关 generate_audio: true。
模型会理解你传入的所有参考信息中的文本,结合你的视频 Prompt,如果是人像它甚至会生成对应的语音旁白或环境音效,这一切都是端到端的原生结合!
完整请求示例(Python 代码)
import os
import time
from openai import OpenAI
# 兼容式配置
client = OpenAI(
base_url='https://ailb.5884.cn/v1',
api_key=os.environ.get("AILB_API_KEY"),
)
def generate_sounding_video():
print("----- Submitting task -----")
# 这里直接使用 OpenAi 官方 SDK 发起请求即可
# 注意 extra_body 的用法
response = client.chat.completions.create(
model="doubao-seedance-2-0",
messages=[
{
"role": "user",
"content": [
{
"type": "text",
"text": "镜头围绕这个人物旋转,这位美妆博主正在用中文进行介绍,妆容为明艳大气的大红唇。周围可以有一些大自然的风声。"
},
{
"type": "image_url",
"image_url": {
# 参考先前的资产管理,使用 Asset:// 协议或公网图
"url": "Asset://asset-2026xxxxxxxxxx"
},
"role": "reference_image"
}
]
}
],
extra_body={
"metadata": {
"duration": 5,
"ratio": "9:16",
"watermark": True,
# ✨ 这里是黑科技的钥匙
"generate_audio": True
}
}
)
# 拿到 task_id
task_id = response.task_id
print(f"Task ID created: {task_id}, starting polling...")
# 然后进行常规逻辑轮询即可...通过这一段极其简明的适配,你就可以享受到世界上最前沿的端到端发音视频大模型体验,所有的复杂鉴权、上游任务同步,网关都为你默默完成了。
这篇文档对您有帮助吗?
最后更新于