图片生成
Gemini 生图最佳实践
解析并利用好 Google Gemini 最前沿的大众生图体验
🎨 Gemini 视觉生成
与传统的 Midjourney 不同,在 Gemini 体系里,Google 把所有的文本和图像甚至视频的理解能力汇聚在了一个统一端点中。通过 AILB 转换层,我们使其完全兼容 OpenAI 格式。
你甚至可以在对话模型(如 gemini-2.5-pro 或 gemini-3.1-flash-image 专研版)中发出生图指令。
推荐模型名:
gemini-3.1-flash-image(速度极快,效果媲美主流底座) 或gemini-2.5-pro。
基本使用:文生图 (Text to Image)
使用最标准的对话接口,提出生图需求。
{
"model": "gemini-3.1-flash-image",
"messages": [
{
"role": "user",
"content": "A futuristic city with flying cars and tall glass skyscrapers around sunset."
}
]
}网关会自动将底层的返回结果,转译成标准的 OpenAI Image URL 响应格式。
{
"id": "chatcmpl-xxxxx",
"choices": [
{
"message": {
"role": "assistant",
"content": "\nHere is your image of a futuristic city..."
}
}
],
// 如果客户端能够直接解析 base64 或者 URL 模式,也可以根据兼容返回的 standard images block 来取
"images": [
{ "url": "https://ailb.5884.cn/api/image/google/abc-123.jpg" }
]
}高阶使用:图生文或多模态控图 (Image to Image)
如果你需要对一张已有图片进行局部修改或“参照生成”,你可以把它的 Base64 编码送进去!
{
"model": "gemini-3.1-flash-image",
"messages": [
{
"role": "user",
"content": [
{
"type": "text",
"text": "把图片里的猫变成一只赛博朋克风格的机器狗"
},
{
"type": "image_url",
"image_url": {
"url": "data:image/jpeg;base64,/9j/4AAQSkZJRgABAQ..."
}
}
]
}
]
}AILB 底层做了平滑的图文转换矩阵(详见架构设计文档),无需关心原厂 SDK 复杂而变扭的 parts 结构。
批量测试建议
如果你有大规模生图的工作流(如电商商品图自动处理脚本),建议:
- 不要超过 50 个并发(由于上游对高速调用的频率保护)。
- 始终捕获返回结果的
images[0].url,因为这是转存到我们的高速 CDN 上的图,不会因为上游 Google 的有效期到了而挂掉。
这篇文档对您有帮助吗?
最后更新于